ELMM: Efficient Lightweight Multimodal Large Language Models for Multimodal Knowledge Graph Compl...

一、文章主要内容总结

本文聚焦多模态知识图谱补全(MKGC)任务,针对现有方法存在的图像令牌冗余导致语义噪声与模态冲突、多模态大语言模型(MLLMs)计算成本过高等问题,提出了高效轻量多模态大语言模型(ELMM)。

核心思路包括三部分:1)设计基于多头注意力机制的多视图视觉令牌压缩器(MVTC),从文本和视觉双视角自适应压缩图像令牌,保留关键信息并避免模态冲突;2)提出注意力剪枝策略,移除MLLMs中冗余的注意力层,同时通过线性投影补偿剪枝带来的性能损失;3)替换传统头部层为多模态知识推理补全层,优化候选实体概率分布预测。

实验在FB15k237-IMG和WN18-IMG两个基准数据集上展开,结果表明ELMM在Hits@k、Mean Rank等指标上达到当前最优水平,同时推理效率显著提升,为多模态知识图谱补全建立了新范式。

二、文章创新点

  1. 首个基于MLLMs的MKGC方法:首次将多模态大语言模型应用于多模态知识图谱补全任务,突破了传统方法仅依赖单一模态或简单融合的局限。
  2. 多视图视觉令牌压缩机制(MVTC):基于多头注意力,从文本(结合实体和关系语义)和视觉(提取图像全局关键信息)双视角压缩图像令牌,有效减少冗余、缓解模态冲突,提升跨模态对齐效果。
  3. 注意力剪枝与线性补偿策略:通过分析注意力层输入输出的余弦相似度识别冗余层并剪枝,同时提出基于SVD分解的线性投影初始化方法,在降低计算成本的同时弥补性能损失。
  4. 定制化推理补全层
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值