一、文章主要内容总结
本文聚焦多模态知识图谱补全(MKGC)任务,针对现有方法存在的图像令牌冗余导致语义噪声与模态冲突、多模态大语言模型(MLLMs)计算成本过高等问题,提出了高效轻量多模态大语言模型(ELMM)。
核心思路包括三部分:1)设计基于多头注意力机制的多视图视觉令牌压缩器(MVTC),从文本和视觉双视角自适应压缩图像令牌,保留关键信息并避免模态冲突;2)提出注意力剪枝策略,移除MLLMs中冗余的注意力层,同时通过线性投影补偿剪枝带来的性能损失;3)替换传统头部层为多模态知识推理补全层,优化候选实体概率分布预测。
实验在FB15k237-IMG和WN18-IMG两个基准数据集上展开,结果表明ELMM在Hits@k、Mean Rank等指标上达到当前最优水平,同时推理效率显著提升,为多模态知识图谱补全建立了新范式。
二、文章创新点
- 首个基于MLLMs的MKGC方法:首次将多模态大语言模型应用于多模态知识图谱补全任务,突破了传统方法仅依赖单一模态或简单融合的局限。
- 多视图视觉令牌压缩机制(MVTC):基于多头注意力,从文本(结合实体和关系语义)和视觉(提取图像全局关键信息)双视角压缩图像令牌,有效减少冗余、缓解模态冲突,提升跨模态对齐效果。
- 注意力剪枝与线性补偿策略:通过分析注意力层输入输出的余弦相似度识别冗余层并剪枝,同时提出基于SVD分解的线性投影初始化方法,在降低计算成本的同时弥补性能损失。
- 定制化推理补全层

订阅专栏 解锁全文
3084

被折叠的 条评论
为什么被折叠?



