ELMM: Efficient Lightweight Multimodal Large Language Models for Multimodal Knowledge Graph Compl...

原创于 2026-07-01 09:30:00 发布 · 2 阅读

·

0

·

标签

#语言模型 #知识图谱 #人工智能

LLM Daily 同时被 2 个专栏收录

2903 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

230 篇文章

订阅专栏

一、文章主要内容总结

本文聚焦多模态知识图谱补全（MKGC）任务，针对现有方法存在的图像令牌冗余导致语义噪声与模态冲突、多模态大语言模型（MLLMs）计算成本过高等问题，提出了高效轻量多模态大语言模型（ELMM）。

核心思路包括三部分：1）设计基于多头注意力机制的多视图视觉令牌压缩器（MVTC），从文本和视觉双视角自适应压缩图像令牌，保留关键信息并避免模态冲突；2）提出注意力剪枝策略，移除MLLMs中冗余的注意力层，同时通过线性投影补偿剪枝带来的性能损失；3）替换传统头部层为多模态知识推理补全层，优化候选实体概率分布预测。

实验在FB15k237-IMG和WN18-IMG两个基准数据集上展开，结果表明ELMM在Hits@k、Mean Rank等指标上达到当前最优水平，同时推理效率显著提升，为多模态知识图谱补全建立了新范式。

二、文章创新点

首个基于MLLMs的MKGC方法：首次将多模态大语言模型应用于多模态知识图谱补全任务，突破了传统方法仅依赖单一模态或简单融合的局限。
多视图视觉令牌压缩机制（MVTC）：基于多头注意力，从文本（结合实体和关系语义）和视觉（提取图像全局关键信息）双视角压缩图像令牌，有效减少冗余、缓解模态冲突，提升跨模态对齐效果。
注意力剪枝与线性补偿策略：通过分析注意力层输入输出的余弦相似度识别冗余层并剪枝，同时提出基于SVD分解的线性投影初始化方法，在降低计算成本的同时弥补性能损失。
定制化推理补全层

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。