一、文章主要内容总结
该研究针对现有多模态大语言模型(MLLMs)评估基准局限于单视频理解、无法满足现实场景中多视频分析需求的问题,提出了首个全面的多视频理解评估基准 MVU-Eval。
核心内容:
- 基准设计:涵盖8项核心能力(4项基础感知任务+4项高阶推理任务),包含1824个精心构建的问答对,涉及4959个来自生活、自动驾驶、体育、AIGC等多领域的视频,需模型跨视频整合信息完成任务。
- 任务分类:
- 感知任务:目标识别(OR)、空间理解(SU)、计数(Counting)、比较(Comparison),聚焦视觉特征提取与跨视频内容识别;
- 推理任务:知识密集型推理(KIR)、上下文学习(ICL)、检索增强生成(RAG)、时间推理(TR),侧重跨视频分析与信息推断。
- 实验结果:
- 现有MLLMs多视频理解能力存在显著提升空间,顶尖闭源模型Gemini 2.5 Pro准确率仅58.4%,多数开源模型低于50%;
- 模型性能与规模正相关,支持更长上下文(更多帧、更高分辨率)的模型表现更优;
- 不同模型在各子任务上表现不均衡,部分小模型因架构或数据策略优势优于更大模型。
- 关键发现:多视频数量增加会导致模型性能下降,视觉信息完整性(如完整视频描述优

订阅专栏 解锁全文
42

被折叠的 条评论
为什么被折叠?



