2025_NIPS_MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

一、文章主要内容总结

该研究针对现有多模态大语言模型(MLLMs)评估基准局限于单视频理解、无法满足现实场景中多视频分析需求的问题,提出了首个全面的多视频理解评估基准 MVU-Eval

核心内容:
  1. 基准设计:涵盖8项核心能力(4项基础感知任务+4项高阶推理任务),包含1824个精心构建的问答对,涉及4959个来自生活、自动驾驶、体育、AIGC等多领域的视频,需模型跨视频整合信息完成任务。
  2. 任务分类
    • 感知任务:目标识别(OR)、空间理解(SU)、计数(Counting)、比较(Comparison),聚焦视觉特征提取与跨视频内容识别;
    • 推理任务:知识密集型推理(KIR)、上下文学习(ICL)、检索增强生成(RAG)、时间推理(TR),侧重跨视频分析与信息推断。
  3. 实验结果
    • 现有MLLMs多视频理解能力存在显著提升空间,顶尖闭源模型Gemini 2.5 Pro准确率仅58.4%,多数开源模型低于50%;
    • 模型性能与规模正相关,支持更长上下文(更多帧、更高分辨率)的模型表现更优;
    • 不同模型在各子任务上表现不均衡,部分小模型因架构或数据策略优势优于更大模型。
  4. 关键发现:多视频数量增加会导致模型性能下降,视觉信息完整性(如完整视频描述优
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值