2025_NIPS_MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

最新推荐文章于 2026-06-29 21:19:11 发布

原创最新推荐文章于 2026-06-29 21:19:11 发布 · 82 阅读

·

0

·

标签

#人工智能 #LLM

LLM Daily 同时被 3 个专栏收录

2899 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

919 篇文章

订阅专栏

229 篇文章

订阅专栏

一、文章主要内容总结

该研究针对现有多模态大语言模型（MLLMs）评估基准局限于单视频理解、无法满足现实场景中多视频分析需求的问题，提出了首个全面的多视频理解评估基准 MVU-Eval。

核心内容：

基准设计：涵盖8项核心能力（4项基础感知任务+4项高阶推理任务），包含1824个精心构建的问答对，涉及4959个来自生活、自动驾驶、体育、AIGC等多领域的视频，需模型跨视频整合信息完成任务。
任务分类：
- 感知任务：目标识别（OR）、空间理解（SU）、计数（Counting）、比较（Comparison），聚焦视觉特征提取与跨视频内容识别；
- 推理任务：知识密集型推理（KIR）、上下文学习（ICL）、检索增强生成（RAG）、时间推理（TR），侧重跨视频分析与信息推断。
实验结果：
- 现有MLLMs多视频理解能力存在显著提升空间，顶尖闭源模型Gemini 2.5 Pro准确率仅58.4%，多数开源模型低于50%；
- 模型性能与规模正相关，支持更长上下文（更多帧、更高分辨率）的模型表现更优；
- 不同模型在各子任务上表现不均衡，部分小模型因架构或数据策略优势优于更大模型。
关键发现：多视频数量增加会导致模型性能下降，视觉信息完整性（如完整视频描述优

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。