文章主要内容总结
该研究针对大型视频语言模型(LVLMs)在细粒度时间理解、幻觉生成、长短视频理解等任务中的不足,提出了一套自对齐框架与优化方法。核心思路是让LVLMs从自身错误中学习:通过对视频进行时空扰动生成错误响应,构建“偏好-非偏好”响应对训练集,再利用改进的偏好优化方法RRPO(Refined Regularized Preference Optimization)实现模型对齐。实验验证了该方法在VideoChat2、LLaVA-Video、LongVU等多种模型上的有效性,显著降低幻觉并提升了各类视频理解任务性能。
核心创新点
- 自对齐框架:无需人工标注,通过时空扰动诱导模型生成错误响应,自动构建高质量训练数据,可快速扩展。
- RRPO优化方法:针对DPO(Direct Preference Optimization)的粗粒度奖励与模型发散问题,引入子序列级精细奖励(精准惩罚关键错误概念)和令牌级KL正则化(避免模型过度偏离基线能力)。
- 更稳定的训练特性:RRPO梯度规模更小,收敛更平滑,在使用更高学习率的同时,保持模型核心能力不退化,实现性能与模型稳定性的最优平衡。
Abstract 翻译
尽管大型视频语言模型(LVLMs)近年来取得了显著进展,但它们在细粒度时间理解方面仍存在不足,容易产生幻觉,甚至在简单的视频问答任务中也频繁出现低级错误——这些问题都严重阻碍了其在现实应用中的安全可靠部署。为解决这些局限,我们提出了一种自对齐框架,使LVLMs能够从自身错误中学习。该框架首先构建

订阅专栏 解锁全文
2787

被折叠的 条评论
为什么被折叠?



