2025_NIPS_Self-alignment of Large Video Language Models with Refined Regularized Preference Optimiz

文章主要内容总结

该研究针对大型视频语言模型(LVLMs)在细粒度时间理解、幻觉生成、长短视频理解等任务中的不足,提出了一套自对齐框架与优化方法。核心思路是让LVLMs从自身错误中学习:通过对视频进行时空扰动生成错误响应,构建“偏好-非偏好”响应对训练集,再利用改进的偏好优化方法RRPO(Refined Regularized Preference Optimization)实现模型对齐。实验验证了该方法在VideoChat2、LLaVA-Video、LongVU等多种模型上的有效性,显著降低幻觉并提升了各类视频理解任务性能。

核心创新点

  1. 自对齐框架:无需人工标注,通过时空扰动诱导模型生成错误响应,自动构建高质量训练数据,可快速扩展。
  2. RRPO优化方法:针对DPO(Direct Preference Optimization)的粗粒度奖励与模型发散问题,引入子序列级精细奖励(精准惩罚关键错误概念)和令牌级KL正则化(避免模型过度偏离基线能力)。
  3. 更稳定的训练特性:RRPO梯度规模更小,收敛更平滑,在使用更高学习率的同时,保持模型核心能力不退化,实现性能与模型稳定性的最优平衡。

Abstract 翻译

尽管大型视频语言模型(LVLMs)近年来取得了显著进展,但它们在细粒度时间理解方面仍存在不足,容易产生幻觉,甚至在简单的视频问答任务中也频繁出现低级错误——这些问题都严重阻碍了其在现实应用中的安全可靠部署。为解决这些局限,我们提出了一种自对齐框架,使LVLMs能够从自身错误中学习。该框架首先构建

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值