2025_NIPS_Self-alignment of Large Video Language Models with Refined Regularized Preference Optimiz

最新推荐文章于 2026-06-29 17:43:05 发布

原创最新推荐文章于 2026-06-29 17:43:05 发布 · 67 阅读

·

0

·

标签

#语言模型 #人工智能 #自然语言处理

LLM Daily 同时被 3 个专栏收录

2899 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

919 篇文章

订阅专栏

58 篇文章

订阅专栏

文章主要内容总结

该研究针对大型视频语言模型（LVLMs）在细粒度时间理解、幻觉生成、长短视频理解等任务中的不足，提出了一套自对齐框架与优化方法。核心思路是让LVLMs从自身错误中学习：通过对视频进行时空扰动生成错误响应，构建“偏好-非偏好”响应对训练集，再利用改进的偏好优化方法RRPO（Refined Regularized Preference Optimization）实现模型对齐。实验验证了该方法在VideoChat2、LLaVA-Video、LongVU等多种模型上的有效性，显著降低幻觉并提升了各类视频理解任务性能。

核心创新点

自对齐框架：无需人工标注，通过时空扰动诱导模型生成错误响应，自动构建高质量训练数据，可快速扩展。
RRPO优化方法：针对DPO（Direct Preference Optimization）的粗粒度奖励与模型发散问题，引入子序列级精细奖励（精准惩罚关键错误概念）和令牌级KL正则化（避免模型过度偏离基线能力）。
更稳定的训练特性：RRPO梯度规模更小，收敛更平滑，在使用更高学习率的同时，保持模型核心能力不退化，实现性能与模型稳定性的最优平衡。

Abstract 翻译

尽管大型视频语言模型（LVLMs）近年来取得了显著进展，但它们在细粒度时间理解方面仍存在不足，容易产生幻觉，甚至在简单的视频问答任务中也频繁出现低级错误——这些问题都严重阻碍了其在现实应用中的安全可靠部署。为解决这些局限，我们提出了一种自对齐框架，使LVLMs能够从自身错误中学习。该框架首先构建

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。