2025_NIPS_Reinforcement Learning for Reasoning in Large Language Models with One Training Example

最新推荐文章于 2026-07-01 09:06:09 发布

原创最新推荐文章于 2026-07-01 09:06:09 发布 · 26 阅读

·

0

·

收录于

顶会论文

LLM RL

LLM Daily 专栏收录该内容

2907 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章核心总结与翻译

一、主要内容

文章提出“单样本可验证奖励强化学习（1-shot RLVR）”，仅用1个训练样本就能激发大语言模型的数学推理能力，性能比肩数千样本的全量RLVR。通过在Qwen2.5-Math-1.5B等模型上验证，该方法能显著提升6个数学推理基准的平均性能，还发现了饱和后泛化、跨类别迁移、自我反思频率提升等独特现象，同时揭示了策略梯度损失的核心作用和熵损失对探索的促进价值。

二、创新点

数据效率突破：证明RLVR训练数据集可缩减至1个样本，仍能实现与1.2k样本子集相当的性能，甚至2个样本可略微超越。
新现象发现：首次提出“饱和后泛化”（训练精度饱和后测试性能仍持续提升），以及单样本训练实现跨类别推理、模型自我反思频率增加等现象。
机制解析：明确策略梯度损失是性能提升的主要驱动力，区别于“grokking”现象；证实熵损失能促进探索，即使无结果奖励仅用熵损失也能带来性能提升。
广泛适用性：在不同模型（Qwen2.5-Math系列、Llama3.2-3B-Instruct等）、不同RL算法（GRPO、PPO）上均验证了少样本RLVR的有效性。

三、关键部分翻译（Markdown格式）

Abstract

我们证明，使用单个训练样本的可验证奖励强化学习（1-shot RLVR）能有效激发大语言模型（LLMs）的数学推理能力。将RLVR应用于基础

标签

#语言模型 #人工智能 #自然语言处理

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。