2025_NIPS_The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning

文章核心总结与翻译

主要内容

文章聚焦熵最小化(EM)在大语言模型(LLMs)推理任务中的应用,提出三种无需标注数据的方法,在数学、物理、编程等复杂任务中显著提升模型性能:

  1. 无监督微调(EM-FT):基于模型生成的无标注输出,最小化token级熵,效果对标有监督微调方法。
  2. 强化学习(EM-RL):以负熵为唯一奖励信号,无需标注数据即可达到甚至超越主流RL基线(如GRPO、RLOO)。
  3. 推理时优化(EM-INF):解码过程中调整logits以降低熵,无需训练或参数更新,效率是自一致性等方法的3倍。

实验验证了EM的有效性:Qwen-7B的EM-RL性能比肩使用60K标注数据的RL方法;Qwen-32B结合EM-INF在SciCode基准上超越GPT-4o等商业模型。同时指出EM的局限性——依赖预训练模型的基础能力,在价值观对齐等任务中效果不佳。

创新点

  1. 首次系统验证熵最小化可独立作为LLMs后训练与推理优化目标,无需标注数据或外部监督。
  2. 提出覆盖微调、强化学习、推理三个阶段的EM系列方法,适配不同应用场景。
  3. 揭示预训练LLMs未被充分挖掘的推理潜力,证明通过强化模型置信度可有效提升复杂任务表现。
  4. EM-INF实现高效推理优化,解决了自一致性等方法依赖多轨迹采样的计算开销问题。

翻译部分(Markdown格式)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值