2025_NIPS_The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning

最新推荐文章于 2026-06-29 15:09:29 发布

原创最新推荐文章于 2026-06-29 15:09:29 发布 · 41 阅读

·

0

·

标签

#深度学习 #机器学习 #人工智能

LLM Daily 同时被 3 个专栏收录

2899 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

919 篇文章

订阅专栏

Causal and Reasoning

187 篇文章

订阅专栏

文章核心总结与翻译

主要内容

文章聚焦熵最小化（EM）在大语言模型（LLMs）推理任务中的应用，提出三种无需标注数据的方法，在数学、物理、编程等复杂任务中显著提升模型性能：

无监督微调（EM-FT）：基于模型生成的无标注输出，最小化token级熵，效果对标有监督微调方法。
强化学习（EM-RL）：以负熵为唯一奖励信号，无需标注数据即可达到甚至超越主流RL基线（如GRPO、RLOO）。
推理时优化（EM-INF）：解码过程中调整logits以降低熵，无需训练或参数更新，效率是自一致性等方法的3倍。

实验验证了EM的有效性：Qwen-7B的EM-RL性能比肩使用60K标注数据的RL方法；Qwen-32B结合EM-INF在SciCode基准上超越GPT-4o等商业模型。同时指出EM的局限性——依赖预训练模型的基础能力，在价值观对齐等任务中效果不佳。

创新点

首次系统验证熵最小化可独立作为LLMs后训练与推理优化目标，无需标注数据或外部监督。
提出覆盖微调、强化学习、推理三个阶段的EM系列方法，适配不同应用场景。
揭示预训练LLMs未被充分挖掘的推理潜力，证明通过强化模型置信度可有效提升复杂任务表现。
EM-INF实现高效推理优化，解决了自一致性等方法依赖多轨迹采样的计算开销问题。

翻译部分（Markdown格式）

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。