文章核心总结与翻译
主要内容
文章聚焦熵最小化(EM)在大语言模型(LLMs)推理任务中的应用,提出三种无需标注数据的方法,在数学、物理、编程等复杂任务中显著提升模型性能:
- 无监督微调(EM-FT):基于模型生成的无标注输出,最小化token级熵,效果对标有监督微调方法。
- 强化学习(EM-RL):以负熵为唯一奖励信号,无需标注数据即可达到甚至超越主流RL基线(如GRPO、RLOO)。
- 推理时优化(EM-INF):解码过程中调整logits以降低熵,无需训练或参数更新,效率是自一致性等方法的3倍。
实验验证了EM的有效性:Qwen-7B的EM-RL性能比肩使用60K标注数据的RL方法;Qwen-32B结合EM-INF在SciCode基准上超越GPT-4o等商业模型。同时指出EM的局限性——依赖预训练模型的基础能力,在价值观对齐等任务中效果不佳。
创新点
- 首次系统验证熵最小化可独立作为LLMs后训练与推理优化目标,无需标注数据或外部监督。
- 提出覆盖微调、强化学习、推理三个阶段的EM系列方法,适配不同应用场景。
- 揭示预训练LLMs未被充分挖掘的推理潜力,证明通过强化模型置信度可有效提升复杂任务表现。
- EM-INF实现高效推理优化,解决了自一致性等方法依赖多轨迹采样的计算开销问题。

订阅专栏 解锁全文
445

被折叠的 条评论
为什么被折叠?



