文章主要内容与创新点总结
一、主要内容
- 研究背景:大型语言模型(LLMs)在数学、编码、逻辑等推理任务中表现出色,但在更复杂的NP难优化问题上的能力尚未得到充分探索,现有相关研究存在难度控制不足、评估指标粗糙等局限,难以支撑基于可验证奖励的强化学习(RLVR)训练。
- 核心框架:提出NP-ENGINE,这是首个用于LLMs在NP难问题上训练和评估的综合框架,涵盖5个领域的10项任务,每项任务均配备可控实例生成器、规则化验证器和启发式求解器,形成“生成器-验证器-启发式”流水线,支持分层难度的可扩展RLVR训练。
- 基准测试集:构建NP-BENCH基准测试集,源自NP-ENGINE-DATA,包含5大类10项任务,每项任务100个高复杂度实例,采用成功率(SR)和平均比率(AR)两项指标,同时评估解决方案的可行性和最优性。
- 模型训练与优化:基于Qwen2.5-7B-Instruct,通过零样本RLVR和课程学习策略训练出QWEN2.5-7B-NP模型;设计包含格式奖励、可行性奖励和最优性奖励的复合奖励函数,采用课程学习和多阶段RL训练策略,提升模型优化推理能力和泛化性。
- 实验结果:QWEN2.5-7B-NP在NP-BENCH上显著优于GPT-4o,取得同规模模型的SOTA性能;在逻辑、数学、知识推理等域外任务及指令跟随等非推理任务上表现出强泛化能力,且任务多样性与泛化性能呈正相关。

订阅专栏 解锁全文
1663

被折叠的 条评论
为什么被折叠?



