NP-Engine: Empowering Optimization Reasoning in Large Language Models with Verifiable Synthetic N...

文章主要内容与创新点总结

一、主要内容

  1. 研究背景:大型语言模型(LLMs)在数学、编码、逻辑等推理任务中表现出色,但在更复杂的NP难优化问题上的能力尚未得到充分探索,现有相关研究存在难度控制不足、评估指标粗糙等局限,难以支撑基于可验证奖励的强化学习(RLVR)训练。
  2. 核心框架:提出NP-ENGINE,这是首个用于LLMs在NP难问题上训练和评估的综合框架,涵盖5个领域的10项任务,每项任务均配备可控实例生成器、规则化验证器和启发式求解器,形成“生成器-验证器-启发式”流水线,支持分层难度的可扩展RLVR训练。
  3. 基准测试集:构建NP-BENCH基准测试集,源自NP-ENGINE-DATA,包含5大类10项任务,每项任务100个高复杂度实例,采用成功率(SR)和平均比率(AR)两项指标,同时评估解决方案的可行性和最优性。
  4. 模型训练与优化:基于Qwen2.5-7B-Instruct,通过零样本RLVR和课程学习策略训练出QWEN2.5-7B-NP模型;设计包含格式奖励、可行性奖励和最优性奖励的复合奖励函数,采用课程学习和多阶段RL训练策略,提升模型优化推理能力和泛化性。
  5. 实验结果:QWEN2.5-7B-NP在NP-BENCH上显著优于GPT-4o,取得同规模模型的SOTA性能;在逻辑、数学、知识推理等域外任务及指令跟随等非推理任务上表现出强泛化能力,且任务多样性与泛化性能呈正相关。

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值