NP-Engine: Empowering Optimization Reasoning in Large Language Models with Verifiable Synthetic N...

原创于 2026-06-29 12:30:00 发布 · 82 阅读

·

2

·

标签

#语言模型 #人工智能 #自然语言处理

LLM Daily 同时被 2 个专栏收录

2892 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Causal and Reasoning

187 篇文章

订阅专栏

文章主要内容与创新点总结

一、主要内容

研究背景：大型语言模型（LLMs）在数学、编码、逻辑等推理任务中表现出色，但在更复杂的NP难优化问题上的能力尚未得到充分探索，现有相关研究存在难度控制不足、评估指标粗糙等局限，难以支撑基于可验证奖励的强化学习（RLVR）训练。
核心框架：提出NP-ENGINE，这是首个用于LLMs在NP难问题上训练和评估的综合框架，涵盖5个领域的10项任务，每项任务均配备可控实例生成器、规则化验证器和启发式求解器，形成“生成器-验证器-启发式”流水线，支持分层难度的可扩展RLVR训练。
基准测试集：构建NP-BENCH基准测试集，源自NP-ENGINE-DATA，包含5大类10项任务，每项任务100个高复杂度实例，采用成功率（SR）和平均比率（AR）两项指标，同时评估解决方案的可行性和最优性。
模型训练与优化：基于Qwen2.5-7B-Instruct，通过零样本RLVR和课程学习策略训练出QWEN2.5-7B-NP模型；设计包含格式奖励、可行性奖励和最优性奖励的复合奖励函数，采用课程学习和多阶段RL训练策略，提升模型优化推理能力和泛化性。
实验结果：QWEN2.5-7B-NP在NP-BENCH上显著优于GPT-4o，取得同规模模型的SOTA性能；在逻辑、数学、知识推理等域外任务及指令跟随等非推理任务上表现出强泛化能力，且任务多样性与泛化性能呈正相关。

<

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。