Qwen3.7-Max闯入Code Arena全球前四，成本低性能强挑战顶尖模型

最新推荐文章于 2026-06-23 10:23:32 发布

转载最新推荐文章于 2026-06-23 10:23:32 发布 · 50 阅读

【导语：今日Code Arena最新榜单出炉，阿里Qwen3.7-Max以1541分闯入全球前四，超越GPT-5.5、Gemini 3.5 Flash等顶尖模型，成为全球编程模型竞技场上唯一上榜的中国厂商。】

Qwen3.7-Max：编程竞技赛场的黑马

在Code Arena榜单中，Qwen3.7-Max以1541分的成绩闯入全球前四，超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型，仅次于Claude Opus 4.7和Opus 4.6。这意味着在全球编程模型的竞技场上，阿里是唯一杀进前列的中国厂商。

在海外开发者圈子里，Qwen3.7-Max也早有声誉。Atomic Chat的对比测试中，Qwen3.7-Max只用$1.32的token成本就超越了Opus 4.7和GPT-5.5，且性能提升了56%。在「3D像素风微缩宝塔模型」生成任务中，其输出速度和质量也全面胜出。

实战挑战：Qwen3.7-Max优势尽显

在「赛车游戏」挑战中，Qwen3.7-Max表现出色。输入详细Prompt后，它直出可玩的HTML文件，虽第一版有小bug，但经过第二轮微调，一个体验完整的3D赛车游戏就跑了起来。

与其他模型相比，Qwen3.7-Max有两个独特细节。一是有正经的开始页面，点「Start」才进入比赛，而其他三家是打开即跑；二是满足了添加发动机轰鸣和吃金币音效的要求，而其他模型未做到。此外，Gemini 3.5 Flash画面单薄、UI布局有问题；Claude Opus 4.6赛道金币少、赛车缺乏随机性；GPT-5.5金币造型奇怪，且其他三家都修了好几轮bug才跑通全部功能，只有Qwen3.7-Max首轮生成就基本可玩。

Agent基座模型：持久作战能力惊人

阿里发布Qwen3.7-Max时，将其定位为「Agent基座模型」，专为长时间自主执行任务设计。内测数据显示，在一次自主编程任务中，它连续运行35个小时，执行1158次工具调用，最终生成的代码相较于Triton参考实现，达到了惊人的10倍几何平均加速。

在推演进行到第30个小时之后，模型依然保持敏锐，持续挖掘出新的优化空间，全程零上下文退化、零指令漂移、零死循环。绝大多数模型在跑长任务时会出现上下文混乱、进入死循环等问题，而Qwen3.7-Max解决了这些难题。

核心技术升级：环境扩展与长程自主执行

Qwen3.7-Max编程能力跃升的核心可能与两个训练方法的升级有关。一是环境扩展，编程训练时将每个任务拆成任务本身、执行框架、验证方式三个独立维度，自由组合，使模型学会解决问题的通用策略，在不同框架里表现都很稳定。

二是长程自主执行，引入「动态累积生存博弈」框架，让模型在持续变化的模拟环境中做超过一千步的连续决策，自己建立假设、根据反馈调整策略，且不出现「上下文腐化」。如在YC-Bench模拟创业公司经营一整年，Qwen3.7-Max做到了208万美元营收，是上一代的两倍，还展现出策略进化。

编辑观点：Qwen3.7-Max在编程模型领域表现卓越，其独特的产品定位和核心技术升级使其具备强大竞争力，打破了国外模型的长期统治，为全球编程模型竞赛带来新的活力。