
【导语:今日Code Arena最新榜单出炉,阿里Qwen3.7-Max以1541分闯入全球前四,超越GPT-5.5、Gemini 3.5 Flash等顶尖模型,成为全球编程模型竞技场上唯一上榜的中国厂商。】

在Code Arena榜单中,Qwen3.7-Max以1541分的成绩闯入全球前四,超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型,仅次于Claude Opus 4.7和Opus 4.6。这意味着在全球编程模型的竞技场上,阿里是唯一杀进前列的中国厂商。
在海外开发者圈子里,Qwen3.7-Max也早有声誉。Atomic Chat的对比测试中,Qwen3.7-Max只用$1.32的token成本就超越了Opus 4.7和GPT-5.5,且性能提升了56%。在「3D像素风微缩宝塔模型」生成任务中,其输出速度和质量也全面胜出。

在「赛车游戏」挑战中,Qwen3.7-Max表现出色。输入详细Prompt后,它直出可玩的HTML文件,虽第一版有小bug,但经过第二轮微调,一个体验完整的3D赛车游戏就跑了起来。
与其他模型相比,Qwen3.7-Max有两个独特细节。一是有正经的开始页面,点「Start」才进入比赛,而其他三家是打开即跑;二是满足了添加发动机轰鸣和吃金币音效的要求,而其他模型未做到。此外,Gemini 3.5 Flash画面单薄、UI布局有问题;Claude Opus 4.6赛道金币少、赛车缺乏随机性;GPT-5.5金币造型奇怪,且其他三家都修了好几轮bug才跑通全部功能,只有Qwen3.7-Max首轮生成就基本可玩。

阿里发布Qwen3.7-Max时,将其定位为「Agent基座模型」,专为长时间自主执行任务设计。内测数据显示,在一次自主编程任务中,它连续运行35个小时,执行1158次工具调用,最终生成的代码相较于Triton参考实现,达到了惊人的10倍几何平均加速。
在推演进行到第30个小时之后,模型依然保持敏锐,持续挖掘出新的优化空间,全程零上下文退化、零指令漂移、零死循环。绝大多数模型在跑长任务时会出现上下文混乱、进入死循环等问题,而Qwen3.7-Max解决了这些难题。

Qwen3.7-Max编程能力跃升的核心可能与两个训练方法的升级有关。一是环境扩展,编程训练时将每个任务拆成任务本身、执行框架、验证方式三个独立维度,自由组合,使模型学会解决问题的通用策略,在不同框架里表现都很稳定。
二是长程自主执行,引入「动态累积生存博弈」框架,让模型在持续变化的模拟环境中做超过一千步的连续决策,自己建立假设、根据反馈调整策略,且不出现「上下文腐化」。如在YC-Bench模拟创业公司经营一整年,Qwen3.7-Max做到了208万美元营收,是上一代的两倍,还展现出策略进化。
编辑观点:Qwen3.7-Max在编程模型领域表现卓越,其独特的产品定位和核心技术升级使其具备强大竞争力,打破了国外模型的长期统治,为全球编程模型竞赛带来新的活力。
2521

被折叠的 条评论
为什么被折叠?



