Qwen3.7-Max闯入Code Arena全球前四,成本低性能强挑战顶尖模型

【导语:今日Code Arena最新榜单出炉,阿里Qwen3.7-Max以1541分闯入全球前四,超越GPT-5.5、Gemini 3.5 Flash等顶尖模型,成为全球编程模型竞技场上唯一上榜的中国厂商。】


序号1

Qwen3.7-Max:编程竞技赛场的黑马

在Code Arena榜单中,Qwen3.7-Max以1541分的成绩闯入全球前四,超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型,仅次于Claude Opus 4.7和Opus 4.6。这意味着在全球编程模型的竞技场上,阿里是唯一杀进前列的中国厂商。

在海外开发者圈子里,Qwen3.7-Max也早有声誉。Atomic Chat的对比测试中,Qwen3.7-Max只用$1.32的token成本就超越了Opus 4.7和GPT-5.5,且性能提升了56%。在「3D像素风微缩宝塔模型」生成任务中,其输出速度和质量也全面胜出。

序号2

实战挑战:Qwen3.7-Max优势尽显

在「赛车游戏」挑战中,Qwen3.7-Max表现出色。输入详细Prompt后,它直出可玩的HTML文件,虽第一版有小bug,但经过第二轮微调,一个体验完整的3D赛车游戏就跑了起来。

与其他模型相比,Qwen3.7-Max有两个独特细节。一是有正经的开始页面,点「Start」才进入比赛,而其他三家是打开即跑;二是满足了添加发动机轰鸣和吃金币音效的要求,而其他模型未做到。此外,Gemini 3.5 Flash画面单薄、UI布局有问题;Claude Opus 4.6赛道金币少、赛车缺乏随机性;GPT-5.5金币造型奇怪,且其他三家都修了好几轮bug才跑通全部功能,只有Qwen3.7-Max首轮生成就基本可玩。

序号3

Agent基座模型:持久作战能力惊人

阿里发布Qwen3.7-Max时,将其定位为「Agent基座模型」,专为长时间自主执行任务设计。内测数据显示,在一次自主编程任务中,它连续运行35个小时,执行1158次工具调用,最终生成的代码相较于Triton参考实现,达到了惊人的10倍几何平均加速。

在推演进行到第30个小时之后,模型依然保持敏锐,持续挖掘出新的优化空间,全程零上下文退化、零指令漂移、零死循环。绝大多数模型在跑长任务时会出现上下文混乱、进入死循环等问题,而Qwen3.7-Max解决了这些难题。

序号4

核心技术升级:环境扩展与长程自主执行

Qwen3.7-Max编程能力跃升的核心可能与两个训练方法的升级有关。一是环境扩展,编程训练时将每个任务拆成任务本身、执行框架、验证方式三个独立维度,自由组合,使模型学会解决问题的通用策略,在不同框架里表现都很稳定。

二是长程自主执行,引入「动态累积生存博弈」框架,让模型在持续变化的模拟环境中做超过一千步的连续决策,自己建立假设、根据反馈调整策略,且不出现「上下文腐化」。如在YC-Bench模拟创业公司经营一整年,Qwen3.7-Max做到了208万美元营收,是上一代的两倍,还展现出策略进化。

编辑观点:Qwen3.7-Max在编程模型领域表现卓越,其独特的产品定位和核心技术升级使其具备强大竞争力,打破了国外模型的长期统治,为全球编程模型竞赛带来新的活力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值