
智谱GLM-5.2发布,测评表现亮眼
6月17日,智谱正式发布并开源了新一代旗舰模型GLM-5.2。在大模型盲测平台竞技场(Arena.ai)的编程评估系统Code Arena上,GLM-5.2拿下1595分的高分,排名总榜第二,仅次于Fable 5,在全球可用模型中排名第一。在测评“超长程、开放式、高难度软件工程任务”的基准测试FrontierSWE中,GLM-5.2排名仅次于Opus 4.8以及暂时不可用的Fable 5。在专门评测模型品味(taste)的Design Arena上,GLM-5.2取得全球第一的表现,审美冲到全球前沿。知乎大V toyama nao打趣,若Opus是GLM-5.2冒充的,用户可能分辨不出。国内外用户对GLM-5.2反响热烈,有开发者称其是国内第一款在工作流上达到Opus级的模型,海外用户反馈其表现超出预期,与Fable 5的差距比预期小。如今Fable 5无法正常使用,海外网友原以为封禁会拉开差距,没想到GLM已快追上来,这让Anthropic头疼。目前,GLM-5.2 API已上线,企业和用户可在Hugging Face等开源平台直接下载并部署该模型。
GLM-5.2进化脉络清晰,跻身顶级俱乐部
此前,智东西对智谱的GLM-4.5、GLM-4.7、GLM-5、GLM-5.1等模型进行了深度体验。GLM-5.2发布后,能感觉到一条清晰的进化脉络:GLM-4.7实现了对彼时顶级编程模型Sonnet 4.6的对齐,而GLM-5.2的“使用体感”已和Opus级模型基本无差别。在AI编程模型领域,此前全球头部玩家长期只有Anthropic(Claude系列)和OpenAI(GPT系列)。此次,GLM-5.2凭借全球可用编程模型第一的榜单成绩和开发者“Opus平替”的真实口碑,正在跻身这一顶级俱乐部,“Coding御三家”格局正在成形。在闭源巨头垄断编程模型话语权且可能收回访问权限的当下,GLM-5.2用开源将选择权交还给了广大开发者。
与GLM-5.2协作编程,展现强大能力
首个实测任务是让GLM-5.2从零开发一款《文明》风格的策略游戏,从M0版本迭代到M4版本。开发前,让GLM-5.2写了一份PRD文档并讨论技术实现,确定使用Godot引擎、GDScript实现2.5D画风的游戏。M0版本中,GLM-5.2创建并编写十几个文件,生成标准地图网格、基础游戏单位等核心内容,开发完成后快速验证并交付。不过该版本较粗糙,有不少小bug。之后在M0阶段逐一优化bug,GLM-5.2在指令下调整多个bug,修复效率不错。跳过M1版本,直接开发M2版本,这是游戏深度的核心,GLM-5.2自主加入战斗系统、科技树、城市经济和资源限制四大子系统,持续工作30多分钟完成。在开发过程中,GLM-5.2严格按规则完成功能并测试。M3版本让游戏从沙盒变成完整单局,GLM-5.2实现敌方战术AI并扩大地图尺寸,还主动考虑游戏优化,让游戏更顺畅。M4版本主要集中在美感和可玩性方面,GLM-5.2展现出不错的审美,如改进UI设计。最后遇到地图扩张后的画面跳动问题,GLM-5.2成功定位问题,可跨越大几十万上下文长度精准定位初版代码中的隐藏bug。完成开发任务后统计,GLM-5.2总计使用87万的上下文窗口,接近极限,且能复盘修复的16个bug,记得每个bug的原因和解法,展现出在百万上下文场景内的可靠记忆。
GLM-5.2处理长文本,优势明显
GLM-5.2 100万上下文的能力可解锁很多其他用途。实测中,一次性上传13份AI领域相关、总时长超30小时、文本量约25万词的播客实录,让GLM-5.2读入后下达解读任务。在跨期观点追踪任务中,GLM-5.2成功识别相关观点,串起观点演进链,最后给出总结,判断目前主要难点在架构层面,并找到相关论述。在主题聚类任务中,GLM-5.2仅用时1分多钟完成梳理,找到9大主题,且抽检关键引语基本无幻觉。用常规上下文窗口的模型处理这类任务会丢失跨实录的逻辑关联和隐性矛盾,让GLM-5.1(20万上下文窗口)试同一个跨期观点追踪任务,其输出总结未能定位跨文件的细节。不过,在轻量级任务上,GLM-5.1和GLM-5.2使用体感差异不明显,如轻量Web UI开发、单文件代码补全、简单脚本编写、日常问答或短文档摘要等任务,两个模型输出质量基本持平,百万上下文优势主要体现在超长任务中。
实现百万上下文,技术协同优化
智谱在GLM-5.2上采用了哪些技术实现百万上下文窗口并有效利用它呢?其实,智谱在GLM-4时代就推出过百万上下文窗口的模型,但大部分模型此前仍维持较小的上下文窗口。在百万级上下文窗口中,单纯强调“长度”意义有限,真正的挑战是解决模型效果不衰减和控制推理成本两个核心问题。GLM-5.2从推理基础设施层面和模型架构层做协同优化,围绕长序列的效率瓶颈,引入IndexShare、KVShare、LayerSplit和HiSparse的组合方案。在模型架构层,改进GLM-5.2的MTP层实现更好的推测解码,应用IndexShare和KVShare的组合方案,减少重复计算。LayerSplit已在GLM-5系列模型“降智”问题优化中得到验证,针对Coding Agent工作负载特点,重点解决KV缓存冗余存储问题,降低单卡显存占用。在基础设施层,LayerSplit同样得到验证,还设计了KV Cache广播与Indexer计算的重叠机制,减少开销。实验结果表明,在32k - 1024k的请求长度区间内,GLM-5.2的系统吞吐量较GLM-5.1实现了3% - 192%的提升,且上下文越长收益越显著。同时,根据模型的稀疏注意力特性,设计了HiSparse分层内存系统,缓解GPU显存压力,最小化关键路径上的数据迁移开销。这些优化使100万上下文“用得起”“好用”。智谱称,GLM-5.2的线上推理依托多个国产算力平台,已在Day 0完成与华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯、沐曦、海光、壁仞等国产算力平台的推理适配。此外,GLM-5.2还新增了High与Max两档思考强度设定,复杂编码任务中可启用更高档位确保架构级逻辑的严谨性。
GLM-5.2解锁新应用场景,补齐长程任务技术拼图
智谱GLM-5.2的百万级上下文能力将解锁许多新的AI应用场景。例如,在复杂的Web Search类任务中,GLM-5.2可基于公开资料调研主流K12在线编程教育品牌并输出相关数据库、分析报告和图表。结合智谱的Agent产品AutoClaw,GLM-5.2的100万上下文与长程任务能力可服务于设计、法务等白领场景。这些任务的量级和复杂度是其他不具备百万上下文能力的模型难以想象的。回顾智谱近期技术路线,从GLM-5.1将开源模型的长程任务能力推进8小时级,到GLM-5.2以1M上下文进一步延展,技术拼图脉络清晰:先让模型能持续工作更久,再配备足够大的记忆容量。1M上下文解决了长程任务中模型遗忘最初约束的问题。补齐能力拼图后,智谱GLM系列模型在真正工程任务中的可用性有望进一步提升。在实测中,GLM-5.2已完整跑通从理解需求到最终交付的闭环,不再需要逐段拆解任务、反复喂入背景信息、检查中间步骤。当模型既能工作得久又能记得住,才具备成为长期协作伙伴的基础,这也是从“对话式AI”走向“执行式AI”的关键一步。那么,GLM-5.2未来还会带来哪些惊喜呢?
81

被折叠的 条评论
为什么被折叠?



