Z.ai推出GLM - 5.1：开源编码模型打破长时任务性能瓶颈

最新推荐文章于 2026-06-26 15:28:39 发布

转载最新推荐文章于 2026-06-26 15:28:39 发布 · 102 阅读

【导语：在AI供应商竞相打造可处理更长软件任务工具的背景下，中国AI公司Z.ai推出开源编码模型GLM - 5.1。它能在长时间迭代中保持性能，在多个基准测试中表现出色，其开源特性也颇具吸引力。】

GLM - 5.1长时性能突破

Z.ai推出的GLM - 5.1是专为智能软件工程构建的开源编码模型。与许多在长时间会话中失去效力的模型不同，GLM - 5.1能够在数百次迭代中保持性能。例如，它在600多次迭代和6000次工具调用中优化向量数据库优化任务，达到每秒21500次查询，约为单次50轮会话中最佳结果的六倍。

多基准测试领先竞品

在多个软件工程基准测试中，GLM - 5.1表现优于其前身GLM - 5。在SWE - Bench Pro基准测试中，GLM - 5.1得分58.4，而GLM - 5为55.1，且高于OpenAI的GPT - 5.4、Anthropic的Opus 4.6和谷歌的Gemini 3.1 Pro在该基准测试中的得分。此外，它还在代码库生成、基于终端的问题解决和重复代码优化方面表现出色。

开源特性带来多重优势

GLM - 5.1根据MIT许可证发布，可通过开发者平台获取，模型权重也已发布用于本地部署。这对企业有诸多好处，首先在成本方面，其定价远低于高级模型，企业自行托管可控制开支；在数据治理上，敏感代码和数据无需发送到外部API，对金融、医疗和国防等行业至关重要；还能让公司不受限制地将模型适配到自己的代码库和内部工具中。

不过，该模型与中国基础设施和实体的关联可能引发一些美国公司的合规担忧，但MIT许可证使公司更容易在自己的系统上运行该模型，并适配内部需求和治理政策，使其成为与商业模型并列的可行战略选择。

基准测试与实际应用差距

Z.ai引用了SWE - Bench Pro、NL2Repo和Terminal - Bench 2.0三个基准测试，这些测试旨在测试编码智能体的高级编码能力，GLM - 5.1在这些测试中名列前茅反映了强大的编码性能。但Omdia首席分析师Lian Jye Su表示，公开的基准测试仍无法反映专有代码库、遗留系统和代码审查工作流程的复杂性，其结果来自与生产环境不同的受控环境，不过随着更多团队采用智能体设置，这种差距正在缩小。

编辑观点：GLM - 5.1在长时性能和基准测试上表现亮眼，开源特性也为企业带来诸多便利。但基准测试与实际应用的差距仍需关注，未来若能更好地贴合企业实际需求，有望在市场上占据更有利地位。