Claude 3.7发布，编程能力断层第一！

最新推荐文章于 2025-12-02 10:42:08 发布

原创最新推荐文章于 2025-12-02 10:42:08 发布 · 2.8k 阅读

·

21

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#人工智能 #ai

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

就在刚刚，Anthropic再一次深夜放炸，发布它们全新的模型Claude 3.7和首个智能体Claude Code。

先说结论：Claude 3.7更加注重编程能力，其编程能力大幅度领先o1、o3-mini以及Deepseek等顶尖模型，相当于把它们按到地上摩擦一遍又一遍。

在评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集 SWE-bench Verified 上，Claude 3.7领先的可不只一星半点，简直是全面的碾压。

而且在TAU-bench (智能体工具使用基准测试)中，零售 (retail) 和航空 (airline) 两个场景中，Claude 3.7分别取得了 81.2% 和 58.4% 的领先成绩，达到了SOTA。

TAU-bench 是一个测试 AI 代理在复杂现实任子中与用户和工具交互的框架从Anthropic放出的成绩单不难看出，Claude 3.7此次并没有像其他模型一样，胡乱的刷榜，而是挑选最能体现如何解决现实编程问题的榜单。

这也说明Claude 3.7Sonnet更擅长解决现实问题。

同时在通用benchmark测试中，Claude 3.7 Sonnet 的表现也十分不赖，在指令遵循、推理、多模态能力和代理编码方面表现出色，拳打o1，脚踢o3-mini。

不过Anthropic也是直接承认了：Claude 3.7 Sonnet 的数学能力不如Deepseek。

除了能力得到全方位的提升，此次Claude 3.7还是全球首个“推理混合大模型”，简单来讲，一个模型，两种思考模型，即标准模型和扩展思考模型。

在标准模式下，Claud的3.7是Claude 3.5的升级版，在扩展思考模式下，它会先“自我反思”，然后再输出回答。这直接让在扩散思考模式下的Claude 3.7的能力再一次升级。

同时在模型输出时，可以自由选择Claude 3.7调用哪种模型进行回答。

而且通过API用户还可以控制“思考预算”，限制Claude的思考不超过N个token，其中N的值可高达其输出上限128K个token。

换言之，面对较难的推理题，你可以让它思考的时间久一点，这样准确率会得到提升，反之，面对简单的推理题，则可以把推理时间缩短，让它能快速又便宜得解决这道题。

就像下面这样——

除此之外，Anthropic还发布了首个编码工具Claude Code。

这是一款集成在终端中的代理编码工具，能够理解并操作代码库。只需在命令行输入指令，就能让 AI 智能体完成代码搜索、文件编辑、测试编写和运行、代码提交和推送等一系列复杂的编程任务。

能一次性解决原本需要45分钟到编程任务。其主要功能包括：

编辑文件并修复代码库中的错误；
解释代码架构和逻辑相关问题；
执行、检查并修复测试、代码规范（linting）和其他命令；
搜索 Git 历史记录，解决合并冲突，并创建提交和拉取请求（PR）。

不过Claude Code 目前处于研究预览的 beta 阶段，大家还不能使用。

目前，Claude 3.7 Sonnet 已在包括免费版、专业版、团队版和企业版的所有套餐中上线，支持Anthropic API、亚马逊 Bedrock 和谷歌云 Vertex AI 平台，如果大家感兴趣的话，赶紧去体验一下吧。

精品阅读：

国内如何订阅Claude。

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。