Claude 3.7发布,编程能力断层第一!

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

就在刚刚,Anthropic再一次深夜放炸,发布它们全新的模型Claude 3.7和首个智能体Claude Code。

先说结论:Claude 3.7更加注重编程能力,其编程能力大幅度领先o1、o3-mini以及Deepseek等顶尖模型,相当于把它们按到地上摩擦一遍又一遍。

在评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集 SWE-bench Verified 上,Claude 3.7领先的可不只一星半点,简直是全面的碾压。

而且在TAU-bench (智能体工具使用基准测试)中,零售 (retail) 和 航空 (airline) 两个场景中,Claude 3.7分别取得了 81.2% 和 58.4% 的领先成绩,达到了SOTA。

TAU-bench 是一个测试 AI 代理在复杂现实任子中与用户和工具交互的框架 从Anthropic放出的成绩单不难看出,Claude 3.7此次并没有像其他模型一样,胡乱的刷榜,而是挑选最能体现如何解决现实编程问题的榜单。

这也说明Claude 3.7Sonnet更擅长解决现实问题。

同时在通用benchmark测试中,Claude 3.7 Sonnet 的表现也十分不赖,在指令遵循、推理、多模态能力和代理编码方面表现出色,拳打o1,脚踢o3-mini。

不过Anthropic也是直接承认了:Claude 3.7 Sonnet 的数学能力不如Deepseek。

除了能力得到全方位的提升,此次Claude 3.7还是全球首个“推理混合大模型”,简单来讲,一个模型,两种思考模型,即标准模型和扩展思考模型。

在标准模式下,Claud的3.7是Claude 3.5的升级版,在扩展思考模式下,它会先“自我反思”,然后再输出回答。 这直接让在扩散思考模式下的Claude 3.7的能力再一次升级。

同时在模型输出时,可以自由选择Claude 3.7调用哪种模型进行回答。

而且通过API用户还可以控制“思考预算”,限制Claude的思考不超过N个token,其中N的值可高达其输出上限128K个token。

换言之,面对较难的推理题,你可以让它思考的时间久一点,这样准确率会得到提升,反之,面对简单的推理题,则可以把推理时间缩短,让它能快速又便宜得解决这道题。

就像下面这样——

除此之外,Anthropic还发布了首个编码工具Claude Code。

这是一款集成在终端中的代理编码工具,能够理解并操作代码库。 只需在命令行输入指令,就能让 AI 智能体完成代码搜索、文件编辑、测试编写和运行、代码提交和推送等一系列复杂的编程任务。

能一次性解决原本需要45分钟到编程任务。 其主要功能包括:

  • 编辑文件并修复代码库中的错误;

  • 解释代码架构和逻辑相关问题;

  • 执行、检查并修复测试、代码规范(linting)和其他命令;

  • 搜索 Git 历史记录,解决合并冲突,并创建提交和拉取请求(PR)。

不过Claude Code 目前处于研究预览的 beta 阶段,大家还不能使用。

目前,Claude 3.7 Sonnet 已在包括免费版、专业版、团队版和企业版的所有套餐中上线,支持Anthropic API、亚马逊 Bedrock 和谷歌云 Vertex AI 平台,如果大家感兴趣的话,赶紧去体验一下吧。

精品阅读:

国内如何订阅Claude。

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值