AI Agent 抵达临界点：从能力竞赛到基建狂欢

最新推荐文章于 2026-06-27 16:14:45 发布

原创最新推荐文章于 2026-06-27 16:14:45 发布 · 480 阅读

12 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #ai

资讯专栏收录该内容

9 篇文章

订阅专栏

摘要：行业的聚光灯正从单纯的模型参数，快速向底层的系统工程转移。模型层拼能力，框架层拼工程，协议层拼标准，执行层拼生态，端侧拼普及——AI Agent 从能力竞赛转向基础设施竞赛的基建狂欢，已在每一层同时打响。

过去两年，科技界的狂热几乎全倾注在“模型参数竞赛”上。然而，当企业真正尝试将 AI 接入业务流时，却普遍撞上了一堵墙：人们发现，仅有一个聪明的“大脑”，根本无法稳定完成复杂的长流程任务。阻碍 AI 落地的核心瓶颈，已不再是模型的理解力，而是匮乏的底层系统与周边配套。

如果把 AI Agent 比作一辆车，前两年的关注点都在“引擎马力够不够大”。但当动力突破临界点后，行业猛然惊醒：高速公路还没修好——框架层标准还在收口，协议层规范仍在推进，执行层产品刚落地。这也是为什么近期巨头的动作出奇一致：不再执着于模型跑分，而是全面转向为 Agent 铺设高速公路的“基建狂欢”。

模型层：从"能对话"到"能干活"

Agent 基础设施的最底层是模型本身的能力。过去一年，大模型的进化方向已经从"对话质量"转向"执行能力"——能不能理解复杂指令、调用外部工具、在多步骤任务中保持方向感。

硅谷头部的动作最能反映这种重心偏移。OpenAI 即将推出的 GPT-6（代号"Spud"），在代码生成与 Agent 自主执行能力上实现跃升，200 万 Token 上下文为复杂任务兜底。Anthropic 则走了一条更激进的路线——旗舰模型 Claude Mythos Preview 能自主发现主流操作系统和浏览器中数以千计的零日漏洞。正因这种能力的双刃剑属性，Anthropic 没有公开发布，而是以受限预览形式定点投放，同步启动 Project Glasswing，承诺最高 1 亿美元模型额度及 400 万美元捐赠，聚焦关键基础设施的安全防御。

而这种向"执行与落地"倾斜的趋势，在开源社区中同样明显。阿里近期发布的 Qwen3.6-Plus，将更新重心放在了 Agentic Coding 能力和工具调用的综合提升上。Google 发布的 Gemma 4 开源模型系列，更是直接把战场拉到了端侧——其 E2B 和 E4B 版本专门针对手机等移动设备设计，让多模态 Agent 任务能够在离线环境下直接运行。

在这里插入图片描述

框架层：从"玩具"到"工程系统"

模型之上是编排框架——负责决定 Agent 怎么拆解任务、调用哪些工具、怎么和多个 Agent 协同。这一层的竞争在 2026 年明显加速。

今年 4 月，微软正式发布的 Agent Framework 1.0 版本，将此前分别发展的 Semantic Kernel 和 AutoGen 合并为统一 SDK，提供稳定 API 和长期支持。该框架原生支持 MCP（让 Agent 动态发现并调用外部工具）和 A2A 协议（让不同 Agent 之间互相通信）。无论构建单个助手还是编排一组专业 Agent，现在都可以用同一套 API 闭环完成。

开源社区也在这条赛道上发力。开发者 Jesse Vincent（obra）创建的 Superpowers 框架，为 Claude Code、Codex 等编程 Agent 提供模块化的技能包和工作流方法论。该框架将行业经验打包为可组合的技能模块（如头脑风暴、代码审查、TDD 流程、调试），目前已作为第三方插件上架 Claude Plugin 商店。

NVIDIA 在 GTC 2026 上推出 Agent Toolkit（AI 智能体开发平台），并拉拢了 Adobe、Salesforce、SAP 等 17 家企业软件巨头作为首批采用者，这标志着其从纯粹的"卖 GPU"向构建 AI 智能体软件生态的全面延伸。

在这里插入图片描述

协议层：MCP 和 A2A 正在成为行业默认标准

框架层决定了 Agent 怎么工作，协议层则决定了 Agent 之间怎么交流。目前有两个底层协议的生态进展尤为关键。

由 Anthropic 发起的 MCP（Model Context Protocol）正在加速普及。据 HydraDB 在其行业报告中引用的数据，截至今年 4 月，MCP 已积累超过 75 个官方连接器，SDK 月下载量达 9700 万次。有从业者将其比作"Agent 界的 ODBC"——试图让 Agent 不再需要为每个工具单独写适配代码，实现标准化的工具挂载。

而由 Google 捐赠给 Linux 基金会托管的 A2A（Agent-to-Agent Protocol）协议，据该基金会官方公布的数据，也已吸引超过 150 家组织参与，并开始渗透进主要云平台的企业生产环境。MCP 负责对外工具调用，A2A 负责内部节点协同，两者的组合正逐渐成为企业级 Agent 系统的标准配置。

MCP vs A2A
MCP 解决 Agent 和工具之间的连接——让 Agent 能用统一的接口调用各种外部服务。A2A 解决 Agent 和 Agent 之间的协作——让不同平台上的 Agent 能互相发现、通信和分工。两者不是竞争关系，而是互补关系。

执行层：给 Agent 一套能跑的环境

协议层解决了 Agent 怎么交流的问题，执行层要解决的是 Agent 在哪里运行。这正是国内厂商投入最密集的方向。

IDC 在 4 月上旬发布的《中国 Agent 基础设施平台/执行平台技术评估，2026》显示，阿里云无影 AgentBay 在核心维度上表现抢眼。该平台提供浏览器、云电脑、代码空间、云手机四大运行环境，支持秒级弹性伸缩和千级并发运行。它就像一个"云端工作站"，让 Agent 在隔离的安全环境中执行代码、浏览网页、操作应用。

字节跳动的动作同样引人注目。其 AI Agent 平台扣子（Coze）最新的 2.5 版本推出了 Agent World 生态系统。每个 Agent 获得了独立邮箱身份（@coze.email），并配套独立计算环境、持久记忆和日历系统。从最初的对话工具到 Agent Skills 的引入，再到如今构建 Agent 专属运行网络，扣子已经彻底转变为一个重度的"Agent 运行平台"。

腾讯在这一层的选择略有不同。其在 4 月发布的《AI 趋势研究白皮书 2026Q1》聚焦 Agent 从工具向"新劳动力"转变的完整飞轮（产品化→约束工程→递归研发→Skill 生态）。腾讯认为，Agent 的核心价值不再只是"能对话"，而是"能独立完成天级任务"。目前，腾讯正通过腾讯云 ADP 平台和 SkillHub 技能商店加速这一层面的落地。

在这里插入图片描述

端侧：把 Agent 装进口袋

云端基础设施正在快速成熟，但端侧 AI Agent 的发展可能在更长的时间维度上改变 Agent 的普及方式。

Google Gemma 4 的发布是这一方向的重要里程碑。该系列中的 E2B（2.3B 有效参数）和 E4B（4.5B）版本专为端侧设计，支持图像和音频输入，128K 上下文窗口，可在 Android 和 iPhone 上完全离线运行。用户通过 Google AI Edge Gallery 应用即可在手机上部署，无需 API Key、无需联网。Google Android 开发者博客发文称其为"Android 上本地智能代理的新标准"。

高通 CEO Cristiano Amon 在多个场合公开表示"2026 年是 AI Agent 之年"，将智能手机定位为 AI Agent 的核心数据节点。苹果虽然没有在 4 月发布新的端侧模型，但 Apple Intelligence 的持续迭代方向也指向更深的本地化 Agent 能力。

端侧 Agent 的价值不在于取代云端，而在于解决两类云端始终难以处理的问题：隐私敏感场景（如医疗、金融数据）和网络不稳定环境。当 4B 参数的模型能在手机上离线处理多模态任务，"本地 AI"和"云端 AI"之间的边界正在实质性模糊。

在这里插入图片描述

基建加速，阵痛初显

把这些信号放在一起看，AI Agent 基础设施的各层正在同步施工，但进度并不均匀：模型层最快，Qwen3.6-Plus、Gemma 4、Mythos、GPT-6 陆续推出，能力天花板持续抬升；框架层正在收口，微软与 NVIDIA 试图确立统一的工作流标准；协议层加速推进，MCP 和 A2A 的生态快速扩大；执行层则是国内厂商投入最密集的方向，AgentBay、Coze Agent World、腾讯云 ADP 各有侧重。

狂飙突进之下，结构性阵痛也在显现。一是落地成本高——据 HydraDB 测算，搭建一套生产级 Agent 系统的初始投入在 18 万至 45 万美元之间；二是安全治理滞后，Mythos 的表现固然惊艳，却也撕开了当前软件基础设施的脆弱面，而 Agent 自身的权责归属、审计追溯在多数组织中仍是空白。

更深层的问题是：这场基建狂欢的终局在哪里？行业内逐渐浮现出一个判断——Agent 正在从"更聪明的工具"转变为"能独立干活、守规矩、会成长的新同事"。如果成立，基础设施竞赛的终极目标就不是一个更好用的 AI 助手，而是一个新的劳动力形态。而围绕这个新劳动力所需的身份、权限、合规、协作、责任体系，才刚刚开始搭建。

写在最后

近期巨头与开源社区在 Agent 基础设施上的密集落子，绝不仅仅是一波常规的技术发布潮，而是清晰地传递出一个核心信号：AI Agent 已经从单纯的“能力竞赛”全面转向“基础设施竞赛”。模型、框架、协议、执行环境、端侧——每一层的技术栈都在快速演进，同时也伴随着大量亟待解决的落地问题。

对开发者来说，这意味着技术选型的窗口正在快速收窄——MCP 和 A2A 的组合看起来正在成为事实标准，框架层的整合也在加速。对企业来说，更紧迫的问题可能是：组织的治理结构、安全流程和人才储备，是否跟得上 Agent 能力的进化速度。毕竟，基础设施可以靠资本和算力推进，但算力之上能跑出怎样的生态、爆发出多大的商业势能，终究取决于"修路的人"与"开车的人"，能否在真实场景里跑通完整闭环。