摘要:行业的聚光灯正从单纯的模型参数,快速向底层的系统工程转移。模型层拼能力,框架层拼工程,协议层拼标准,执行层拼生态,端侧拼普及——AI Agent 从能力竞赛转向基础设施竞赛的基建狂欢,已在每一层同时打响。
过去两年,科技界的狂热几乎全倾注在“模型参数竞赛”上。然而,当企业真正尝试将 AI 接入业务流时,却普遍撞上了一堵墙:人们发现,仅有一个聪明的“大脑”,根本无法稳定完成复杂的长流程任务。阻碍 AI 落地的核心瓶颈,已不再是模型的理解力,而是匮乏的底层系统与周边配套。
如果把 AI Agent 比作一辆车,前两年的关注点都在“引擎马力够不够大”。但当动力突破临界点后,行业猛然惊醒:高速公路还没修好——框架层标准还在收口,协议层规范仍在推进,执行层产品刚落地。这也是为什么近期巨头的动作出奇一致:不再执着于模型跑分,而是全面转向为 Agent 铺设高速公路的“基建狂欢”。
模型层:从"能对话"到"能干活"
Agent 基础设施的最底层是模型本身的能力。过去一年,大模型的进化方向已经从"对话质量"转向"执行能力"——能不能理解复杂指令、调用外部工具、在多步骤任务中保持方向感。
硅谷头部的动作最能反映这种重心偏移。OpenAI 即将推出的 GPT-6(代号"Spud"),在代码生成与 Agent 自主执行能力上实现跃升,200 万 Token 上下文为复杂任务兜底。Anthropic 则走了一条更激进的路线——旗舰模型 Claude Mythos Preview 能自主发现主流操作系统和浏览器中数以千计的零日漏洞。正因这种能力的双刃剑属性,Anthropic 没有公开发布,而是以受限预览形式定点投放,同步启动 Project Glasswing,承诺最高 1 亿美元模型额度及 400 万美元捐赠,聚焦关键基础设施的安全防御。
而这种向"执行与落地"倾斜的趋势,在开源社区中同样明显。阿里近期发布的 Qwen3.6-Plus,将更新重心放在了 Agentic Coding 能力和工具调用的综合提升上。Google 发布的 Gemma 4 开源模型系列,更是直接把战场拉到了端侧——其 E2B 和 E4B 版本专门针对手机等移动设备设计,让多模态 Agent 任务能够在离线环境下直接运行。

框架层:从"玩具"到"工程系统"
模型之上是编排框架——负责决定 Agent 怎么拆解任务、调用哪些工具、怎么和多个 Agent 协同。这一层的竞争在 2026 年明显加速。
今年 4 月,微软正式发布的 Agent Framework 1.0 版本,将此前分别发展的 Semantic Kernel 和 AutoGen 合并为统一 SDK,提供稳定 API 和长期支持。该框架原生支持 MCP(让 Agent 动态发现并调用外部工具)和 A2A 协议(让不同 Agent 之间互相通信)。无论构建单个助手还是编排一组专业 Agent,现在都可以用同一套 API 闭环完成。
开源社区也在这条赛道上发力。开发者 Jesse Vincent(obra)创建的 Superpowers 框架,为 Claude Code、Codex 等编程 Agent 提供模块化的技能包和工作流方法论。该框架将行业经验打包为可组合的技能模块(如头脑风暴、代码审查、TDD 流程、调试),目前已作为第三方插件上架 Claude Plugin 商店。
NVIDIA 在 GTC 2026 上推出 Agent Toolkit(AI 智能体开发平台),并拉拢了 Adobe、Salesforce、SAP 等 17 家企业软件巨头作为首批采用者,这标志着其从纯粹的"卖 GPU"向构建 AI 智能体软件生态的全面延伸。

协议层:MCP 和 A2A 正在成为行业默认标准
框架层决定了 Agent 怎么工作,协议层则决定了 Agent 之间怎么交流。目前有两个底层协议的生态进展尤为关键。
由 Anthropic 发起的 MCP(Model Context Protocol)正在加速普及。据 HydraDB 在其行业报告中引用的数据,截至今年 4 月,MCP 已积累超过 75 个官方连接器,SDK 月下载量达 9700 万次。有从业者将其比作"Agent 界的 ODBC"——试图让 Agent 不再需要为每个工具单独写适配代码,实现标准化的工具挂载。
而由 Google 捐赠给 Linux 基金会托管的 A2A(Agent-to-Agent Protocol)协议,据该基金会官方公布的数据,也已吸引超过 150 家组织参与,并开始渗透进主要云平台的企业生产环境。MCP 负责对外工具调用,A2A 负责内部节点协同,两者的组合正逐渐成为企业级 Agent 系统的标准配置。
MCP vs A2A
MCP 解决 Agent 和工具之间的连接——让 Agent 能用统一的接口调用各种外部服务。A2A 解决 Agent 和 Agent 之间的协作——让不同平台上的 Agent 能互相发现、通信和分工。两者不是竞争关系,而是互补关系。
执行层:给 Agent 一套能跑的环境
协议层解决了 Agent 怎么交流的问题,执行层要解决的是 Agent 在哪里运行。这正是国内厂商投入最密集的方向。
IDC 在 4 月上旬发布的《中国 Agent 基础设施平台/执行平台技术评估,2026》显示,阿里云无影 AgentBay 在核心维度上表现抢眼。该平台提供浏览器、云电脑、代码空间、云手机四大运行环境,支持秒级弹性伸缩和千级并发运行。它就像一个"云端工作站",让 Agent 在隔离的安全环境中执行代码、浏览网页、操作应用。
字节跳动的动作同样引人注目。其 AI Agent 平台扣子(Coze)最新的 2.5 版本推出了 Agent World 生态系统。每个 Agent 获得了独立邮箱身份(@coze.email),并配套独立计算环境、持久记忆和日历系统。从最初的对话工具到 Agent Skills 的引入,再到如今构建 Agent 专属运行网络,扣子已经彻底转变为一个重度的"Agent 运行平台"。
腾讯在这一层的选择略有不同。其在 4 月发布的《AI 趋势研究白皮书 2026Q1》聚焦 Agent 从工具向"新劳动力"转变的完整飞轮(产品化→约束工程→递归研发→Skill 生态)。腾讯认为,Agent 的核心价值不再只是"能对话",而是"能独立完成天级任务"。目前,腾讯正通过腾讯云 ADP 平台和 SkillHub 技能商店加速这一层面的落地。

端侧:把 Agent 装进口袋
云端基础设施正在快速成熟,但端侧 AI Agent 的发展可能在更长的时间维度上改变 Agent 的普及方式。
Google Gemma 4 的发布是这一方向的重要里程碑。该系列中的 E2B(2.3B 有效参数)和 E4B(4.5B)版本专为端侧设计,支持图像和音频输入,128K 上下文窗口,可在 Android 和 iPhone 上完全离线运行。用户通过 Google AI Edge Gallery 应用即可在手机上部署,无需 API Key、无需联网。Google Android 开发者博客发文称其为"Android 上本地智能代理的新标准"。
高通 CEO Cristiano Amon 在多个场合公开表示"2026 年是 AI Agent 之年",将智能手机定位为 AI Agent 的核心数据节点。苹果虽然没有在 4 月发布新的端侧模型,但 Apple Intelligence 的持续迭代方向也指向更深的本地化 Agent 能力。
端侧 Agent 的价值不在于取代云端,而在于解决两类云端始终难以处理的问题:隐私敏感场景(如医疗、金融数据)和网络不稳定环境。当 4B 参数的模型能在手机上离线处理多模态任务,"本地 AI"和"云端 AI"之间的边界正在实质性模糊。

基建加速,阵痛初显
把这些信号放在一起看,AI Agent 基础设施的各层正在同步施工,但进度并不均匀:模型层最快,Qwen3.6-Plus、Gemma 4、Mythos、GPT-6 陆续推出,能力天花板持续抬升;框架层正在收口,微软与 NVIDIA 试图确立统一的工作流标准;协议层加速推进,MCP 和 A2A 的生态快速扩大;执行层则是国内厂商投入最密集的方向,AgentBay、Coze Agent World、腾讯云 ADP 各有侧重。
狂飙突进之下,结构性阵痛也在显现。一是落地成本高——据 HydraDB 测算,搭建一套生产级 Agent 系统的初始投入在 18 万至 45 万美元之间;二是安全治理滞后,Mythos 的表现固然惊艳,却也撕开了当前软件基础设施的脆弱面,而 Agent 自身的权责归属、审计追溯在多数组织中仍是空白。
更深层的问题是:这场基建狂欢的终局在哪里?行业内逐渐浮现出一个判断——Agent 正在从"更聪明的工具"转变为"能独立干活、守规矩、会成长的新同事"。如果成立,基础设施竞赛的终极目标就不是一个更好用的 AI 助手,而是一个新的劳动力形态。而围绕这个新劳动力所需的身份、权限、合规、协作、责任体系,才刚刚开始搭建。
写在最后
近期巨头与开源社区在 Agent 基础设施上的密集落子,绝不仅仅是一波常规的技术发布潮,而是清晰地传递出一个核心信号:AI Agent 已经从单纯的“能力竞赛”全面转向“基础设施竞赛”。模型、框架、协议、执行环境、端侧——每一层的技术栈都在快速演进,同时也伴随着大量亟待解决的落地问题。
对开发者来说,这意味着技术选型的窗口正在快速收窄——MCP 和 A2A 的组合看起来正在成为事实标准,框架层的整合也在加速。对企业来说,更紧迫的问题可能是:组织的治理结构、安全流程和人才储备,是否跟得上 Agent 能力的进化速度。毕竟,基础设施可以靠资本和算力推进,但算力之上能跑出怎样的生态、爆发出多大的商业势能,终究取决于"修路的人"与"开车的人",能否在真实场景里跑通完整闭环。
相关资源
Anthropic Project Glasswing
Microsoft Agent Framework 1.0
阿里云无影 AgentBay
扣子 Coze 2.5
腾讯 AI 趋势白皮书 2026Q1
VentureBeat 报道(NVIDIA 与 17 家软件巨头)
HydraDB
1246

被折叠的 条评论
为什么被折叠?



