又一个神级 Agent Skill 诞生了！

原创于 2026-05-22 09:30:00 发布 · 674 阅读

12 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

AI Agent 刷网页，总是卡在最后一步？

很多人第一次用 AI Agent 做网页自动化时，都会遇到一个很尴尬的问题：看起来很聪明，真正打开网页就开始掉链子。

比如页面刚加载完，突然遇到 Cloudflare；表单填到一半，按钮点不动；登录成功后，跳转页面又丢了会话；跑了几分钟，最后只返回一句“任务失败”。

今天要介绍的这个 GitHub 开源项目 browser-act/skills，就是专门为了解决这些真实网页场景里的自动化难题。

项目地址：https://github.com/browser-act/skills

这个项目是干什么的？

BrowserAct Skills 可以理解成一套给 AI Agent 使用的浏览器技能库。

它的目标不是再造一个聊天机器人，而是让现有的 AI 编程工具、自动化 Agent、工作流系统，真正具备“操作真实网页”的能力。

根据项目介绍，它可以让 AI 完成浏览、点击、输入、截图、数据提取、会话管理等操作，并且重点针对真实网站中常见的反爬、验证码、重定向、登录状态失效等问题做了增强。项目目前在 GitHub 上约有 1.4k Star、34 Fork，采用 MIT License，主语言为 Python。

两个核心能力：实时操作和技能生成

这个仓库里最核心的能力可以分成两块：browser-act 和 browser-act-skill-forge。

browser-act 更像是一个浏览器自动化命令行工具。它可以驱动真实的 Chrome 浏览器，让 AI 像人一样完成导航、点击、输入、截图、提取页面状态等动作。官方示例里提供了 navigate、state、click、input、screenshot 等命令，适合处理一次性的网页操作任务。

而 Skill Forge 则更有意思。它不是只执行一次任务，而是让 AI 先探索某个网站，然后自动生成一个可复用的技能包，包括 SKILL.md 和对应的 Python 脚本。也就是说，同一个网站、同一种数据抓取逻辑，不需要每次都让 Agent 从头摸索。

为什么它适合做网页数据抓取？

传统网页抓取经常依赖固定的 CSS Selector 或接口规则。一旦页面结构变了、登录流程变了、分页逻辑变了，脚本就容易失效。

BrowserAct Skills 的思路是把网页自动化拆成更稳定的“技能”。比如抓取电商商品信息、监控社交媒体、获取本地商家联系方式、提取 YouTube 字幕、追踪新闻热点等，都可以被封装成可复用的任务模块。

项目 README 中提到，它内置了一些可直接使用的场景技能，例如 Amazon ASIN Lookup Skill、Amazon Best Selling Products Finder、Google News API Skill、Google Maps API Skill、YouTube Transcript Extractor 等，覆盖电商、新闻、地图、本地商业信息和视频内容处理等场景。

对开发者来说有什么价值？

对开发者来说，这个项目最大的价值是降低了“让 AI 操作网页”的工程门槛。

以前你可能需要自己写 Playwright、处理浏览器指纹、维护登录状态、设计异常重试、清洗页面 HTML，再把结果喂给大模型。现在 BrowserAct Skills 把其中一部分复杂工作封装成了现成技能。

项目还强调了几个实用特性，比如 Anti-Detection Stealth、真实 Chrome 控制、并发浏览器执行、自动验证码处理、代理与隐私模式，以及减少传给大模型的无效 HTML 内容，从而降低 token 成本、提高执行速度。

可以和哪些 AI 工具配合？

BrowserAct Skills 的定位并不局限于某一个平台。官方说明中提到，它可以配合 Claude Code、Cursor、VS Code、OpenCode、OpenClaw、Codex、Gemini CLI 等工具使用。

安装方式也比较直接，例如使用：

npx skills add browser-act/skills --skill browser-act

如果想使用技能生成能力，则可以安装：

npx skills add browser-act/skills --skill browser-act-skill-forge

适合什么人关注？

如果你只是偶尔让 AI 总结网页内容，这个项目可能不是刚需。

但如果你经常做数据采集、竞品监控、线索挖掘、电商分析、新闻追踪，或者正在尝试把 AI Agent 接入真实业务流程，那么 BrowserAct Skills 就很值得关注。

它解决的不是“AI 会不会写代码”的问题，而是“AI 能不能稳定地在真实网页里完成任务”的问题。

总结

browser-act/skills 的出现，说明 AI Agent 正在从“能聊天、能写代码”，进一步走向“能真正操作工具、执行流程”。

网页世界一直很复杂：验证码、登录态、反爬、重定向、动态加载，都是自动化绕不开的坑。而 BrowserAct Skills 做的事情，就是把这些坑封装成可复用的浏览器技能，让 AI Agent 不再每次都从零开始摸索。

对于想把 AI 用到真实网页自动化场景里的开发者来说，这个项目值得收藏。

最后，更多优质的GitHub开源项目，推荐关注下面公众号