TIME WAIT.
#Automation 2026年5月24日 9 MIN READ

browser-harness 是什么?AI Agent 接管真实 Chrome 的浏览器自动化工具

browser-use/browser-harness 通过 CDP 连接真实 Chrome,让 Agent 完成浏览、点击、截图与表单操作,并沉淀站点经验。

browser-harness 是什么?AI Agent 接管真实 Chrome 的浏览器自动化工具

browser-harness 把真实 Chrome 变成 Agent 可操作的环境——薄 CDP 层、可编辑 helper 与 domain skills,让模型能观察、行动并复用站点经验。

browser-harness 是什么?

browser-use/browser-harness 是一个面向 AI Agent 的浏览器控制工具。它把大模型连接到真实 Chrome 或 Chromium,通过 CDP 完成浏览、点击、截图、下载、上传和表单操作,让 Agent 能处理更接近真实工作的网页任务。

项目与文档:

核心设计

browser-harness 更像给 Agent 使用的浏览器运行时,而不是给普通用户手动点击的浏览器插件。

核心思路包括:

该项目强调薄 CDP harness、可编辑 helper 和 domain skills。重点不是内置所有网站能力,而是给 Agent 一个足够贴近真实浏览器的操作层,让它在任务中补齐缺失能力。

和传统浏览器自动化有什么不同

传统浏览器自动化通常围绕 Playwright、Selenium 或 Puppeteer 这类测试框架展开。它们适合写确定性脚本:打开页面、定位元素、点击、断言结果。

browser-harness 面向的是另一类任务:用户给出目标后,Agent 自己观察页面、判断状态、处理弹窗、补 helper,并复用站点经验。

维度Playwright / Selenium / Puppeteerbrowser-harness
主要用户人写脚本,机器执行Agent 边观察边行动
任务形态固定流程、稳定测试开放目标、动态页面
常用依据selector、断言、测试步骤截图、DOM、CDP、网络状态
优势成熟、稳定、适合 E2E 测试更贴近 Agent 自主操作网页
局限需要人先写清楚流程权限和误操作风险更高

它不是 Playwright 的替代品。稳定端到端测试继续用 Playwright 更合适;browser-harness 的价值在于把真实网页变成 Agent 可操作的环境。

为什么强调真实 Chrome

很多浏览器 Agent 工具使用隔离或无头浏览器,部署更简单,但不一定能复用用户真实工作里的登录态、扩展、书签和浏览器环境。

browser-harness 支持连接本机 Chrome,也支持 Browser Use cloud browser。连接本机浏览器常见方式包括:

取舍可以这样理解:

真实浏览器很强,但也意味着 Agent 可能触达邮箱、支付后台、云控制台、CRM、公司系统和个人账号。连接方式需要按风险选择。

可编辑 helper 和 domain skills

browser-harness 把「Agent 学到的经验」设计进项目结构里。

agent_helpers.py

agent-workspace/agent_helpers.py 用于放任务中临时补出来的 helper。例如文件上传、下载等待、表格读取、弹窗处理等逻辑,如果在某次任务中发现现有能力不够,Agent 可以补一个更稳定的函数,下次复用。

domain-skills/

agent-workspace/domain-skills/ 用于保存站点级经验。它适合沉淀某个网站或后台系统的操作知识,例如:

网页自动化的难点往往不是「点击按钮」本身,而是处理这些真实页面细节。把经验沉淀成 domain skills,能让 Agent 下一次少走弯路。

适合哪些场景

browser-harness 更适合:

具体例子包括:

如果任务只是抓取静态网页,不一定需要浏览器。静态页面通常可以直接用 HTTP 批量获取;浏览器应该留给需要页面状态、登录态和交互的场景。

需要注意的风险

让 AI Agent 接管真实 Chrome 很强,也很敏感。

权限边界

真实 Chrome 里可能有邮箱、支付后台、云控制台、公司系统和个人账号。Agent 能操作浏览器,就相当于获得了这些网页权限的一部分。

凭据处理

不要把密码、验证码、支付信息或二次验证交给模型。遇到敏感登录和确认步骤,Agent 可以等待用户完成,但不应该读取、保存或输入敏感凭据。

不可逆操作

自动化不等于可以托管。网页任务中可能出现风控、误点击、数据删除、批量提交和不可逆操作。建议先从只读、低风险、可回滚流程开始。

domain skills 隐私

站点经验可以沉淀,但不要把账号、内部 URL、客户数据、一次性任务细节或敏感坐标流水账写进去。

连接方式选择

需要复用日常登录态时,当前 Chrome 很方便;长期自动化或无人值守任务更适合隔离 profile 或云浏览器。

对 AI Agent 工具的意义

browser-harness 代表一种务实的 Agent 工具路线:少做平台,多给模型一个能触达真实环境的接口。

过去很多 Agent 卡在两端:

browser-harness 试图连接这两端:浏览器负责真实世界状态,Agent 负责观察、判断、行动和补工具。

「自我改进 harness」的意义不在于 Agent 会突然变聪明,而在于可复用操作经验会被保存到项目结构里。下一次遇到类似站点或流程时,Agent 不必从零开始。

使用建议

  1. 先从低风险任务开始,比如读页面、截图、提取信息。
  2. 确认页面状态识别稳定后,再尝试点击、上传和提交。
  3. 涉及账号、支付、删除、发送、发布等动作时,保留人工确认。
  4. 把长期自动化放在隔离 profile 或云浏览器中运行。
  5. 给 domain skills 做脱敏,避免保存个人或公司敏感信息。
  6. 对稳定测试场景继续使用 Playwright、Selenium 或 Puppeteer。

总结

browser-use/browser-harness 值得关注,不是因为它包装了很多高级功能,而是因为它把浏览器 Agent 的几个关键问题放到同一套设计里:真实 Chrome、CDP、截图驱动、可编辑 helper、站点技能沉淀和用户权限边界。

如果目标是稳定 E2E 测试,传统浏览器自动化仍然更成熟。如果目标是让 Codex、Claude Code 等 Agent 直接处理真实网页任务,browser-harness 提供了一个更贴近 Agent 工作方式的入口。

/related_artifacts

Loops 取代 Prompts:循环工程正在改变 AI Agent 的用法
#Agent 2026年6月10日

Loops 取代 Prompts:循环工程正在改变 AI Agent 的用法

AI Agent 从「写好一个提示词」转向「设计反馈系统」:验证、重试、状态与停止条件构成可靠 Loop。

阅读全文 arrow_right_alt
agency-agents 详细介绍:把一整套 AI 专家团队装进开发工具
#Agent 2026年6月21日

agency-agents 详细介绍:把一整套 AI 专家团队装进开发工具

msitarzewski/agency-agents:面向 AI 编程工具的专业 Agent 角色库,覆盖工程、设计、营销、安全等团队分工。

阅读全文 arrow_right_alt