想象一下:你只需要用自然语言告诉电脑”帮我填这份简历”、”去Instacart把这个购物清单加入购物车”,AI就能像真人一样打开浏览器、操作网页、完成任务。这不是科幻,Browser Use 把它变成了现实。
Browser Use 是目前最火的 AI 浏览器自动化开源项目,在 GitHub 上已斩获 81.6k Stars,9.6k Forks,被 2.4k 个项目集成使用。MIT 许可证,Python 驱动,代码完全开源。

相关链接
- GitHub:https://github.com/browser-use/browser-use
- 官网:https://browser-use.com
- 在线文档:https://docs.browser-use.com
- 云端服务:https://cloud.browser-use.com
Browser Use 是什么
Browser Use 是一个让 AI 智能体控制浏览器的开源库。它通过解析网页结构、理解页面内容,然后指挥 LLM(如 Claude、GPT、Gemini)像真人一样操作浏览器——点击按钮、填写表单、搜索信息、截图等。
项目由 Python 开发(占比 98.4%),基于 Playwright 构建,支持本地运行和云端 API 调用。目前已有 120 个版本迭代,最近 15 小时前刚发布 0.12.3,500+ 分支在活跃开发,301 位贡献者参与维护。
项目团队位于苏黎世和旧金山,已经完成了从开源工具到商业化服务的完整闭环,云端 API 支持隐身浏览器、代理轮换等高级功能。
核心功能
1. 自然语言驱动的浏览器操作
这是 Browser Use 的核心能力。你只需描述任务,AI 就会:
- 打开目标网页
- 理解页面内容和结构
- 规划操作步骤(点击、输入、滚动等)
- 逐项执行并验证结果
- 返回完成状态或截图
内置的 ChatBrowserUse() 模型经过专项优化,在浏览器自动化任务上比普通模型快 3-5 倍,准确率行业领先。
2. 丰富的 Demo 案例
官方提供了多个开箱即用的演示案例:
- 📋 表单填写:上传简历,AI 自动填写求职申请表
- 🍎 购物助手:把购物清单自动加入 Instacart
- 💻 PC 配件选购:在 PCPartPicker 上搜索和比较配件
3. CLI 工具
Browser Use 还提供了命令行工具,支持持续性浏览器会话:
browser-use open https://example.com # 打开网址
browser-use state # 查看可点击元素
browser-use click 5 # 点击第5个元素
browser-use type "Hello" # 输入文本
browser-use screenshot page.png # 截图
browser-use close # 关闭浏览器
4. Claude Code 集成
通过安装 Skill,Browser Use 可以让 Claude Code 直接控制浏览器执行任务:
mkdir -p ~/.claude/skills/browser-use
curl -o ~/.claude/skills/browser-use/SKILL.md \
https://raw.githubusercontent.com/browser-use/browser-use/main/skills/browser-use/SKILL.md
5. 自定义工具扩展
支持通过装饰器注册自定义工具,扩展 Agent 能力:
from browser_use import Tools
tools = Tools()
@tools.action(description='Description of what this tool does.')
def custom_tool(param: str) -> str:
return f"Result: {param}"
6. 云端版本(Browser Use Cloud)
不想自己部署?云端版本提供:
- 隐身浏览器(Stealth Browser)
- 代理轮换(Proxy Rotation)
- 大规模并行任务执行
- CAPTCHA 绕过
- 5 个免费任务额度
快速上手
安装(推荐 uv)
uv init && uv add browser-use && uv sync
# uvx browser-use install # 如果没有安装 Chromium
快速模板
想更快开始?使用官方模板:
uvx browser-use init --template default
可选模板:
default– 最简配置advanced– 全功能配置tools– 自定义工具示例
运行第一个 Agent
from browser_use import Agent, Browser, ChatBrowserUse
import asyncio
async def main():
browser = Browser()
agent = Agent(
task="Find the number of stars of the browser-use repo",
llm=ChatBrowserUse(),
browser=browser,
)
await agent.run()
if __name__ == "__main__":
asyncio.run(main())
适用人群
- AI 开发者:为 AI Agent 添加浏览器操作能力
- 爬虫工程师:AI 驱动的智能爬虫,比传统规则爬虫更灵活
- 自动化测试:用自然语言描述测试流程,AI 自动执行
- RPA 场景:替代传统的 RPA 流程,零代码配置
- Claude Code / Cursor 用户:让 AI 编程助手直接操作网页
技术亮点
- 专为浏览器自动化优化的 LLM:ChatBrowserUse 在自动化任务上比通用模型快 3-5 倍
- 基于 Playwright:成熟稳定的浏览器控制底层
- 多模型支持:OpenAI、Claude、Gemini、ChatBrowserUse 或本地 Ollama
- 活跃社区:81.6k Stars、301 位贡献者、2.4k 项目集成
- 完整开发生态:CLI、Cloud API、MCP、Claude Code Skill
- MIT 许可证:完全开源,商业可用
总结
Browser Use 解决的是一个很实在的问题:让 AI 真正”动手”操作网页,而不是只会”动嘴”回答问题。81.6k Stars 的热度证明了它的价值——无论你是想让 AI 帮你填表、做竞调、还是给网页截图,Browser Use 都能以最小的配置代价帮你实现。
如果你在构建需要网页操作的 AI Agent,或者想让 Cursor、Claude Code 这样的编程助手替你操作浏览器,Browser Use 值得一试。
© 版权声明
本站部分内容源于网络收集,文章等版权归原作者所有,若需删稿请联系管理员邮箱:[email protected]
相关文章
暂无评论...