[Github发现] Browser Use – 让AI智能体控制浏览器,81.6k Stars 的开源浏览器自动化神器

Github发现2026-03-21发布 WarpEdit
3 0 0

想象一下:你只需要用自然语言告诉电脑”帮我填这份简历”、”去Instacart把这个购物清单加入购物车”,AI就能像真人一样打开浏览器、操作网页、完成任务。这不是科幻,Browser Use 把它变成了现实。

Browser Use 是目前最火的 AI 浏览器自动化开源项目,在 GitHub 上已斩获 81.6k Stars,9.6k Forks,被 2.4k 个项目集成使用。MIT 许可证,Python 驱动,代码完全开源。

Browser Use 官网

相关链接

Browser Use 是什么

Browser Use 是一个让 AI 智能体控制浏览器的开源库。它通过解析网页结构、理解页面内容,然后指挥 LLM(如 Claude、GPT、Gemini)像真人一样操作浏览器——点击按钮、填写表单、搜索信息、截图等。

项目由 Python 开发(占比 98.4%),基于 Playwright 构建,支持本地运行和云端 API 调用。目前已有 120 个版本迭代,最近 15 小时前刚发布 0.12.3,500+ 分支在活跃开发,301 位贡献者参与维护。

项目团队位于苏黎世和旧金山,已经完成了从开源工具到商业化服务的完整闭环,云端 API 支持隐身浏览器、代理轮换等高级功能。

核心功能

1. 自然语言驱动的浏览器操作

这是 Browser Use 的核心能力。你只需描述任务,AI 就会:

  • 打开目标网页
  • 理解页面内容和结构
  • 规划操作步骤(点击、输入、滚动等)
  • 逐项执行并验证结果
  • 返回完成状态或截图

内置的 ChatBrowserUse() 模型经过专项优化,在浏览器自动化任务上比普通模型快 3-5 倍,准确率行业领先。

2. 丰富的 Demo 案例

官方提供了多个开箱即用的演示案例:

  • 📋 表单填写:上传简历,AI 自动填写求职申请表
  • 🍎 购物助手:把购物清单自动加入 Instacart
  • 💻 PC 配件选购:在 PCPartPicker 上搜索和比较配件

3. CLI 工具

Browser Use 还提供了命令行工具,支持持续性浏览器会话:

browser-use open https://example.com    # 打开网址
browser-use state                       # 查看可点击元素
browser-use click 5                     # 点击第5个元素
browser-use type "Hello"                # 输入文本
browser-use screenshot page.png         # 截图
browser-use close                       # 关闭浏览器

4. Claude Code 集成

通过安装 Skill,Browser Use 可以让 Claude Code 直接控制浏览器执行任务:

mkdir -p ~/.claude/skills/browser-use
curl -o ~/.claude/skills/browser-use/SKILL.md \
  https://raw.githubusercontent.com/browser-use/browser-use/main/skills/browser-use/SKILL.md

5. 自定义工具扩展

支持通过装饰器注册自定义工具,扩展 Agent 能力:

from browser_use import Tools

tools = Tools()

@tools.action(description='Description of what this tool does.')
def custom_tool(param: str) -> str:
    return f"Result: {param}"

6. 云端版本(Browser Use Cloud)

不想自己部署?云端版本提供:

  • 隐身浏览器(Stealth Browser)
  • 代理轮换(Proxy Rotation)
  • 大规模并行任务执行
  • CAPTCHA 绕过
  • 5 个免费任务额度

快速上手

安装(推荐 uv)

uv init && uv add browser-use && uv sync
# uvx browser-use install  # 如果没有安装 Chromium

快速模板

想更快开始?使用官方模板:

uvx browser-use init --template default

可选模板:

  • default – 最简配置
  • advanced – 全功能配置
  • tools – 自定义工具示例

运行第一个 Agent

from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def main():
    browser = Browser()
    agent = Agent(
        task="Find the number of stars of the browser-use repo",
        llm=ChatBrowserUse(),
        browser=browser,
    )
    await agent.run()

if __name__ == "__main__":
    asyncio.run(main())

适用人群

  • AI 开发者:为 AI Agent 添加浏览器操作能力
  • 爬虫工程师:AI 驱动的智能爬虫,比传统规则爬虫更灵活
  • 自动化测试:用自然语言描述测试流程,AI 自动执行
  • RPA 场景:替代传统的 RPA 流程,零代码配置
  • Claude Code / Cursor 用户:让 AI 编程助手直接操作网页

技术亮点

  1. 专为浏览器自动化优化的 LLM:ChatBrowserUse 在自动化任务上比通用模型快 3-5 倍
  2. 基于 Playwright:成熟稳定的浏览器控制底层
  3. 多模型支持:OpenAI、Claude、Gemini、ChatBrowserUse 或本地 Ollama
  4. 活跃社区:81.6k Stars、301 位贡献者、2.4k 项目集成
  5. 完整开发生态:CLI、Cloud API、MCP、Claude Code Skill
  6. MIT 许可证:完全开源,商业可用

总结

Browser Use 解决的是一个很实在的问题:让 AI 真正”动手”操作网页,而不是只会”动嘴”回答问题。81.6k Stars 的热度证明了它的价值——无论你是想让 AI 帮你填表、做竞调、还是给网页截图,Browser Use 都能以最小的配置代价帮你实现。

如果你在构建需要网页操作的 AI Agent,或者想让 Cursor、Claude Code 这样的编程助手替你操作浏览器,Browser Use 值得一试。

传送门https://github.com/browser-use/browser-use

© 版权声明

相关文章

暂无评论

none
暂无评论...