V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
YuanJiwei
V2EX  ›  程序员

准备开发一个浏览器 AI Agents, 浏览器驱动选择 Puppetter 和 Playwright 哪个好呀?

  •  
  •   YuanJiwei · 3 天前 · 660 次点击

    最近 browser-use 这个项目特别火,感觉 2025 年,大家对 web agent 的需求还是很旺盛的,准备参考 https://midscenejs.com/https://github.com/browser-use/browser-use 整个 webagent 的开源框架。基于 typescript ,让广大前端开发者也加入到 ai agents 的浪潮中。底层浏览器驱动是基于 Puppetter 还是,基于 Playwright 比较好呀?

    有感兴趣的朋友添加我的微信,一起开发。 微信( base64):eXVhbnNkdQ==

    3 条回复    2025-01-04 17:44:27 +08:00
    musi
        1
    musi  
       3 天前 via iPhone
    为啥不直接用 cdp 直接和 chromium 系的浏览器通信?
    YuanJiwei
        2
    YuanJiwei  
    OP
       3 天前
    谢谢你 @musi 对我很好的启发,cdp 通信是很好一种实现,我计划用它来驱动客户端浏览器。puppetter 或者 playwright 是为服务端浏览器设计的。
    riceball
        3
    riceball  
       2 天前
    Good ,推荐基于这个弄: https://github.com/apify/crawlee easily Extract data for AI, LLMs. Works with Puppeteer, Playwright, Cheerio, JSDOM, and raw HTTP. Both headful and headless mode. 并添加了自己的反屏蔽功能和类人指纹。

    这个要单独分几块弄

    1. 建立 UI 自动化脚本规范,要简单易懂,能很自然扩展到桌面应用,采用类自然语言,使得 LLM 更好理解
    2. 开发 UI 自动化脚本引擎库
    3. 设计 PPE 可编程提示词工程(引擎),目的是规范化提示词,使 AI 提示任务工程化,简单化,打通代码和 LLM 之间的 gap ,这个我在弄,目前部分开源: https://github.com/offline-ai/cli 目前进展是实现了类自然语言的结构化聊天消息,只实现了 js 可以像调普通函数一样调用 llm 提示词任务, 反过来 llm 提示词也可以调用任意 js 或其他 PPE. PPE 支持继承,import,export. 还没作广泛宣传,自我感觉完成度不高,仅在 Linux 上开发测试。有一两个应用例子. 提示词这块坑多,模型规模越小,坑越多。大模型也有坑,所以想通过规范化提示词避坑。
    4. 引入 UI 自动化脚本引擎库,让 LLM 调用.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3337 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 00:42 · PVG 08:42 · LAX 16:42 · JFK 19:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.