用自然语言控制 iPhone 的 GUI Agent ,小模型就能跑
项目地址: https://github.com/hyechow/iphone-use
做了什么
利用 Mac 上的 iPhone Mirroring 把 iPhone 投屏到电脑,通过 MCP 协议获取截图、注入触控事件,让 LLM 驱动整个交互闭环。用户说一句话,Agent 自己截图 → 理解屏幕 → 决策操作 → 循环执行,直到完成。
能干什么
操作类:把拼多多订单分享给微信好友(跨 APP )
查询类:打开微信支付汇总上周账单支出
探测模式:自动探索任意 APP 页面结构,生成可复用的知识库
演示视频都在 README 里,欢迎交流和学习~
