太香了!这个 GitHub 开源项目,让安卓模拟器直接跑在浏览器里,搞 AI 的必看
研究痛点
搞过移动 GUI 智能体的人都知道,真机测试是真的费钱。买一批手机、搭环境、跑任务,出了 bug 还得手动复现,一轮下来成本直接起飞。更要命的是,你想大规模并行训练?基本没戏——除非你有钱买几十台设备。
mobilegym 这个开源项目,就是冲着这个痛点来的。它在浏览器里跑安卓模拟器,专门为移动 GUI 智能体研究设计。内置 28 个模拟应用、416 个任务模版,拿到手就能开跑。

状态透明
传统模拟器最大的坑是什么?评判。你让 AI 去操作一个 App,完了怎么知道它做对了?截图比对?OCR?都不靠谱。mobilegym 直接把整个环境状态转成结构化 JSON,评判器读状态就行,毫秒级出结果。这种确定性评判,用过的人都懂有多爽。
而且它支持重置、注入、快照、克隆状态。你可以把某一刻的完整环境存下来,随时恢复。这对复现 bug、对比不同策略的效果来说,简直不要太方便。
并行能力
并行能力是这玩意最让我惊艳的地方。单个实例大概 400MB 内存、50MB 磁盘,256 个实例在一台服务器上跑,CPU 占用不到 10%。算一下,一台普通服务器就能同时跑 256 个训练任务,这效率比真机方案高了不止一个量级。
沙箱环境里 AI 可以”犯错”无数次,反正随时重置。全环境状态比对也能做,这在真机上想都别想。

迁移效果
很多人第一反应:模拟器里训出来的模型,到真机上能行吗?数据说明问题——模拟训练后的模型在真实设备上成功率 72.9%,保留率 95.1%。也就是说大部分能力是能迁移过去的,不是那种”模拟猛如虎,实战二百五”的情况。
还有个细节我觉得设计得挺好:AnswerSheet 协议。Agent 完成任务后必须填结构化表单,说自己具体做了什么。这就堵住了模糊回答、瞎蒙的漏洞,评判标淮明明白白。
聊聊缺点
28 个内置应用覆盖面毕境有限,要是你的研究场景比较冷门,得自己适配,工作量不小。它用的声明式导航,每个屏幕和跳转都用有限状态机描述——可控是可控,但复杂应用写起规格文件来挺废时间的。另外这项目目前更偏向研究者,普通开发者想拿来做自动化测试的话,上手门槛不低,文档对非研究人员不太友好。
不过话说回来,能在浏览器里跑安卓模拟器来做智能体研究,这个方向确实解决了一个大问题。就算不跑大规模训练,拿来当自动化测试环境也值得一试,你说呢?
下载地址:https://pan.quark.cn/s/823d93a86108 | 在线体验