专为AI研究设计的浏览器安卓模拟器,内置28个模拟应用和416个任务模板,单机可并行256个实例

搞 mobile agent 研究的朋友跟我吐槽过,拿真机训练 AI 操控手机,成本高得离谱。你想啊,AI 在手机上点错一下,可能钱就转出去了,账号就注销了,根本没有后悔的机会。更头疼的是,真机环境下 AI 只能看到 UI 树,余额、订单状态这些关键信息根本读不到,研究者只能让 VLM “看图猜话”来做评判,错误率能到 10.2%。

把安卓搬进浏览器里

MobileGym 的思路挺有意思的,它不是在你手机上跑,而是直接在浏览器里模拟了整个安卓环境。说白了就是用结构化的 JSON 状态替代了真实设备,内置了 28 个模拟应用和 416 个任务模板。评判器直接读取环境状态,毫秒级出结果,百万次评判也不会崩。每个实例大概 400 MB 内存、50 MB 磁盘,256 个实例并行跑起来 CPU 占用不到 10%,完整评估六分钟就搞定了。

强化学习的并行难题

说到这儿你可能想问,为什么不直接在真机上跑强化学习?其实道理很简单,真实 App 的数据存在加密数据库和服务器后端,重置不了也克隆不了。GRPO 这类群体强化学习需要大量并行 rollout,在真机上基本是幻想。MobileGym 使朋了状态快照和克隆机制,256 个并行实例在一台服务器上轻松运行。而且它能做全环境状态比对,AI 误操作产生的副作用都能被捕捉到。

模拟到真实的迁移效果

最让我信服的是实测数据。在 59 个信号任务上,模拟训练后的模型部署到真实的 Redmi Note 12 Turbo,成功率达到了 72.9%,而真机基线只有 32.2%,提升了 40.7 个百分点。模拟端 76.7%,真实端 72.9%,保留率 95.1%——这个 sim-to-real 的差距确实很小了。

不过话说回来

28 个模拟应用的覆盖面毕竟有限,涉及复杂网络请求或支付流程的场景基本没有模拟。而且确定性评判器需要预先定义成功条件,灵活性不如 VLM 评判。另外整个项目的部署配置对非系统背景的研究者来说有一定门槛,上手需要花点时间。如果你在做 mobile agent 方向的研究,可以试试,有在线体验地址可以先看看再决定要不要本地部署。

下载链接:https://pan.quark.cn/s/64277de55392

GitHub 项目地址:https://github.com/Purewhiter/mobilegym

分享github精选项目,AI最新的消息资讯和使用教程技巧
52软件资源库 » 专为AI研究设计的浏览器安卓模拟器,内置28个模拟应用和416个任务模板,单机可并行256个实例