sakura GitHub精选下载 2026-06-07

专为AI研究设计的浏览器安卓模拟器，内置28个模拟应用和416个任务模板，单机可并行256个实例

搞 mobile agent 研究的朋友跟我吐槽过，拿真机训练 AI 操控手机，成本高得离谱。你想啊，AI 在手机上点错一下，可能钱就转出去了，账号就注销了，根本没有后悔的机会。更头疼的是，真机环境下 AI 只能看到 UI 树，余额、订单状态这些关键信息根本读不到，研究者只能让 VLM “看图猜话”来做评判，错误率能到 10.2%。

把安卓搬进浏览器里

MobileGym 的思路挺有意思的，它不是在你手机上跑，而是直接在浏览器里模拟了整个安卓环境。说白了就是用结构化的 JSON 状态替代了真实设备，内置了 28 个模拟应用和 416 个任务模板。评判器直接读取环境状态，毫秒级出结果，百万次评判也不会崩。每个实例大概 400 MB 内存、50 MB 磁盘，256 个实例并行跑起来 CPU 占用不到 10%，完整评估六分钟就搞定了。

强化学习的并行难题

说到这儿你可能想问，为什么不直接在真机上跑强化学习？其实道理很简单，真实 App 的数据存在加密数据库和服务器后端，重置不了也克隆不了。GRPO 这类群体强化学习需要大量并行 rollout，在真机上基本是幻想。MobileGym 使朋了状态快照和克隆机制，256 个并行实例在一台服务器上轻松运行。而且它能做全环境状态比对，AI 误操作产生的副作用都能被捕捉到。

模拟到真实的迁移效果

最让我信服的是实测数据。在 59 个信号任务上，模拟训练后的模型部署到真实的 Redmi Note 12 Turbo，成功率达到了 72.9%，而真机基线只有 32.2%，提升了 40.7 个百分点。模拟端 76.7%，真实端 72.9%，保留率 95.1%——这个 sim-to-real 的差距确实很小了。

不过话说回来

28 个模拟应用的覆盖面毕竟有限，涉及复杂网络请求或支付流程的场景基本没有模拟。而且确定性评判器需要预先定义成功条件，灵活性不如 VLM 评判。另外整个项目的部署配置对非系统背景的研究者来说有一定门槛，上手需要花点时间。如果你在做 mobile agent 方向的研究，可以试试，有在线体验地址可以先看看再决定要不要本地部署。

下载链接：https://pan.quark.cn/s/64277de55392

GitHub 项目地址：https://github.com/Purewhiter/mobilegym

分享github精选项目，AI最新的消息资讯和使用教程技巧
52软件资源库 » 专为AI研究设计的浏览器安卓模拟器，内置28个模拟应用和416个任务模板，单机可并行256个实例

分享到：