MiniCPM-V 4.6开源:1.3B参数,速度超Qwen同尺寸1.5倍

同尺寸模型里跑最快、精度还领先——面壁智能刚开源的 MiniCPM-V 4.6 有点反常识。
1.3B 参数,6G 内存就能跑,但性能上全面超越了阿里 Qwen3.5-0.8B 和谷歌 Gemma4-E2B-it。在 Artificial Analysis 榜单上拿了 13 分,逼近参数规模更大的 Qwen 3.5-2B。
效率这块更夸张:推理吞吐量是 Qwen3.5-0.8B 的 1.5 倍,计算成本只用了对方 2.5% 的 Token 消耗,却跑出更高分数。背后是两个核心技术——ViT 内部视觉 Token 早压缩(计算量减少50%)和4倍/16倍混合压缩双模式,性能和速度可以按需切换。
对开发者友好的地方:一张 RTX 4090 就能全量微调,原生支持 ms-swift 和 LLaMA-Factory,部署端覆盖 vLLM、SGLang、llama.cpp、Ollama 全套推理框架。
手机端也有 Testflight 测试版,iOS、Android、HarmonyOS 都能装。缺点是模型权重文件不小,首次下载得等一会儿。
项目下载:https://pan.quark.cn/s/6f22fd03bfd1
GitHub 项目地址:https://github.com/OpenBMB/MiniCPM-V