把AI塞进U盘或者移动硬盘里,走到哪用到哪
配环境配到崩溃后的解药
想在本地跑个大模型玩玩,光是配 Python 环境、装依赖、处理版本冲突就能把人逼疯。搞了一下午终于跑通了一个模型,换台电脑发现又得重头来一遍。后来看到 USB-Uncensored-LLM 这个项目,直接把整套东西打包进 U 盘,插到哪台电脑上就能用,不用联网也不用折腾环境,对我这种懒人来说确实省事。

零依赖是真的零依赖
它自带便携 Python 和各种执行引擎,不用管理员权限,不改注册表,不碰系统里任何东西。U 盘里有个 Shared 共享文件夹,大模型只要下一次,Windows、Mac、Linux 都能直接读,不用每个系统各存一份。底层用定制编译的 Ollama 引擎,插上电脑自动检测硬件——有 NVIDIA 显卡就走 CUDA,苹果芯片用 Metal,老机器用 AVX 指令集,完全不用手动切。
上手就三步
准备个 USB 3.0 以上的 U 盘,至少留 8GB 空间,16GB 更舒服。第一步双击对应系统的安装脚本,Windows 是 install.bat,Mac 拖 install.command 到终端里回车,Linux 跑 install.sh,这步只下个 50MB 左右的引擎,很快。第二步选模型,推荐先用 Windows 跑安装脚本,会有交互菜单直接选,内置了几个去审查的模型,从 1.6GB 的 Gemma 2 2B 到 5GB 多的 Qwen 都有。第三步跑 start 脚本,浏览器自动弹出来就能开聊。
跑起来之后终端会显示一个局域网 IP,同个 WiFi 下的手机平板输这个地址就能访问,UI 是现成的暗黑模式网页版。放本地硬盘当常驻 AI 也完全没问题,SSD 上模型加载基本秒开。
实际用的时侯注意几点
内存不够的话模型跑起来会巨慢,8GB 内存建议老老实实用 2B 小模型,想玩 9B 以上的得上 16GB。安卓手机也能通过 Termux 跑,但体验跟电脑比差不少,2B 模型大概 3-10 tokens 每秒,能用但别指望多流畅。Windows 上脚本闪退的话大概率是”应用执行别名”在捣乱,用命令提示符跑就行。
下载链接:https://pan.quark.cn/s/e2380fdaf5a4
GitHub 项目地址:https://github.com/techjarves/USB-Uncensored-LLM