sakura GitHub精选下载 2026-06-05

一张照片就能跟AI面对面视频唠嗑

一张照片就能跟AI面对面聊天

前两天朋友发了个开源项目给我看，说他搞了张他爷爷的老照片，愣是做出了个能视频通话的数字人。我当时以为他在扯淡，结果去翻了翻仓库，还真是这么回事。这个叫 CyberVerse 的项目，核心玩法就是你丢一张人脸照片进去，它自动生成面部动画和口型，然后你可以跟这个”人”实时视频对话，不是那种提前录好的假视频。

不只是个会眨眼的纸片人

说实话刚听到”数字人”三个字我有点劝退，毕竟市面上太多那种只会微笑点头的玩意了。但 CyberVerse 不太一样，它背后接了大语言模型，数字人是有脑子的，能听懂你说话还能帮你查东西记东西。底层用 WebRTC 做 P2P 直连，首帧大概1.5秒就出来了，延迟控制得还行。而且它那个模块化设计挺灵活的，大脑用啥模型、声音用啥 TTS、耳朵用啥 ASR，全写在 YAML 配置文件里，想换就换，跟拼乐高似的。

硬件门槛不低，量力而行

别高兴太早，这玩意吃显卡。官方给的实测数据：FlashHead 1.3B Pro 档要双卡 RTX 5090 才能 25 帧流畅跑，Lite 档单卡 4090 凑合用但画质差点意思。还有个更大的 18B 模型，得上 RTX PRO 6000。环境也够折腾的，Python 3.10、Node 18、Go 1.22、PyTorch 2.8 一堆东西要装，部署流程整整九步，三个终端同时起服务。远程访问的话还得折腾防火墙和 TURN 穿透，反正不是小白能轻松搞定的。