一张照片就能跟AI面对面视频唠嗑

article image

一张照片就能跟AI面对面聊天

前两天朋友发了个开源项目给我看,说他搞了张他爷爷的老照片,愣是做出了个能视频通话的数字人。我当时以为他在扯淡,结果去翻了翻仓库,还真是这么回事。这个叫 CyberVerse 的项目,核心玩法就是你丢一张人脸照片进去,它自动生成面部动画和口型,然后你可以跟这个”人”实时视频对话,不是那种提前录好的假视频。

不只是个会眨眼的纸片人

说实话刚听到”数字人”三个字我有点劝退,毕竟市面上太多那种只会微笑点头的玩意了。但 CyberVerse 不太一样,它背后接了大语言模型,数字人是有脑子的,能听懂你说话还能帮你查东西记东西。底层用 WebRTC 做 P2P 直连,首帧大概1.5秒就出来了,延迟控制得还行。而且它那个模块化设计挺灵活的,大脑用啥模型、声音用啥 TTS、耳朵用啥 ASR,全写在 YAML 配置文件里,想换就换,跟拼乐高似的。

硬件门槛不低,量力而行

别高兴太早,这玩意吃显卡。官方给的实测数据:FlashHead 1.3B Pro 档要双卡 RTX 5090 才能 25 帧流畅跑,Lite 档单卡 4090 凑合用但画质差点意思。还有个更大的 18B 模型,得上 RTX PRO 6000。环境也够折腾的,Python 3.10、Node 18、Go 1.22、PyTorch 2.8 一堆东西要装,部署流程整整九步,三个终端同时起服务。远程访问的话还得折腾防火墙和 TURN 穿透,反正不是小白能轻松搞定的。

适合爱折腾的人

总结一下就是,CyberVerse 在开源数字人这个方向上确实做得比较完整了,从照片生成到实时通话到 Agent 能力都有。但上手成本摆在那,显卡要求和部署复杂度都不低。如果你手里有闲置算力又喜欢捣鼓这些,值得花个下午试试。没显卡的话就当看看热闹吧,等以后有轻量级方案再说。

下载链接:https://pan.quark.cn/s/93da5f5f13a8

GitHub 项目地址:https://github.com/dsd2077/CyberVerse

分享github精选项目,AI最新的消息资讯和使用教程技巧
52软件资源库 » 一张照片就能跟AI面对面视频唠嗑