安排 3 款宝藏 GitHub 开源项目,绝了 ~
看视频自动出笔记,浏览器自己会点:3 个冷门 GitHub 项目实测
你有没有过这种经历——看了一个小时的教程视频,记了半页笔记,回头翻的时候完全想不起来哪句话对应哪个画面?我之前学一个深度学习课程的时候,光暂停截图就花了快两个小时。后来在 GitHub 上翻到几个项目,试了一圈,发现开源工具做到这个程度确实有点出乎意料。

BiliNote:看视频不用暂停了
BiliNote 干的事情很直接——把 B 站或 YouTube 的视频链接丢进去,它会自动提取核心内容,生成一份 Markdown 格式的笔记,还带时间戳。点一下笔记里的链接就能跳回视频对应的时间点。我前阵子用它处理了一个 40 分钟的 PyTorch 教程,粘贴链接等了大概两分钟,一份带时间线的笔记就出来了。里面不光有文字摘要,视频里提到的关键知识点基本都覆盖到了。
另一个让我觉得实用的点是关键帧截图。技术类教程经常一闪而过的 PPT 或者代码片段,它会自动截取并嵌入笔记。不过缺点也有:生成速度跟视频长度和 API 响应速度有关,长的课程有时候得等四五分钟。关键帧偶尔抓得不太准,得自己手动调一下。项目还在迭代,但目前这版已经能应付日常需求了。光键帧这个功能单独拎出来就很值,省了我不少暂停截图的时间。

Skyvern:让浏览器自己干活
Skyvern 做的是浏览器自动化,但跟传统路子不太一样。你不需要写 Playwright 或者 Selenium 脚本,它直接用大语言模型加上计算机视觉来操作网页。说白了就是你用自然语言告诉它要干什么,它自己去看页面、找按钮、填表单。
我拿它测过一个电商后台批量录入表单的流程。以前写自动化脚本,最头疼的是处理各种意外弹窗和页面变动。Skyvern 因为是视觉驱动的,遇到页面布局变了也能应付,不像传统脚本一换选择器就挂。它还有个无代码工作流构建器,不会写代码的同事也能像搭积木一样把操作步骤连起来,支侍拖拽操作。但说实话,这玩意对系统资源要求不低,跑起来同时开浏览器和视觉模型,低配电脑会有点吃力。另外 LLM 推理每次操作都要消耗 Token,长时间跑下来成本得算一算。

Fogsight:输入关键词,吐出动画
Fogsight 是个 AI 驱动的动画引擎。你给它一段抽象概念或者几个描述性关键词,它能直接生成一段动画视频。我第一次使朋的时候,输了个”用户注册后数据在系统里流转的路径”,大概等了一分钟,出来一段 30 秒左右的动画。效果不算惊艳,但拿去放在内部分享的 PPT 里完全够用。
想想以前要做这种内容,打开 After Effects 光调关键帧就得大半天。对于经常需要给演示文档或者解说视频加动画、但自己又不会做动画设计的人来说,这东西确实能省不少时间。缺点也比较明显:生成的动画套路感偏重,看多了会发现转场和元素组合方式都差不多。拿来做内部汇报没问题,放正式场合还是差点意思。而且项目比较新,社区活跃度还在起步阶段,某些功能偶尔不太稳定,生成时间波动挺大。
三个项目都是开源的,代码在 GitHub 上能直接看到。感兴趣的话点个 star 然后自己跑一遍。我最近发现一个规律:收藏的工具越多,真正用起来的比例越低。与其继续往收藏夹里塞,不如挑一个现在就能用上的,先跑起来再说?
GitHub 项目地址:
下载链接:https://pan.quark.cn/s/df7d601e740d