开源的PDF翻译工具,翻译完还能保持原来的版面公式和文档结构

被PDF翻译折磨过的日子

搞科研的朋友应该都有这经历:下载了一篇英文论文想快速看完,丢进翻译工具,结果公式全变成乱码,表格歪七扭八,代码块也被翻译成中文——变量名都给你翻没了。之前用过几个主流工具,没有一个让我满意的,直到发现了 RetainPDF。

article image

这玩意是专门干PDF翻译的开源项目,核心能力就是翻译完之后版面还能保持原样。行内公式正常显示,表格不变形,代码片段保持原样不翻译。我拿一篇带大量数学公式的论文试了试,效果确实比我之前用的好太多。

能处理哪些PDF

不只是文字能选中的那种PDF,扫描版和图片型的也能翻。很多老论文、古籍扫描件文字根本选不中,普通工具直接抓瞎。RetainPDF 内置了OCR,能把图里的文字抠出来翻译,再按原来的位置放回去。

还有个比较实用的功能,翻译策略可以自己配。不同区块可以设置不同的处理方式,比如表格要不要保留结构,代码块要不要跳过,这些都能按需求调。

安装和部署

普通用户直接去GitHub Releases下载安装包就行。Windows双击安装,macOS拖进应用程序文件夹。不过Mac第一次打开可能提示”已损坏”,别慌,终端执行一行命令就能解决,项目文档里写得很清楚。

如果是实验室或者团队想一起用,支持Docker部署。clone代码下来,进docker目录,一行命令起服务。起来之后默认访问40001端口,三个端口分工明确,前端、API、同步接口各管一摊。后续更新也简单,pull最新镜像重新up就行。

几个不太方便的地方

说说缺点。首先是部署门槛,对不想折腾的用户来说,本地安装还行,但Docker部署就有点劝退了。然后因为是前后端分离架构,Rust写API、Python跑算法,想二次开发的话需要同时懂好几门语言,门槛不低。

另外目前社区还没那么大,遇到问题能搜到的解决方案不多,基本得靠看源码或者提issue。翻译质量嘛,跟底层用的翻译引擎有关,有时候专业术语翻得不太准,需要手动校对。

下载链接:https://pan.quark.cn/s/e2380fdaf5a4

GitHub 项目地址:https://github.com/wxyhgk/retain-pdf

分享github精选项目,AI最新的消息资讯和使用教程技巧
52软件资源库 » 开源的PDF翻译工具,翻译完还能保持原来的版面公式和文档结构