BabelDOC 是funstory-ai开发的开源PDF科技论文翻译与双语对照工具库（基于yadt开源库）的官方文档与使用指引站点，核心聚焦解决科技PDF翻译中格式错乱、公式/专业术语处理不佳、多端适配难等痛点，为科研人员、学生、开发者提供高保真的PDF翻译能力，支持在线使用、本地部署、嵌入式开发三种模式，主打保留原文档版式结构的同时实现精准的双语翻译，是专为科技文献打造的AI翻译解决方案。

该工具区别于普通的PDF翻译工具，并非简单的文本提取翻译，而是通过解析+渲染双阶段技术，保留PDF的文本块、图片、公式位置等原始结构，同时适配OpenAI兼容大模型实现专业术语精准翻译，还支持与Zotero等文献管理工具联动，完美适配科研场景的PDF翻译需求，目前核心支持英中互译（2025.3.1新增基础英文目标语言支持），并在持续迭代多语言能力。

核心定位与使用模式

BabelDOC主要为两类用户设计：

普通终端用户：通过Immersive Translate – BabelDOC在线Beta服务使用，每月有1000页免费额度，无需技术基础；
技术用户/开发者：提供命令行界面（CLI） 和Python API，支持本地源码安装/基于PyPI安装，可直接用于简单翻译任务，也可嵌入其他程序实现定制化翻译能力；
需要私有化部署的用户：可通过PDFMathTranslate 2.0（PDFMathTranslate-next）实现自部署+WebUI，获得更多翻译服务支持。

同时该工具深度联动文献管理工具Zotero：Immersive Translate Pro会员可使用专属插件，PDFMathTranslate自部署用户可通过zotero-pdf2zh插件实现Zotero内直接翻译。

核心功能：覆盖科技PDF翻译全场景需求

BabelDOC的功能围绕科技PDF翻译的高保真、专业性、灵活性展开，核心功能可分为基础翻译、PDF精细化处理、定制化配置、工程化能力、生态联动五大类，兼顾普通用户的易用性和开发者的定制化需求：

一、高保真正文+双语PDF翻译

多格式输出：支持生成纯译文PDF（单语） 和双语对照PDF，双语模式默认原文档与译文同页并列，也可切换为原译页面交替排列，还能自定义将译文页放在前/原文页放在前；
版式无损保留：通过解析PDF的文本块、布局结构，翻译后不改变原文档的公式、图片、表格、段落位置，解决普通翻译工具的格式错乱问题；
扫描件适配：提供OCR兼容方案，针对白底黑字的扫描版PDF，可自动添加白色遮罩覆盖原文并生成黑色译文，还支持自动检测重度扫描文档并启用OCR处理；
水印自定义：可控制译文PDF的水印模式，支持添加水印、无水印、同时输出两种版本三种选择，满足不同使用场景的版权需求。

二、PDF精细化处理与灵活选译

指定页面翻译：无需翻译整份文档，可自定义指定页码/页码范围（如1,3-5,-2表示第1页、3-5页、最后2页），也可仅保留翻译后的页面，大幅提升处理效率；
大文档拆分处理：支持按指定页数拆分大PDF为多个部分翻译，完成后自动合并，解决大文档处理卡顿、内存不足问题；
兼容性优化：提供一键兼容模式，可跳过PDF清洗、禁用富文本翻译、调整译文排列方式，解决部分PDF阅读器的兼容问题，也可自定义译文的字体家族（衬线/无衬线/手写体）；
冗余内容清理：可自动移除段落区域的非公式装饰线，同时保护图表区域的结构，解决部分文档装饰元素干扰文本阅读的问题；
表格/公式初步支持：提供实验性的表格文本翻译功能，可通过字体/字符模式识别公式文本，避免公式被错误翻译，同时支持添加公式占位提示（暂不推荐，可能影响翻译质量）。

三、专业翻译定制化配置

大模型灵活适配：核心支持所有OpenAI兼容的LLM（如gpt-4o-mini、glm-4-flash、deepseek-chat等），可自定义API基础地址、API密钥、模型名称，本地大模型（如Ollama）也可直接适配；
专业术语统一：支持加载CSV格式的术语表，术语表包含源语言、目标语言、可选目标语言编码，翻译时系统会自动匹配术语并严格按照术语表翻译，解决专业术语不统一问题，还能自动提取文档术语并保存为术语表；
翻译请求管控：可自定义翻译接口的QPS（每秒请求数）、工作线程数，避免接口限流，同时支持忽略翻译缓存强制重译，满足实时更新需求；
自定义系统提示词：可添加自定义系统提示词（如Qwen 3的/no_think指令），定制大模型的翻译风格，实现更贴合科研场景的专业翻译。

四、工程化与离线能力

离线资产管理：可生成包含所有依赖模型和字体的离线资产包，在无网络的隔离环境中恢复使用，确保不同环境下的处理结果一致，资产包通过SHA3-256哈希校验完整性；
配置文件统一管理：支持TOML格式的配置文件，可将所有翻译参数（语言、PDF处理、大模型配置、输出模式等）写入配置文件，一键调用，避免重复命令行参数输入；
调试与日志：启用调试模式后可输出详细的中间处理结果，自定义进度报告间隔，方便开发者排查问题，同时支持仅解析PDF生成新文档而不翻译，用于测试PDF解析重构能力；
批量处理：支持同时传入多个PDF文件进行批量翻译，大幅提升多文档处理效率，还能自定义翻译的最小文本长度，过滤无效短文本。

五、生态联动与嵌入式开发

Zotero深度集成：提供专属插件实现Zotero内直接翻译PDF，无需跳转工具，完美适配科研人员的文献管理流程；
Python API调用：推荐通过pdf2zh next的high_level.do_translate_async_stream函数调用，支持异步流式翻译，可嵌入自研的科研工具、文献管理系统中；
命令行快速使用：提供简洁的CLI命令，支持一行代码实现PDF翻译，无需复杂开发，技术用户可快速上手；
插件化扩展架构：底层采用解析+渲染的解耦架构，开发者可自定义添加新的OCR、模型、渲染器，实现功能扩展，推动PDF翻译的标准化流水线建设。

核心技术特点

双阶段处理架构：将PDF处理分为解析和渲染两个独立阶段，解析阶段提取PDF的文本块、图片、表格等结构，渲染阶段将翻译后的内容重构为新PDF，保留原始版式，区别于传统工具的结构丢失问题；
中间表示层设计：生成PDF解析结果的中间表示，可灵活渲染为PDF/其他格式，解决PDF/Word在移动端阅读体验差的问题；
多模型兼容：不绑定特定大模型，仅需兼容OpenAI API即可，支持通过litellm访问多个大模型，兼顾翻译质量和成本；
高性能处理：支持异步处理、多线程工作池，可自定义线程数和QPS，平衡处理速度和接口压力，大文档拆分处理进一步提升性能。

BabelDOC是一款专为科研场景打造的开源PDF翻译工具，核心价值在于解决科技文献翻译的版式保真和专业精准问题，同时兼顾易用性和工程化能力，既让普通科研人员能快速获得高保真的双语PDF，也为开发者提供了灵活的定制化和嵌入式能力，是科研工作中处理外文PDF的高效工具。

BabelDOC

核心定位与使用模式

核心功能：覆盖科技PDF翻译全场景需求

一、高保真正文+双语PDF翻译

二、PDF精细化处理与灵活选译

三、专业翻译定制化配置

四、工程化与离线能力

五、生态联动与嵌入式开发

核心技术特点

相关资源

Grammarly

NovelAI

AISEO Humanizer

Figma

DeepL-translator

Slidesgo

发表评论 取消回复

发表评论取消回复