跳到内容

夜深了,注意休息,愿你今夜好梦。

BabelDOC

BabelDOC

Funstory-ai is an open source PDF scientific and technical papers translation and bilingual comparison tool library (based on yadt open source library) of the official documents and guidelines site, the core focus on solving the scientific and technical PDF translation in the format of the messy, formulas / terminology processing is not good, the difficulty of adapting to the multi-terminal and other pain points, to provide high-fidelity PDF translation capabilities for researchers, students, developers, support for online use, local deployment, embedded development of three modes. It supports three modes: online use, local deployment, and embedded development, and focuses on preserving the original document layout structure while realizing accurate bilingual translation, which is an AI translation solution specially designed for scientific and technological literature.

浏览 463 收藏 0 外链点击 0 更新 2026年4月15日
适用地区
全球
适用平台
以官网说明为准
是否免费
以官网与标签为准

BabelDOC 是funstory-ai开发的开源PDF科技论文翻译与双语对照工具库(基于yadt开源库)的官方文档与使用指引站点,核心聚焦解决科技PDF翻译中格式错乱、公式/专业术语处理不佳、多端适配难等痛点,为科研人员、学生、开发者提供高保真的PDF翻译能力,支持在线使用、本地部署、嵌入式开发三种模式,主打保留原文档版式结构的同时实现精准的双语翻译,是专为科技文献打造的AI翻译解决方案。

该工具区别于普通的PDF翻译工具,并非简单的文本提取翻译,而是通过解析+渲染双阶段技术,保留PDF的文本块、图片、公式位置等原始结构,同时适配OpenAI兼容大模型实现专业术语精准翻译,还支持与Zotero等文献管理工具联动,完美适配科研场景的PDF翻译需求,目前核心支持英中互译(2025.3.1新增基础英文目标语言支持),并在持续迭代多语言能力。

核心定位与使用模式

BabelDOC主要为两类用户设计:

  1. 普通终端用户:通过Immersive Translate – BabelDOC在线Beta服务使用,每月有1000页免费额度,无需技术基础;
  2. 技术用户/开发者:提供命令行界面(CLI)Python API,支持本地源码安装/基于PyPI安装,可直接用于简单翻译任务,也可嵌入其他程序实现定制化翻译能力;
  3. 需要私有化部署的用户:可通过PDFMathTranslate 2.0(PDFMathTranslate-next)实现自部署+WebUI,获得更多翻译服务支持。

同时该工具深度联动文献管理工具Zotero:Immersive Translate Pro会员可使用专属插件,PDFMathTranslate自部署用户可通过zotero-pdf2zh插件实现Zotero内直接翻译。

核心功能:覆盖科技PDF翻译全场景需求

BabelDOC的功能围绕科技PDF翻译的高保真、专业性、灵活性展开,核心功能可分为基础翻译、PDF精细化处理、定制化配置、工程化能力、生态联动五大类,兼顾普通用户的易用性和开发者的定制化需求:

一、高保真正文+双语PDF翻译

  1. 多格式输出:支持生成纯译文PDF(单语)双语对照PDF,双语模式默认原文档与译文同页并列,也可切换为原译页面交替排列,还能自定义将译文页放在前/原文页放在前;
  2. 版式无损保留:通过解析PDF的文本块、布局结构,翻译后不改变原文档的公式、图片、表格、段落位置,解决普通翻译工具的格式错乱问题;
  3. 扫描件适配:提供OCR兼容方案,针对白底黑字的扫描版PDF,可自动添加白色遮罩覆盖原文并生成黑色译文,还支持自动检测重度扫描文档并启用OCR处理;
  4. 水印自定义:可控制译文PDF的水印模式,支持添加水印、无水印、同时输出两种版本三种选择,满足不同使用场景的版权需求。

二、PDF精细化处理与灵活选译

  1. 指定页面翻译:无需翻译整份文档,可自定义指定页码/页码范围(如1,3-5,-2表示第1页、3-5页、最后2页),也可仅保留翻译后的页面,大幅提升处理效率;
  2. 大文档拆分处理:支持按指定页数拆分大PDF为多个部分翻译,完成后自动合并,解决大文档处理卡顿、内存不足问题;
  3. 兼容性优化:提供一键兼容模式,可跳过PDF清洗、禁用富文本翻译、调整译文排列方式,解决部分PDF阅读器的兼容问题,也可自定义译文的字体家族(衬线/无衬线/手写体);
  4. 冗余内容清理:可自动移除段落区域的非公式装饰线,同时保护图表区域的结构,解决部分文档装饰元素干扰文本阅读的问题;
  5. 表格/公式初步支持:提供实验性的表格文本翻译功能,可通过字体/字符模式识别公式文本,避免公式被错误翻译,同时支持添加公式占位提示(暂不推荐,可能影响翻译质量)。

三、专业翻译定制化配置

  1. 大模型灵活适配:核心支持所有OpenAI兼容的LLM(如gpt-4o-mini、glm-4-flash、deepseek-chat等),可自定义API基础地址、API密钥、模型名称,本地大模型(如Ollama)也可直接适配;
  2. 专业术语统一:支持加载CSV格式的术语表,术语表包含源语言、目标语言、可选目标语言编码,翻译时系统会自动匹配术语并严格按照术语表翻译,解决专业术语不统一问题,还能自动提取文档术语并保存为术语表;
  3. 翻译请求管控:可自定义翻译接口的QPS(每秒请求数)、工作线程数,避免接口限流,同时支持忽略翻译缓存强制重译,满足实时更新需求;
  4. 自定义系统提示词:可添加自定义系统提示词(如Qwen 3的/no_think指令),定制大模型的翻译风格,实现更贴合科研场景的专业翻译。

四、工程化与离线能力

  1. 离线资产管理:可生成包含所有依赖模型和字体的离线资产包,在无网络的隔离环境中恢复使用,确保不同环境下的处理结果一致,资产包通过SHA3-256哈希校验完整性;
  2. 配置文件统一管理:支持TOML格式的配置文件,可将所有翻译参数(语言、PDF处理、大模型配置、输出模式等)写入配置文件,一键调用,避免重复命令行参数输入;
  3. 调试与日志:启用调试模式后可输出详细的中间处理结果,自定义进度报告间隔,方便开发者排查问题,同时支持仅解析PDF生成新文档而不翻译,用于测试PDF解析重构能力;
  4. 批量处理:支持同时传入多个PDF文件进行批量翻译,大幅提升多文档处理效率,还能自定义翻译的最小文本长度,过滤无效短文本。

五、生态联动与嵌入式开发

  1. Zotero深度集成:提供专属插件实现Zotero内直接翻译PDF,无需跳转工具,完美适配科研人员的文献管理流程;
  2. Python API调用:推荐通过pdf2zh next的high_level.do_translate_async_stream函数调用,支持异步流式翻译,可嵌入自研的科研工具、文献管理系统中;
  3. 命令行快速使用:提供简洁的CLI命令,支持一行代码实现PDF翻译,无需复杂开发,技术用户可快速上手;
  4. 插件化扩展架构:底层采用解析+渲染的解耦架构,开发者可自定义添加新的OCR、模型、渲染器,实现功能扩展,推动PDF翻译的标准化流水线建设。

核心技术特点

  1. 双阶段处理架构:将PDF处理分为解析渲染两个独立阶段,解析阶段提取PDF的文本块、图片、表格等结构,渲染阶段将翻译后的内容重构为新PDF,保留原始版式,区别于传统工具的结构丢失问题;
  2. 中间表示层设计:生成PDF解析结果的中间表示,可灵活渲染为PDF/其他格式,解决PDF/Word在移动端阅读体验差的问题;
  3. 多模型兼容:不绑定特定大模型,仅需兼容OpenAI API即可,支持通过litellm访问多个大模型,兼顾翻译质量和成本;
  4. 高性能处理:支持异步处理、多线程工作池,可自定义线程数和QPS,平衡处理速度和接口压力,大文档拆分处理进一步提升性能。

BabelDOC是一款专为科研场景打造的开源PDF翻译工具,核心价值在于解决科技文献翻译的版式保真专业精准问题,同时兼顾易用性和工程化能力,既让普通科研人员能快速获得高保真的双语PDF,也为开发者提供了灵活的定制化和嵌入式能力,是科研工作中处理外文PDF的高效工具。

发表评论

正文
强调色