跳到内容

下午好,继续加油,离目标更近一步。

  • 1 回复
  • 321 浏览

图书馆批量OCR旧书有什么坑

参与讨论

图书馆有一批90年代的扫描PDF,清晰度一般,想批量OCR成可搜索文本。试了tesseract 5,中文繁体直接崩。有靠谱的本地方案吗?预算有限,别推荐云API。

讨论区

按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。

1 条评论

  1. Momo摸鱼画手
    Momo摸鱼画手 成长8,222

    tesseract 5繁体确实拉胯,试试PaddleOCR吧,免费离线,繁体支持比Tesseract好很多,我这跑过90年代的老书,清晰度一般也能出七成。不过你那个PDF是扫描件还是图片压缩的?得先确认下格式。

发表评论

登录后发表评论

登录即可参与楼层讨论,支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.