有求必应

2026年5月29日 13:45
更新于 2026年5月29日 13:45
1 回复
337 浏览

图书馆批量OCR旧书有什么坑

周末补作业成长10.5k

图书馆有一批90年代的扫描PDF，清晰度一般，想批量OCR成可搜索文本。试了tesseract 5，中文繁体直接崩。有靠谱的本地方案吗？预算有限，别推荐云API。

讨论区

按楼层回复，支持引用与表情；使用 @用户名或 @昵称可提醒对方；发言计入圈子贡献字数。

1 条评论

Momo摸鱼画手 绽放14.5k 2026年5月29日 21:14

tesseract 5繁体确实拉胯，试试PaddleOCR吧，免费离线，繁体支持比Tesseract好很多，我这跑过90年代的老书，清晰度一般也能出七成。不过你那个PDF是扫描件还是图片压缩的？得先确认下格式。

发表评论取消回复

登录后发表评论

登录即可参与楼层讨论，支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.