安利一个能白嫖的本地OCR项目

私藏一个叫PaddleOCR的开源项目，百度出的，GitHub链接：https://github.com/PaddlePaddle/PaddleOCR。部署巨简单，pip install就跑起来，识别合同截图准确率吓人，关键免费，比那些按次收费的云API香多了。

别外传哈，踩坑点：如果电脑没GPU，记得加参数–use_gpu false，不然报错卡半天。我自己用来转扫描件成word，省了手动敲键盘的时间，爽。

讨论区

按楼层回复，支持引用与表情；使用 @用户名或 @昵称可提醒对方；发言计入圈子贡献字数。

17s 条评论

一句封神 绽放16.2k 2026年6月12日 13:46

@运维祭天 PaddleOCR确实香，我补个离线部署的坑：初次运行要联网下载模型，如果离线环境可以手动下载权重丢到~/.paddleocr/whl目录下。
不测不信邪 绽放15.7k 2026年6月7日 13:00

@周报难产中，PaddleOCR 确实稳。补充一句：模型文件第一次会自动下，要是墙了手动下权重丢~/.paddleocr 里。我拿它怼过发票，比收费的 ABBYY 差不了多少。
P值小于0.05 成长11.4k 2026年6月7日 22:53

引用不测不信邪

补个docker版的坑：`docker pull paddlepaddle/paddleocr` 直接跑，省得环境炸裂。这玩意我试过200张扫描件，识别率大概96%，比云端稳定。@不测不信邪你发票那个版本号多少？2.7的表格识别有bug。
冷幽默供应商 萌芽1,397 2026年6月7日 22:53

引用 P值小于0.05

补个docker版的坑：`docker pull paddlepaddle/paddleocr` 直接跑，省得环境炸裂。这玩意我试过200张扫描件，识别率大概96%，比云端…

@P值小于0.05 表格识别bug是2.7的通病，我切回2.6就稳了。docker跑确实省事，不过第一次拉镜像有点慢，有没有平替的轻量镜像？
咖啡续命中 成长10.6k 2026年6月8日 18:21

引用 P值小于0.05

补个docker版的坑：`docker pull paddlepaddle/paddleocr` 直接跑，省得环境炸裂。这玩意我试过200张扫描件，识别率大概96%，比云端…

@P值小于0.05 2.6确实稳，我dockerfile里直接锁定`paddleocr==2.6.1.3`，省得升级后踩表格bug的坑。镜像的话试试`paddlepaddle/paddleocr:2.6`这个tag，小不少。
不测不信邪 绽放15.7k 2026年6月8日 18:21

引用咖啡续命中

@P值小于0.05 2.6确实稳，我dockerfile里直接锁定`paddleocr==2.6.1.3`，省得升级后踩表格bug的坑。镜像的话试试`paddlepaddle/paddleocr:…

@咖啡续命中 2.6.1.3 确实稳，我在 alpine 上装过，加个 `--no-cache-dir` 能省不少空间。有人试过 triton 推理服务器没？听说能再压一波延迟。
Momo摸鱼画手 绽放14.5k 2026年6月8日 22:21

引用咖啡续命中

@P值小于0.05 2.6确实稳，我dockerfile里直接锁定`paddleocr==2.6.1.3`，省得升级后踩表格bug的坑。镜像的话试试`paddlepaddle/paddleocr:…

刚试了docker跑，真香。@咖啡续命中锁定版本那个方法学到了，我直接改dockerfile里加一行就搞定
平替猎人 成长10.5k 2026年6月9日 11:10

引用 Momo摸鱼画手

刚试了docker跑，真香。@咖啡续命中锁定版本那个方法学到了，我直接改dockerfile里加一行就搞定

@Momo摸鱼画手装了2.6.1.3的话，表格识别记得切`--table_model_dir`指定2.6版模型，不然还是可能崩。有人试过在CPU上跑2.6那个`--rec`参数没？我这边一开就吃满
BurnRate老王 成长11.1k 2026年6月10日 11:28

引用平替猎人

@Momo摸鱼画手装了2.6.1.3的话，表格识别记得切`--table_model_dir`指定2.6版模型，不然还是可能崩。有人试过在CPU上跑2.6那个`-…

@平替猎人 CPU上跑rec用2.6版，加`--rec_model_dir`指定2.6的权重文件，或者直接降级到2.5.0，那个版本CPU友好还不吃满。我试过100张合同，rec准确率92%左右。
强迫症晚期 成长11.7k 2026年6月10日 12:51

引用平替猎人

@Momo摸鱼画手装了2.6.1.3的话，表格识别记得切`--table_model_dir`指定2.6版模型，不然还是可能崩。有人试过在CPU上跑2.6那个`-…

@平替猎人 CPU上跑2.6.1.3的话，`--rec`吃满正常，加`--rec_batch_num=1`能降点负载，识别率几乎不掉。我之前在i5-8400上试过，单张图慢3秒但不会崩。
不测不信邪 绽放15.7k 2026年6月10日 17:59

引用平替猎人

@Momo摸鱼画手装了2.6.1.3的话，表格识别记得切`--table_model_dir`指定2.6版模型，不然还是可能崩。有人试过在CPU上跑2.6那个`-…

@平替猎人 CPU 开 rec 参数可以试试 `--rec_batch_num=1`，能降内存占用，我 8 代 i5 跑文档勉强能动。
粉笔没落灰 绽放13.2k 2026年6月12日 11:11

引用平替猎人

@Momo摸鱼画手装了2.6.1.3的话，表格识别记得切`--table_model_dir`指定2.6版模型，不然还是可能崩。有人试过在CPU上跑2.6那个`-…

班上孩子用PaddleOCR做社团作业，没GPU的笔记本记得加参数--use_gpu false，不然pip装完跑起来直接卡死。@平替猎人 CPU上--rec参数吃满的话，试试用--rec_char_dict_path指定轻量字典文件，能省点资源。
五百一天Ken 成长11.9k 2026年6月9日 16:42

引用 P值小于0.05

补个docker版的坑：`docker pull paddlepaddle/paddleocr` 直接跑，省得环境炸裂。这玩意我试过200张扫描件，识别率大概96%，比云端…

@P值小于0.05 2.7表格bug我踩了一周，切回2.6+指定模型权重就稳了。预算紧的兄弟直接pip装2.6.1.3，别升。
佛系打工人 成长10.1k 2026年6月9日 22:48

引用五百一天Ken

@P值小于0.05 2.7表格bug我踩了一周，切回2.6+指定模型权重就稳了。预算紧的兄弟直接pip装2.6.1.3，别升。

@五百一天Ken 2.6.1.3 确实稳，我直接 pip install paddleocr==2.6.1.3 锁死，表格识别没崩过。有人试过 triton 推理没？想压一波 CPU 延迟看看。
需求又改了 成长11.7k 2026年6月10日 09:14

引用五百一天Ken

@P值小于0.05 2.7表格bug我踩了一周，切回2.6+指定模型权重就稳了。预算紧的兄弟直接pip装2.6.1.3，别升。

五百一天Ken 正解，2.6.1.3 稳如老狗。另外补充个坑：装之前先 `pip install opencv-python-headless`，不然缺依赖炸得飞起。
接口又500 成长10.1k 2026年6月12日 11:23

引用五百一天Ken

@P值小于0.05 2.7表格bug我踩了一周，切回2.6+指定模型权重就稳了。预算紧的兄弟直接pip装2.6.1.3，别升。

@五百一天Ken 2.6.1.3 确实稳，pip 装完直接跑。有人试过用 `--rec_char_dict_path` 换自定义字典吗？
粉笔没落灰 绽放13.2k 2026年6月11日 21:04

引用 P值小于0.05

补个docker版的坑：`docker pull paddlepaddle/paddleocr` 直接跑，省得环境炸裂。这玩意我试过200张扫描件，识别率大概96%，比云端…

@P值小于0.05 我班上孩子拿2.7跑作业识别，表格乱成一锅粥，切回2.6.1.3立马正常，pip安装记得加 `paddleocr==2.6.1.3` 锁版本。

发表评论取消回复

登录后发表评论

登录即可参与楼层讨论，支持引用回复与 @ 提醒。

前往登录页

讨论区

17s 条评论

发表评论 取消回复

发表评论取消回复