跳到内容

中午好,记得休息片刻,补充能量。

  • 11 回复
  • 331 浏览

安利一个能白嫖的本地OCR项目

参与讨论

私藏一个叫PaddleOCR的开源项目,百度出的,GitHub链接:https://github.com/PaddlePaddle/PaddleOCR。部署巨简单,pip install就跑起来,识别合同截图准确率吓人,关键免费,比那些按次收费的云API香多了。

别外传哈,踩坑点:如果电脑没GPU,记得加参数–use_gpu false,不然报错卡半天。我自己用来转扫描件成word,省了手动敲键盘的时间,爽。

讨论区

按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。

11s 条评论

  1. 不测不信邪
    不测不信邪 成长7,692

    @周报难产中,PaddleOCR 确实稳。补充一句:模型文件第一次会自动下,要是墙了手动下权重丢~/.paddleocr 里。我拿它怼过发票,比收费的 ABBYY 差不了多少。

  2. P值小于0.05
    P值小于0.05 成长5,789
    引用 不测不信邪

    补个docker版的坑:`docker pull paddlepaddle/paddleocr` 直接跑,省得环境炸裂。这玩意我试过200张扫描件,识别率大概96%,比云端稳定。@不测不信邪 你发票那个版本号多少?2.7的表格识别有bug。

  3. 冷幽默供应商
    冷幽默供应商 新芽203
    引用 P值小于0.05

    补个docker版的坑:`docker pull paddlepaddle/paddleocr` 直接跑,省得环境炸裂。这玩意我试过200张扫描件,识别率大概96%,比云端…

    @P值小于0.05 表格识别bug是2.7的通病,我切回2.6就稳了。docker跑确实省事,不过第一次拉镜像有点慢,有没有平替的轻量镜像?

  4. 咖啡续命中
    咖啡续命中 萌芽1,007
    引用 P值小于0.05

    补个docker版的坑:`docker pull paddlepaddle/paddleocr` 直接跑,省得环境炸裂。这玩意我试过200张扫描件,识别率大概96%,比云端…

    @P值小于0.05 2.6确实稳,我dockerfile里直接锁定`paddleocr==2.6.1.3`,省得升级后踩表格bug的坑。镜像的话试试`paddlepaddle/paddleocr:2.6`这个tag,小不少。

  5. 不测不信邪
    不测不信邪 成长7,692
    引用 咖啡续命中

    @P值小于0.05 2.6确实稳,我dockerfile里直接锁定`paddleocr==2.6.1.3`,省得升级后踩表格bug的坑。镜像的话试试`paddlepaddle/paddleocr:…

    @咖啡续命中 2.6.1.3 确实稳,我在 alpine 上装过,加个 `--no-cache-dir` 能省不少空间。有人试过 triton 推理服务器没?听说能再压一波延迟。

  6. Momo摸鱼画手
    Momo摸鱼画手 成长8,040
    引用 咖啡续命中

    @P值小于0.05 2.6确实稳,我dockerfile里直接锁定`paddleocr==2.6.1.3`,省得升级后踩表格bug的坑。镜像的话试试`paddlepaddle/paddleocr:…

    刚试了docker跑,真香。@咖啡续命中 锁定版本那个方法学到了,我直接改dockerfile里加一行就搞定

  7. 平替猎人
    平替猎人 成长3,181
    引用 Momo摸鱼画手

    刚试了docker跑,真香。@咖啡续命中 锁定版本那个方法学到了,我直接改dockerfile里加一行就搞定

    @Momo摸鱼画手 装了2.6.1.3的话,表格识别记得切`--table_model_dir`指定2.6版模型,不然还是可能崩。有人试过在CPU上跑2.6那个`--rec`参数没?我这边一开就吃满

  8. BurnRate老王
    BurnRate老王 成长5,119
    引用 平替猎人

    @Momo摸鱼画手 装了2.6.1.3的话,表格识别记得切`--table_model_dir`指定2.6版模型,不然还是可能崩。有人试过在CPU上跑2.6那个`-…

    @平替猎人 CPU上跑rec用2.6版,加`--rec_model_dir`指定2.6的权重文件,或者直接降级到2.5.0,那个版本CPU友好还不吃满。我试过100张合同,rec准确率92%左右。

  9. 五百一天Ken
    五百一天Ken 成长5,532
    引用 P值小于0.05

    补个docker版的坑:`docker pull paddlepaddle/paddleocr` 直接跑,省得环境炸裂。这玩意我试过200张扫描件,识别率大概96%,比云端…

    @P值小于0.05 2.7表格bug我踩了一周,切回2.6+指定模型权重就稳了。预算紧的兄弟直接pip装2.6.1.3,别升。

  10. 佛系打工人
    佛系打工人 成长3,426
    引用 五百一天Ken

    @P值小于0.05 2.7表格bug我踩了一周,切回2.6+指定模型权重就稳了。预算紧的兄弟直接pip装2.6.1.3,别升。

    @五百一天Ken 2.6.1.3 确实稳,我直接 pip install paddleocr==2.6.1.3 锁死,表格识别没崩过。有人试过 triton 推理没?想压一波 CPU 延迟看看。

  11. 需求又改了
    需求又改了 成长5,756
    引用 五百一天Ken

    @P值小于0.05 2.7表格bug我踩了一周,切回2.6+指定模型权重就稳了。预算紧的兄弟直接pip装2.6.1.3,别升。

    五百一天Ken 正解,2.6.1.3 稳如老狗。另外补充个坑:装之前先 `pip install opencv-python-headless`,不然缺依赖炸得飞起。

发表评论

登录后发表评论

登录即可参与楼层讨论,支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.