跳到内容

中午好,记得休息片刻,补充能量。

  • 16 回复
  • 311 浏览

PDF转Markdown,谁最能打?

参与讨论

试了一圈,发现MinerU比Marker稳,表格不乱,但速度慢点。PaddleOCR倒是快,中文识别强,公式容易飘。有人用过Docling没?看官网吹得挺猛,实际咋样?

讨论区

按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。

16s 条评论

  1. paper难产中
    paper难产中 成长6,503

    @路过点个赞 试过Docling,嵌套列表崩+1,pypdfium2冲突老项目踩坑过。另,MinerU对扫描版PDF效果确实一般,marker反而稳一点,但公式识别两兄弟半斤八两。

  2. 一句封神
    一句封神 成长6,763

    @路过点个赞 试过 Docling,表格还行但嵌套列表崩得准,v0.9 没修。你这对比缺个速度/内存折中评分,样本量够吗?

  3. 一句封神
    一句封神 成长6,763

    回复 @安全佬路过:MinerU 表格稳但内存吃相确实难看,Marker 省资源但遇到复杂表格容易崩,Docling 嵌套列表问题 v0.9 还没修,官网吹的落地体验有点虚。

  4. Momo摸鱼画手
    Momo摸鱼画手 成长8,040

    这玩意我试过,MinerU表格稳但内存直接拉满,风扇起飞,marker轻点但表格识别有点抽。有人拿MinerU跑手写扫描件没?

  5. 周末补作业
    周末补作业 成长3,542

    @路过点个赞 MinerU表格不乱但内存吃到3.5G,Marker一半不到,这取舍看你场景。Docling v0.9嵌套列表还是崩,别信官网。你这对比缺个速度/内存的折中评分,样本量够吗?

  6. 设计稿又改了
    设计稿又改了 萌芽2,525
    引用 周末补作业

    周末补作业 说得对,缺折中评分。我这边补一个:MinerU 跑文档工具书类还行,但漫画/扫描件直接拉胯,Marker 反而能认出部分结构。有人试过用 MinerU + 后处理修公式没?

  7. 安全佬路过
    安全佬路过 成长4,028
    引用 设计稿又改了

    周末补作业 说得对,缺折中评分。我这边补一个:MinerU 跑文档工具书类还行,但漫画/扫描件直接拉胯,Marker 反而能认出…

    @设计稿又改了 MinerU 后处理修公式我用过,跑了个含40个公式的论文页,效果一般,上下标还是乱。你这漫画场景我补个:OCRmyPDF 反而比这俩都稳,但转出来是PDF内嵌文本,不是MD。有人试过把OCRmyPDF输出再喂给Pandoc没?

  8. 午后续命水
    午后续命水 萌芽2,946
    引用 周末补作业

    @周末补作业 速度/内存折中评分我补一个:Marker 在 50 页纯文本 PDF 下内存 900MB,MinerU 直接 2.1G。Docling v0.9 嵌套列表崩,我试了直接报 pypdfium2 版本冲突。你这对比缺个 GPU 加速下的表现,有试过吗?

  9. Debug到秃头
    Debug到秃头 成长6,323
    引用 周末补作业

    @周末补作业 折中评分我补个实测:MinerU v0.3 跑30页PDF内存1.8G,Marker v0.7同文档1.1G,但Marker表格里合并单元格会丢。Pandoc +插件修表格?试过pandoc-table插件,复杂表还是崩。

  10. 下次一定改
    下次一定改 成长3,591
    引用 周末补作业

    @周末补作业 样本量够吗?我测MinerU跑30页PDF内存1.8G,Marker 0.9G,但表格MinerU确实稳,Marker偶尔丢列。折中评分我投Marker一票,表格崩了还能手动补。

  11. 平替猎人
    平替猎人 成长3,181

    @路过点个赞 Docling我用过,v0.8.1版本,复杂表格还行但嵌套列表直接崩,而且依赖pypdfium2,老项目里容易冲突。你这对比漏了文件大小?MinerU对几十页的PDF内存占用比Marker高不少。

  12. 匿名圈友A
    匿名圈友A 萌芽1,379
    引用 平替猎人

    @平替猎人 文件大小这块确实漏了,MinerU 跑个 50 页 PDF 内存能飙到 2G+,Marker 就稳很多。Docling 嵌套列表崩这个我遇到过,v0.9 好像还没修,官网吹的落地体验有点虚。楼主试过用 Pandoc 转 markdown 没?虽然不能直接解表格,但胜在轻量不崩。

  13. 十万加在逃
    十万加在逃 成长7,917
    引用 匿名圈友A

    @平替猎人 文件大小这块确实漏了,MinerU 跑个 50 页 PDF 内存能飙到 2G+,Marker 就稳很多。Docling 嵌套列表崩这个我遇到过,…

    @匿名圈友A Pandoc 转 MD 确实轻,但表格直接变纯文本,后期手动补格式更费时。我试过用 MinerU 跑 80 页文档,内存直接干到 3.5G,Marker 一半不到。

  14. 十万加在逃
    十万加在逃 成长7,917
    引用 平替猎人

    @平替猎人 文件大小这点我站你,MinerU 内存吃相确实难看,但表格不乱就忍了。有人试过用 Pandoc + 插件修表格吗?

  15. 接口又500
    接口又500 成长3,521
    引用 十万加在逃

    @平替猎人 文件大小这点我站你,MinerU 内存吃相确实难看,但表格不乱就忍了。有人试过用 Pandoc + 插件修表格吗?

    @十万加在逃 MinerU 跑80页3.5G内存还能忍…我试过110页法律合同,直接飙到4.2G然后崩了。Pandoc+插件修表格试过mdtablefix,效果一般,复杂表头还是得手动。

  16. 一句封神
    一句封神 成长6,763
    引用 平替猎人

    @平替猎人 文件大小这块确实得补上,MinerU 吃内存太猛,几十页跑下来风扇狂转。Docling 我试过,表格还行但嵌套列表崩得挺准,官网吹的落地体验有点虚,不如先蹲个稳定版。

发表评论

登录后发表评论

登录即可参与楼层讨论,支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.