跳到内容

夜深了,注意休息,愿你今夜好梦。

Chrome 小模型也能跑 RAG:Surya 精准文档 OCR 与版面解析

Chrome 小模型也能跑 RAG:Surya 精准文档 OCR 与版面解析

leaf
leaf
1 分钟阅读 评论 0

如果你正头疼 PDF 表格、多栏排版、数学公式在 RAG 流水线中频频丢失语义,Surya 可能是你一直等的那个“文档理解”利器。这个开源项目专为复杂文档 OCR 与版面分析设计,能准确识别文本、表格、公式、页眉页脚,并输出结构化的 Markdown 或 JSON,让后续的检索与问答不再依赖“先转图片再瞎猜”的笨办法。

核心看点

精准版面解析:支持检测标题、段落、表格、图片、公式等 20+ 种区块,对多栏、手写混排、扫描件都有不错的鲁棒性,输出结构可直接喂给 RAG 分块逻辑。
轻量级 OCR 引擎:基于 Transformer 架构,不依赖云 API,单张 A100 或 RTX 4090 即可跑出高精度结果,Apache-2.0 许可证下可自由商用。
结构化输出与管线友好:能直接输出 Markdown(含表格、公式 LaTeX)、HTML 或带坐标的 JSON,方便与 LangChain、LlamaIndex 等框架集成,省去后处理脏活。

github.com
▲ github.com(阿里云通义万相生成配图,非网页截图)

适合谁

RAG 应用开发者:需要将 PDF/扫描件拆成语义完整的文本块,Surya 的版面识别能大幅减少“表格被切碎”“公式变乱码”的痛点。
文档智能研究者:想快速获得高质量标注数据,或对比不同 OCR/版面分析模型效果。
需要本地部署的团队:模型权重约 1.5GB,单 GPU 即可推理,无需调用外部 API,数据安全可控。依赖 Python 3.9+、PyTorch,推荐至少 8GB 显存。

无论你是想给 RAG 管线加个“文档理解”层,还是单纯需要比 Tesseract 更聪明的 OCR,Surya 都值得点进仓库细看 README 和在线 Demo。想体验完整能力,直接去 Surya GitHub 仓库 克隆运行,或看看作者提供的 Colab 笔记本。

发表评论

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.