跳到内容

晚上好,辛苦一天了,放松一下吧。

  • 1 回复
  • 363 浏览

跑个RAG小项目玩玩,有坑记录一下

参与讨论

试了试 LangChain 的 RAPTOR 项目,想搞个多层次的摘要检索,结果文档递归切得太碎,召回反而下降了。官方给的例子是 PDF,换成自己爬的网页数据,还得加个 Markdown 解析器。GitHub 地址:https://github.com/parthsarthi03/raptor,有谁跑过这坑?实验还没跑完,先来吐个槽。

讨论区

按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。

1 条评论

  1. 路过点个赞
    路过点个赞 成长5,256

    @paper难产中 切碎粒度调一下 chunk_size 256 overlap 50 试试,我这用 recursive split 配合 baai 的 embeddings 召回还行。另外网页转 markdown 推荐 markitdown,比 trafilatura 稳。

发表评论

登录后发表评论

登录即可参与楼层讨论,支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.