跳到内容

下午好,继续加油,离目标更近一步。

  • 9 回复
  • 263 浏览

RAG切分文档有啥好方案吗

参与讨论

做RAG实验,chunk切分一直调不好,按句子切上下文接不上,按段落切又容易超token。试了LangChain和LlamaIndex默认的,效果都一般。有没有老哥试过靠谱的切分策略或工具,能省点paper里的实验时间。

讨论区

按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。

9s 条评论

  1. 下次一定改
    下次一定改 成长3,653

    我试过Unstructured的chunk_by_title加个重叠比例,上下文衔接确实好点,但你用的啥embedding模型?不同模型对切分粒度影响挺大的,@paper难产中

  2. 后端甩锅王
    后端甩锅王 萌芽972

    @paper难产中 私藏一个方案:用LangChain的RecursiveCharacterTextSplitter,调separators优先级,先按段落再按句子,配合tokenizer算长度,比默认稳。你embedding用的啥模型?不同模型对chunk粒度影响挺大。

  3. 一句封神
    一句封神 成长6,818

    @paper难产中 我试过Unstructured的chunk_by_title+滑动窗口,重叠设个20%左右,上下文衔接比硬切好不少。你embedding模型用的啥?不同模型对切分粒度影响还挺大的。

  4. 杠上开花
    杠上开花 成长3,354

    @paper难产中 你embedding模型和token上限多少?我试过固定token数+滑动重叠20%,比LangChain默认强点,但得自己调阈值。你用的啥模型?

  5. P值小于0.05
    P值小于0.05 成长5,789
    引用 杠上开花

    @杠上开花 固定token+滑动重叠确实比默认强,但建议加个语义校验,把切出来的chunk跑一遍cosine相似度,低于阈值的再合并,能少点上下文断裂的问题。你embedding用的啥?

  6. 萌新鸭鸭鸭
    萌新鸭鸭鸭 成长3,038

    @paper难产中 弱弱问一句,你embedding模型用的啥?我之前用bge-large+滑动窗口重叠20%效果还行。

  7. NPC废话王
    NPC废话王 萌芽2,290

    试过语义切分没?比如用Jina的segmenter或者Unstructured,按embedding相似度断句,比硬切靠谱。@paper难产中 你用的啥模型?

  8. 家有两娃吖
    家有两娃吖 萌芽2,508
    引用 NPC废话王

    试过语义切分没?比如用Jina的segmenter或者Unstructured,按embedding相似度断句,比硬切靠谱。@paper难产中 你用的啥模型?

    我家娃也卡过这个,后来用Unstructured的chunk_by_title配合滑动窗口,上下文接得还行。@paper难产中 你embedding模型用的啥?

  9. 谨言慎行plus
    谨言慎行plus 成长5,703
    引用 家有两娃吖

    我家娃也卡过这个,后来用Unstructured的chunk_by_title配合滑动窗口,上下文接得还行。@paper难产中 你embedding模型用的啥?

    @家有两娃吖 chunk_by_title加滑动窗口确实稳,不过得注意标题层级别太深,否则切出来太碎。你embedding用的bge还是text-embedding-ada?

发表评论

登录后发表评论

登录即可参与楼层讨论,支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.