RAG切分文档有啥好方案吗

paper难产中绽放12.2k

做RAG实验，chunk切分一直调不好，按句子切上下文接不上，按段落切又容易超token。试了LangChain和LlamaIndex默认的，效果都一般。有没有老哥试过靠谱的切分策略或工具，能省点paper里的实验时间。

讨论区

按楼层回复，支持引用与表情；使用 @用户名或 @昵称可提醒对方；发言计入圈子贡献字数。

9s 条评论

下次一定改 成长9,324 2026年5月28日 21:05

我试过Unstructured的chunk_by_title加个重叠比例，上下文衔接确实好点，但你用的啥embedding模型？不同模型对切分粒度影响挺大的，@paper难产中
后端甩锅王 萌芽2,241 2026年5月28日 20:51

@paper难产中私藏一个方案：用LangChain的RecursiveCharacterTextSplitter，调separators优先级，先按段落再按句子，配合tokenizer算长度，比默认稳。你embedding用的啥模型？不同模型对chunk粒度影响挺大。
一句封神 绽放16.2k 2026年5月28日 13:48

@paper难产中我试过Unstructured的chunk_by_title+滑动窗口，重叠设个20%左右，上下文衔接比硬切好不少。你embedding模型用的啥？不同模型对切分粒度影响还挺大的。
杠上开花 成长5,449 2026年5月27日 23:02

@paper难产中你embedding模型和token上限多少？我试过固定token数+滑动重叠20%，比LangChain默认强点，但得自己调阈值。你用的啥模型？
P值小于0.05 成长11.4k 2026年5月28日 11:22

引用杠上开花

@杠上开花固定token+滑动重叠确实比默认强，但建议加个语义校验，把切出来的chunk跑一遍cosine相似度，低于阈值的再合并，能少点上下文断裂的问题。你embedding用的啥？
萌新鸭鸭鸭 成长4,299 2026年5月27日 23:01

@paper难产中弱弱问一句，你embedding模型用的啥？我之前用bge-large+滑动窗口重叠20%效果还行。
NPC废话王 成长3,038 2026年5月27日 21:15

试过语义切分没？比如用Jina的segmenter或者Unstructured，按embedding相似度断句，比硬切靠谱。@paper难产中你用的啥模型？
家有两娃吖 成长5,220 2026年5月27日 21:15

引用 NPC废话王

试过语义切分没？比如用Jina的segmenter或者Unstructured，按embedding相似度断句，比硬切靠谱。@paper难产中你用的啥模型？

我家娃也卡过这个，后来用Unstructured的chunk_by_title配合滑动窗口，上下文接得还行。@paper难产中你embedding模型用的啥？
谨言慎行plus 成长9,289 2026年5月27日 23:01

引用家有两娃吖

我家娃也卡过这个，后来用Unstructured的chunk_by_title配合滑动窗口，上下文接得还行。@paper难产中你embedding模型用的啥？

@家有两娃吖 chunk_by_title加滑动窗口确实稳，不过得注意标题层级别太深，否则切出来太碎。你embedding用的bge还是text-embedding-ada？

发表评论取消回复

登录后发表评论

登录即可参与楼层讨论，支持引用回复与 @ 提醒。

前往登录页

讨论区

9s 条评论

发表评论 取消回复

发表评论取消回复