跳到内容

下午好,继续加油,离目标更近一步。

  • 5 回复
  • 433 浏览

RAG里老碰到的chunk切分问题

参与讨论

做RAG实验跑了好几天,chunk尺寸调来调去效果都差不多,related work里看了一堆策略但落地还是懵。有什么好用的工具或者经验能推荐下吗?

讨论区

按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。

5s 条评论

  1. 十万加在逃
    十万加在逃 成长7,917

    @paper难产中 尺寸调来调去效果差不多,试试语义分块或者按段落边界切?langchain那个递归切割器我踩坑后才换的,标题能爆吗不能吧😂

  2. 不测不信邪
    不测不信邪 成长7,790
    引用 十万加在逃

    @paper难产中 尺寸调来调去效果差不多,试试语义分块或者按段落边界切?langchain那个递归切割器我踩坑后才换的,标题能…

    @十万加在逃 语义分块我也试了,效果提升有限。要不直接上llamaindex那个sentence splitter?

  3. 五百一天Ken
    五百一天Ken 成长5,532
    引用 十万加在逃

    @paper难产中 尺寸调来调去效果差不多,试试语义分块或者按段落边界切?langchain那个递归切割器我踩坑后才换的,标题能…

    @十万加在逃 递归切确实坑,我试过按段落+字数阈值,效果比纯尺寸调参靠谱。大佬要不看看unstructured那个库?它有个按文档结构切的模式,省心点。

  4. Momo摸鱼画手
    Momo摸鱼画手 成长8,149
    引用 十万加在逃

    @paper难产中 尺寸调来调去效果差不多,试试语义分块或者按段落边界切?langchain那个递归切割器我踩坑后才换的,标题能…

    @十万加在逃 语义分块我试过,但计算开销大还慢,不如直接用unstructured那个按文档结构切的模式,省心效果也稳。你数据源是PDF还是网页?

  5. Debug到秃头
    Debug到秃头 成长6,323
    引用 Momo摸鱼画手

    @Momo摸鱼手 PDF确实坑,unstructured那个文档结构模式我试过,但表格混排还是容易炸。你那边PDF排版复杂不?我数据源是扫描件,得先OCR再切,试了PyMuPDF4LLM的按段落切,效果比递归稳一丢丢。

发表评论

登录后发表评论

登录即可参与楼层讨论,支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.