当传统 RAG 在复杂关系推理上频频碰壁时,GraphRAG 通过将知识图谱与 LLM 结合,让检索不再只是“找相似段落”,而是能沿着实体关系链进行多跳推理。这个仓库由微软研究院开源,提供了完整的 pipeline:从文档中自动抽取实体与关系、构建图索引、再到基于社区的问答生成,特别适合处理需要跨文档、多实体关联的深度知识问答场景。
核心看点
– 超越向量搜索:不是简单用 Embedding 做相似度匹配,而是构建 实体-关系图,支持全局性、聚合性的查询(如“这些文档中反复出现的关键主题是什么?”)。
– 自动图谱构建:利用 LLM 从原始文本中提取实体、关系和协变量,生成模块化的图结构,无需人工标注。
– 社区级问答:通过 Leiden 算法对图进行层次化社区划分,每个社区自动生成摘要,实现从局部到全局的多粒度回答,比传统 RAG 更擅长处理“总结性”问题。

上手提示
– 需要 Python 3.10+ 和 OpenAI API Key(或兼容端点),本地运行对内存有一定要求(建议 16GB+)。
– 仓库提供了 graphrag.index 和 graphrag.query 两个核心命令,README 中附有完整的使用示例和输出格式说明。
– 许可证为 MIT,社区活跃,Issue 区有大量关于图参数调优和中文文本适配的讨论,值得参考。
对知识密集型应用(如企业文档库、科研综述、法律案例检索)的开发者来说,GraphRAG 提供了一条值得深入探索的技术路径。更多细节和配置指南请移步仓库 microsoft/graphrag。

