跳到内容

早上好,祝你今天高效顺利。

GitHub项目

共 65 篇文章

GitHub项目

SWE-agent:让 LLM 自动修 GitHub Issue 的智能体框架

开发者最头疼的日常之一:打开 Issue 列表,面对一堆复现步骤和报错日志。SWE-agent 直接把 LLM 变成了能读代码、写补丁、跑测试的“虚拟工程师”——给定一个 GitHub Issue,它能自主理解仓库结构、编辑文件、执行命令,最终提交修复 PR。适合想用 AI 自动化代码维护的团队、研究 LLM 工具调用能力的开发者,以及任何被 Issue 淹没的开源维护者。核心看点- 端到端 Issue 修复:输入 Issue 链接,智能体会自动克隆仓库、定位相关文件、生成 diff 补丁,甚至尝试运行测试验证修复是否正确。实测在 SWE-bench 基准上达到 12.3% 的解决率(2024 年初数据),远超之前的方法。 - 可定制的 Agent-Computer 接口:框架将 LLM 与 Linux 环境(bash、文件系统、编辑器)解耦,你可以替换底层模型(GPT-4、Claude 等),或自定义工具集——比如只允许读取代码而不允许执行。 - 完整的反馈循环:每次代码编辑后,Agent 会读取错误输出或测试结果,迭代修改直到通过。整个过程透明可追溯,所有交互日志都保存在本地。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁- 想用 LLM 自动化代码 BUG 修复的团队,需要 README 中的 Docker 环境(无需 GPU,但推荐 16GB+ RAM)。 - 研究 Agent 工具调用与规划的研究者,仓库提供了详细的论文复现脚本和评估数据集。 - 注意:目前主要面向 Python 代码库,且需要 GitHub 令牌(用于克隆仓库)和 OpenAI / Anthropic API Key。想立刻让 LLM 帮你修一个 Issue?直接访问仓库首页 SWE-agent,用 pip install sweagent 开始体验。别忘了先看 examp…

GitHub项目

Chrome 小模型也能跑 RAG:Surya 精准文档 OCR 与版面解析

如果你正头疼 PDF 表格、多栏排版、数学公式在 RAG 流水线中频频丢失语义,Surya 可能是你一直等的那个“文档理解”利器。这个开源项目专为复杂文档 OCR 与版面分析设计,能准确识别文本、表格、公式、页眉页脚,并输出结构化的 Markdown 或 JSON,让后续的检索与问答不再依赖“先转图片再瞎猜”的笨办法。核心看点- 精准版面解析:支持检测标题、段落、表格、图片、公式等 20+ 种区块,对多栏、手写混排、扫描件都有不错的鲁棒性,输出结构可直接喂给 RAG 分块逻辑。 - 轻量级 OCR 引擎:基于 Transformer 架构,不依赖云 API,单张 A100 或 RTX 4090 即可跑出高精度结果,Apache-2.0 许可证下可自由商用。 - 结构化输出与管线友好:能直接输出 Markdown(含表格、公式 LaTeX)、HTML 或带坐标的 JSON,方便与 LangChain、LlamaIndex 等框架集成,省去后处理脏活。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁- RAG 应用开发者:需要将 PDF/扫描件拆成语义完整的文本块,Surya 的版面识别能大幅减少“表格被切碎”“公式变乱码”的痛点。 - 文档智能研究者:想快速获得高质量标注数据,或对比不同 OCR/版面分析模型效果。 - 需要本地部署的团队:模型权重约 1.5GB,单 GPU 即可推理,无需调用外部 API,数据安全可控。依赖 Python 3.9+、PyTorch,推荐至少 8GB 显存。无论你是想给 RAG 管线加个“文档理解”层,还是单纯需要比 Tesseract 更聪明的 OCR,Surya 都值得点进仓库细看 README 和在线 Demo。想体验完整能力,直接去 Surya GitHub 仓库 克隆运行,或看看作者提供的 Colab 笔记本。

GitHub项目

ChatGLM3 开源大模型:智谱AI最新对话与推理利器

如果你正在寻找一个兼顾对话流畅度与复杂推理能力的中文大模型,智谱AI开源的ChatGLM3值得一试。它基于GLM架构,在对话、工具调用和代码生成上表现均衡,尤其适合开发者快速集成到业务中,或研究者探索模型微调。核心看点- 增强的对话与推理:相比前代,ChatGLM3在长文本理解和多轮对话上更稳定,支持更复杂的逻辑推理任务,如数学题解答和代码调试。 - 灵活的部署与微调支持:提供多种尺寸(6B、130B等),可基于Transformer库快速加载;社区已有大量LoRA微调教程,降低定制门槛。 - 工具调用与多模态扩展:模型原生支持通过Function Call调用外部工具,并兼容视觉模块(如CogView),适合构建Agent或图文应用。▲ github.com(阿里云通义万相生成配图,非网页截图)上手提示推荐在至少16GB显存的GPU上运行6B版本,或使用量化方案(如GPTQ)降低资源需求。无需额外API Key,模型权重以Apache-2.0许可开源,可直接从Hugging Face下载。若需微调,建议参考官方示例准备数据集。想深入了解架构细节或社区贡献的插件生态?直接访问 ChatGLM3 GitHub 仓库,README中附有快速启动脚本和模型卡链接。

GitHub项目

CrewAI:多Agent协作框架让AI团队像人类一样分工

还在为单个大模型无法完成复杂任务而烦恼?CrewAI 帮你组建一支「AI 特工队」——通过角色定义、任务分配和流程编排,让多个 Agent 像人类团队一样协作完成端到端工作流。无论是写代码、做调研还是生成报告,它都能让每个 Agent 各司其职,省去你手动调度模型的麻烦。核心看点- 角色化 Agent 设计:为每个 Agent 分配角色(如研究员、写手、审核员)、目标和背景故事,让模型行为更可预测,协作更自然。 - 灵活的流程控制:支持顺序执行、层级管理和自定义路由,轻松编排复杂任务链,还能嵌入工具调用(搜索、API、代码执行)。 - 轻量且可扩展:基于 Python,依赖简单,可无缝对接 OpenAI、Anthropic 或本地模型(通过 Ollama),适合快速原型到生产部署。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁- 开发者:想快速搭建多 Agent 应用(如自动化报告生成、客服系统),无需从零设计编排逻辑。 - 研究者:试验多 Agent 协作模式(如辩论、共识机制),CrewAI 提供开箱即用的角色与记忆模块。 - 爱好者:在本地用 Ollama 跑开源模型,体验 Agent 团队如何协同工作。无需 GPU,普通 CPU 即可运行小模型。CrewAI 的文档和示例仓库非常完善,从「Hello World」到复杂工作流都有保姆级教程。建议直接去 GitHub 看示例代码和社区讨论,感受一下多 Agent 协作的魔力:CrewAI 仓库

GitHub项目

RAG 新范式:用 GraphRAG 实现知识图谱驱动的检索增强生成,告别简单向量搜索

当传统 RAG 在复杂关系推理上频频碰壁时,GraphRAG 通过将知识图谱与 LLM 结合,让检索不再只是“找相似段落”,而是能沿着实体关系链进行多跳推理。这个仓库由微软研究院开源,提供了完整的 pipeline:从文档中自动抽取实体与关系、构建图索引、再到基于社区的问答生成,特别适合处理需要跨文档、多实体关联的深度知识问答场景。核心看点- 超越向量搜索:不是简单用 Embedding 做相似度匹配,而是构建 实体-关系图,支持全局性、聚合性的查询(如“这些文档中反复出现的关键主题是什么?”)。 - 自动图谱构建:利用 LLM 从原始文本中提取实体、关系和协变量,生成模块化的图结构,无需人工标注。 - 社区级问答:通过 Leiden 算法对图进行层次化社区划分,每个社区自动生成摘要,实现从局部到全局的多粒度回答,比传统 RAG 更擅长处理“总结性”问题。▲ github.com(阿里云通义万相生成配图,非网页截图)上手提示- 需要 Python 3.10+ 和 OpenAI API Key(或兼容端点),本地运行对内存有一定要求(建议 16GB+)。 - 仓库提供了 graphrag.index 和 graphrag.query 两个核心命令,README 中附有完整的使用示例和输出格式说明。 - 许可证为 MIT,社区活跃,Issue 区有大量关于图参数调优和中文文本适配的讨论,值得参考。对知识密集型应用(如企业文档库、科研综述、法律案例检索)的开发者来说,GraphRAG 提供了一条值得深入探索的技术路径。更多细节和配置指南请移步仓库 microsoft/graphrag。

GitHub项目

OpenVoice: 即时语音克隆,仅需短音频即可生成多语言语音

如果你在寻找一个能快速克隆任意说话人音色、并支持多语言语音生成的工具,OpenVoice 值得一试。由 myshell-ai 开源,它只需几秒的参考音频就能捕捉语音特征,并独立控制音色、情感与口音,非常适合语音合成、虚拟角色配音等场景。核心看点- 即时音色克隆:无需大量训练数据,上传一段短音频即可提取说话人特征,生成与目标音色高度一致的语音。 - 细粒度控制:可独立调节情感(如平静、快乐)和口音(如美式、英式),并支持跨语言(中、英、日、法等)合成。 - 轻量部署:基于 PyTorch,模型体积较小,在消费级 GPU(如 RTX 3090)上即可运行,并提供清晰的推理脚本。▲ github.com(阿里云通义万相生成配图,非网页截图)上手提示推荐使用 Python 3.8+ 和 PyTorch 1.13+,有 GPU 可大幅加速推理。无需外部 API Key,所有模型权重随仓库发布(遵循 MIT 许可证)。适合语音 AI 开发者、内容创作者和研究者快速集成语音克隆能力。更多细节与示例音频请查看仓库 README,动手试试你的第一个音色克隆:OpenVoice GitHub 仓库

GitHub项目

让 LLM 学会联网搜索:Tavily 开源 RAG 工具链,精准抓取实时信息

当大模型遇到知识截止日期或需要查询最新新闻、股价、天气时,Tavily 提供了一套轻量级的 RAG 工具链,专为 LLM Agent 设计。它并非简单的搜索引擎包装,而是自动提取搜索结果中的关键段落、过滤广告、并返回结构化 JSON,让模型能直接消费。如果你在构建需要实时信息的聊天机器人或自动化决策系统,这个仓库能省去大量爬虫和文本清洗的脏活。核心看点- Agent 原生接口:输出为 {query, answer, results, response_time} 格式,可直接喂给 LangChain / LlamaIndex 的 Tool 节点,无需额外解析。 - 智能内容提取:自动从搜索结果中抽取最相关的 3-5 个段落,并附带来源 URL 与发布时间,减少模型幻觉。 - 可定制搜索源:支持限定域名(如 site:arxiv.org)、设置搜索深度(快速/深度模式),满足从简单问答到深度调研的不同场景。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁- 正在用 LangChain 或 AutoGPT 构建 Agent 的开发者,需要让 Agent 具备联网能力。 - 希望为内部知识库 RAG 系统补充实时外部信息的团队,避免模型回答过时。 - 对数据新鲜度有硬性要求的应用(如金融舆情监控、新闻摘要),Tavily 的深度模式会完整爬取页面正文。使用前需申请免费的 API Key(每日 1000 次调用),安装 pip install tavily-python 即可开始。更多高级用法(如自定义提取模板)见仓库的 Examples 文件夹。

GitHub项目

AudioCraft:Meta 开源的高质量音频生成与编辑全家桶

如果你在寻找一个能让你用文字生成音乐、音效或语音的开源方案,Meta 的 AudioCraft 值得你立刻点开仓库。它把 MusicGen、AudioGen 和 EnCodec 三套模型整合进统一框架,开发者可以用它快速搭建音频生成应用,研究者也能基于预训练权重进行微调或二次开发。核心看点- 三合一模型体系:MusicGen 专攻音乐生成,能从文本描述或旋律片段创作连贯乐曲;AudioGen 擅长环境音效(如脚步声、雨声);EnCodec 提供神经音频编解码器,支持高质量压缩与重建。三者共享底层架构,便于组合使用。 - 灵活的使用方式:既提供预训练权重直接推理(仅需几行 Python 代码),也开放训练与微调脚本(基于 PyTorch,支持单卡 / 多卡)。生成的音频可以控制时长、风格和节奏,实测 48kHz 采样率下音质接近商业水准。 - MIT 许可证 + 模型权重开放:代码仓库采用 MIT 协议,模型权重在 Hugging Face 上以 CC BY-NC 4.0 发布(非商业用途),但允许个人实验和学术研究。官方还提供了详细的 Colab 示例和 Gradio 演示,上手门槛极低。▲ github.com(阿里云通义万相生成配图,非网页截图)上手提示推荐在配备 16GB+ 显存的 GPU(如 RTX 4090)上运行 MusicGen 模型,CPU 推理速度较慢但也可尝试。需要 Python 3.9+、PyTorch 2.0+,安装只需 pip install audiocraft。无需额外 API Key,所有模型权重下载后即可离线使用。如果你是音频领域的新手,不妨从官方的 Jupyter Notebook 教程入手,几分钟内就能听到自己用文字生成的音乐。更多生成示例和社区作品,可以到 AudioCraft GitHub 仓库 的 Discussions 或 RE…

GitHub项目

Outlines:让 LLM 输出严格遵循 JSON 模式的可靠生成框架

你是否受够了 LLM 胡编乱造 JSON 格式?Outlines 是一个轻量但强大的 Python 库,让大模型输出严格遵循你定义的 Pydantic 模型或 JSON Schema,无需反复提示词调优。它通过约束解码(constrained decoding)在生成阶段直接控制 token 采样空间,特别适合需要结构化输出的 Agent、RAG 链路和 API 后端开发者。核心看点- 声明式结构化输出:直接传入 Pydantic 类或 JSON Schema,模型生成的结果自动匹配格式,支持嵌套、可选字段和枚举约束。 - 多后端兼容:原生支持 llama.cpp、vLLM、Transformers 以及 OpenAI API 兼容接口,一套 API 切换本地和云端模型。 - 轻量无侵入:不修改模型权重,仅通过正则或 FSM(有限状态机)在采样时引导生成,推理速度几乎无损失。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁正在构建 函数调用、数据抽取、表单生成、SQL 查询生成 等需要可靠结构化输出的开发者。依赖 Python 3.8+,无需 GPU 即可使用 OpenAI 后端;若本地部署,推荐配合 llama.cpp 或 vLLM 使用。项目采用 Apache-2.0 许可证。想彻底告别 JSON 解析异常?去 Outlines 的 README 看看它如何用几十行代码搞定复杂约束,社区还提供了丰富的 Pydantic 示例。

GitHub项目

Mastra:面向 AI Agent 的 TypeScript 编排框架,可观测与工具调用一体化

如果你正在用 TypeScript 构建多步骤 Agent 或 RAG 流水线,却苦于调试链路不透明、工具调用难管理,不妨看看 Mastra。这个开源框架把 Agent 编排、记忆管理、工具调用和可观测性打包进一套声明式 API,尤其适合需要精细控制 LLM 行为的 Node.js 后端开发者。核心看点- 声明式 Agent 编排:通过 YAML 或 TypeScript 定义任务图(DAG),支持并行执行、条件分支和循环重试,配合内置的 LLM 调用追踪,每一步的 Token 消耗和延迟都一目了然。 - 工具调用与记忆一体化:自带函数调用脚手架,能自动将外部 API 或数据库操作注册为 Agent 可调用的工具,并支持基于向量存储的短期/长期记忆,减少重复上下文注入。 - 与主流推理后端兼容:开箱支持 OpenAI、Anthropic、Ollama 等,也允许通过自定义 Provider 接入本地模型,配合 可观测性中间件 输出结构化日志,方便集成到 Grafana 或 Datadog。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁面向 Node.js 全栈或后端开发者,特别是正在搭建客服、代码审查、数据爬取等需要多步推理的 Agent 服务。依赖简单:仅需 Node 18+ 和 npm/pnpm,无需独立服务;若使用内置向量记忆则需一个 PostgreSQL 或 SQLite 实例。所有 API Key 由用户自行管理,框架不采集数据。Mastra 的 README 提供了从零搭建“天气查询 Agent”的快速入门,文档站还有更复杂的 RAG 流水线示例。如果你对 Agent 的可观测性有执念,它的 Tracing 模块值得单独翻翻——或许正是你下一个生产级应用缺失的那块拼图。戳仓库主页 Mastra on GitHub 开始探索。

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.