GitHub项目

SWE-agent：让 LLM 自动修 GitHub Issue 的智能体框架

leaf2026年5月23日1 分钟阅读 35暂无评论

开发者最头疼的日常之一：打开 Issue 列表，面对一堆复现步骤和报错日志。SWE-agent 直接把 LLM 变成了能读代码、写补丁、跑测试的“虚拟工程师”——给定一个 GitHub Issue，它能自主理解仓库结构、编辑文件、执行命令，最终提交修复 PR。适合想用 AI 自动化代码维护的团队、研究 LLM 工具调用能力的开发者，以及任何被 Issue 淹没的开源维护者。核心看点- 端到端 Issue 修复：输入 Issue 链接，智能体会自动克隆仓库、定位相关文件、生成 diff 补丁，甚至尝试运行测试验证修复是否正确。实测在 SWE-bench 基准上达到 12.3% 的解决率（2024 年初数据），远超之前的方法。 - 可定制的 Agent-Computer 接口：框架将 LLM 与 Linux 环境（bash、文件系统、编辑器）解耦，你可以替换底层模型（GPT-4、Claude 等），或自定义工具集——比如只允许读取代码而不允许执行。 - 完整的反馈循环：每次代码编辑后，Agent 会读取错误输出或测试结果，迭代修改直到通过。整个过程透明可追溯，所有交互日志都保存在本地。▲ github.com（阿里云通义万相生成配图，非网页截图）适合谁- 想用 LLM 自动化代码 BUG 修复的团队，需要 README 中的 Docker 环境（无需 GPU，但推荐 16GB+ RAM）。 - 研究 Agent 工具调用与规划的研究者，仓库提供了详细的论文复现脚本和评估数据集。 - 注意：目前主要面向 Python 代码库，且需要 GitHub 令牌（用于克隆仓库）和 OpenAI / Anthropic API Key。想立刻让 LLM 帮你修一个 Issue？直接访问仓库首页 SWE-agent，用 pip install sweagent 开始体验。别忘了先看 examp…

#Agent #GitHub

阅读全文参与讨论

GitHub项目

Chrome 小模型也能跑 RAG：Surya 精准文档 OCR 与版面解析

leaf2026年5月18日1 分钟阅读 34暂无评论

如果你正头疼 PDF 表格、多栏排版、数学公式在 RAG 流水线中频频丢失语义，Surya 可能是你一直等的那个“文档理解”利器。这个开源项目专为复杂文档 OCR 与版面分析设计，能准确识别文本、表格、公式、页眉页脚，并输出结构化的 Markdown 或 JSON，让后续的检索与问答不再依赖“先转图片再瞎猜”的笨办法。核心看点- 精准版面解析：支持检测标题、段落、表格、图片、公式等 20+ 种区块，对多栏、手写混排、扫描件都有不错的鲁棒性，输出结构可直接喂给 RAG 分块逻辑。 - 轻量级 OCR 引擎：基于 Transformer 架构，不依赖云 API，单张 A100 或 RTX 4090 即可跑出高精度结果，Apache-2.0 许可证下可自由商用。 - 结构化输出与管线友好：能直接输出 Markdown（含表格、公式 LaTeX）、HTML 或带坐标的 JSON，方便与 LangChain、LlamaIndex 等框架集成，省去后处理脏活。▲ github.com（阿里云通义万相生成配图，非网页截图）适合谁- RAG 应用开发者：需要将 PDF/扫描件拆成语义完整的文本块，Surya 的版面识别能大幅减少“表格被切碎”“公式变乱码”的痛点。 - 文档智能研究者：想快速获得高质量标注数据，或对比不同 OCR/版面分析模型效果。 - 需要本地部署的团队：模型权重约 1.5GB，单 GPU 即可推理，无需调用外部 API，数据安全可控。依赖 Python 3.9+、PyTorch，推荐至少 8GB 显存。无论你是想给 RAG 管线加个“文档理解”层，还是单纯需要比 Tesseract 更聪明的 OCR，Surya 都值得点进仓库细看 README 和在线 Demo。想体验完整能力，直接去 Surya GitHub 仓库克隆运行，或看看作者提供的 Colab 笔记本。

#GitHub #OCR

阅读全文参与讨论

GitHub项目

ChatGLM3 开源大模型：智谱AI最新对话与推理利器

leaf2026年5月26日1 分钟阅读 33暂无评论

如果你正在寻找一个兼顾对话流畅度与复杂推理能力的中文大模型，智谱AI开源的ChatGLM3值得一试。它基于GLM架构，在对话、工具调用和代码生成上表现均衡，尤其适合开发者快速集成到业务中，或研究者探索模型微调。核心看点- 增强的对话与推理：相比前代，ChatGLM3在长文本理解和多轮对话上更稳定，支持更复杂的逻辑推理任务，如数学题解答和代码调试。 - 灵活的部署与微调支持：提供多种尺寸（6B、130B等），可基于Transformer库快速加载；社区已有大量LoRA微调教程，降低定制门槛。 - 工具调用与多模态扩展：模型原生支持通过Function Call调用外部工具，并兼容视觉模块（如CogView），适合构建Agent或图文应用。▲ github.com（阿里云通义万相生成配图，非网页截图）上手提示推荐在至少16GB显存的GPU上运行6B版本，或使用量化方案（如GPTQ）降低资源需求。无需额外API Key，模型权重以Apache-2.0许可开源，可直接从Hugging Face下载。若需微调，建议参考官方示例准备数据集。想深入了解架构细节或社区贡献的插件生态？直接访问 ChatGLM3 GitHub 仓库，README中附有快速启动脚本和模型卡链接。

#GitHub #人工智能

阅读全文参与讨论

GitHub项目

CrewAI：多Agent协作框架让AI团队像人类一样分工

leaf2026年5月21日1 分钟阅读 33暂无评论

还在为单个大模型无法完成复杂任务而烦恼？CrewAI 帮你组建一支「AI 特工队」——通过角色定义、任务分配和流程编排，让多个 Agent 像人类团队一样协作完成端到端工作流。无论是写代码、做调研还是生成报告，它都能让每个 Agent 各司其职，省去你手动调度模型的麻烦。核心看点- 角色化 Agent 设计：为每个 Agent 分配角色（如研究员、写手、审核员）、目标和背景故事，让模型行为更可预测，协作更自然。 - 灵活的流程控制：支持顺序执行、层级管理和自定义路由，轻松编排复杂任务链，还能嵌入工具调用（搜索、API、代码执行）。 - 轻量且可扩展：基于 Python，依赖简单，可无缝对接 OpenAI、Anthropic 或本地模型（通过 Ollama），适合快速原型到生产部署。▲ github.com（阿里云通义万相生成配图，非网页截图）适合谁- 开发者：想快速搭建多 Agent 应用（如自动化报告生成、客服系统），无需从零设计编排逻辑。 - 研究者：试验多 Agent 协作模式（如辩论、共识机制），CrewAI 提供开箱即用的角色与记忆模块。 - 爱好者：在本地用 Ollama 跑开源模型，体验 Agent 团队如何协同工作。无需 GPU，普通 CPU 即可运行小模型。CrewAI 的文档和示例仓库非常完善，从「Hello World」到复杂工作流都有保姆级教程。建议直接去 GitHub 看示例代码和社区讨论，感受一下多 Agent 协作的魔力：CrewAI 仓库

#Agent #GitHub

阅读全文参与讨论

GitHub项目

RAG 新范式：用 GraphRAG 实现知识图谱驱动的检索增强生成，告别简单向量搜索

leaf2026年5月12日1 分钟阅读 33暂无评论

当传统 RAG 在复杂关系推理上频频碰壁时，GraphRAG 通过将知识图谱与 LLM 结合，让检索不再只是“找相似段落”，而是能沿着实体关系链进行多跳推理。这个仓库由微软研究院开源，提供了完整的 pipeline：从文档中自动抽取实体与关系、构建图索引、再到基于社区的问答生成，特别适合处理需要跨文档、多实体关联的深度知识问答场景。核心看点- 超越向量搜索：不是简单用 Embedding 做相似度匹配，而是构建实体-关系图，支持全局性、聚合性的查询（如“这些文档中反复出现的关键主题是什么？”）。 - 自动图谱构建：利用 LLM 从原始文本中提取实体、关系和协变量，生成模块化的图结构，无需人工标注。 - 社区级问答：通过 Leiden 算法对图进行层次化社区划分，每个社区自动生成摘要，实现从局部到全局的多粒度回答，比传统 RAG 更擅长处理“总结性”问题。▲ github.com（阿里云通义万相生成配图，非网页截图）上手提示- 需要 Python 3.10+ 和 OpenAI API Key（或兼容端点），本地运行对内存有一定要求（建议 16GB+）。 - 仓库提供了 graphrag.index 和 graphrag.query 两个核心命令，README 中附有完整的使用示例和输出格式说明。 - 许可证为 MIT，社区活跃，Issue 区有大量关于图参数调优和中文文本适配的讨论，值得参考。对知识密集型应用（如企业文档库、科研综述、法律案例检索）的开发者来说，GraphRAG 提供了一条值得深入探索的技术路径。更多细节和配置指南请移步仓库 microsoft/graphrag。

#GitHub #RAG

阅读全文参与讨论

GitHub项目

OpenVoice: 即时语音克隆，仅需短音频即可生成多语言语音

leaf2026年5月16日1 分钟阅读 31暂无评论

如果你在寻找一个能快速克隆任意说话人音色、并支持多语言语音生成的工具，OpenVoice 值得一试。由 myshell-ai 开源，它只需几秒的参考音频就能捕捉语音特征，并独立控制音色、情感与口音，非常适合语音合成、虚拟角色配音等场景。核心看点- 即时音色克隆：无需大量训练数据，上传一段短音频即可提取说话人特征，生成与目标音色高度一致的语音。 - 细粒度控制：可独立调节情感（如平静、快乐）和口音（如美式、英式），并支持跨语言（中、英、日、法等）合成。 - 轻量部署：基于 PyTorch，模型体积较小，在消费级 GPU（如 RTX 3090）上即可运行，并提供清晰的推理脚本。▲ github.com（阿里云通义万相生成配图，非网页截图）上手提示推荐使用 Python 3.8+ 和 PyTorch 1.13+，有 GPU 可大幅加速推理。无需外部 API Key，所有模型权重随仓库发布（遵循 MIT 许可证）。适合语音 AI 开发者、内容创作者和研究者快速集成语音克隆能力。更多细节与示例音频请查看仓库 README，动手试试你的第一个音色克隆：OpenVoice GitHub 仓库

#AI开发 #GitHub

阅读全文参与讨论

GitHub项目

让 LLM 学会联网搜索：Tavily 开源 RAG 工具链，精准抓取实时信息

leaf2026年5月20日1 分钟阅读 30暂无评论

当大模型遇到知识截止日期或需要查询最新新闻、股价、天气时，Tavily 提供了一套轻量级的 RAG 工具链，专为 LLM Agent 设计。它并非简单的搜索引擎包装，而是自动提取搜索结果中的关键段落、过滤广告、并返回结构化 JSON，让模型能直接消费。如果你在构建需要实时信息的聊天机器人或自动化决策系统，这个仓库能省去大量爬虫和文本清洗的脏活。核心看点- Agent 原生接口：输出为 {query, answer, results, response_time} 格式，可直接喂给 LangChain / LlamaIndex 的 Tool 节点，无需额外解析。 - 智能内容提取：自动从搜索结果中抽取最相关的 3-5 个段落，并附带来源 URL 与发布时间，减少模型幻觉。 - 可定制搜索源：支持限定域名（如 site:arxiv.org）、设置搜索深度（快速/深度模式），满足从简单问答到深度调研的不同场景。▲ github.com（阿里云通义万相生成配图，非网页截图）适合谁- 正在用 LangChain 或 AutoGPT 构建 Agent 的开发者，需要让 Agent 具备联网能力。 - 希望为内部知识库 RAG 系统补充实时外部信息的团队，避免模型回答过时。 - 对数据新鲜度有硬性要求的应用（如金融舆情监控、新闻摘要），Tavily 的深度模式会完整爬取页面正文。使用前需申请免费的 API Key（每日 1000 次调用），安装 pip install tavily-python 即可开始。更多高级用法（如自定义提取模板）见仓库的 Examples 文件夹。

#Agent #GitHub

阅读全文参与讨论

GitHub项目

AudioCraft：Meta 开源的高质量音频生成与编辑全家桶

leaf2026年5月9日1 分钟阅读 30暂无评论

如果你在寻找一个能让你用文字生成音乐、音效或语音的开源方案，Meta 的 AudioCraft 值得你立刻点开仓库。它把 MusicGen、AudioGen 和 EnCodec 三套模型整合进统一框架，开发者可以用它快速搭建音频生成应用，研究者也能基于预训练权重进行微调或二次开发。核心看点- 三合一模型体系：MusicGen 专攻音乐生成，能从文本描述或旋律片段创作连贯乐曲；AudioGen 擅长环境音效（如脚步声、雨声）；EnCodec 提供神经音频编解码器，支持高质量压缩与重建。三者共享底层架构，便于组合使用。 - 灵活的使用方式：既提供预训练权重直接推理（仅需几行 Python 代码），也开放训练与微调脚本（基于 PyTorch，支持单卡 / 多卡）。生成的音频可以控制时长、风格和节奏，实测 48kHz 采样率下音质接近商业水准。 - MIT 许可证 + 模型权重开放：代码仓库采用 MIT 协议，模型权重在 Hugging Face 上以 CC BY-NC 4.0 发布（非商业用途），但允许个人实验和学术研究。官方还提供了详细的 Colab 示例和 Gradio 演示，上手门槛极低。▲ github.com（阿里云通义万相生成配图，非网页截图）上手提示推荐在配备 16GB+ 显存的 GPU（如 RTX 4090）上运行 MusicGen 模型，CPU 推理速度较慢但也可尝试。需要 Python 3.9+、PyTorch 2.0+，安装只需 pip install audiocraft。无需额外 API Key，所有模型权重下载后即可离线使用。如果你是音频领域的新手，不妨从官方的 Jupyter Notebook 教程入手，几分钟内就能听到自己用文字生成的音乐。更多生成示例和社区作品，可以到 AudioCraft GitHub 仓库的 Discussions 或 RE…

#GitHub #人工智能

阅读全文参与讨论

GitHub项目

Outlines：让 LLM 输出严格遵循 JSON 模式的可靠生成框架

leaf2026年5月29日1 分钟阅读 29暂无评论

你是否受够了 LLM 胡编乱造 JSON 格式？Outlines 是一个轻量但强大的 Python 库，让大模型输出严格遵循你定义的 Pydantic 模型或 JSON Schema，无需反复提示词调优。它通过约束解码（constrained decoding）在生成阶段直接控制 token 采样空间，特别适合需要结构化输出的 Agent、RAG 链路和 API 后端开发者。核心看点- 声明式结构化输出：直接传入 Pydantic 类或 JSON Schema，模型生成的结果自动匹配格式，支持嵌套、可选字段和枚举约束。 - 多后端兼容：原生支持 llama.cpp、vLLM、Transformers 以及 OpenAI API 兼容接口，一套 API 切换本地和云端模型。 - 轻量无侵入：不修改模型权重，仅通过正则或 FSM（有限状态机）在采样时引导生成，推理速度几乎无损失。▲ github.com（阿里云通义万相生成配图，非网页截图）适合谁正在构建函数调用、数据抽取、表单生成、SQL 查询生成等需要可靠结构化输出的开发者。依赖 Python 3.8+，无需 GPU 即可使用 OpenAI 后端；若本地部署，推荐配合 llama.cpp 或 vLLM 使用。项目采用 Apache-2.0 许可证。想彻底告别 JSON 解析异常？去 Outlines 的 README 看看它如何用几十行代码搞定复杂约束，社区还提供了丰富的 Pydantic 示例。

#Agent #GitHub

阅读全文参与讨论

GitHub项目

Mastra：面向 AI Agent 的 TypeScript 编排框架，可观测与工具调用一体化

leaf2026年5月31日1 分钟阅读 29暂无评论

如果你正在用 TypeScript 构建多步骤 Agent 或 RAG 流水线，却苦于调试链路不透明、工具调用难管理，不妨看看 Mastra。这个开源框架把 Agent 编排、记忆管理、工具调用和可观测性打包进一套声明式 API，尤其适合需要精细控制 LLM 行为的 Node.js 后端开发者。核心看点- 声明式 Agent 编排：通过 YAML 或 TypeScript 定义任务图（DAG），支持并行执行、条件分支和循环重试，配合内置的 LLM 调用追踪，每一步的 Token 消耗和延迟都一目了然。 - 工具调用与记忆一体化：自带函数调用脚手架，能自动将外部 API 或数据库操作注册为 Agent 可调用的工具，并支持基于向量存储的短期/长期记忆，减少重复上下文注入。 - 与主流推理后端兼容：开箱支持 OpenAI、Anthropic、Ollama 等，也允许通过自定义 Provider 接入本地模型，配合可观测性中间件输出结构化日志，方便集成到 Grafana 或 Datadog。▲ github.com（阿里云通义万相生成配图，非网页截图）适合谁面向 Node.js 全栈或后端开发者，特别是正在搭建客服、代码审查、数据爬取等需要多步推理的 Agent 服务。依赖简单：仅需 Node 18+ 和 npm/pnpm，无需独立服务；若使用内置向量记忆则需一个 PostgreSQL 或 SQLite 实例。所有 API Key 由用户自行管理，框架不采集数据。Mastra 的 README 提供了从零搭建“天气查询 Agent”的快速入门，文档站还有更复杂的 RAG 流水线示例。如果你对 Agent 的可观测性有执念，它的 Tracing 模块值得单独翻翻——或许正是你下一个生产级应用缺失的那块拼图。戳仓库主页 Mastra on GitHub 开始探索。

#Agent #GitHub

阅读全文参与讨论