Translating this page to English in your browser…
跳到内容

早上好,祝你今天高效顺利。

GitHub项目

共 43 篇文章

GitHub项目

Mastra:面向 AI Agent 的 TypeScript 编排框架,可观测与工具调用一体化

如果你正在用 TypeScript 构建多步骤 Agent 或 RAG 流水线,却苦于调试链路不透明、工具调用难管理,不妨看看 Mastra。这个开源框架把 Agent 编排、记忆管理、工具调用和可观测性打包进一套声明式 API,尤其适合需要精细控制 LLM 行为的 Node.js 后端开发者。核心看点- 声明式 Agent 编排:通过 YAML 或 TypeScript 定义任务图(DAG),支持并行执行、条件分支和循环重试,配合内置的 LLM 调用追踪,每一步的 Token 消耗和延迟都一目了然。 - 工具调用与记忆一体化:自带函数调用脚手架,能自动将外部 API 或数据库操作注册为 Agent 可调用的工具,并支持基于向量存储的短期/长期记忆,减少重复上下文注入。 - 与主流推理后端兼容:开箱支持 OpenAI、Anthropic、Ollama 等,也允许通过自定义 Provider 接入本地模型,配合 可观测性中间件 输出结构化日志,方便集成到 Grafana 或 Datadog。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁面向 Node.js 全栈或后端开发者,特别是正在搭建客服、代码审查、数据爬取等需要多步推理的 Agent 服务。依赖简单:仅需 Node 18+ 和 npm/pnpm,无需独立服务;若使用内置向量记忆则需一个 PostgreSQL 或 SQLite 实例。所有 API Key 由用户自行管理,框架不采集数据。Mastra 的 README 提供了从零搭建“天气查询 Agent”的快速入门,文档站还有更复杂的 RAG 流水线示例。如果你对 Agent 的可观测性有执念,它的 Tracing 模块值得单独翻翻——或许正是你下一个生产级应用缺失的那块拼图。戳仓库主页 Mastra on GitHub 开始探索。

GitHub项目

SGLang:为 LLM 推理与结构化输出优化的高性能引擎

如果你正在为 LLM 的推理速度和结构化输出(JSON Schema、约束解码)头疼,SGLang 可能是你需要的加速器。它由 LMSYS 团队打造,专为 LLM 推理场景设计,通过一种称为“结构化生成语言”的编程模型,将提示预处理、并行采样和约束解码融合为一条高效流水线,特别适合需要高吞吐量的在线服务和 Agent 调用场景。核心看点- 结构化生成语言(SGLang):用 Python 子语言描述生成逻辑,自动优化执行计划,支持约束解码(如强制输出合法 JSON)和并行调用,大幅减少冗余计算。 - 高性能推理后端:集成了 FlashInfer 等优化内核,支持连续批处理、分页注意力,在多个基准测试中吞吐量优于 vLLM 和 TensorRT-LLM。 - 灵活的部署选项:提供 OpenAI 兼容的 API 服务器,也可作为 Python 库嵌入,支持 Llama、Mistral、Qwen 等主流模型。▲ github.com(阿里云通义万相生成配图,非网页截图)上手提示适合对推理延迟和吞吐量有要求的开发者,比如构建实时聊天机器人、Agent 工具链或结构化数据提取管道。需要 CUDA 环境(推荐 A100 或同等 GPU),Python 3.9+,模型权重需自行下载或从 Hugging Face 加载。项目采用 Apache-2.0 许可证,社区活跃,Issue 响应快。想体验“一次提示、多路并行输出”的威力?直接去 SGLang GitHub 仓库 看示例和性能对比。

GitHub项目

RAGFlow:开源 RAG 引擎,文档精准解析与多轮对话

RAGFlow 是一个面向企业级知识问答场景的开源 RAG 引擎,专为解决文档解析不准确、多轮对话上下文丢失等痛点而设计。无论是开发者、数据工程师还是知识管理爱好者,都能用它快速搭建基于私有文档的智能问答系统。核心看点- 深度文档解析:支持 PDF、Word、Excel、图片等多种格式,内置 OCR 与版面分析,能精准提取表格、图表与公式,避免传统 RAG 工具对复杂文档的“吞字”问题。 - 多轮对话与引用溯源:基于大模型实现上下文记忆,每次回答都附上原文片段链接,方便用户核查来源,提升可信度。 - 灵活部署与低门槛:提供 Docker 一键部署,支持对接 OpenAI API 或本地模型(如 llama.cpp 的 GGUF 格式),无需 GPU 也可运行。▲ github.com(阿里云通义万相生成配图,非网页截图)上手提示典型场景包括企业内部知识库、科研文献问答、法律合同审查等。需要 Docker 环境(推荐 4GB 以上内存),首次启动后通过 Web 界面上传文档并配置模型接口即可使用。若使用本地模型,需自行准备 GGUF 文件并配置推理后端。想快速体验文档解析与问答效果,直接去仓库 README 看 Docker 启动命令和示例截图。更多高级配置(如自定义分块策略、API 集成)可在 RAGFlow GitHub 仓库 的 Wiki 和 Issues 中找到实践案例。

GitHub项目

Chrome 小模型也能跑 RAG:Surya 精准文档 OCR 与版面解析

如果你正头疼 PDF 表格、多栏排版、数学公式在 RAG 流水线中频频丢失语义,Surya 可能是你一直等的那个“文档理解”利器。这个开源项目专为复杂文档 OCR 与版面分析设计,能准确识别文本、表格、公式、页眉页脚,并输出结构化的 Markdown 或 JSON,让后续的检索与问答不再依赖“先转图片再瞎猜”的笨办法。核心看点- 精准版面解析:支持检测标题、段落、表格、图片、公式等 20+ 种区块,对多栏、手写混排、扫描件都有不错的鲁棒性,输出结构可直接喂给 RAG 分块逻辑。 - 轻量级 OCR 引擎:基于 Transformer 架构,不依赖云 API,单张 A100 或 RTX 4090 即可跑出高精度结果,Apache-2.0 许可证下可自由商用。 - 结构化输出与管线友好:能直接输出 Markdown(含表格、公式 LaTeX)、HTML 或带坐标的 JSON,方便与 LangChain、LlamaIndex 等框架集成,省去后处理脏活。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁- RAG 应用开发者:需要将 PDF/扫描件拆成语义完整的文本块,Surya 的版面识别能大幅减少“表格被切碎”“公式变乱码”的痛点。 - 文档智能研究者:想快速获得高质量标注数据,或对比不同 OCR/版面分析模型效果。 - 需要本地部署的团队:模型权重约 1.5GB,单 GPU 即可推理,无需调用外部 API,数据安全可控。依赖 Python 3.9+、PyTorch,推荐至少 8GB 显存。无论你是想给 RAG 管线加个“文档理解”层,还是单纯需要比 Tesseract 更聪明的 OCR,Surya 都值得点进仓库细看 README 和在线 Demo。想体验完整能力,直接去 Surya GitHub 仓库 克隆运行,或看看作者提供的 Colab 笔记本。

GitHub项目

Dify:拖拽搭建 AI 应用,RAG 与 Agent 工作流一站式平台

想快速把大模型接入业务,又不想从零写前后端和编排逻辑?Dify 提供了一个可视化的 AI 应用开发平台,支持 RAG 知识库、Agent 工具链、工作流编排,甚至一键发布为 API 或 Web 应用。无论是做客服机器人、文档问答还是自动化报告生成,它都能让开发者把精力放在 prompt 和逻辑上,而非基础设施。核心看点- 可视化编排:通过拖拽节点构建 AI 工作流,支持条件分支、循环、代码块,可串联 LLM 调用、知识检索、API 请求等,无需手写复杂逻辑。 - 内置 RAG 引擎:上传 PDF/网页/数据库,自动切片、向量化并建立索引,支持混合检索与重排序,直接提升问答准确率。 - 多模型与 Agent 支持:兼容 OpenAI、Claude、本地 Ollama 等数十种模型,Agent 可调用自定义工具(如搜索、计算器),通过 ReAct 模式自主决策。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁后端开发者、AI 应用产品经理、以及想快速验证 AI 想法的个人。部署依赖 Docker 和 PostgreSQL/Redis,社区版免费且开源(Apache-2.0 许可证)。如果不想自建,官方也提供云服务。从原型到生产,Dify 把 AI 应用开发的复杂度降了一个量级。去它的 GitHub 仓库 看示例视频和模板,你会发现原来搭个智能助手可以这么简单。

GitHub项目

Ollama:一行命令本地跑大模型,开发者私藏推理神器

厌倦了配置复杂的推理环境?Ollama 让你像用 Docker 一样,一条命令就能在本地拉起 Llama 3、Qwen2、Mistral 等主流开源模型。无论是 Mac、Linux 还是 Windows,安装后即可通过 REST API 或终端交互,特别适合需要离线调试、隐私优先或快速原型验证的开发者。核心看点- 极简部署体验:ollama run llama3.2 即可下载并运行模型,自动处理量化、依赖和端口映射,无需手动配置 Python 或 CUDA。 - 丰富的模型库:内置数百个预配置模型,覆盖 7B 到 70B 参数规模,支持 GGUF 格式自定义导入,且社区持续贡献新模型。 - API 与生态兼容:提供 OpenAI 兼容的 /v1/chat/completions 接口,可直接对接 LangChain、Continue、Open WebUI 等工具,本地开发无缝切换。▲ github.com 仓库页截图(仅供参考,以 GitHub 为准)适合谁- 个人开发者:快速测试不同模型效果,或构建本地 AI 助手。 - 隐私敏感场景:医疗、金融等数据不出本地的推理需求。 - 边缘设备玩家:通过量化模型在 8GB 内存的 MacBook 上流畅运行 7B 参数模型。无需 GPU,CPU 也能跑,但推荐至少 16GB 内存。Ollama 的 README 清晰列出了所有命令和模型标签,如果你想了解如何自定义 Modelfile 或接入外部工具,直接去仓库看 Ollama 官方仓库 的文档和 Discussions,社区里有很多实用技巧。

GitHub项目

用纯Go运行LLM?llama.go让你在CPU上本地跑大模型

如果你既想体验本地大模型推理,又不想被Python生态和GPU依赖绑住手脚,llama.go 是一个值得关注的选项。它用纯 Go 语言重写了 LLaMA 推理核心,无需 CUDA、PyTorch 或任何 Python 运行时,就能在 CPU 上加载并运行量化后的 LLaMA 系列模型,非常适合 Go 技术栈的开发者快速集成或二次开发。核心看点- 纯 Go 实现,零外部依赖:整个推理引擎仅依赖 Go 标准库和少量 C 代码(用于 mmap),编译后单二进制即可运行,部署极其轻量。 - 支持主流量化格式:可直接加载 GGUF 格式的量化模型(如 q4_0、q8_0),与 llama.cpp 生态兼容,无需额外转换工具。 - 交互式与 API 双模式:既提供命令行对话界面,也内置了兼容 OpenAI API 的 HTTP 服务端,方便接入已有应用。▲ github.com 仓库页截图(仅供参考,以 GitHub 为准)适合谁- Go 语言开发者:想在项目中嵌入本地推理能力,无需引入 Python 子进程或复杂环境。 - 边缘设备与资源受限场景:没有 GPU,但需要离线运行中小型模型(如 7B 参数量级)的推理任务。 - 学习推理原理的研究者:Go 代码结构清晰,适合阅读 LLaMA 推理的前向传播和 KV Cache 实现细节。如果你手头刚好有一台 CPU 机器,或者想探索 Go 在 AI 推理侧的潜力,不妨到 llama.go 仓库主页 下载 release 二进制试试看。项目采用 MIT 许可证,社区活跃度尚可,Issues 里也有不少实用的配置讨论。

GitHub项目

让 LLM 学会联网搜索:Tavily 开源 RAG 工具链,精准抓取实时信息

当大模型遇到知识截止日期或需要查询最新新闻、股价、天气时,Tavily 提供了一套轻量级的 RAG 工具链,专为 LLM Agent 设计。它并非简单的搜索引擎包装,而是自动提取搜索结果中的关键段落、过滤广告、并返回结构化 JSON,让模型能直接消费。如果你在构建需要实时信息的聊天机器人或自动化决策系统,这个仓库能省去大量爬虫和文本清洗的脏活。核心看点- Agent 原生接口:输出为 {query, answer, results, response_time} 格式,可直接喂给 LangChain / LlamaIndex 的 Tool 节点,无需额外解析。 - 智能内容提取:自动从搜索结果中抽取最相关的 3-5 个段落,并附带来源 URL 与发布时间,减少模型幻觉。 - 可定制搜索源:支持限定域名(如 site:arxiv.org)、设置搜索深度(快速/深度模式),满足从简单问答到深度调研的不同场景。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁- 正在用 LangChain 或 AutoGPT 构建 Agent 的开发者,需要让 Agent 具备联网能力。 - 希望为内部知识库 RAG 系统补充实时外部信息的团队,避免模型回答过时。 - 对数据新鲜度有硬性要求的应用(如金融舆情监控、新闻摘要),Tavily 的深度模式会完整爬取页面正文。使用前需申请免费的 API Key(每日 1000 次调用),安装 pip install tavily-python 即可开始。更多高级用法(如自定义提取模板)见仓库的 Examples 文件夹。

GitHub项目

LLM-Fine-Tuning:高效微调大模型的实战工具箱,LoRA/QLoRA全支持

如果你正为如何在自己的数据上高效微调大语言模型而头疼,这个仓库就是你的救星。它提供了从环境配置到模型部署的完整微调流水线,尤其适合那些既想节省GPU资源、又希望获得专业级微调效果的开发者。项目基于Hugging Face生态构建,对新手友好,同时保留了高级调优的灵活性。核心看点- 一键式微调脚本:支持 LoRA、QLoRA、全参数微调三种模式,只需修改配置文件即可切换,无需手动编写训练循环。 - 多模型兼容:已适配 Llama 2/3、Mistral、Qwen、ChatGLM 等主流开源模型,并持续更新。 - 实用工具链:内置数据格式转换、分词器预处理、训练监控与评估脚本,减少重复造轮子。▲ github.com(阿里云通义万相生成配图,非网页截图)上手提示推荐在单张 24GB显存 的GPU(如RTX 4090)上运行QLoRA,可微调7B参数模型。需要安装Python 3.10+和PyTorch 2.0+,无需任何API Key。项目采用 Apache-2.0许可证,可自由用于商业和研究。想快速体验微调效果?直接克隆仓库并按README中的示例命令跑一遍,几分钟内就能看到模型在自定义对话数据上的表现。更多调参技巧和模型支持列表,记得去 GitHub仓库 的Issues和Wiki里探索。

GitHub项目

LobeChat:一站式多模态聊天与Agent编排平台

厌倦了在多个AI服务之间来回切换?LobeChat是一个开源、可自托管的智能聊天平台,整合了GPT-4、Claude、Gemini等主流大模型,并支持文生图、语音对话、插件系统与自定义Agent。无论是开发者想快速搭建私有助手,还是爱好者追求更灵活的AI交互体验,它都能大幅降低门槛。核心看点- 多模型统一接入:内置数十种模型提供商(OpenAI、Anthropic、Google、国产模型等),无需手动配置API,一个界面即可切换对话引擎。 - 插件与工具链:支持联网搜索、代码执行、图片生成等插件,Agent可自主调用工具完成复杂任务,RAG能力通过知识库插件扩展。 - 优雅的对话体验:支持Markdown渲染、代码高亮、语音输入/输出,以及多模态内容(图片、文件)的拖拽交互,界面接近商业产品。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁- 希望统一管理多个AI API的开发者,或需要为团队搭建内部AI工作台的技术负责人。 - 对AI Agent和工具调用感兴趣的研究者,可基于其插件系统快速验证想法。 - 依赖:Node.js 18+,可一键Docker部署;使用自带模型需API Key,部分插件(如联网搜索)需额外配置。快去仓库的Releases和插件市场逛逛,看看如何定制你自己的AI工作流:LobeChat GitHub仓库

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.