跳到内容

早上好,祝你今天高效顺利。

GitHub项目

共 65 篇文章

GitHub项目

Dify:拖拽搭建 AI 应用,RAG 与 Agent 工作流一站式平台

想快速把大模型接入业务,又不想从零写前后端和编排逻辑?Dify 提供了一个可视化的 AI 应用开发平台,支持 RAG 知识库、Agent 工具链、工作流编排,甚至一键发布为 API 或 Web 应用。无论是做客服机器人、文档问答还是自动化报告生成,它都能让开发者把精力放在 prompt 和逻辑上,而非基础设施。核心看点- 可视化编排:通过拖拽节点构建 AI 工作流,支持条件分支、循环、代码块,可串联 LLM 调用、知识检索、API 请求等,无需手写复杂逻辑。 - 内置 RAG 引擎:上传 PDF/网页/数据库,自动切片、向量化并建立索引,支持混合检索与重排序,直接提升问答准确率。 - 多模型与 Agent 支持:兼容 OpenAI、Claude、本地 Ollama 等数十种模型,Agent 可调用自定义工具(如搜索、计算器),通过 ReAct 模式自主决策。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁后端开发者、AI 应用产品经理、以及想快速验证 AI 想法的个人。部署依赖 Docker 和 PostgreSQL/Redis,社区版免费且开源(Apache-2.0 许可证)。如果不想自建,官方也提供云服务。从原型到生产,Dify 把 AI 应用开发的复杂度降了一个量级。去它的 GitHub 仓库 看示例视频和模板,你会发现原来搭个智能助手可以这么简单。

GitHub项目

RAGFlow:开源 RAG 引擎,文档精准解析与多轮对话

RAGFlow 是一个面向企业级知识问答场景的开源 RAG 引擎,专为解决文档解析不准确、多轮对话上下文丢失等痛点而设计。无论是开发者、数据工程师还是知识管理爱好者,都能用它快速搭建基于私有文档的智能问答系统。核心看点- 深度文档解析:支持 PDF、Word、Excel、图片等多种格式,内置 OCR 与版面分析,能精准提取表格、图表与公式,避免传统 RAG 工具对复杂文档的“吞字”问题。 - 多轮对话与引用溯源:基于大模型实现上下文记忆,每次回答都附上原文片段链接,方便用户核查来源,提升可信度。 - 灵活部署与低门槛:提供 Docker 一键部署,支持对接 OpenAI API 或本地模型(如 llama.cpp 的 GGUF 格式),无需 GPU 也可运行。▲ github.com(阿里云通义万相生成配图,非网页截图)上手提示典型场景包括企业内部知识库、科研文献问答、法律合同审查等。需要 Docker 环境(推荐 4GB 以上内存),首次启动后通过 Web 界面上传文档并配置模型接口即可使用。若使用本地模型,需自行准备 GGUF 文件并配置推理后端。想快速体验文档解析与问答效果,直接去仓库 README 看 Docker 启动命令和示例截图。更多高级配置(如自定义分块策略、API 集成)可在 RAGFlow GitHub 仓库 的 Wiki 和 Issues 中找到实践案例。

GitHub项目

Langflow:可视化拖拽搭建 RAG 与 Agent 工作流的低代码神器

如果你厌倦了手写长串 Python 代码来串联 LLM 调用、向量库查询和工具链,Langflow 让你像搭乐高一样拖拽节点就能完成从 RAG 到多 Agent 编排的复杂流程。它特别适合快速原型验证、教学演示以及非深度开发者快速上手 AI 应用开发。核心看点- 可视化节点编排:内置 LLM、Prompt、Vector Store、Tool、Agent 等数十种模块,支持自定义 Python 函数节点,拖拽连线即可构建管道。 - 原生 RAG 与 Agent 支持:可直接接入 Chroma、FAISS、Pinecone 等向量库,配合 LangChain 生态实现文档问答、工具调用链,无需手写中间胶水代码。 - 一键导出与 API 部署:工作流可导出为 JSON 或直接启动为 REST API 端点,方便集成到前端应用,项目采用 Apache-2.0 许可证,社区活跃。▲ github.com 仓库页截图(仅供参考,以 GitHub 为准)适合谁- AI 应用原型设计师:快速验证 RAG 流程或 Agent 逻辑,无需从头搭框架。 - 教学与演示场景:用可视化界面向学生或客户展示 LLM 调用链、检索增强和工具调用过程。 - 低代码爱好者:熟悉 Python 基础即可,无需深度学习框架经验,本地运行仅需 Python 3.8+。快去仓库看看示例工作流和内置模板,拖拽几下就能跑通一个带记忆的聊天机器人——Langflow 仓库主页 的 README 里就有快速启动指南。

GitHub项目

OpenWebUI:LLM 交互前端,让本地模型拥有 ChatGPT 级体验

如果你厌倦了在终端里敲命令行调用本地大模型,或者觉得 Ollama 的原生界面太简陋,那 OpenWebUI 就是你要找的答案。它把 llama.cpp、Ollama 等推理后端包装成一套漂亮、可扩展的 Web 界面,支持多模型切换、RAG 知识库、对话历史管理与插件系统,让本地模型体验直接对标 ChatGPT。核心看点- 开箱即用的多模型管理:支持同时连接 Ollama 和 OpenAI 兼容 API,可在同一界面内自由切换不同 LLM,方便对比效果。 - 内置 RAG 与文件上传:用户可上传 PDF、文档等文件,自动进行文本嵌入与检索,实现基于本地知识的问答,无需额外搭建向量数据库。 - 丰富的插件与权限体系:支持自定义工具链、用户分组、API 密钥管理,适合团队协作部署,也便于开发者二次扩展功能。▲ github.com(阿里云通义万相生成配图,非网页截图)上手提示推荐搭配 Ollama 或 llama.cpp 使用,只需 Docker 一键启动(docker run -d -p 3000:8080 ghcr.io/open-webui/open-webui),无需 GPU 也能跑通基础对话。若启用本地 RAG,建议至少 8GB 内存;若需联网搜索或调用付费模型,需准备相应 API Key。项目采用 MIT 许可证,社区活跃,Issue 响应快。从个人实验到团队知识库,OpenWebUI 把本地模型的门槛降到最低。不妨直接打开 OpenWebUI 仓库主页 看看 README 里的部署演示,五分钟就能拥有自己的 AI 聊天台。

GitHub项目

Ollama:一行命令本地跑大模型,开发者私藏推理神器

厌倦了配置复杂的推理环境?Ollama 让你像用 Docker 一样,一条命令就能在本地拉起 Llama 3、Qwen2、Mistral 等主流开源模型。无论是 Mac、Linux 还是 Windows,安装后即可通过 REST API 或终端交互,特别适合需要离线调试、隐私优先或快速原型验证的开发者。核心看点- 极简部署体验:ollama run llama3.2 即可下载并运行模型,自动处理量化、依赖和端口映射,无需手动配置 Python 或 CUDA。 - 丰富的模型库:内置数百个预配置模型,覆盖 7B 到 70B 参数规模,支持 GGUF 格式自定义导入,且社区持续贡献新模型。 - API 与生态兼容:提供 OpenAI 兼容的 /v1/chat/completions 接口,可直接对接 LangChain、Continue、Open WebUI 等工具,本地开发无缝切换。▲ github.com 仓库页截图(仅供参考,以 GitHub 为准)适合谁- 个人开发者:快速测试不同模型效果,或构建本地 AI 助手。 - 隐私敏感场景:医疗、金融等数据不出本地的推理需求。 - 边缘设备玩家:通过量化模型在 8GB 内存的 MacBook 上流畅运行 7B 参数模型。无需 GPU,CPU 也能跑,但推荐至少 16GB 内存。Ollama 的 README 清晰列出了所有命令和模型标签,如果你想了解如何自定义 Modelfile 或接入外部工具,直接去仓库看 Ollama 官方仓库 的文档和 Discussions,社区里有很多实用技巧。

GitHub项目

ChatGPT-on-Cloudflare:用 Workers 白嫖自建 AI 网关

如果你既想低成本调用 OpenAI / Anthropic / HuggingFace 等 API,又不想被厂商锁定或担心密钥泄露,这个仓库帮你用 Cloudflare Workers 搭建一个轻量 AI 网关。适合独立开发者、极客以及希望在教学或演示中快速集成多种大模型接口的爱好者。核心看点在 Workers 上部署后,你只需一个统一 URL 就能路由到不同模型后端,自动处理 API 密钥、速率限制与错误重试。支持流式输出(SSE),前后端可共用同一套鉴权逻辑,还能利用 Cloudflare 的全球边缘网络降低延迟。代码基于 MIT 许可证,逻辑清晰,方便二次定制。▲ github.com 仓库页截图(仅供参考,以 GitHub 为准)上手提示无需 GPU,只需一个 Cloudflare 账号(免费套餐即可)和对应模型厂商的 API Key。部署流程依赖 Wrangler CLI,仓库 README 给出了详尽的 wrangler.toml 配置示例,十分钟内可跑通。适合已有 API Key 但想统一管理调用入口的团队或个人。别满足于只读 README——你可以 fork 后加入自己的模型路由逻辑,甚至用 KV 存储实现用量统计。更多玩法藏在 ChatGPT-on-Cloudflare 的 Issues 和 Discussions 里。

GitHub项目

LocalAI:本地运行大模型与多模态的私有化推理引擎

LocalAI 是一个开源的自托管 AI 推理服务器,让你无需 GPU 或云端 API 就能在本地 CPU/GPU 上运行 LLM、图像生成、语音识别等多模态模型。它兼容 OpenAI API 格式,可直接替换现有应用的后端,特别适合注重数据隐私、离线场景或想低成本尝试 AI 能力的开发者与研究者。核心看点- 多模态支持:不仅支持 Llama、Mistral 等大语言模型,还集成了 Stable Diffusion 文生图、Whisper 语音转文字、TTS 语音合成,甚至支持 Reranker 和 Embedding 模型,一套服务覆盖多种推理需求。 - 无 GPU 也能跑:通过 llama.cpp 和 whisper.cpp 等后端,在纯 CPU 上即可运行量化模型(如 GGUF 格式),同时也可利用 CUDA、Vulkan 等加速,灵活适配不同硬件。 - OpenAI API 兼容:提供与 OpenAI 几乎一致的 REST API 接口,原有客户端代码几乎零修改即可指向本地 LocalAI 实例,方便从 SaaS 迁移到本地或进行混合部署。▲ github.com 仓库页截图(仅供参考,以 GitHub 为准)上手提示适合隐私敏感的企业内部知识库、离线环境下的个人助手、或想低成本尝试多种 AI 模型的学生与开发者。依赖 Docker 或 Go 环境,无需 GPU 也能运行,但若需加速建议配备至少 8GB 内存的 CPU 或低端 GPU。无需任何 API Key,所有推理都在本地完成;模型权重需自行下载,仓库 README 提供详细的一键启动脚本和示例。最后,如果你正寻找一个能统一管理 LLM、图像、语音推理的本地方案,不妨看看 LocalAI 的快速入门指南和预置模型列表,或许正是你需要的那个“瑞士军刀”。点此访问 LocalAI GitHub 仓库

GitHub项目

VLLM:高性能 LLM 推理引擎,轻松部署大模型服务

如果你正在为部署大语言模型的推理延迟和吞吐量发愁,vLLM 可能是你需要的开源利器。它利用 PagedAttention 技术高效管理显存,显著提升推理速度,特别适合那些需要自建模型服务的开发者和团队。核心看点- PagedAttention 显存管理:借鉴操作系统的分页机制,将 KV Cache 按块管理,减少显存碎片,支持更高并发与更长上下文。 - 高吞吐与低延迟:支持连续批处理、异步调度,实测吞吐量可达传统框架的 2~4 倍,非常适合生产环境。 - 兼容 OpenAI API:提供与 OpenAI 兼容的 RESTful API,可无缝替换或集成现有应用,支持 Hugging Face 模型权重直接加载。▲ github.com 仓库页截图(仅供参考,以 GitHub 为准)适合谁适合需要部署开源大模型(如 Llama、Mistral、Qwen 等)的开发者,要求 Python 3.8+ 和 CUDA 11.8+ 环境。无需额外 API Key,模型权重需自行下载或从 Hugging Face 加载。推荐使用 A100、V100 等显存充足的 GPU 获得最佳体验。赶快去仓库看看 README 中的快速开始和性能调优建议,社区活跃的 Issue 和 PR 也能让你少踩坑。仓库地址:vLLM GitHub 仓库

GitHub项目

用本地模型写代码?Continue 让 VS Code/JetBrains 秒变 AI 搭档

如果你既想享受 AI 编程助手的便利,又不想把代码片段上传到云端,Continue 是目前最成熟的本地方案。这个开源项目让你在 VS Code 或 JetBrains IDE 里直接接入本地推理后端(如 llama.cpp、Ollama),也能连 OpenAI、Anthropic 等云端 API——全凭你选择。项目持续活跃,MIT 许可证,社区已经积累了相当多的插件与配置示例。核心看点- 模型自由:支持 llama.cpp、Ollama、vLLM 等多种本地推理引擎,也兼容 OpenAI 兼容 API,切换只需改一行配置。 - 对话即上下文:选中代码后可直接提问、修改、解释,上下文自动包含相关文件,无需手动复制粘贴。 - 内置 RAG 能力:通过 @codebase 指令自动检索项目内相关代码片段,让大模型理解你的仓库结构。▲ github.com 仓库页截图(仅供参考,以 GitHub 为准)适合谁日常使用 VS Code 或 JetBrains 的开发者,尤其是对数据隐私敏感、希望离线编程或调试私有代码库的人。需要本地 GPU(或 CPU 推理)来运行模型,若使用云端 API 则需相应 Key。从 README 的快速开始示例出发,几分钟就能搭好第一条对话。更多自定义配置、自定义 Slash 命令和上下文提供器,值得去仓库的 Docs 与 Discussions 里翻一翻。马上体验:Continue 开源编程助手

GitHub项目

离线运行 Llama 3 的 C++ 推理引擎,llama.cpp 之外的新选择

如果你正在寻找一个比 llama.cpp 更轻量、更易嵌入的本地大模型推理方案,这个仓库值得一看。它用纯 C++ 实现了 Llama 3 的推理,无需 Python 环境,对资源敏感的场景(如树莓派、旧笔记本)尤其友好。核心看点- 极简依赖:仅依赖标准 C++ 库和 OpenBLAS,无需 CUDA 或 PyTorch,编译后二进制文件极小。 - 量化支持:内置 4-bit 和 8-bit 量化,能在 4GB 内存的机器上运行 7B 模型,推理速度可接受。 - 单文件可执行:下载预编译二进制或自己 make 即可运行,支持交互式聊天和一次性 prompt。▲ github.com 仓库页截图(仅供参考,以 GitHub 为准)适合谁本地开发者:想在自己项目里嵌入 LLM 推理,但不想引入 Python 或庞大的依赖链。边缘设备玩家:在 Jetson Nano、树莓派 5 上跑模型,需要极致精简的推理后端。学习推理原理者:代码结构清晰,适合阅读 C++ 版 Transformer 实现。仓库以 MIT 许可证发布,模型权重需从 Meta 官方获取,请遵守其许可。更多性能调优和内存占用细节,可以去 GitHub 仓库的 README 里翻一翻,Issues 区也有不少实战调参讨论。

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.