Github — Blog Category

用纯Go运行LLM？llama.go让你在CPU上本地跑大模型

leaf2026年5月2日1 分钟阅读 54暂无评论

如果你既想体验本地大模型推理，又不想被Python生态和GPU依赖绑住手脚，llama.go 是一个值得关注的选项。它用纯 Go 语言重写了 LLaMA 推理核心，无需 CUDA、PyTorch 或任何 Python 运行时，就能在 CPU 上加载并运行量化后的 LLaMA 系列模型，非常适合 Go 技术栈的开发者快速集成或二次开发。核心看点- 纯 Go 实现，零外部依赖：整个推理引擎仅依赖 Go 标准库和少量 C 代码（用于 mmap），编译后单二进制即可运行，部署极其轻量。 - 支持主流量化格式：可直接加载 GGUF 格式的量化模型（如 q4_0、q8_0），与 llama.cpp 生态兼容，无需额外转换工具。 - 交互式与 API 双模式：既提供命令行对话界面，也内置了兼容 OpenAI API 的 HTTP 服务端，方便接入已有应用。▲ github.com 仓库页截图（仅供参考，以 GitHub 为准）适合谁- Go 语言开发者：想在项目中嵌入本地推理能力，无需引入 Python 子进程或复杂环境。 - 边缘设备与资源受限场景：没有 GPU，但需要离线运行中小型模型（如 7B 参数量级）的推理任务。 - 学习推理原理的研究者：Go 代码结构清晰，适合阅读 LLaMA 推理的前向传播和 KV Cache 实现细节。如果你手头刚好有一台 CPU 机器，或者想探索 Go 在 AI 推理侧的潜力，不妨到 llama.go 仓库主页下载 release 二进制试试看。项目采用 MIT 许可证，社区活跃度尚可，Issues 里也有不少实用的配置讨论。

#GitHub #人工智能

阅读全文参与讨论

GitHub项目

Whisper：OpenAI 开源语音识别，本地部署准确率超乎想象

leaf2026年7月14日1 分钟阅读 27暂无评论

如果你正在找一个能离线、精准识别多种语言的语音转文字方案，OpenAI 开源的 Whisper 几乎是最省心的选择。它不需要联网，不依赖第三方 API，直接用模型在本地跑，尤其适合开发者集成到自己的应用或研究语音场景。核心看点开箱即用的多语言支持：Whisper 训练数据覆盖近百种语言，对中文、英文等主流语种识别效果接近人类水平，还能自动检测语言并翻译成英文。模型体积灵活可选：从 tiny（约 1GB 显存）到 large（约 10GB 显存）共 5 个尺寸，笔记本 CPU 也能跑最小模型，GPU 则获得实时速度。 MIT 许可证，社区生态完善：官方提供 Python 包和 CLI 工具，社区衍生出了 whisperX、faster-whisper 等加速方案，生产环境落地很方便。▲ github.com（阿里云通义万相生成配图，非网页截图）适合谁做语音笔记、会议转录、视频字幕生成的个人开发者；需要离线语音理解能力的嵌入式或边缘设备研究者；以及想微调语音模型但缺高质量基座的研究团队。Whisper 直接 pip install 就能用，不强制 GPU，对 Python 3.8+ 友好。更详细的安装步骤、模型下载说明和多语言用法，建议直接去仓库的 README 里扫一遍，里面有完整的参数表和示例代码——点此直达 OpenAI Whisper 主页。

#GitHub #人工智能

阅读全文参与讨论

GitHub项目

LangChain：构建LLM应用的首选框架，从原型到生产一步到位

leaf2026年6月12日1 分钟阅读 34暂无评论

开发AI应用时，最头疼的就是繁琐的模型调用、提示词管理和外部工具集成。LangChain 帮你把这些抽象成模块化组件，让你专注于业务逻辑，而不是重复造轮子。无论你是想做问答机器人、文档分析助手还是自动化Agent，这个框架都能大幅缩短开发周期。核心看点- 统一接口：支持OpenAI、Hugging Face、Claude、本地模型等数百种LLM，切换模型只需改一行配置。 - 预置组件：内置Prompt模板、链式调用、记忆模块、文档分割、检索引用（RAG）等开箱即用，Agent 机制更是能自主调用工具完成任务。 - 生态活跃：Apache-2.0许可证，社区贡献了数百个集成包（LangChain Hub），从向量数据库到Excel操作，什么都接。▲ github.com（阿里云通义万相生成配图，非网页截图）上手提示Python 3.8+即可安装 pip install langchain，搭配LangChain CLI或LangSmith调试更爽。无需GPU，但调用外部模型仍需API Key（或自己部署的开源模型）。适合Python开发者、AI产品经理、想快速验证想法的研究者。推荐先去README的「Quickstart」跑一个最简单的LLM链，再翻翻「Use Cases」里的文档问答或聊天机器人示例，你会立刻感受到模块化设计的爽快。仓库地址：langchain-ai/langchain

#Agent #GitHub

阅读全文参与讨论

GitHub项目

Aider：终端AI结对编程，多模型+自动Git提交真香

leaf2026年6月22日1 分钟阅读 39暂无评论

如果你经常在命令行里写代码，又想让大模型帮你改bug、加功能，Aider值得一试。它把AI助手直接嵌进终端，你只需要用自然语言描述需求，Aider就能读懂项目上下文，替你做编辑，甚至自动生成Git提交——连git commit -m都不用敲。核心看点-全栈上下文感知：Aider会扫描你的仓库结构、文件内容，结合Git历史和对话记忆，理解代码意图再下手改，不是那种“改完跑不通”的盲改。 -模型自由：默认支持OpenAI、Anthropic、Google Gemini等闭源模型，也能切换本地模型（通过Ollama或vLLM）。如果换了模型，整个会话会自动调整角色设定，体验很丝滑。 -天然Git集成：每次AI修改都会自动生成独立commit，方便你用git revert回滚。如果某次改崩了，直接抛弃那个commit就行，心理负担小很多。▲ github.com（阿里云通义万相生成配图，非网页截图）上手提示安装只要一行pip install aider-chat，然后在项目目录下运行aider，第一次会引导你配置API Key。建议准备一个OpenAI或Anthropic的API Key来体验完整功能；如果本地有GPU，也可以用Ollama跑CodeLlama等模型（速度会慢些，但免费）。Aider会自动识别项目语言，Python、JavaScript、Go、Rust等主流语言都支持得不错。Aider的README写得特别详细，还附了一个真实项目的demo视频，看完基本就上手了。建议去仓库的Releases看最新变化，或者Issues里翻翻别人踩过的坑，比自己摸索快很多。

#AI编程 #GitHub

阅读全文参与讨论

GitHub项目

CogVideo 开源视频生成模型，零门槛生成高清短片

leaf2026年6月26日1 分钟阅读 33暂无评论

如果你在找一款开源的文本到视频生成模型，CogVideo 值得你点开仓库。它来自清华团队，基于预训练的语言模型进行视频生成，不需要昂贵的商业 API，本地部署就能跑。对于想研究视频生成或者快速产出短视频原型的开发者来说，这是目前少有的高质量开源选择。核心看点- 多版本可选：官方提供了 9B 和 5B 参数的模型权重，兼顾效果与资源消耗。支持文本生成视频、图像生成视频两种模式。 - 高效推理架构：采用 VQ-VAE + Transformer 结构，结合 3D causal attention，能在 10 秒左右生成 4 秒 720×480 分辨率的视频（取决于显存）。 - 中文友好：模型对中文提示词理解较好，直接输入中文描述即可生成符合语义的视频，无需额外翻译。▲ github.com（阿里云通义万相生成配图，非网页截图）上手提示部署需要至少 24GB 显存的 GPU（推荐 RTX 4090 或 A100），项目基于 PyTorch，通过 Hugging Face 下载权重。官方提供了详细的 Docker 镜像和 gradio demo，拉下来就能跑。无需 API Key，所有推理在本地完成。MIT 许可证，商用或二次开发都很自由。不过注意，当前版本生成的人脸细节和复杂动作仍有失真，适合做概念演示或辅助素材生成。建议先去 README 看看模型局限性和未来计划，说不定你的使用场景正好契合。仓库地址： CogVideo GitHub 仓库

#GitHub #人工智能

阅读全文参与讨论

GitHub项目

MLC LLM：大模型边缘推理新选择，手机浏览器秒跑开源LLM

leaf2026年6月15日1 分钟阅读 34暂无评论

还在为本地跑大模型必须配高端GPU发愁？MLC LLM 是专为边缘设备设计的推理引擎，目标就是让模型在手机、笔记本甚至浏览器里也能流畅运行。如果你经常需要把LLM部署到非云端环境，或者想研究量化与编译优化的实战方案，这个仓库值得你从头翻一遍 README。核心看点- 跨平台后端全覆盖：支持 Metal（macOS/iOS）、Vulkan（Android/Linux）、CUDA（NVIDIA）以及 WebGPU（浏览器），一套代码适配多种硬件。 - 编译+量化双优化：通过 TVM 编译器对模型进行自动代码生成和 int4/int8 量化，推理速度与显存占用都大幅优化，实测在旗舰手机上可达每秒数十 token。 - 即装即用与自定义双模式：提供预编译的 Python/CLI 包，直接运行主流模型（Llama、Mistral、Gemma 等）；也开放编译管道，允许你优化自己的模型权重。▲ github.com（阿里云通义万相生成配图，非网页截图）上手提示- 场景：需要低延迟本地推理的 APP 开发者、研究边缘部署的算法工程师，或想在没有 GPU 的笔记本上体验 LLM 的爱好者。 - 依赖：Python 3.10+，安装 mlc-llm 和对应后端依赖（如 Vulkan SDK）；若只需 Web 版，直接导入 WebLLM npm 包即可。 - 许可：采用 Apache-2.0 许可证，商业友好，但模型权重需单独下载并遵守各自许可。打开仓库的 MLC LLM README，里面附带了手机端 Demo 二维码、性能基准和详细的编译指南，刷一遍就能判断它能否解决你的边缘部署痛点。

#GitHub #人工智能

阅读全文参与讨论

GitHub项目

OpenAI Swarm：轻量多Agent框架，几百行代码搞定协作编排

leaf2026年7月21日1 分钟阅读 22暂无评论

你在为多Agent之间的消息路由和工具调用头疼吗？OpenAI 刚开源的 Swarm 直接抛出了一个极简方案——不依赖 LangChain 那种厚重的抽象层，只用函数调用和循环队列让 Agent 互相“对话”，整个核心不到 300 行 Python。如果你平时折腾 Agent 编排、想快速验证多角色协作场景，这个仓库值得点开细看。核心看点- 极简API：Agent 就是一个 dict + 一个函数列表，通过 run() 启动后自动处理上下文切换和工具调用，新手也能半小时跑起来第一个多Agent流程。 - 无外部依赖：只要 Python 3.10+ 和 OpenAI SDK，无需 Redis、数据库或额外中间件，本地就能复现 ChatGPT 那样的多轮对话调度。 - 可扩展性：支持函数注册、Agent 间函数传递（handoff），你能用几行代码实现“质检员→修正员→审核员”的流水线，适合做 AIGC 内容审核或客服分流。▲ github.com（阿里云通义万相生成配图，非网页截图）上手提示项目采用 MIT 许可证，直接 pip install swarm 或克隆仓库就能用。典型场景是快速原型验证：比如让一个 Agent 阅读文档并提取摘要，再传给另一个 Agent 生成报告。需要 OpenAI API Key 才能调用实际模型，但仓库自带了模拟测试接口，不联网也能体验核心逻辑。GPU 不是必须的，完全依赖云 API。想看看怎么用 5 个函数定义出一组助手团队？赶紧去仓库的 README 和示例目录翻翻，那里有完整的旅游预订、客户支持等现成例子。仓库地址：OpenAI Swarm on GitHub

#Agent #GitHub

阅读全文参与讨论

GitHub项目

Quivr：用RAG打造你的第二大脑，私有知识库开源方案

leaf2026年7月7日1 分钟阅读 24暂无评论

如果你厌倦了把文档喂给ChatGPT后每次都要重复上传，或者担心数据隐私泄露，那Quivr值得你花两分钟看看。它是一个开源的“第二个大脑”，让你用本地或云端LLM构建私有RAG知识库，直接上传PDF、Markdown、代码文件甚至网页链接，就能像聊天一样检索内部信息。无论是个人笔记管理还是团队内部文档问答，都能用上。核心看点- 即插即用的RAG体验：内置文档解析、向量化存储与检索，支持Ollama、OpenAI等多种模型后端；无需手动写Embedding或向量库配置。 - 多模态输入与权限控制：不止文本，还可以拖入图片、音频（需模型支持），并提供简单的用户/群组权限，适合小团队协作。 - 数据完全自主可控：支持本地部署，用PostgreSQL + Supabase存储向量，无需把数据送进第三方SaaS，满足隐私偏好。▲ github.com（阿里云通义万相生成配图，非网页截图）适合谁知识工作者、研究人员、小团队，或任何想将散落文档按语义组织起来的人。依赖Docker、Node.js，可自托管；若使用本地Ollama无需API Key，若用OpenAI则需自己的Key。MIT许可证，放心商用。上手不难：克隆后执行docker compose up，浏览器打开后台，上传文档即开始问答。更详细的使用技巧可以看看仓库的README和官方文档，社区也在Discord里活跃答疑。快去Quivr仓库里点个Star，给你的知识库加个AI引擎吧。

#GitHub #RAG

阅读全文参与讨论

GitHub项目

Tabby 自部署的 AI 代码助手，终结 Copilot 隐私焦虑

leaf2026年6月20日1 分钟阅读 36暂无评论

如果你正在用 GitHub Copilot 却担心代码被上传，或者想在离线环境里也能有智能补全，Tabby 就是你一直在等的那个开源方案。它让你完全掌控自己的代码补全和聊天助手，只需一台带 GPU 的服务器（甚至可以使用 CPU 跑），就能获得媲美 Copilot 的体验。核心看点- 全链路自托管：从模型、后端到前端界面，所有组件都在你控制之下，不向任何第三方发送代码片段。支持 Ollama、vLLM 等多种推理后端，灵活切换模型（StarCoder2、CodeLlama 等）。 - 多 IDE 原生插件：VS Code、JetBrains、Neovim、Vim 主流编辑器全覆盖，安装即用。除了补全，还内置了内联代码聊天，无需切到网页就能问问题。 - 性能优先：核心用 Rust 编写，启动快，资源占用低。支持流式推理和连续补全，延迟控制在百毫秒级。还提供完整的 Prometheus 指标，方便自建监控告警。▲ github.com（阿里云通义万相生成配图，非网页截图）适合谁适合有自建服务器或私有云的公司团队，以及对代码隐私要求严格的安全敏感项目。单开发者也可以在一台个人笔记本上部署（推荐至少 16GB 内存 + 一块消费级 GPU）。项目已发布 Docker 镜像，部署教程在 README 里写得很详尽，不用折腾环境配置。如果你正在评估离开 Copilot 的替代方案，不妨去 Tabby 的 GitHub 仓库看看它的 roadmap 和最近一周的 issue 讨论，社区挺活跃的，很多新特性都是用户 PR 贡献的。开源社区值得关注。

#GitHub #人工智能

阅读全文参与讨论

GitHub项目

Qwen2.5：阿里通义千问新一代开源大模型，多尺寸与长上下文

leaf2026年5月28日2 分钟阅读 39暂无评论

如果你正在寻找一个既能跑在消费级显卡上、又能处理超长上下文的开源大模型，Qwen2.5 系列值得你立刻点开。阿里云通义千问团队最新发布，覆盖从 0.5B 到 72B 共 7 个尺寸，全部开源且支持 128K tokens 上下文，Apache-2.0 许可，无论是研究实验还是生产部署都能找到合适的版本。核心看点- 全尺寸覆盖与灵活部署：从 0.5B 的轻量级模型（适合手机或端侧推理）到 72B 的旗舰版本（需要多卡 GPU），中间还有 1.5B、3B、7B、14B、32B 等梯度，开发者可根据硬件和场景自由选择。 - 超长上下文与多语言能力：原生支持 128K tokens 上下文窗口，且在多语言基准（包括中文、英文、代码、数学）上表现优异，尤其适合需要处理长文档、对话历史或代码库的 RAG/Agent 应用。 - 开源生态友好：模型权重已在 Hugging Face 和 ModelScope 发布，兼容 vLLM、llama.cpp、Ollama 等主流推理框架，微调也可直接接入 LLaMA-Factory，上手门槛极低。▲ github.com（阿里云通义万相生成配图，非网页截图）上手提示- 依赖与硬件：最小 0.5B 模型可在 CPU 或 4GB 显存的 GPU 上运行；72B 推荐使用 4×A100（80GB）或更高配置。无需 API Key，全部离线部署。 - 典型场景：长文档问答、代码生成与修复、多轮对话 Agent、本地知识库 RAG 系统。建议优先尝试 7B/14B 版本，在效果与资源消耗间取得平衡。 - 快速开始：通过 transformers 或 vLLM 加载模型，参考仓库 README 中的示例代码即可在 5 分钟内跑通推理。更多细节（如微调脚本、量化配置、Benchmark 结果）都写在仓库的文档里，建议直接去 README 的“模型列表”与“快速…

#GitHub #人工智能

阅读全文参与讨论