跳到内容

夜深了,注意休息,愿你今夜好梦。

GitHub项目

共 65 篇文章

GitHub项目
最新

Stable Diffusion WebUI:本地生图的全参数控制面板,从LoRA到SDXL一步到位

如果你还在依赖在线平台生成AI图像,那你可能错过了Stable Diffusion WebUI带来的自由度。这个仓库让每个人都能在自己电脑上运行完整的Stable Diffusion管线,无论是调整采样器、叠加LoRA模型,还是制作ControlNet精确构图,都不用担心额度或排队。特别是对于那些想深入实验Prompt工程师、模型融合的玩家,它几乎是必备起点。核心看点- 插件生态成熟:内置ControlNet、Tiled VAE、Ultimate SD Upscale等主流扩展,社区贡献了上千个脚本和自定义节点,能直接搭出复杂的自动化工作流。 - 模型切换零门槛:在界面上即可下载、加载CivitAI上的各种Checkpoint和LoRA,支持SD1.5、SDXL、SD3等主流架构,甚至可以通过--medvram参数在6GB显存的显卡上跑出不错的效果。 - 训练与微调整合:附带了Dreambooth和Textual Inversion的集成面板,无需单独配置环境,就能打造自己的风格或角色模型。▲ github.com(阿里云通义万相 生成配图,非网页截图)上手提示Windows用户下载整合包即可解压运行;Linux/macOS需要Python 3.10+和PyTorch环境。默认使用AGPL-3.0许可证,但使用第三方模型时请遵循各自的授权协议。第一次启动会自动下载默认模型,之后通过--xformers或--opt-sdp-attention可大幅提升生成速度。如果你对图像生成的细节控制有执念,这个项目的README和Wiki几乎写满了从安装到高级技巧的全指南。去它的GitHub页面看一眼,你会找到社区里最多人踩过的坑和对应的解决方案——Stable Diffusion WebUI 就是那个让你不再盲猜参数的地方。

GitHub项目
最新

LibreChat:自建AI聊天门户,多模型切换+数据全掌控,开发者必试

厌倦了官方ChatGPT的局限?想用同一个界面调用GPT-4、Claude和本地模型,同时把对话数据握在自己手里?LibreChat是一个开源的AI聊天前端,让你用熟悉的类ChatGPT体验,自由配置多模型后端。核心看点- 多模型无缝切换:支持OpenAI、Anthropic、Azure、Google、本地Ollama/OpenAI兼容端等,对话历史清晰保留。 - 数据主权与隐私:所有对话存储在你自己的数据库,可选Supabase或本地SQLite,告别平台锁。 - 插件与预设:内置联网搜索、图片生成、代码解释等工具,支持自定义Prompt预设和Agent行为。▲ github.com(阿里云通义万相 生成配图,非网页截图)适合谁适合想要自部署AI助手的中小团队或独立开发者。需要Node.js和基本的Docker/环境配置,可选接入付费API(如OpenAI)或免费本地模型。项目基于Apache-2.0许可证,可以放心二次开发。最后一段导向README:关于安装脚本、主题定制和更多玩法,直接去仓库的README和Discussions社区。点开 LibreChat 仓库 看看你还需要什么插件。

GitHub项目
最新

Khoj:本地AI搜索你的知识库,比Obsidian自带搜索好用十倍

还在为记不清笔记放在哪个文件夹而抓狂?Khoj 能直接索引你本地的 Markdown、PDF、图片甚至代码,并用本地或云端的大模型给你精准答案。对 Obsidian、Logseq 用户来说,这几乎是知识管理的终局形态——安装一个插件,你的所有笔记瞬间拥有一个会思考的搜索引擎。核心看点- 多种数据源统一索引:支持本地文件、Obsidian 保险库、LaTeX、Org-mode 等,甚至能读取图片中的文字。索引后可通过自然语言提问,Khoj 会召回最相关片段并生成回答。 - 自由选择推理后端:既可以用 ChatGPT、Claude 等云端 API,也能全部在本地跑(通过 llama.cpp、Ollama),完全离线也能用。MIT 许可证,代码透明,隐私可控。 - 跨平台触手可及:桌面端有 Obsidian 插件、Emacs 包、Web 界面,移动端也有对应客户端。查询时还能一键跳到原始文件位置,非常顺手。▲ github.com(阿里云通义万相 生成配图,非网页截图)适合谁- 笔记重度用户:如果你每天记大量笔记但检索低效,Khoj 能直接给出理解后的答案,而不是单纯的关键词匹配。 - 隐私敏感的研究者:选择本地模型,所有数据不出机器,适合处理敏感文档。 - 喜欢折腾的自部署玩家:通过 Docker 或 pip install khoj 就能跑起来,依赖 Python 3.10+ 和至少 8GB 内存。若用本地模型还需 GPU,但也可纯 CPU 推理(速度稍慢)。Khoj 的 README 写得相当详尽,从安装到自定义插件都有教程。如果你也想让自己的笔记“活”起来,不妨点开仓库看看:GitHub - khoj-ai/khoj

GitHub项目

browser-use:让AI替你控制浏览器,填表下单自动化一步到位

如果你觉得写爬虫脚本太麻烦,或者手动重复网页操作浪费时间,这个仓库就是为你准备的。browser-use 是一个基于大语言模型的浏览器自动化代理,能让AI像人一样在浏览器里点击、输入、滚动,直接执行复杂任务——从批量填表到自动化数据采集,全程只需自然语言指令,适合追求效率的开发者或需要对现有业务流程做无侵入改造的团队。核心看点- 自然语言驱动,零门槛上手:无需编写选择器或XPath,用一句话描述目标(比如“帮我登录知乎,把今日热榜前十条保存成Markdown”),AI自动拆解步骤并操作浏览器。 - 深度集成多种大模型:底层支持GPT-4o、Claude 3.5等主流模型,也兼容本地部署的开源模型(通过Ollama),灵活应对隐私或成本敏感场景。 - 可观察性与错误恢复:实时输出每个动作的思考日志,遇到验证码或页面变更时能自主调整策略,而不是直接崩溃。▲ github.com(阿里云通义万相 生成配图,非网页截图)适合谁Web自动化老手可以把它当成“大脑”替代繁琐的Selenium脚本;产品经理或运营则能直接让AI执行竞品数据巡检、定时打卡等重复劳动。依赖方面,只需Python 3.10+和一个Chrome/Firefox浏览器,配合OpenAI API Key或本地模型即可开始。注意涉及敏感网站时请遵守目标网站的服务条款。项目文档提供了Quickstart示例和完整的Action列表,建议先跑一遍Demo感受“AI替你操作”的丝滑。更多使用技巧和社区踩坑记录,可以直接去仓库的Issues和Discussions里翻——browser-use GitHub 主仓库 里已经有大量真实案例等你挖掘。

GitHub项目

CogVideo 开源视频生成模型,零门槛生成高清短片

如果你在找一款开源的文本到视频生成模型,CogVideo 值得你点开仓库。它来自清华团队,基于预训练的语言模型进行视频生成,不需要昂贵的商业 API,本地部署就能跑。对于想研究视频生成或者快速产出短视频原型的开发者来说,这是目前少有的高质量开源选择。核心看点- 多版本可选:官方提供了 9B 和 5B 参数的模型权重,兼顾效果与资源消耗。支持文本生成视频、图像生成视频两种模式。 - 高效推理架构:采用 VQ-VAE + Transformer 结构,结合 3D causal attention,能在 10 秒左右生成 4 秒 720×480 分辨率的视频(取决于显存)。 - 中文友好:模型对中文提示词理解较好,直接输入中文描述即可生成符合语义的视频,无需额外翻译。▲ github.com(阿里云通义万相 生成配图,非网页截图)上手提示部署需要至少 24GB 显存的 GPU(推荐 RTX 4090 或 A100),项目基于 PyTorch,通过 Hugging Face 下载权重。官方提供了详细的 Docker 镜像和 gradio demo,拉下来就能跑。无需 API Key,所有推理在本地完成。MIT 许可证,商用或二次开发都很自由。不过注意,当前版本生成的人脸细节和复杂动作仍有失真,适合做概念演示或辅助素材生成。建议先去 README 看看模型局限性和未来计划,说不定你的使用场景正好契合。仓库地址: CogVideo GitHub 仓库

GitHub项目

aisuite:Andrew Ng 出品,一行代码切换 LLM 提供方,告别 API 绑定

开发 AI 应用时,常常要同时试 OpenAI、Anthropic、Google 等多家模型,每家 API 格式不同,代码里写满 if-else 实在糟心。aisuite 是一个极简 Python 库,让你用同一套接口调用主流 LLM 提供方,支持流式输出、函数调用等,适合快速原型验证或多模型对比。核心看点统一接口:只需实例化 aisuite.Client(),传入 provider/model 字符串即可调用 GPT-4、Claude、Gemini、Groq 等,内部自动路由。轻量无侵入:不需要改原有项目结构,安装后替换 client.chat.completions.create 等调用即可。可扩展:基于 Provider 插件机制,社区可以轻松支持新厂商,目前覆盖 10+ 主流服务,且持续增加。▲ github.com(阿里云通义万相 生成配图,非网页截图)上手提示如果你是 Python 开发者,pip install aisuite 后设置对应 API Key 就能跑通。不需要 GPU,纯 API 调用,适合在个人项目或团队原型中快速切换模型做对比测试。注意不同提供商的函数调用格式略有差异,文档内有详细对比表。去仓库 README 看看支持了哪些厂商,顺便 fork 一份以备不时之需:aisuite GitHub 主页。

GitHub项目

Whisper.cpp:纯C++本地语音识别,轻量部署与离线推理利器

厌倦了云端语音识别的高延迟和隐私问题?Whisper.cpp 让你直接在笔记本或 Raspberry Pi 上运行 OpenAI 的 Whisper 模型,纯 C++ 实现,无需 Python 环境,启动即用。非常适合需要在边缘设备、嵌入式系统或离线场景下快速实现语音转文字的研究者和开发者。核心看点- 极致的轻量部署:整个项目编译后仅几 MB,内存占用比官方 Python 版低数倍,支持 INT4/INT8 量化推理,在低端硬件上也能流畅运行。 - 多模型格式与加速:原生支持 ggml 格式的 Whisper 模型,同时兼容 Core ML(Apple 芯片)、OpenVINO、CUDA 等后端,可以根据硬件灵活选择推理引擎。 - 丰富的接口与工具:除了命令行一键转写外,还提供 C API、Python 绑定以及 Web 示例,方便集成到各类应用中,比如实时字幕、语音助手等。▲ github.com(阿里云通义万相 生成配图,非网页截图)上手提示- 环境要求:C++11 以上编译器,CMake 3.10+。无需 GPU,纯 CPU 即可运行,但配备 Apple M 系列芯片或 NVIDIA GPU 能获得加速。 - 获取模型:首次使用会通过 models/download-ggml-model.sh 自动下载 tiny/base/small 等尺寸的模型,默认 tiny 模型在 M1 Mac 上可达实时速度。 - 注意事项:项目采用 MIT 许可证,模型权重需参考 OpenAI 的许可条款;支持的语言与官方 Whisper 一致(已测试中英文)。快去仓库 Releases 页面下载预编译二进制,或直接 clone 编译试试:用命令行 ./main -m models/ggml-tiny.bin -f audio.wav 就能看到实时转写结果。完整用法和优化配置都在 whis…

GitHub项目

ComfyUI-Manager:一键安装插件,让AI工作流不再碎一地

如果你是 ComfyUI 的重度用户,一定经历过满 GitHub 找插件、手动解压放路径、卡版本冲突的抓狂——ComfyUI-Manager 就是为了终结这种体力活而生的。它像一个官方的插件商店,但更激进:直接在 ComfyUI 界面里完成搜索、安装、更新、卸载,甚至能自动检测依赖缺失并提示修复。对于每天要切换十几种 LoRA 和 ControlNet 的创作者来说,省下的时间就是灵感。核心看点- 浏览器内的插件管理:完全集成在 ComfyUI 的工作台侧边栏,无需进终端、翻 Releases 页面,点几下就能装上最新的节点包。 - 自动更新与依赖检查:每次启动时扫描已安装插件的可用更新,并标记那些缺少 requirements.txt 中包的节点,减少「环境坏了」的排查时间。 - 社区贡献索引:内置一个由社区维护的插件列表,覆盖从动画、视频到 3D 渲染的各种扩展,新手也能快速发现优质资源。▲ github.com(阿里云通义万相 生成配图,非网页截图)适合谁ComfyUI 用户——无论你是刚装好默认节点的萌新,还是深挖自定义工作流的进阶玩家,这个工具都能让你从复制文件夹的重复劳动里解脱出来。依赖环境需要 Python 3.9+ 和 ComfyUI 本体,仓库基于 MIT 许可,不附带额外 API Key 需求。直接去仓库的 README 看看怎么通过 Git Clone 或者内置安装器快速启用,然后在 Workflow 里试一次安装「ComfyUI-Impact-Pack」这类热门节点,你会回来感谢这个项目的。 ComfyUI-Manager 仓库传送门

GitHub项目

Aider:终端AI结对编程,多模型+自动Git提交真香

如果你经常在命令行里写代码,又想让大模型帮你改bug、加功能,Aider值得一试。它把AI助手直接嵌进终端,你只需要用自然语言描述需求,Aider就能读懂项目上下文,替你做编辑,甚至自动生成Git提交——连git commit -m都不用敲。核心看点-全栈上下文感知:Aider会扫描你的仓库结构、文件内容,结合Git历史和对话记忆,理解代码意图再下手改,不是那种“改完跑不通”的盲改。 -模型自由:默认支持OpenAI、Anthropic、Google Gemini等闭源模型,也能切换本地模型(通过Ollama或vLLM)。如果换了模型,整个会话会自动调整角色设定,体验很丝滑。 -天然Git集成:每次AI修改都会自动生成独立commit,方便你用git revert回滚。如果某次改崩了,直接抛弃那个commit就行,心理负担小很多。▲ github.com(阿里云通义万相 生成配图,非网页截图)上手提示安装只要一行pip install aider-chat,然后在项目目录下运行aider,第一次会引导你配置API Key。建议准备一个OpenAI或Anthropic的API Key来体验完整功能;如果本地有GPU,也可以用Ollama跑CodeLlama等模型(速度会慢些,但免费)。Aider会自动识别项目语言,Python、JavaScript、Go、Rust等主流语言都支持得不错。Aider的README写得特别详细,还附了一个真实项目的demo视频,看完基本就上手了。建议去仓库的Releases看最新变化,或者Issues里翻翻别人踩过的坑,比自己摸索快很多。

GitHub项目

MetaGPT:多Agent协作写代码,不只是聊天机器人

还在让AI写单个函数?MetaGPT直接把一个软件公司搬进命令行——产品经理、架构师、工程师、QA各司其职,输入一句话需求,自动输出PRD、设计文档、代码甚至测试用例。对于想要探索Agent协作开发、或者懒得写重复性工程代码的开发者来说,这个仓库能省下大量沟通和编排成本。核心看点- 角色化分工:内置Product Manager、Architect、Project Manager、Engineer等角色,每个Agent有独立的Prompt和记忆,模拟真实团队协作流程,产出的文档和代码结构清晰。 - SOP驱动:基于标准操作流程(SOP)组织对话,从需求分析到代码生成分阶段执行,减少Agent间的混乱,生成的代码可直接运行或作为项目骨架。 - 增量迭代:支持对已有项目进行增量修改,而非每次都从头生成;通过git管理版本变化,方便开发者审查和回滚。▲ github.com(阿里云通义万相 生成配图,非网页截图)上手提示Python 3.9+,建议配置OpenAI API Key(或兼容的本地模型)。安装简单:pip install metagpt 即可。第一次运行会自动创建角色配置,根据提示输入需求描述(中英文均可)。如果本地有可用的LLM(如通过Ollama),可以配置成本地推理,无需联网。适合快速验证想法、生成MVP原型,也适合研究多Agent协作机制。项目采用Apache-2.0许可证,社区贡献活跃,Issues和PR响应快。想深入了解Agent如何分工协作、处理复杂任务,直接去MetaGPT GitHub页面看示例和文档,会发现很多值得复用的设计思路。

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.