Translating this page to English in your browser…
跳到内容

早上好,祝你今天高效顺利。

GitHub项目

共 43 篇文章

GitHub项目
最新

ChatGPT-Next-Web:自部署的跨平台AI聊天面板,一键接入多模型

厌倦了官方ChatGPT的订阅限制或频繁的网络问题?这个开源项目让你用Vercel或Docker在几分钟内部署一个功能完整的AI聊天Web UI,支持OpenAI、Claude、Gemini、本地模型(Ollama)等多种后端,并内置会话管理、Markdown渲染、语音输入等实用功能。适合想要拥有私人AI助手、团队共享API额度或折腾自托管方案的开发者与重度用户。核心看点- 多模型一键切换:在同一个对话界面里自由切换GPT-4、Claude 3、Gemini Pro甚至本地跑起来的Llama 3,不用再开多个标签页。 - 零门槛部署:支持Vercel一键部署(免费额度足够个人使用)、Docker本地运行、以及手动构建,README提供清晰的步骤截图,即使前端新手也能在10分钟内上线。 - 实用细节拉满:内置会话文件夹管理、Prompt模板库、导出/导入对话记录(JSON/Markdown)、全局遮罩(Mask)功能可预设角色设定,还支持PWA离线访问。▲ github.com(阿里云通义万相生成配图,非网页截图)上手提示- 无需GPU:纯前端项目,后端API由你指定的模型服务商提供(需自行申请OpenAI等API Key,或搭配Ollama使用本地模型)。 - Node.js 18+ 即可本地开发,Docker部署则需Docker Engine 20+。项目采用MIT许可证,可自由修改和商用。如果想给团队搭建一个统一的AI对话入口,或者单纯想摆脱官方客户端的种种限制,直接去仓库看README里的Vercel部署按钮,点一下就能拥有自己的AI面板。传送门:ChatGPT-Next-Web

GitHub项目
最新

InstantStyle:零门槛风格迁移,一张图搞定角色与画风解耦

受够了「换风格连人物长相一起变」的尴尬?InstantStyle 是阿里达摩院开源的一套风格迁移框架,专治风格与内容纠缠不清的痛点。开发者只需要给一张风格参考图和一段文本描述(或另一张内容图),就能在保持主体身份(人脸、物体结构)不变的前提下,精准迁移色彩、笔触、光影等风格特征。适合做 AI 绘画、设计素材生成、虚拟人形象定制的研发同学,也适合想要快速实验风格化效果的内容创作者。核心看点- 显式解耦内容与风格:通过将风格特征注入到特定注意力层(而不是全局),实现只改画风、不改人物或物体轮廓。实测中即使多次风格迁移,主角五官也能保持稳定。 - 即插即用,无需微调:基于预训练扩散模型(如 SDXL),直接加载权重即可推理,不需要为每张图重新训练 LoRA 或 DreamBooth。对显存要求友好,单张 24GB 消费级显卡可跑。 - 支持多模态风格输入:既可以用一张图像作为风格参考,也可以用一段文本描述想要的风格(例如「水墨画风格」「赛博朋克霓虹」),灵活性很高。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁- AI 绘画应用开发者:想给自己的产品增加「风格保持」功能,可以直接集成 InstantStyle 的推理管线,MIT 许可证下商用友好。 - 设计师与插画师:快速将线稿或照片套上特定艺术风格,且不破坏原始构图和主体特征。需要 Python 环境 + PyTorch + 至少 8GB 显存(推荐 24GB)。 - 风格迁移研究者:代码结构清晰,论文与开源实现一致,方便对比实验或改进解耦机制。更多示例和模型权重下载方式,建议直接去仓库 README 查看「Quick Start」和「Gallery」章节,里面贴了风格对比图和推理参数推荐。别忘了给仓库点个 Star,方便后续跟进更新:InstantStyle GitHub 主页

GitHub项目

Fooocus:一键出片的极简AI绘画工具,告别参数调优

受够了在 WebUI 里调整采样步数、CFG Scale 和一堆看不懂的滑块?Fooocus 把 Stable Diffusion 的复杂性全部封装到背后,给你一个类似 Midjourney 的极简界面:输入提示词,点击生成,就能得到高质量图片。它内置了图像质量优化、风格预设和自动提示词增强,让非技术用户也能专注于创意本身。核心看点- 开箱即用的极简体验:下载解压后双击即可运行,无需配置 Python 环境或手动下载模型。界面只保留提示词框、图像尺寸和风格选择器,所有底层参数(采样器、CFG、负面提示词等)均由算法自动优化。 - 内置风格库与图像增强:提供几十种预设风格(如“电影感”“赛博朋克”“水彩”),一键切换。生成后自动执行高分辨率修复(HD Scaling)和面部修复,输出可直接用于社交媒体或设计稿。 - 基于 SDXL 的深度优化:默认使用 SDXL 模型,并集成了自研的采样策略和提示词扩展模块,生成图像的构图、光影和细节一致性显著优于裸 SDXL。支持 LoRA 和 ControlNet 的简单拖放,保留一定扩展空间。▲ github.com(阿里云通义万相生成配图,非网页截图)上手提示- 硬件:推荐 8GB 以上显存(NVIDIA GPU),16GB 可流畅生成 1024×1024 以上分辨率。支持纯 CPU 模式但极慢。 - 依赖:无需 Python 安装,内置一键启动包(Windows/macOS/Linux 均有预编译版本)。所有模型权重自动从 Hugging Face 下载,遵守 SDXL 的 Open RAIL-M 许可证。 - 适合谁:AI 绘画新手、设计师、内容创作者,以及任何希望快速产出高质量图片但不想折腾技术细节的人。Fooocus 的 GitHub Releases 页面提供了各平台的便携版,下载即玩。想了解它如何自动优化参数?查看 Foo…

GitHub项目

Vocalize:用 GPU 加速本地语音合成,支持多语言与情感控制

如果你需要在本地快速生成自然、带情感的语音,又不想依赖云服务或复杂配置,Vocalize 是一个值得关注的选项。它基于 VITS 架构优化,支持中、英、日等多语言,并提供细粒度的情感强度调节,让你能控制语速、音调甚至笑声。对于内容创作者、无障碍开发者或语音助手研究者来说,这是目前少数能同时兼顾质量与可定制性的开源方案。核心看点- 多语言与情感控制:内置预训练模型支持中文、英文、日文,可通过参数调整 开心、悲伤、愤怒 等情感强度,甚至插入笑声标签,让合成语音更自然。 - GPU 加速推理:利用 PyTorch 和 CUDA 实现实时或近实时合成,单次推理在消费级显卡(如 RTX 3060)上只需几百毫秒,无需 TPU 或高端硬件。 - 简洁 API 与 WebUI:提供 Python 调用接口和内置 Gradio 界面,无需写代码即可通过浏览器上传文本、选择模型、生成并下载音频。▲ github.com(阿里云通义万相生成配图,非网页截图)上手提示适合 语音合成爱好者、游戏/视频配音者 或 无障碍工具开发者。依赖 Python 3.8+ 和 PyTorch(推荐 CUDA 版本),建议至少 4GB 显存以获得流畅体验;无需 API Key,所有模型权重在首次运行时自动下载。项目采用 Apache-2.0 许可证,社区提供预训练模型和微调教程。想快速体验本地语音合成,直接前往 Vocalize 仓库 查看 README 中的一键安装脚本和示例。

GitHub项目

ComfyUI:拖拽式节点工作流,AI 图像/视频生成利器

厌倦了每次跑 Stable Diffusion 都要记命令行参数?ComfyUI 把复杂流程变成可视化节点图——拖拽连接模块即可搭建文生图、图生图、ControlNet 甚至视频生成管线。无论你是想快速出图的设计师,还是需要精细控制每一层模型的开发者,这个仓库都能让你用更少代码做更多事。核心看点- 模块化节点系统:所有操作(模型加载、提示词输入、采样器、后处理)都是可拖拽的节点,自由组合,逻辑一目了然,方便调试和复用。 - 原生支持多模型生态:直接兼容 Stable Diffusion 系列、FLUX、AnimateDiff 等主流模型,无需额外适配;还能加载 LoRA、ControlNet、T2I-Adapter 等附加模块。 - 高效率与低门槛并存:基于 PyTorch,利用 GPU 加速,同时提供 Web UI 界面;社区贡献了大量现成工作流,导入即用,适合从新手到进阶用户。▲ github.com(阿里云通义万相生成配图,非网页截图)上手提示- 依赖:Python 3.8+,PyTorch,NVIDIA GPU(建议 8GB 以上显存);CPU 模式可用但速度较慢。 - 无需 API Key:完全本地运行,模型权重需自行下载(Hugging Face / Civitai),仓库以 MIT 许可证发布,放心使用。 - 典型场景:批量生成角色立绘、搭建 ControlNet 精准控制姿势/深度、组合 AnimateDiff 制作短视频片段。GitHub 仓库里不仅有完整安装指南,还有官方示例工作流和问题讨论区。直接点开 ComfyUI 体验节点式创作的快感吧。

GitHub项目

LobeChat:一站式多模态聊天与Agent编排平台

厌倦了在多个AI服务之间来回切换?LobeChat是一个开源、可自托管的智能聊天平台,整合了GPT-4、Claude、Gemini等主流大模型,并支持文生图、语音对话、插件系统与自定义Agent。无论是开发者想快速搭建私有助手,还是爱好者追求更灵活的AI交互体验,它都能大幅降低门槛。核心看点- 多模型统一接入:内置数十种模型提供商(OpenAI、Anthropic、Google、国产模型等),无需手动配置API,一个界面即可切换对话引擎。 - 插件与工具链:支持联网搜索、代码执行、图片生成等插件,Agent可自主调用工具完成复杂任务,RAG能力通过知识库插件扩展。 - 优雅的对话体验:支持Markdown渲染、代码高亮、语音输入/输出,以及多模态内容(图片、文件)的拖拽交互,界面接近商业产品。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁- 希望统一管理多个AI API的开发者,或需要为团队搭建内部AI工作台的技术负责人。 - 对AI Agent和工具调用感兴趣的研究者,可基于其插件系统快速验证想法。 - 依赖:Node.js 18+,可一键Docker部署;使用自带模型需API Key,部分插件(如联网搜索)需额外配置。快去仓库的Releases和插件市场逛逛,看看如何定制你自己的AI工作流:LobeChat GitHub仓库

GitHub项目

SGLang:为 LLM 推理与结构化输出优化的高性能引擎

如果你正在为 LLM 的推理速度和结构化输出(JSON Schema、约束解码)头疼,SGLang 可能是你需要的加速器。它由 LMSYS 团队打造,专为 LLM 推理场景设计,通过一种称为“结构化生成语言”的编程模型,将提示预处理、并行采样和约束解码融合为一条高效流水线,特别适合需要高吞吐量的在线服务和 Agent 调用场景。核心看点- 结构化生成语言(SGLang):用 Python 子语言描述生成逻辑,自动优化执行计划,支持约束解码(如强制输出合法 JSON)和并行调用,大幅减少冗余计算。 - 高性能推理后端:集成了 FlashInfer 等优化内核,支持连续批处理、分页注意力,在多个基准测试中吞吐量优于 vLLM 和 TensorRT-LLM。 - 灵活的部署选项:提供 OpenAI 兼容的 API 服务器,也可作为 Python 库嵌入,支持 Llama、Mistral、Qwen 等主流模型。▲ github.com(阿里云通义万相生成配图,非网页截图)上手提示适合对推理延迟和吞吐量有要求的开发者,比如构建实时聊天机器人、Agent 工具链或结构化数据提取管道。需要 CUDA 环境(推荐 A100 或同等 GPU),Python 3.9+,模型权重需自行下载或从 Hugging Face 加载。项目采用 Apache-2.0 许可证,社区活跃,Issue 响应快。想体验“一次提示、多路并行输出”的威力?直接去 SGLang GitHub 仓库 看示例和性能对比。

GitHub项目

Mastra:面向 AI Agent 的 TypeScript 编排框架,可观测与工具调用一体化

如果你正在用 TypeScript 构建多步骤 Agent 或 RAG 流水线,却苦于调试链路不透明、工具调用难管理,不妨看看 Mastra。这个开源框架把 Agent 编排、记忆管理、工具调用和可观测性打包进一套声明式 API,尤其适合需要精细控制 LLM 行为的 Node.js 后端开发者。核心看点- 声明式 Agent 编排:通过 YAML 或 TypeScript 定义任务图(DAG),支持并行执行、条件分支和循环重试,配合内置的 LLM 调用追踪,每一步的 Token 消耗和延迟都一目了然。 - 工具调用与记忆一体化:自带函数调用脚手架,能自动将外部 API 或数据库操作注册为 Agent 可调用的工具,并支持基于向量存储的短期/长期记忆,减少重复上下文注入。 - 与主流推理后端兼容:开箱支持 OpenAI、Anthropic、Ollama 等,也允许通过自定义 Provider 接入本地模型,配合 可观测性中间件 输出结构化日志,方便集成到 Grafana 或 Datadog。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁面向 Node.js 全栈或后端开发者,特别是正在搭建客服、代码审查、数据爬取等需要多步推理的 Agent 服务。依赖简单:仅需 Node 18+ 和 npm/pnpm,无需独立服务;若使用内置向量记忆则需一个 PostgreSQL 或 SQLite 实例。所有 API Key 由用户自行管理,框架不采集数据。Mastra 的 README 提供了从零搭建“天气查询 Agent”的快速入门,文档站还有更复杂的 RAG 流水线示例。如果你对 Agent 的可观测性有执念,它的 Tracing 模块值得单独翻翻——或许正是你下一个生产级应用缺失的那块拼图。戳仓库主页 Mastra on GitHub 开始探索。

GitHub项目

R1-V:用强化学习让VLM学会视觉定位,无需手工标注

想让视觉语言模型(VLM)不仅看懂图片,还能精准指出目标位置?R1-V 提供了一个极简的强化学习方案:基于 GRPO 算法,只靠“对与错”的奖励信号,就能让模型学会输出物体边界框。对于研究多模态对齐、Agent 视觉感知的开发者来说,这是一个低门槛的动手实验入口。核心看点- 纯强化学习实现视觉 grounding:无需人工标注的坐标回归数据,而是通过奖励模型判断“框是否包含目标物体”,驱动模型自己学会输出坐标。灵感来自 DeepSeek-R1 的推理范式。 - 代码极简,易于复现:基于 Qwen2-VL 等开源 VLM,训练脚本不到 200 行,依赖主流的 transformers、vLLM 和 TRL 库,适合快速跑通实验。 - 可扩展性强:支持替换不同的 VLM 基座和奖励函数定义,方便研究者探索“推理型视觉定位”的新范式。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁对多模态 Agent、视觉推理感兴趣的 AI 研究员或学生。需要至少一张 24GB 显存的 GPU(如 RTX 3090/4090)来微调 7B 级模型。无需外部 API Key,所有依赖均来自开源生态(Apache-2.0 许可)。想亲眼看看“零标注”的视觉定位如何工作?不妨从 README 的快速开始部分跑起,仓库地址:R1-V:用强化学习教会 VLM 看位置。

GitHub项目

Outlines:让 LLM 输出严格遵循 JSON 模式的可靠生成框架

你是否受够了 LLM 胡编乱造 JSON 格式?Outlines 是一个轻量但强大的 Python 库,让大模型输出严格遵循你定义的 Pydantic 模型或 JSON Schema,无需反复提示词调优。它通过约束解码(constrained decoding)在生成阶段直接控制 token 采样空间,特别适合需要结构化输出的 Agent、RAG 链路和 API 后端开发者。核心看点- 声明式结构化输出:直接传入 Pydantic 类或 JSON Schema,模型生成的结果自动匹配格式,支持嵌套、可选字段和枚举约束。 - 多后端兼容:原生支持 llama.cpp、vLLM、Transformers 以及 OpenAI API 兼容接口,一套 API 切换本地和云端模型。 - 轻量无侵入:不修改模型权重,仅通过正则或 FSM(有限状态机)在采样时引导生成,推理速度几乎无损失。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁正在构建 函数调用、数据抽取、表单生成、SQL 查询生成 等需要可靠结构化输出的开发者。依赖 Python 3.8+,无需 GPU 即可使用 OpenAI 后端;若本地部署,推荐配合 llama.cpp 或 vLLM 使用。项目采用 Apache-2.0 许可证。想彻底告别 JSON 解析异常?去 Outlines 的 README 看看它如何用几十行代码搞定复杂约束,社区还提供了丰富的 Pydantic 示例。

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.