多模态 - 芝麻派AI

Mochi 1 开源视频生成：一句提示词生成流畅电影级动态

如果你试过 Sora 但没资格内测，或者被闭源模型的价格…

UI-TARS 开源多模态 GUI Agent，让大模型替你操作屏幕

还在为重复的 GUI 操作烦恼吗？由字节跳动开源的多模态…

Vocalize：用 GPU 加速本地语音合成，支持多语言与情感控制

如果你需要在本地快速生成自然、带情感的语音，又不想依赖云…

LobeChat：一站式多模态聊天与Agent编排平台

厌倦了在多个AI服务之间来回切换？LobeChat是一个…

R1-V：用强化学习让VLM学会视觉定位，无需手工标注

想让视觉语言模型（VLM）不仅看懂图片，还能精准指出目标…

MinerU：PDF 文档解析利器，让大模型吃透复杂排版

处理 PDF 中的多栏、表格、公式和页眉页脚，一直是 R…

InstantID：一张照片秒级生成风格化肖像，无需额外训练

厌倦了为生成一张特定风格的肖像照而反复调试 LoRA 或…

Chrome 小模型也能跑 RAG：Surya 精准文档 OCR 与版面解析

如果你正头疼 PDF 表格、多栏排版、数学公式在 RAG…

OpenVoice: 即时语音克隆，仅需短音频即可生成多语言语音

如果你在寻找一个能快速克隆任意说话人音色、并支持多语言语…

LlamaParse：RAG 场景下的智能文档解析利器

手头有一堆 PDF、PPT 或 Excel 文件想喂给大…

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.