跳到内容

早上好,祝你今天高效顺利。

Mochi 1 开源视频生成:一句提示词生成流畅电影级动态

如果你试过 Sora 但没资格内测,或者被闭源模型的价格…

UI-TARS 开源多模态 GUI Agent,让大模型替你操作屏幕

还在为重复的 GUI 操作烦恼吗?由字节跳动开源的多模态…

Vocalize:用 GPU 加速本地语音合成,支持多语言与情感控制

如果你需要在本地快速生成自然、带情感的语音,又不想依赖云…

LobeChat:一站式多模态聊天与Agent编排平台

厌倦了在多个AI服务之间来回切换?LobeChat是一个…

R1-V:用强化学习让VLM学会视觉定位,无需手工标注

想让视觉语言模型(VLM)不仅看懂图片,还能精准指出目标…

MinerU:PDF 文档解析利器,让大模型吃透复杂排版

处理 PDF 中的多栏、表格、公式和页眉页脚,一直是 R…

InstantID:一张照片秒级生成风格化肖像,无需额外训练

厌倦了为生成一张特定风格的肖像照而反复调试 LoRA 或…

Chrome 小模型也能跑 RAG:Surya 精准文档 OCR 与版面解析

如果你正头疼 PDF 表格、多栏排版、数学公式在 RAG…

OpenVoice: 即时语音克隆,仅需短音频即可生成多语言语音

如果你在寻找一个能快速克隆任意说话人音色、并支持多语言语…

LlamaParse:RAG 场景下的智能文档解析利器

手头有一堆 PDF、PPT 或 Excel 文件想喂给大…

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.