如果你在寻找一个能让你用文字生成音乐、音效或语音的开源方案,Meta 的 AudioCraft 值得你立刻点开仓库。它把 MusicGen、AudioGen 和 EnCodec 三套模型整合进统一框架,开发者可以用它快速搭建音频生成应用,研究者也能基于预训练权重进行微调或二次开发。
核心看点
– 三合一模型体系:MusicGen 专攻音乐生成,能从文本描述或旋律片段创作连贯乐曲;AudioGen 擅长环境音效(如脚步声、雨声);EnCodec 提供神经音频编解码器,支持高质量压缩与重建。三者共享底层架构,便于组合使用。
– 灵活的使用方式:既提供预训练权重直接推理(仅需几行 Python 代码),也开放训练与微调脚本(基于 PyTorch,支持单卡 / 多卡)。生成的音频可以控制时长、风格和节奏,实测 48kHz 采样率下音质接近商业水准。
– MIT 许可证 + 模型权重开放:代码仓库采用 MIT 协议,模型权重在 Hugging Face 上以 CC BY-NC 4.0 发布(非商业用途),但允许个人实验和学术研究。官方还提供了详细的 Colab 示例和 Gradio 演示,上手门槛极低。

上手提示
推荐在配备 16GB+ 显存的 GPU(如 RTX 4090)上运行 MusicGen 模型,CPU 推理速度较慢但也可尝试。需要 Python 3.9+、PyTorch 2.0+,安装只需 pip install audiocraft。无需额外 API Key,所有模型权重下载后即可离线使用。
如果你是音频领域的新手,不妨从官方的 Jupyter Notebook 教程入手,几分钟内就能听到自己用文字生成的音乐。更多生成示例和社区作品,可以到 AudioCraft GitHub 仓库 的 Discussions 或 README 中的演示链接里探索。

