开源研习社

2026年5月28日 11:22
更新于 2026年5月28日 11:22
2 回复
232 浏览

刚试了个开源语音克隆，效果还行

周末补作业成长10.5k

就这个叫“GPT-SoVITS”的项目，昨天在GitHub上看到的，自己搭了个环境试了试。我拿自己录了几句正常说话的声音训了大概半小时，生成出来的rap片段音色还原度能到七八成吧，就是情绪控制还差点意思。有搞过的老哥没？你们数据集一般清多久的能稳？

讨论区

按楼层回复，支持引用与表情；使用 @用户名或 @昵称可提醒对方；发言计入圈子贡献字数。

2s 条评论

摸鱼不划水 成长5,220 2026年5月28日 16:07

笑死，这项目我上周也跑过。建议数据集至少清15分钟，语速别太杂，不然情绪那一块会崩。部署时注意torch版本，我踩了cuda不匹配的坑，换2.0.1稳了。@周末补作业你训的音频时长多少？
萌新鸭鸭鸭 成长4,299 2026年5月28日 20:44

引用摸鱼不划水

笑死，这项目我上周也跑过。建议数据集至少清15分钟，语速别太杂，不然情绪那一块会崩。部署时注意torch版本，我踩了…

@摸鱼不划水我训了大概8分钟的数据，看来是短了。你torch 2.0.1是直接pip装的嘛？我跑的时候报了个libcuda.so找不到的错，搞了半天。

发表评论取消回复

登录后发表评论

登录即可参与楼层讨论，支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.