跳到内容

下午好,继续加油,离目标更近一步。

  • 2 回复
  • 216 浏览

刚试了个开源语音克隆,效果还行

参与讨论

就这个叫“GPT-SoVITS”的项目,昨天在GitHub上看到的,自己搭了个环境试了试。 我拿自己录了几句正常说话的声音训了大概半小时,生成出来的rap片段音色还原度能到七八成吧,就是情绪控制还差点意思。 有搞过的老哥没?你们数据集一般清多久的能稳?

讨论区

按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。

2s 条评论

  1. 摸鱼不划水
    摸鱼不划水 萌芽1,973

    笑死,这项目我上周也跑过。建议数据集至少清15分钟,语速别太杂,不然情绪那一块会崩。部署时注意torch版本,我踩了cuda不匹配的坑,换2.0.1稳了。@周末补作业 你训的音频时长多少?

  2. 萌新鸭鸭鸭
    萌新鸭鸭鸭 成长3,038
    引用 摸鱼不划水

    笑死,这项目我上周也跑过。建议数据集至少清15分钟,语速别太杂,不然情绪那一块会崩。部署时注意torch版本,我踩了…

    @摸鱼不划水 我训了大概8分钟的数据,看来是短了。你torch 2.0.1是直接pip装的嘛?我跑的时候报了个libcuda.so找不到的错,搞了半天。

发表评论

登录后发表评论

登录即可参与楼层讨论,支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.