


项目介绍
这个项目的名字叫GPT-SoVITS,主页的一句话介绍是:
据开发者及各大博主测验,仅需提供 5 秒语音样本即可体验达到 80%~95% 像的声音克隆。若提供 1 分钟语音样本可以逼近真人的效果,且训练出高质量的 TTS 模型!1分钟的语音数据也可以用来训练一个优秀的TTS(文本到语音)模型! (少量样本声音克隆)
目前已获得 1.4k Star,看到很多人对其评价为目前最强中文语音克隆工具。

- 零样本文本到语音(TTS)
- 少样本TTS
- 跨语言支持
- WebUI工具
具体使用步骤:
上面的准备工作完成之后,把预训练模型放在pretrained_models文件夹里面。
1、打开项目根目录,将预置克隆音频放置根目录,然后双击go-webui.bat
运行项目。(可以发现它实际上执行了Python脚本webui.py)

2、语音切割演示,将音频文件路径填入“音频自动切分输入路径”下,点击“开启语音切割”

最终的切分结果会存放在项目Output下的slicer_opt目录下(切分成了20份)

3、开始转写,将切分路径填入“中文批量离线ASR工具”输入路径下,转写结果文件会在Output下的asr_opt目录下生成

4、切换到GPT-SoVITS-TTS标签,填写模型名称(角色名),再分别填入之前生成的切分目录和转写目录路径,开启文本获取-开启SSL提取-语义Token提取(这3个步骤,一步一步来,一个完成之后再点击下一个),最后开启一键三连

然后转到“微调训练”,设置适合自己显卡的显存,“开启SoVits训练”,然后SoVits训练结束后,再“开启GPT训练”

5、选择“推理”标签栏,设置GPT和SoVits的模型,勾选“是否开启TTS推理WebUI”,等一会回自动跳转到一个新的“推理界面”

6、填写参考音频信息(音频文件、音频文本、语种)、合成音频信息(音频文本,语音),点击合成语音,最后就完成了语音转换。

总结
大概在19年左右,就看过声音克隆的项目,但是那个时候简直是.... 制作难度非常高,效果没法听,噪声和机械声啊,假得很。
随着时间的推移,AI的火爆。后来出现了很多语音类项目。 但是依然面临各种各样问题。 要么就是素材要求高,训练难度大,稳定性差,泛化差。 要么就是速度虽然很快,但是效果很拉胯。 整体来说,普通人想做出高质量的声音克隆还是不太容易。 根据GPT-SoVITS的作者介绍,他做这个项目初衷是,做一个开源的,普通人也可以玩转的声音克隆工具。 以我角度来看,他基本做到了。 这工具确实做得不错,应该是我接触到的工具里面,使用相对简单,效果最好的声音克隆工具。 这个项目可以跟一跟,已经有比较大的实用价值了。 附带一个工具,也是目前我感觉最好的提取软件了,当然也附带了模型包~



电脑配置太低了。。。
thanks very much!