声音克隆GPT-SoVITS-WebUI+ UVR5：目前最好的中文声音克隆工具，WIN一键部署包+模型

之前都在用so-vits-svc，可惜停止维护了，上星期看到一个听起来非常牛的AI声音克隆项目。声音克隆GPT-SoVITS-WebUI+ UVR5：目前最好的中文声音克隆工具，WIN一键部署包+模型

整个周末都在研究，从实践的结果来看，确实不错。用了这个项目之后，感觉之前推荐的两个...突然不香了。先看一个对比视频来感受下：需要下载以下内容（已打包，底部下载）：新版整合包：so-vits-svc整合包，不用自己配置环境，大大节省了时间 UVR5：用来对音频做人声和背景拆分的软件声音克隆GPT-SoVITS-WebUI+ UVR5：目前最好的中文声音克隆工具，WIN一键部署包+模型

项目介绍

这个项目的名字叫GPT-SoVITS，主页的一句话介绍是：

1分钟的语音数据也可以用来训练一个优秀的TTS（文本到语音）模型！（少量样本声音克隆）

据开发者及各大博主测验，仅需提供 5 秒语音样本即可体验达到 80%~95% 像的声音克隆。若提供 1 分钟语音样本可以逼近真人的效果，且训练出高质量的 TTS 模型！

目前已获得 1.4k Star，看到很多人对其评价为目前最强中文语音克隆工具。

细说呢，具有以下特征：

零样本文本到语音（TTS）

输入5秒的声音样本，即刻体验文本到语音转换。

少样本TTS

仅需1分钟的训练数据即可微调模型，提升声音相似度和真实感。

跨语言支持

支持与训练数据集不同语言的推理，目前支持英语、日语和中文。

WebUI工具

集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和GPT-SoVITS模型。开源项目能做到这四点已经非常强了！环境准备 Linux用户可以看GitHub主页。这里主要介绍Windows系统的使用。所以，你必须要有一个Win10+的操作系统。另外配一张显存8G+ 的英伟达显卡。软件安装可以自己创建conda来安装，也可以使用“预打包文件” 。为了尽量降低难度，这里使用预打包文件。我会在文末提供！获取压缩包GPT-SoVITS-beta.7z后，使用解压软件解压即可。预训练模型目前，预打包文件里还没有包含所有模型，所以除了这个主体软件外，还需要下载一些模型。这些模型包括ASR模型，UVR5模型, GPT-SoVITS 预训练模型，我会一并放在网盘里。

具体使用步骤:

上面的准备工作完成之后，把预训练模型放在pretrained_models文件夹里面。声音克隆GPT-SoVITS-WebUI+ UVR5：目前最好的中文声音克隆工具，WIN一键部署包+模型

1、打开项目根目录，将预置克隆音频放置根目录，然后双击go-webui.bat 运行项目。（可以发现它实际上执行了Python脚本webui.py）

2、语音切割演示，将音频文件路径填入“音频自动切分输入路径”下，点击“开启语音切割”

最终的切分结果会存放在项目Output下的slicer_opt目录下（切分成了20份）

3、开始转写，将切分路径填入“中文批量离线ASR工具”输入路径下，转写结果文件会在Output下的asr_opt目录下生成

4、切换到GPT-SoVITS-TTS标签，填写模型名称（角色名），再分别填入之前生成的切分目录和转写目录路径，开启文本获取-开启SSL提取-语义Token提取（这3个步骤，一步一步来，一个完成之后再点击下一个），最后开启一键三连

然后转到“微调训练”，设置适合自己显卡的显存，“开启SoVits训练”,然后SoVits训练结束后，再“开启GPT训练”

5、选择“推理”标签栏，设置GPT和SoVits的模型，勾选“是否开启TTS推理WebUI”，等一会回自动跳转到一个新的“推理界面”

6、填写参考音频信息（音频文件、音频文本、语种）、合成音频信息（音频文本，语音），点击合成语音，最后就完成了语音转换。

总结

大概在19年左右，就看过声音克隆的项目，但是那个时候简直是.... 制作难度非常高，效果没法听，噪声和机械声啊，假得很。

随着时间的推移，AI的火爆。后来出现了很多语音类项目。但是依然面临各种各样问题。要么就是素材要求高，训练难度大，稳定性差，泛化差。要么就是速度虽然很快，但是效果很拉胯。整体来说，普通人想做出高质量的声音克隆还是不太容易。根据GPT-SoVITS的作者介绍，他做这个项目初衷是，做一个开源的，普通人也可以玩转的声音克隆工具。以我角度来看，他基本做到了。这工具确实做得不错，应该是我接触到的工具里面，使用相对简单，效果最好的声音克隆工具。这个项目可以跟一跟，已经有比较大的实用价值了。附带一个工具，也是目前我感觉最好的提取软件了，当然也附带了模型包～

音乐去人声真是一个高频需求，之前总是在不经意间碰到索要如何制作伴奏乐的问题。以前可以用 Audition 之类的勉强解决，现如今时代变了，人工智能&大数据让这种需求变成了傻瓜式解决方案。UltimateVocalRemoverGUI是一款开源的人声分离软件，采用了最先进的音源分离模型，以去除音频文件中的人声。该安装程序大小有3.5G左右，适用于 Windows 10 或更高版本，也可以在Mac和Linux上安装并运行，但是可能会有部分功能无法使用。声音克隆GPT-SoVITS-WebUI+ UVR5：目前最好的中文声音克隆工具，WIN一键部署包+模型

UltimateVocalRemoverGUI对于电脑的配置有一定的要求，建议使用至少有 8GB 显存的 nVidia GPU，只兼容 64 位平台，转换的时间取决于硬件的性能，程序所采用的模型是计算密集型的，请谨慎行事，并在程序运行时时刻关注你的电脑，确保它不会过热。声音克隆GPT-SoVITS-WebUI+ UVR5：目前最好的中文声音克隆工具，WIN一键部署包+模型

下载权限

查看

￥
免费下载
评论并刷新后下载
登录后下载

查看演示

{{attr.name}}：

您当前的等级为

登录后免费下载登录小黑屋反思中，不准下载！评论后刷新页面下载评论支付以后下载请先登录您今天的下载次数（次）用完了，请明天再来支付积分以后下载立即支付支付以后下载立即支付您当前的用户组不允许下载升级会员

您已获得下载权限您可以每天下载资源次，今日剩余次

{{userData.name}}已认证