开源 RVC WebUI v2.2.231006支持AMD+N卡+I卡 (AI歌曲翻唱工具) 附视频教程和200+语音模型
RVC(Retrieval-based-Voice-Conversion-WebUI)是一款基于 VITS(变分推理与对抗学习文本转语音)的前沿音色替换工具,广泛应用于歌曲翻唱、实时变声等领域。用户可以通过简单的网页界面,利用少量语音数据快速训练个性化的声音模型,达到高效、低延迟的语音转换效果。
RVC 提供了低门槛的操作方式,即使在较低配置的显卡上也能快速训练模型。其先进的技术和优秀的用户体验使其在音色克隆和实时变声中表现出色。
#主要特点
- 高质量的开源底模:使用接近50小时的开源VCTK训练集,完全无版权顾虑。
- 低延迟表现:实现了端到端170ms延迟,使用ASIO输入输出设备时可达到90ms延迟(硬件驱动依赖较大)。
- 实时变声与音色克隆:支持对任意动漫角色和人物进行声音模型训练,实现实时声音转换。
- 简单易用的界面:无需深入了解复杂的语音处理技术,用户即可通过简单的操作完成语音转换。
- 音色泄漏防护:通过top1检索机制替换输入源特征为训练集特征,防止音色泄漏。
- 少量数据快速训练:只需收集10分钟低底噪语音数据即可获得良好效果。
- UVR5模型支持:快速分离人声和伴奏,为创作提供更多自由度。
- 先进音高提取技术:使用 InterSpeech2023-RMVPE 算法有效避免哑音问题,性能优于 crepe_full 且占用资源更少。
- 跨平台硬件支持:支持 AMD、NVIDIA 和 Intel 显卡加速训练。
#环境配置与操作说明
- Python 版本要求:需要 Python 版本大于 3.8。
- 支持的显卡与框架:RVC WebUI v2.2.231006 兼容 AMD、NVIDIA 和 Intel 显卡,具体操作步骤附有视频教程。
#模型训练与推理流程
步骤 1:声音数据集提取
收集至少 10 分钟的低底噪语音数据,确保数据清晰无杂音。
步骤 2:模型训练
利用 RVC 工具中的训练选项,选择合适的模型参数和音色特征,进行模型训练。
步骤 3:歌曲推理
通过输入音频数据,RVC 模型将训练好的声音模型应用于音频中,生成新的音色。
步骤 4:歌曲合成
结合人声分离工具(UVR5)与变声模型,快速生成完整的歌曲翻唱作品。
#RVC 的亮点与应用场景
- 翻唱与变声:适用于各种声音模型的翻唱和实时变声场景,尤其在动漫角色、虚拟主播等领域应用广泛。
- 音色模型扩展:通过 ckpt 处理选项卡进行模型融合,轻松改变音色。
- 低配置显卡训练:即便在较低配置的显卡上,也能快速完成训练,显著提升了模型的普及性和易用性。
#未来展望:RVCv3
RVCv3 底模即将上线,参数更大,数据更丰富,效果更加优异。训练速度不变,但所需的数据量将显著减少,进一步降低用户门槛,敬请期待。
附视频教程和200+语音模型
解压后 会得到 assets logs2个文件夹。覆盖到RVC WebUI 工具文件夹里面,如果有提示覆盖 就点覆盖即可
模型文件来自互联网收集,由广大网友分享,我只是收集了下。请勿用于任何违法或者商业用途,由此产生的任何后果自负
对电脑配置有最低要求吗?
3060 以上显卡就可以了