GPT-SoVITS_V4一键整合包-AIGC VIP部落

GPT_SoVITS的介绍

GPT_SoVITS 是一种结合了 GPT（生成预训练模型）和 SoVITS（Singing Voice Conversion via Variational Information Bottleneck Technology）的模型，主要用于声音（主要是歌声）转换任务。它将语音转换技术与生成模型的强大功能相结合，实现了更为自然、逼真且高效的声音转换。

GPT_SoVITS 的优点

高质量转换：借助 GPT 的强大生成能力，转换后的歌声更加自然和流畅。
跨语言支持： 支持与训练数据集不同语言的推理，目前支持英语、日语、韩语、粤语和中文。
零样本文本到语音（TTS）： 输入 5 秒的声音样本，即刻体验文本到语音转换。
WebUI 工具： 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和 GPT/SoVITS 模型。
端到端训练：模型可以直接从输入到输出进行训练，无需复杂的中间处理步骤。

GPT-SoVITS_V4一键整合包

支持一键启动和离线运行，兼顾隐私安全。配备图形化界面，操作简单，可快速生成个性化语音，适合技术爱好者与研究者使用。

主要亮点

无需部署，一键启动即用。为 Windows 10/11（64位）用户准备了一键启动包，下载解压后双击即可打开本地 WebUI，轻松上手，无需繁琐设置。

推荐配置：8GB 以上显存的 NVIDIA 显卡，安装 CUDA 12.1 或更高版本，确保流畅运行。

功能一应俱全：

并行推理：显著提升处理速度
训练集格式化：整理数据更高效
微调训练：打造个性语音模型
中文语音识别（ASR）：自动转写语音内容
文本标注：加速语料整理
语音伴奏分离：提取清晰人声

无论是初学者还是进阶用户，GPT-SoVITS V4 都是打造专属语音的理想工具。

使用指南

安装GPT_SoVITS

第一步：下载GPT_SoVITS

注册用户后签到即可获取积分用于下载，也可以直接充值下载。本站的资源完全可以通过签到获取积分进行下载而无需充值。

此处内容已隐藏，请付费后查看

第二步：解压整合包

下载完成后，将压缩包解压到你的电脑的英文目录下。切记不要使用中文路径，否则可能会导致程序运行出错。

第三步：启动程序

双击 go-webui.bat 文件，启动 GPT-SoVITS_V4 的后台服务。
程序启动后，可能会弹出命令行窗口，显示程序的运行状态和日志信息。请不要关闭此窗口，除非你想停止程序运行。

第四步：访问WebUI界面

程序成功启动后，会自动打开你的默认浏览器，并访问 WebUI 界面。
如果浏览器没有自动打开，你可以在浏览器地址栏手动输入 http://127.0.0.1:9874 (或者启动程序显示的地址) 来访问 WebUI 界面。

训练模型

1. 准备训练的声音素材

2. 音频提纯：如果原音频干净无杂音，可以直接使用，跳过对音频提纯的处理步骤。
如果你的音频里有伴奏或者混响，可以使用UVR5人声伴奏分离&去混响去延迟工具，首先点击开启人声分离WebUI， GPT-SoVITS_V4一键整合包

会跳到UVR5-WebUI的处理界面，如果使用过RVC-WebUI的小伙伴应该很熟悉这个界面了。 GPT-SoVITS_V4一键整合包

然后输入待处理音频的路径，这里有两种方式，一种是输入音频文件夹路径，一个是点击批量上传。

GPT-SoVITS_V4一键整合包

使用音频文件夹路径，需要先在文件管理里创建待处理音频文件夹，上传音频文件。然后复制文件夹地址。
可以先使用HP2模型处理一遍（提取人声），然后将输出的音频再用onnx_dereverb去混响、去延迟，再使用DeEcho-Aggressive去除音频中的回声，注意：输出格式选wav。看到输出信息->Success说明处理好了。

GPT-SoVITS_V4一键整合包

可以看到output/uvr5_opt下面输出，处理完的音频（vocal）的是人声，(instrument)是伴奏，现在我们只需要保留人声的音频，去进一步操作。（如果你觉得这一步的音频效果已经达到要求，可以直接使用，不用进一步提纯，onnx_dereverb这一步还是挺耗时的。）
我们输出的文件默认在output/uvr5_opt下面，可以把一些用不到的删掉，避免取错文件。

GPT-SoVITS_V4一键整合包

最后只需要音频（vocal）的人声，其它都删掉。
注：处理完声音，我们就可以关闭UVR5-WebUI以节省显存。

3. 切割音频

首先输入原音频的文件夹路径，不能是中文名，如果刚刚处理的音频文件放在uvr5_opt这个文件夹，那直接使用即可。（当然也可以放在其它文件夹里）切割输出的结果放在output/slicer_opt文件下。

GPT-SoVITS_V4一键整合包

语音切割进程输出信息显示：语音切分已完成，即可。
调整参数：

min_length：根据显存大小调整，显存越小调越小
min_interval：根据音频的平均间隔调整，如果音频太密集可以适当调低
max_sil_kept：会影响句子的连贯性，不同音频不同调整，不会调的话建议保持默认

4. 语音降噪

这一功能对音质的破坏很大，不太建议使用该步骤，如果你想用也可以

GPT-SoVITS_V4一键整合包

5. 语音识别

就是给每个音频配上文字，使AI识别学习。

GPT-SoVITS_V4一键整合包

语音识别进程输出信息输出：语音识别已完成，即可。

6. 语音文本校对

这一步骤也是一个非必须项，因为比较耗时，如果不追求极致完美，可以跳过。
如果需要就先开启打标WebUI，输入标注文件的文件路径，注意是文件路径！不是文件夹路径！
GPT-SoVITS_V4一键整合包

开启音频标注WebUI，会打开一个链接：http://localhost:9871/，打开时打标WebUI界面。

GPT-SoVITS_V4一键整合包

这一步可以自己去看看教程。

7. 开始训练

点击”1-GPT-SoVITS-TTS”选项，进入训练界面。

GPT-SoVITS_V4一键整合包

训练步骤：

首先，输入模型的名字，可以是中文。
选择训练的版本
最后点击”一键三连”

GPT-SoVITS_V4一键整合包

一键三连进程输出信息显示：一键三连进程结束，即可！

8. 微调训练

点击”1B-微调训练”,进入微调训练界面。

GPT-SoVITS_V4一键整合包

调整参数：

batch_size：在设置 `batch_size` 时，建议将其设置为显存容量的一半以下。过高的 `batch_size` 会导致显存溢出。需要注意的是，`batch_size` 并不是越高越好、越高越快的。在实际操作中，`batch_size` 还应根据数据集的大小进行调整，并不严格按照显存容量的一半来设置。例如，6GB 显存建议将 `batch_size` 设置为 1。如果出现显存溢出的情况，可以适当降低 `batch_size`。
total_epoch：SoVITS模型轮数可以设置的高一点，但是GPT模型轮数千万不能高于20（一般情况下）建议设置10。
是否开启dpo训练：不建议开启

其它参数建议默认。
然后先点开启SoVITS训练，训练完后再点开启GPT训练，不可以一起训练。

GPT-SoVITS_V4一键整合包