MuseTalk V3版 – 音频驱动视频生成数字人说话视频本地一键整合包下载-AIGC VIP部落

MuseTalk 是腾讯开发的一款AI数字人唇形同步工具，它能根据输入的音频自动调整虚拟人物的嘴部动作，让数字人说话时的口型和声音完美匹配。只需要上传一段驱动音频，和一段人物视频，即可一键生成无限说自认说话视频，适用各种自媒体口播和直播等领域！
MuseTalk 对于最低硬件要求，在 Windows 环境下使用配备 4GB 显存的 NVIDIA GeForce RTX 3050 Ti 笔记本 GPU 测试了该系统。在 fp16 模式下，生成 8 秒的视频大约需要 5 分钟。今天分享的MuseTalk V3版，同步官方最新的 MuseTalk V1.5版模型。与 1.0 版本相比，这个版本的模型有了显著改进，提高了清晰度、身份一致性和精确的唇音同步。

应用领域： ‌

短视频制作‌：给动漫角色或真人换配音不用重拍
虚拟主播‌：让AI主播的嘴型更自然
外语教学‌：展示标准发音口型
电影配音‌：修改台词时不用演员重新拍摄 ‌
社交娱乐‌：让照片唱歌说话做成搞笑视频使用教程：(建议N卡，显存4G起。为了保证生成速度，建议显存8G起。基于CUDA11.8)

上传驱动音频和参考视频，设置相关参数（对应参数都有详细说明），生成即可。
可以先调整参数，点测试重绘，预览效果，再根据预览调整参数，最后生成。

批量生成使用说明：
解压一键包，依次打开 configsinference，用记事本或者其他编辑器打开 batch.yaml

task_0:
video_path: “data/video/1.mp4”
audio_path: “data/audio/1.wav”
bbox_shift: -7
task_1:
video_path: “data/video/2.mp4”
audio_path: “data/audio/2.wav”
bbox_shift: -7

一个视频对应一个task，以此类推，把所有的素材放到一个目录里，比如存放在data下的video和audio，一个存放视频，一个存放音频，注意视频和音频文件名不要搞错了。
bbox就是控制嘴巴张开幅度的。
配置完成后，保存。
最后启动一键启动批量处理，等待完成。显存低于8G不要使用批量，容易爆显存。

下载地址：

[rihide]123云盘：https://www.123684.com/s/OYeA-ed1Bh 提取码:6666 备用链接：https://www.123912.com/s/OYeA-ed1Bh 提取码:6666[/rihide]

文章版权归作者所有，未经允许请勿转载。

THE END