MuseTalk V3版 – 音频驱动视频生成数字人说话视频 本地一键整合包下载

MuseTalk V3版 - 音频驱动视频生成数字人说话视频 本地一键整合包下载
MuseTalk 是腾讯开发的一款AI数字人唇形同步工具,它能根据输入的音频自动调整虚拟人物的嘴部动作,让数字人说话时的口型和声音完美匹配。只需要上传一段驱动音频,和一段人物视频,即可一键生成无限说自认说话视频,适用各种自媒体口播和直播等领域!
MuseTalk 对于最低硬件要求,在 Windows 环境下使用配备 4GB 显存的 NVIDIA GeForce RTX 3050 Ti 笔记本 GPU 测试了该系统。在 fp16 模式下,生成 8 秒的视频大约需要 5 分钟。
今天分享的MuseTalk V3版,同步官方最新的 MuseTalk V1.5版模型。与 1.0 版本相比,这个版本的模型有了显著改进,提高了清晰度、身份一致性和精确的唇音同步。

应用领域:  ‌


短视频制作‌:给动漫角色或真人换配音不用重拍
虚拟主播‌:让AI主播的嘴型更自然
外语教学‌:展示标准发音口型
电影配音‌:修改台词时不用演员重新拍摄 ‌
社交娱乐‌:让照片唱歌说话做成搞笑视频
使用教程:(建议N卡,显存4G起。为了保证生成速度,建议显存8G起。基于CUDA11.8)

上传驱动音频和参考视频,设置相关参数(对应参数都有详细说明),生成即可。
可以先调整参数,点测试重绘,预览效果,再根据预览调整参数,最后生成。

批量生成使用说明:
解压一键包,依次打开 configsinference,用记事本或者其他编辑器打开 batch.yaml

 

task_0:
video_path: “data/video/1.mp4”
audio_path: “data/audio/1.wav”
bbox_shift: -7
task_1:
video_path: “data/video/2.mp4”
audio_path: “data/audio/2.wav”
bbox_shift: -7

 

一个视频对应一个task,以此类推,把所有的素材放到一个目录里,比如存放在data下的video和audio,一个存放视频,一个存放音频,注意视频和音频文件名不要搞错了。
bbox就是控制嘴巴张开幅度的。
配置完成后,保存。
最后启动 一键启动批量处理,等待完成。显存低于8G不要使用批量,容易爆显存。

下载地址:

暂无优惠 永久钻石免费

已有0人支付

人工智能生成内容(Artificial Intelligence Generated Content)是人工智能1.0时代进入2.0时代的重要标志。
AIGC VIP部落 » MuseTalk V3版 – 音频驱动视频生成数字人说话视频 本地一键整合包下载

发表回复

提供最优质的资源集合

立即查看 了解详情