最简单AI数字人整合包VideoReTalking,一键生成AI数字人!
Video-ReTalking
是一个利用AI实现视频人物嘴型与输入的声音同步的创新技术。简单来说,就是输入任意一个视频和一个音频文件,在生成的新视频中,人物的嘴型会与音频同步。
它不仅可以让嘴型与声音同步,还可以根据声音改变视频中人物的表情。整个过程不需要用户干预,都是自动完成的。很多博主大佬通过此项目构建了属于自己的AI数字人,是不是很有意思。
VideoReTalking:让视频中的人物的嘴型与输入的声音同步。
目前在数字人领域,嘴型匹配用的较多的工具有 Wav2lip、 GeneFace、VideoReTalking等,因为其它两个我暂时还没用过,只有等后续用了再说了,这几天用了下VideoReTalking,所以,这里就说下这个工具吧。
VideoReTalking是一个强大的基于音频的开源AI唇形同步工具,是由西安电子科技大学、腾讯人工智能实验室和和清华大学联合开发的。
简单点来说,就是用这个工具能根据你提供的一段音频和视频,自动去匹配嘴型,还可以根据声音改变视频中人物的表情,整个过程不需要用户干预,都是自动完成的。
合成出来的视频很自然,匹配度很高,真正让你感觉到以后你看到的视频也是不可靠的了。前段时间郭老师说英语那个就是用的类似相关的技术。
工作流程:
整个系统的工作流程分为三个主要步骤:面部视频生成、音频驱动的嘴型同步和面部增强。所有这些步骤都是基于学习的方法,并且可以在一个顺序的管道中处理,无需任何用户干预。
1、面部视频生成:首先,系统会使用表情编辑网络来修改每一帧的表情,使其与一个标准表情模板相符,从而生成一个具有标准表情的视频。
2、音频驱动的嘴型同步:然后,将视频和音频一起被输入到嘴型同步网络中,生成一个嘴型匹配的视频。
3、面部增强:最后,通过身份感知的面部增强网络和后处理来提高合成面部的照片真实感。
一键运行
下载完成后,点击文件中的run.bat直接一键运行
运行完成后,即完成本地化Video-Retalking安装,您可以直接进行使用。
常见问题
- 视频不宜过长,生成视频会循环使用源视频,无需上传长视频
- 视频为标准MP4格式、视频中只有一张人脸、每帧都要有人脸、人脸清晰可识别,人脸不过过大
- 只支持N卡,需要8G以上显存
背景介绍
如果你是一个视频相关的工作人员,遇到需要对视频进行编辑的情况,尤其是对于讲话人的视频,需要去改变视频中讲话人的语音或者情绪时,如何让视频中的嘴唇动作与新的语音同步,这就成为了一个难题。这个问题的核心痛点在于,我们需要在保持视频质量的同时,实现对讲话人嘴唇动作的精准编辑,以达到与新的语音同步。
今天要给大家推荐一个 GitHub 开源项目 OpenTalker/video-retalking,该项目在 GitHub 有超过 2.8k Star,用一句话介绍该项目就是:“[SIGGRAPH Asia 2022] VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild”。
给定一个头部说话的视频,首先使用 表情编辑网络 根据相同的表情模板修改每一帧的表情,从而产生具有规范表情的视频。
然后将该视频与给定的音频一起输入到口型同步网络以生成口型同步视频。
最后,通过身份感知面部增强网络和后处理来提高合成面部的照片真实感。
以上所有三个步骤都使用基于学习的方法,并且所有模块都可以在顺序管道中处理,无需任何用户干预。
期待多点傻瓜式的
如果报错,请确保 FFmpeg 已安装
根本用不了。网页合成窗口,显示error。