A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild¶
论文地址¶
https://arxiv.org/abs/2008.10010
代码¶
https://github.com/Rudrabha/Wav2Lip
摘要¶
Cite
在这项工作中,我们研究了与目标语音片段匹配的任意身份的说话面部视频的嘴唇同步问题。目前的工作擅长在训练中看到的特定人的静态图像或视频上产生准确的嘴唇动作, 然而,他们无法准确地改变动态、无约束的谈话面部视频中任意身份的嘴唇动作,导致视频的大部分与新音频不同步。我们确定了与此相关的关键原因,并通过向强大的口型识别器学习来解决这些问题。 接下来,我们提出了新的、严格的评估基准和度量,以准确测量无约束视频中的嘴唇同步。对我们的chal-lenging基准的大量定量评估表明, 我们的Wav2Lip模型生成的视频的口型同步精度几乎与真实同步视频一样好。我们在我们的网站上提供了一个演示视频,清楚地展示了我们的Wav2Lip模型和评估基准的实质性影响: cvit.iiit.ac.in/research/projects/cvit-projects/a-lip-sync-expert-is-all-you-need-for-speech-to-lip-generation-in-the-wild。 代码和模型发布于:github.com/Rudrabha/Wav2Lip。 您的arXiv:2008.10010v1[cs.CV]2020年8月23日也可以通过以下链接试用交互式演示:bhasha.iit.ac.in/lipsync。
给定原始视频和目标音频,生成对应的视频与给定的音频同步且生成对应的口型图片
贡献点¶
- 我们提出了一种新的嘴唇同步网络Wav2Lip,它比以前的工作更准确,可以将野外任意说话的面部视频与任意语音进行嘴唇同步。
- 我们提出了一个新的评估框架,由新的基准和指标组成,以实现对无约束视频中嘴唇同步的公平判断。
- 我们收集并发布ReSyncED,这是一个真实世界的唇同步评估数据集,用于在野外完全看不见的视频上测试唇同步模型的性能。
- Wav2Lip是第一个独立于说话者的模型,它可以生成与真实同步视频匹配的嘴唇同步精度的视频。人类评估表明,Wav2Lip生成的视频在90%以上的时间里比现有方法和未同步版本更受欢迎
方法¶
用GAN的方式进行训练,生成模型的输入是人脸的上半部分,生成模型生成整张人脸。生成模型包括一个音频编码器和一个视频(图像)编码器用于从音频和图像中提取特征。
训练生成器之前要先训练一个判别器,用来判定一段视频中,音画是否同步,模型用的是改进的SyncNet。在训练的时候Loss由三个部分组成
- 第一部分权重0.9,是重建误差,也就是生成的图像与gt的图像的差异程度
- 第二部分权重0.03,是音画同步的误差,由改进的SyncNet计算
- 第三部分权重0.07,是由于生成的图片可能比较模糊,这里加了一个人脸的质量判别器,用于生成高清的人脸
总结¶
Cite
在这项工作中,我们提出了一种新的方法来在野外生成精确的口型同步视频。我们已经强调了两个主要原因,即为什么当前的方法不准确,而嘴唇同步不受限制的谈话面部视频。 基于此,我们认为,准确的口型”专家“可以实现准确、自然的嘴唇运动生成。在评估我们的模型之前,我们重新检查了当前的定量评估框架,并强调了几个主要问题。 为了解决这些问题,我们提出了几个新的评估基准和指标,以及一个真实的评估集。我们相信,在这个新框架中可以可靠地判断未来的工作。我们的Wav2Lip模型优于目前的方法在定量指标和人类评价方面都有很大的优势。 我们还调查了消融研究中非歧视者设计选择背后的原因。我们鼓励读者在我们的网站上观看演示视频。我们相信,我们在这个问题上的努力和想法可以带来新的方向,比如综合表情和头部姿势以及准确的嘴唇动作。