星级打分
平均分:NAN 参与人数:0 我的评分:未评
[size=1.1]尽管几年来媒体夸张地宣称Deepfake图像可能会破坏我们对视频片段真实性的长期信念,但目前所有流行的方法都依赖于找到与目标面部形状大致相似的"面部宿主"。 [size=1.1]如果原始镜头具有宽脸,但目标主体具有窄脸,则结果总是有问题的,因为这种转移涉及剪切原始面部的一部分并重建现在曝光的背景。目前的软件包(如DeepFaceLab和FaceSwap)在配置被反转(窄>宽)时能够产生有限的结果,但没有令人信服地解决这种情况的能力。 [size=1.1]现在,腾讯和中国厦门大学之间的合作开发了一种名为HifiFace的新方法,旨在弥补这一不足。 [size=0.8]
重塑深度伪造的脸[size=1.1]以前的方法,例如2019年的受试者不可知论者面部交换和重演(FSGAN),依赖于3DMM拟合(3D可变形模型)或其他基于面部地标识别或转换的方法,其中要"覆盖"的人脸的面部线条几乎决定了交换的界限: [size=0.8]
[size=1.1]虽然竞争方法借鉴了源自人脸识别网络的特征,但这些主要目的是重建纹理而不是结构,并且在主机脸不完全兼容的情况下(即发际线,下颌线和颧骨的限制和形状)同样会产生"面具状"效果。 [size=1.1]为了解决这些问题,位于该大学人工智能系媒体分析与计算实验室的中国研究人员开发了一种端到端网络,该网络使用3D重建模型使目标和源脸的系数回归,然后将其重新组合为形状信息,并与来自人脸识别网络的身份向量信息连接。 [size=1.1]然后将这些几何数据作为结构信息输入编码器- 解码器模型中,与目标面的表情和性格混合,这些表情和性格被用作精确传输的辅助源。 [size=1.1] 语义面部融合[size=1.1]此外,HifiFace还包括一个语义面部融合(SFF)组件,该组件使用编码器中的低级功能来保留空间和纹理信息,而不会牺牲目标图像的身份。来自编码器和解码器的功能被集成到学习的自适应掩码中,背景信息通过学习的面罩混合到输出中。 [size=0.8]
[size=1.1]通过这种方式,HifiFace脱离了使用原始材料人脸边界作为硬极限,通过使用扩张人脸语义分割,其中模型可以在人脸的边缘边界上执行更好的自适应融合。 [size=0.8][size=0.8]之前的两种方法(上图和左下角)以及新的HifiFace架构,该架构由编码器,解码器,3D形状感知身份提取器和SFF模块组成。
[size=1.1] [size=1.1] 测试[size=1.1]研究人员使用VGGFace2和DeepGlint Asian-Celeb数据集实现了该系统。人脸通过 5 个向外地标对齐,并重新裁剪为 256×256 像素。肖像增强网络还用于生成512×512像素版本,用于额外的高分辨率模型。该模型是在亚当的指导下训练的。 [size=1.1] [size=1.1]虽然FaceShifter很好地保留了身份,但它不能像HifiFace那样有效地解决表达,颜色和遮挡等问题,并且具有更复杂的网络结构。FSGAN在将照明从光源传输到目标时存在问题。 [size=1.1]研究人员使用FaceForensics++进行定量比较,在一批转换后的视频中,对竞争方法中每个帧进行抽样,发现HifiFace获得了优异的ID检索分数。在测试一系列其他因素(例如图像质量)时,研究人员还发现他们的方法优于竞争对手的方法。 [size=0.8][size=0.8]本尼迪克特·康伯巴奇的面部线条被忠实地再现。
[size=1.1]这项工作代表了向抽象源材料迈出的进一步,因此它只是一个粗略的模板,可以将准确的身份转移到其中。目前的一些FOSS软件包,包括DeepFaceLab,具有用于全头替换的新生功能,但是,像HifiFace一样,这些软件包并不考虑头发,并且它们在"构建"面部方面比将其凿开以匹配所需的目标源更有效。
|