deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 978|回复: 23

浅谈DF架构换脸原理,新人少走点弯路

[复制链接]

3

主题

63

帖子

1520

积分

初级丹圣

Rank: 8Rank: 8

积分
1520
 楼主| 发表于 2025-3-11 23:59:01 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
why3.png

上图是一张DF架构的原理简图


名词解释
inputA inputB:素材(SCR DST)
ENcoder:编码器
decoder:解码器(SCR DST)
总结:
DF架构 是一个共享编码器,分离解码器的架构。DF架构换脸逼真。

1、Trainning (训练)
举个例子:
我想把热巴老师的脸换到本庄老师脸上。准备好SCR热巴老师,DST本庄老师素材后,启动训练。
inputA=本庄老师  inputB=热巴老师

工作流:
假如一张本庄老师正面微笑的图片(假设正确编码是10086),进入编码器后,编码器输出10010,解码器把10010还原成图像,还原成的图像和原图通过LOSS函数进行对比,再反馈给编码器,(编码器兄弟,这个编码不对),编码器就继续编码,直到编码接近10086(注意用词是接近,永远不可能到10086,就像loss函数一样,永远不可能把损失降到0).
热巴老师训练过程如上。
这个过程对应训练图框中1-4列。

2、Converting (换脸)
训练一段时间后,1-4列的成像很接近了,二弟已经蠢蠢欲动了,启动换脸。
当本庄老师正面微笑的图片(假设正确编码是10086),进入编码器后,编码器输出 10085.555,(这里要注意了,回看原理图),热巴老师解码器(没错,你没看错,是热巴老师解码器)接收10085.55编码后,热巴老师解码器输出一张接近10085.55的图片(正面微笑)。前提条件:(热巴老师也要有正面微笑的素材,如果没有,解码器无法生成图片)。
这就是对应训练图框中的第5列。


总结:训练和换脸两个工作流其实是同时在进行的,这就是训练中你看到的5列图框
171747spsswwjs1vw5y35e.jpeg

下面来讨论几个问题
Q1:为什么DF换脸逼真
A:因为SCR和DST有各自解码器,训练阶段中,各自的解码器不会相互干扰。

Q2:现在预训练方法基本是SCR-SCR(SCR和DST放入同样素材),是否正确。
A:个人观点,不赞成此方法。
污染了SCR解码器,SCR和DST放入同样的素材,相当于SCR的解码器要接收多个人10085.55编码。(好比一个10年只画热巴老师画像的画师和一个10年画各种人物的画师,你说画一张正面微笑画,你说谁会画的像热巴老师?)

论坛中有很多百万预训练丹,虽然拿来用成像很快,1-4列很快就出图像了。原理本质上是编码器和解码器得到了大量的训练,所以成像快,但同时SCR解码器也被污染了,所以第5列是不像的。继续训练下去,其实就是花时间清除污染。

前面也论述了1-5列其实是同时训练,用预训练丹花时间去清楚污染,还是直接从零单SCR多DST的训练,这就仁者见仁了。



回复

使用道具 举报

3

主题

63

帖子

1520

积分

初级丹圣

Rank: 8Rank: 8

积分
1520
 楼主| 发表于 2025-3-13 18:07:31 | 显示全部楼层
本帖最后由 xunlian 于 2025-3-13 21:15 编辑
狗蛋 发表于 2025-3-13 16:00
liae架构的使用这种方法可行吗

DF架构:共享编码器 分离解码器,好比有2个医生给一个病人会诊,2个医生会分别的进行病情推理,根据2个医生的推理,意见综合在一起,逐渐推向正确的方向。
LIAE架构:共享编码器 共享解码器 只有一个医生。好比你上午找他,下午找的又是他。接待你的都是一个医生。


LIAE解码器共享,SCR-SCR其实意义不大,非要说有什么作用的话,无非原来1分钟学习1个单词,变成1分钟学习2个单词,LIAE架构就好比稳扎稳打一步一个脚印。
回复 支持 1 反对 0

使用道具 举报

34

主题

502

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
12430
发表于 2025-3-12 02:32:24 | 显示全部楼层
正训中src-src根本就不能称作预训练,本来就是一种数据污染,预训练中src-dst之间是不会建立映射的,src和dst独立运作,正训中src-src的映射是无效映射
回复 支持 反对

使用道具 举报

84

主题

1617

帖子

8545

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
8545

万事如意节日勋章开心娱乐节日勋章

发表于 2025-3-12 07:00:30 | 显示全部楼层
实践比理论更重要
回复 支持 反对

使用道具 举报

1

主题

39

帖子

375

积分

初级丹师

Rank: 3Rank: 3

积分
375

万事如意节日勋章

发表于 2025-3-12 09:22:03 | 显示全部楼层
那liae架构的呢
回复 支持 反对

使用道具 举报

3

主题

63

帖子

1520

积分

初级丹圣

Rank: 8Rank: 8

积分
1520
 楼主| 发表于 2025-3-12 09:48:40 | 显示全部楼层
本帖最后由 xunlian 于 2025-3-12 10:13 编辑
dfl9999 发表于 2025-3-12 02:32
正训中src-src根本就不能称作预训练,本来就是一种数据污染,预训练中src-dst之间是不会建立映射的,src和d ...

在模型的世界里,不存在预训练和正训。当你把素材放进,启动训练后,编码器和解码器的权重已经开始累积。


你说的映射其实也不存在,从原理图中可以清晰看到,DST编码后,由SCR解码器生成图像。与其说是映射,准确说是编码特征匹配。就好比100美元和100人民币同时被编码器编码定义为100,但是100在DST的解码器里是一张绿色美元,但是100在SCR解码器里是一张红色毛爷爷,即使你拿100日元出来,只要编码器把100日元也编译成100,由于100在SCR里就是毛爷爷,不管你是100韩元 100台币,只要是被编码成100,在SCR眼里都是毛爷爷。(专丹原理)


由于是共享编码器结构,SCR和DST会统一编码,即标准编码+非标准编码。
标准编码:简单理解就是人脸角度(90度 45度 30度)
非标准编码:人脸表情特征(睁眼闭眼,张嘴闭嘴,肤色等)
这里插一句关于预训练,所谓预训练真正目的是训练标准特征,而非非标准特征。上百W的预训练,其实已经是在训练非标准特征。

当DST本庄老师是一张90度 张嘴 闭眼的脸送入编码器后生成901022的编码(90人脸角度 10张嘴 22闭眼),SCR解码器接收到后,从编码中解析出这是一张90度 张嘴 闭眼的脸。就会在热巴老师数据库中寻找接近901022的数据。数据中有一张901021.78最为接近,那就生成热巴老师901021.78的脸。

当DST本庄老师是一张90度 闭嘴 闭眼的脸送入编码器后生成901122的编码(90人脸角度 11闭嘴 22闭眼),SCR解码器接收到后,从编码中解析出这是一张90度 闭嘴 闭眼的脸。就会在热巴老师数据库中寻找接近901122的数据。可是数据中还是只有一张901021.78最为接近,那就依然生成热巴老师901021.78的脸。此时就会出现本庄老师闭嘴,但是热巴老师依然张嘴的画面。

不管在预训练还是正训,第5列换脸图像始终都在。第5列图像实际显示的就是在同一个编码状态下,SCR和DST的特征匹配情况。





回复 支持 反对

使用道具 举报

3

主题

63

帖子

1520

积分

初级丹圣

Rank: 8Rank: 8

积分
1520
 楼主| 发表于 2025-3-12 09:54:46 | 显示全部楼层

LIAE架构 解码器共享,已经被污染了,从解码器角度注定了无法达到逼真换脸,不做过多说明
回复 支持 反对

使用道具 举报

6

主题

67

帖子

1420

积分

初级丹圣

Rank: 8Rank: 8

积分
1420
发表于 2025-3-12 18:00:12 | 显示全部楼层
liae的光影好 换黄瓜视频liae的很好
回复 支持 反对

使用道具 举报

0

主题

14

帖子

256

积分

初级丹师

Rank: 3Rank: 3

积分
256

万事如意节日勋章

发表于 2025-3-13 00:10:45 | 显示全部楼层
受教了,同源训练果然不靠谱啊
回复 支持 反对

使用道具 举报

3

主题

63

帖子

1520

积分

初级丹圣

Rank: 8Rank: 8

积分
1520
 楼主| 发表于 2025-3-13 09:41:55 | 显示全部楼层
wmop890709 发表于 2025-3-13 00:10
受教了,同源训练果然不靠谱啊

SCR-SCR方法可以在后期使用。单SCR和DST训练后期,可以采取SCR-SCR适当训练一段时间。此方法好处可以加速学习一些微小特征(脸上痣)。原理就是SCR和DST两个解码器同时驱动编码器去学习同一张素材,事半功倍。同时又保证了SCR解码器没有被污染。
回复 支持 反对

使用道具 举报

4

主题

77

帖子

1812

积分

初级丹圣

Rank: 8Rank: 8

积分
1812
发表于 2025-3-13 13:25:51 | 显示全部楼层
学习了
回复

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2025-4-4 23:28 , Processed in 0.143088 second(s), 40 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表