deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 282|回复: 6

测试一下liae+df的混合架构

[复制链接]

9

主题

70

帖子

4449

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4449
 楼主| 发表于 2025-5-25 01:36:51 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
DF是Y型架构:encoder+inter+decoder_src/decoder_dst,人脸相似度高,光影还原能力较差。能达到的清晰度也可能更高一些?
LIAE是菱形架构:encoder+inter_AB/inter_B+decoder,脸型更加匹配,光影更好。

我在想如果综合两个模型的特点,做一个融合版本的模型效果会怎么样?初步修改如下:
1. 在LIAE架构基础上,对decoder拆分,最后两层上采样分化为decoder_src和decoder_dst,之前的上采样层还是共享权重
2. 采用逐级训练,共享权重的最后一层也会输出一张人脸,并计算相似度,保证低画质下的光影和高画质下的细节。

此外还有几个问题没搞清楚:
1. 为什么DFL的下采样和上采样次数是4-5次,而不是更多。是为了避免模型太深导致收敛太慢,还是避免光影和表情无法和输入图保持一致?
2. 看到很多论文会采用一个更深的网络,并采用逐级训练来稳定训练,并表示光影和表情还原能力更好,为什么原版DFL没有这么做。

先跑着看看效果吧,现在三块显卡都跑满了,512分辨率的模型,四维是512-64-64-32,参数并不高。之前也试过高参的版本,可是在导出dfm的时候权重被强制分片了,产生了好多小文件,有点麻烦。
onnx好像会对大于3GB的模型进行分片?而且一个512分辨率的单人模型需要3GB+的空间也确实抽象了,这么多参数用来干啥不好,DFL的模型架构确实落后时代了。


评分

参与人数 1贡献 +1 收起 理由
dfldata1316 + 1

查看全部评分

回复

使用道具 举报

37

主题

531

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
16246
发表于 2025-5-25 02:41:09 | 显示全部楼层
本帖最后由 dfl9999 于 2025-5-25 02:43 编辑

你想搞个魔改版分支吗,到时候发出来看看效果,原版作者自己的显卡都稀烂,哪有功夫去考虑这些,ice版倒是做了你说的这些尝试,效果也不错,代价就是同四维下显存消耗翻倍。
回复 支持 反对

使用道具 举报

3

主题

72

帖子

1780

积分

初级丹圣

Rank: 8Rank: 8

积分
1780
发表于 2025-5-25 07:59:29 | 显示全部楼层
早就提醒你了 不要死屌在DFL 你说的这些 FACESWAP早就可以玩了,自己设置自己的模型架构,编码器 FC(共享/分离) 解码器(共享/分离)还有一个G-BLOCK(解码阶段进行A B特征融合)
在提示一点,编码器的架构也起很大的作用,efficient/clipv-far  哪个不比DFL的编码器强大,泛化能力强?
损失函数也是很重要参考的一点,DFL除了GAN外,只能说毫无亮点,还容易炸。
回复 支持 反对

使用道具 举报

9

主题

70

帖子

4449

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4449
 楼主| 发表于 2025-5-25 10:05:39 | 显示全部楼层
xunlian 发表于 2025-5-25 07:59
早就提醒你了 不要死屌在DFL 你说的这些 FACESWAP早就可以玩了,自己设置自己的模型架构,编码器 FC(共享/ ...

感谢你提到的两个模型,我会去看一下架构。对我来说换一个网络架构不会很复杂,我自己重写了代码,可以方便增加模型。我主要关心的是哪些架构最有效或者性价比最高,faceswap里模型很多,挑花眼了还是需要参考实践过的大佬们意见。

从DFL架构开始改架构,原因之一是可以尝试复用现成的权重,比如按我这个帖子提到的改动,可以直接用现成的LIAE权重初始化。另一个原因是我自己代码加了一些对我来说比较方便的功能,比如VR版本的人脸检测器(投影变换防止人脸畸变),直接从DFM合成视频不需要先分帧等功能,自己用得还算舒服,暂时没必要换。还是很感谢你提供的建议,之后我会多关注一下faceswap的社区讨论。
回复 支持 反对

使用道具 举报

0

主题

45

帖子

1914

积分

初级丹圣

Rank: 8Rank: 8

积分
1914

万事如意节日勋章

发表于 2025-5-25 10:18:42 | 显示全部楼层
xunlian 发表于 2025-5-25 07:59
早就提醒你了 不要死屌在DFL 你说的这些 FACESWAP早就可以玩了,自己设置自己的模型架构,编码器 FC(共享/ ...

弱弱的问下,现在faceswap可以平替dfl了没啊?
回复 支持 反对

使用道具 举报

3

主题

72

帖子

1780

积分

初级丹圣

Rank: 8Rank: 8

积分
1780
发表于 2025-5-25 11:35:07 | 显示全部楼层
lispmox 发表于 2025-5-25 10:05
感谢你提到的两个模型,我会去看一下架构。对我来说换一个网络架构不会很复杂,我自己重写了代码,可以方 ...

那我在提示一点,faceswap 也可以载入模型权重,编码器/解码器/FC 的权重都可以选择性载入/不载入。说白了 只要训练好一个模型后,新的模型都可以载入原有模型的权重,为了不污染新模型,往往选择只载入编码器权重,在冻结编码器,进行训练,达到加速训练的目的。这样既继承了编码器特征提取能力,又不会受到原模型污染。比DFL采用预训练+正训 好处明显。
不过 有得也有失,faceswap不支持导出DFM实时换脸模型,这点老外的法律,道德还是蛮强的。遮罩方面不如训练了2000W的XSEG,但是这都不是问题,你有改代码能力,直接可以另起一个轮子(Segment Anything)提取遮罩
回复 支持 反对

使用道具 举报

3

主题

72

帖子

1780

积分

初级丹圣

Rank: 8Rank: 8

积分
1780
发表于 2025-5-25 11:40:05 | 显示全部楼层
sex871 发表于 2025-5-25 10:18
弱弱的问下,现在faceswap可以平替dfl了没啊?

FACESWAP可玩性高,DFL在怎么训练 也无非是几个功能的开启/关闭。
faceswap的可玩性在于 你可以自己组装模型,参数,还有损失函数的选择都可以自定义。
至于谁好谁坏 ,没有唯一标准
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2025-6-2 23:32 , Processed in 0.113730 second(s), 35 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表