deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
楼主: lispmox

在图像潜空间跑DFL,期望用更少的资源跑高画质

[复制链接]

5

主题

86

帖子

883

积分

高级丹师

Rank: 5Rank: 5

积分
883
发表于 2025-5-9 09:39:32 | 显示全部楼层
支持支持!感谢大佬对这方面的研究!
回复 支持 反对

使用道具 举报

3

主题

65

帖子

1640

积分

初级丹圣

Rank: 8Rank: 8

积分
1640
发表于 2025-5-9 09:50:50 | 显示全部楼层
你的想法是把输入图片在编码器阶段进行压缩64,在解码器阶段还原512?不过不能保证压缩64下不会丢失一些细节特征。
手动控制编码器压缩比例,如果是这样,我建议你不必吊死在DFL上,其实另一款换脸软件早就有该功能了,甚至还有其他高级功能,例如可以选择不同类型的编码器。
回复 支持 反对

使用道具 举报

14

主题

3385

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18328

真我风采勋章万事如意节日勋章

发表于 2025-5-9 13:15:16 | 显示全部楼层
缩小训练,是可以的。
但是有限度,64到512,这么大的差距,显然是不行滴。
但512,是可以用448,练出来的。
DFL原封不动,就可以做到。
回复 支持 反对

使用道具 举报

7

主题

64

帖子

4572

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4572
 楼主| 发表于 2025-5-9 16:59:57 | 显示全部楼层
本帖最后由 lispmox 于 2025-5-9 17:10 编辑
xunlian 发表于 2025-5-9 09:50
你的想法是把输入图片在编码器阶段进行压缩64,在解码器阶段还原512?不过不能保证压缩64下不会丢失一些细 ...

并不完全是,我是参考SD的思路,在图像潜空间里训练。SD会单独训练一个VAE变分自编码器来压缩图像,比如SD1.5会把512x512x3的图压缩成64x64x4的潜空间图,然后在潜空间图里扩散生成,得到生成后的潜空间,再用VAE解码回512x512x3的图像。这个操作是为了降低训练成本,VAE是提前训练好后冻结参数的。在做扩散模型训练时只需要关注潜空间就好。

另外您说的输入64输出512的架构是指faceswap里的模型?我是自己从头写的代码,只是兼容DFL,改一下下采样次数这些并不难。不过我实践中发现增加降采样次数后训练速度会下降,显存占用也并没有减少太多,训练成本最高的还是inter+decoder。DFLab的架构应该也是作者不断试出来的一个较优解。如果老哥有推荐的DFL网络架构,期待分享一下,我可以去试试看。
回复 支持 反对

使用道具 举报

7

主题

64

帖子

4572

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4572
 楼主| 发表于 2025-5-9 17:04:41 | 显示全部楼层
wtxx8888 发表于 2025-5-9 13:15
缩小训练,是可以的。
但是有限度,64到512,这么大的差距,显然是不行滴。
但512,是可以用448,练出来的 ...

我采用SD的VAE压缩,是因为SD的VAE是专门训练过来压缩图像的的预训练模型,我肉眼看压缩后再还原回去的误差还是比较小的,对于DFL可能也就够了?毕竟DFL训练出来的模型天然带一点糊,可能还达到不到SD的VAE最清晰度。相当于我直接固定了一部分参数,在浅空间里训练,这样DFL的输入和输出都是64x64x16的图像。

PS:我实际中确实也发现了一些问题,一开始我期望减少损失,用的是flux版本的VAE,它压缩后图像有16个通道,这在解码器输出时的难度增加了不少,训练速度并不理想。我准备再试试SD1.5的VAE,压缩后图像只有4个通道,即使解码质量更差,对DFLab生成的图片或许够用了?
回复 支持 反对

使用道具 举报

14

主题

3385

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18328

真我风采勋章万事如意节日勋章

发表于 2025-5-9 17:28:43 | 显示全部楼层
本帖最后由 wtxx8888 于 2025-5-9 17:38 编辑
lispmox 发表于 2025-5-9 17:04
我采用SD的VAE压缩,是因为SD的VAE是专门训练过来压缩图像的的预训练模型,我肉眼看压缩后再还原回去的误 ...

差距太大了,是不行的。
例如,DFL的D参,就是一半的解析度。
你这512跟64,差了多少倍?
一般极限,也就差不多是一半多点。(大概可以缩到5分之2)
(所以原版,还能用448练出来512,差不多还能提速一倍)
推荐你,把64改为256左右(对于你的目标512)。应该会好很多。
回复 支持 反对

使用道具 举报

13

主题

1114

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
14260
发表于 2025-5-9 17:37:10 | 显示全部楼层
lispmox 发表于 2025-5-9 05:03
理论上当然是参数越多模型越好,这是做通用大模型的思路。DFL做的只是src->dst的视频换脸,不仅要效果好还 ...

我倒是想起来,应该做个工作流,把dfl换脸过的视频再用liveportrait跑一遍,就能做到眼神也没问题了
回复 支持 反对

使用道具 举报

7

主题

64

帖子

4572

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4572
 楼主| 发表于 2025-5-9 17:56:10 | 显示全部楼层
seancai110 发表于 2025-5-9 17:37
我倒是想起来,应该做个工作流,把dfl换脸过的视频再用liveportrait跑一遍,就能做到眼神也没问题了 ...

这个思路可以的,期待大佬的研究结果。我是在训练之前先用liveportrait扩充了海量的眼神角度啥的。数据量上去了DFL换出来的眼神也不错,不过训练成本高了不少,要跑好久。
回复 支持 反对

使用道具 举报

7

主题

64

帖子

4572

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4572
 楼主| 发表于 2025-5-9 18:08:04 | 显示全部楼层
wtxx8888 发表于 2025-5-9 17:28
差距太大了,是不行的。
例如,DFL的D参,就是一半的解析度。
你这512跟64,差了多少倍?

SD1.5的VAE压缩率固定为1/8,我直接拿过来用的,改不了2倍,除非我先上采样4倍然后再压缩为原来的1/2。这种训练方式在SD里是成功的,8倍压缩率还不是极限,后续也有一些工作实现了更高的压缩率,比如DC-AE能压缩到1/64。我只是初步实验一下效果,模型目前还没训练完。
回复 支持 反对

使用道具 举报

0

主题

41

帖子

1819

积分

初级丹圣

Rank: 8Rank: 8

积分
1819

万事如意节日勋章

发表于 2025-5-9 19:55:05 | 显示全部楼层
wtxx8888 发表于 2025-5-9 13:15
缩小训练,是可以的。
但是有限度,64到512,这么大的差距,显然是不行滴。
但512,是可以用448,练出来的 ...

大佬有没有考虑参考教授的Ro-1优化器优化你的版本哇,目前24G玩416以上还是离不开ICE啊
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2025-5-17 16:18 , Processed in 0.203063 second(s), 32 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表