在图像潜空间跑DFL，期望用更少的资源跑高画质

dfldata1316 · 发表于 2025-5-9 09:39:32

支持支持！感谢大佬对这方面的研究！

xunlian · 发表于 2025-5-9 09:50:50

你的想法是把输入图片在编码器阶段进行压缩64，在解码器阶段还原512？不过不能保证压缩64下不会丢失一些细节特征。
手动控制编码器压缩比例，如果是这样，我建议你不必吊死在DFL上，其实另一款换脸软件早就有该功能了，甚至还有其他高级功能，例如可以选择不同类型的编码器。

wtxx8888 · 发表于 2025-5-9 13:15:16

缩小训练，是可以的。
但是有限度，64到512，这么大的差距，显然是不行滴。
但512，是可以用448，练出来的。
DFL原封不动，就可以做到。

lispmox · 发表于 2025-5-9 16:59:57

本帖最后由 lispmox 于 2025-5-9 17:10 编辑

xunlian 发表于 2025-5-9 09:50
你的想法是把输入图片在编码器阶段进行压缩64，在解码器阶段还原512？不过不能保证压缩64下不会丢失一些细 ...

并不完全是，我是参考SD的思路，在图像潜空间里训练。SD会单独训练一个VAE变分自编码器来压缩图像，比如SD1.5会把512x512x3的图压缩成64x64x4的潜空间图，然后在潜空间图里扩散生成，得到生成后的潜空间，再用VAE解码回512x512x3的图像。这个操作是为了降低训练成本，VAE是提前训练好后冻结参数的。在做扩散模型训练时只需要关注潜空间就好。

另外您说的输入64输出512的架构是指faceswap里的模型？我是自己从头写的代码，只是兼容DFL，改一下下采样次数这些并不难。不过我实践中发现增加降采样次数后训练速度会下降，显存占用也并没有减少太多，训练成本最高的还是inter+decoder。DFLab的架构应该也是作者不断试出来的一个较优解。如果老哥有推荐的DFL网络架构，期待分享一下，我可以去试试看。

lispmox · 发表于 2025-5-9 17:04:41

wtxx8888 发表于 2025-5-9 13:15
缩小训练，是可以的。
但是有限度，64到512，这么大的差距，显然是不行滴。
但512，是可以用448，练出来的 ...

我采用SD的VAE压缩，是因为SD的VAE是专门训练过来压缩图像的的预训练模型，我肉眼看压缩后再还原回去的误差还是比较小的，对于DFL可能也就够了？毕竟DFL训练出来的模型天然带一点糊，可能还达到不到SD的VAE最清晰度。相当于我直接固定了一部分参数，在浅空间里训练，这样DFL的输入和输出都是64x64x16的图像。

PS：我实际中确实也发现了一些问题，一开始我期望减少损失，用的是flux版本的VAE，它压缩后图像有16个通道，这在解码器输出时的难度增加了不少，训练速度并不理想。我准备再试试SD1.5的VAE，压缩后图像只有4个通道，即使解码质量更差，对DFLab生成的图片或许够用了？

wtxx8888 · 发表于 2025-5-9 17:28:43

本帖最后由 wtxx8888 于 2025-5-9 17:38 编辑

lispmox 发表于 2025-5-9 17:04
我采用SD的VAE压缩，是因为SD的VAE是专门训练过来压缩图像的的预训练模型，我肉眼看压缩后再还原回去的误 ...

差距太大了，是不行的。
例如，DFL的D参，就是一半的解析度。
你这512跟64，差了多少倍？
一般极限，也就差不多是一半多点。（大概可以缩到5分之2）
（所以原版，还能用448练出来512，差不多还能提速一倍）
推荐你，把64改为256左右（对于你的目标512）。应该会好很多。

seancai110 · 发表于 2025-5-9 17:37:10

lispmox 发表于 2025-5-9 05:03
理论上当然是参数越多模型越好，这是做通用大模型的思路。DFL做的只是src->dst的视频换脸，不仅要效果好还 ...

我倒是想起来，应该做个工作流，把dfl换脸过的视频再用liveportrait跑一遍，就能做到眼神也没问题了

lispmox · 发表于 2025-5-9 17:56:10

seancai110 发表于 2025-5-9 17:37
我倒是想起来，应该做个工作流，把dfl换脸过的视频再用liveportrait跑一遍，就能做到眼神也没问题了 ...

这个思路可以的，期待大佬的研究结果。我是在训练之前先用liveportrait扩充了海量的眼神角度啥的。数据量上去了DFL换出来的眼神也不错，不过训练成本高了不少，要跑好久。

lispmox · 发表于 2025-5-9 18:08:04

wtxx8888 发表于 2025-5-9 17:28
差距太大了，是不行的。
例如，DFL的D参，就是一半的解析度。
你这512跟64，差了多少倍？

SD1.5的VAE压缩率固定为1/8，我直接拿过来用的，改不了2倍，除非我先上采样4倍然后再压缩为原来的1/2。这种训练方式在SD里是成功的，8倍压缩率还不是极限，后续也有一些工作实现了更高的压缩率，比如DC-AE能压缩到1/64。我只是初步实验一下效果，模型目前还没训练完。

sex871 · 发表于 2025-5-9 19:55:05

wtxx8888 发表于 2025-5-9 13:15
缩小训练，是可以的。
但是有限度，64到512，这么大的差距，显然是不行滴。
但512，是可以用448，练出来的 ...

大佬有没有考虑参考教授的Ro-1优化器优化你的版本哇，目前24G玩416以上还是离不开ICE啊

		自动登录	找回密码
密码			立即注册（仅限QQ邮箱）

在图像潜空间跑DFL，期望用更少的资源跑高画质

真我风采勋章

万事如意节日勋章