在图像潜空间跑DFL，期望用更少的资源跑高画质

lispmox · 发表于 2025-5-9 20:30:03

sex871 发表于 2025-5-9 19:55
大佬有没有考虑参考教授的Ro-1优化器优化你的版本哇，目前24G玩416以上还是离不开ICE啊 ...

我只是玩玩比不上专业做这个的大佬。Ro-1优化器的细节我也不清楚，如果只是支持任意大小的bs，我手里的版本也是可以通过梯度累积做到的。我理解跑416以上分辨率已经不仅仅是模型架构的问题了，和训练方式，损失函数都有关系。ICE对这块能支持到什么程度，我完全不了解，教授那个群我至今没混进去。

xunlian · 发表于 2025-5-9 21:23:16

lispmox 发表于 2025-5-9 16:59
并不完全是，我是参考SD的思路，在图像潜空间里训练。SD会单独训练一个VAE变分自编码器来压缩图像，比如SD ...

faceswap中，不倫什麼模型，都可以自定義編碼器的輸入。可以X入 Y出。例如64/128入 256/512/1080出。
還有很多高級設置，可以對編碼器 FC層解碼器參數修改，滿足個性化需求。簡單說你可以自己打造設定一個模型架構，不像DFL傻瓜式的幾個參數的開和關。

mjy9921130 · 发表于 2025-5-9 22:51:05

厉害，发出来帮你测试一下

mjy9921130 · 发表于 2025-5-9 23:06:30

大佬，可以修改为支持bf16和tf32精度训练吗？这样可以节约显存提高训练速度，实际精度还是够用的。

lispmox · 发表于 2025-5-10 00:50:47

本帖最后由 lispmox 于 2025-5-10 00:53 编辑

mjy9921130 发表于 2025-5-9 23:06
大佬，可以修改为支持bf16和tf32精度训练吗？这样可以节约显存提高训练速度，实际精度还是够用的。 ...

我现在的代码，bf16会不收敛，fp16会直接nan。我暂时还没debug，等我有空再说，推测是dense层和dssim这些有大kernel的卷积层需要暂时关闭混合精度。
tf32只需要一下cudnn的启动参数就行了吧，这个倒是可以支持，等有空测测效果吧。

xyqttacr · 发表于 2025-5-10 02:59:11

大佬牛逼

seancai110 · 发表于 2025-5-10 05:07:08

lispmox 发表于 2025-5-9 17:56
这个思路可以的，期待大佬的研究结果。我是在训练之前先用liveportrait扩充了海量的眼神角度啥的。数据量 ...

对啊。与其准备这么多素材，浪费时间训练，结果还不好控制。还不如在合成之后再解决眼神问题。在comfyui里搭个工作流，用liveportrait把合成的图片和dst对一遍眼神，然后再输出视频

mjy9921130 · 发表于 2025-5-10 07:29:41

本帖最后由 mjy9921130 于 2025-5-10 07:31 编辑

lispmox 发表于 2025-5-10 00:50
我现在的代码，bf16会不收敛，fp16会直接nan。我暂时还没debug，等我有空再说，推测是dense层和dssim这些 ...

可以考虑前期bf16，后期切换到tf32。我目前用的一个软件，支持在训练中直接切换精度，可惜不开源，最高分辨率只支持384。好多参数也可以在正在训练过程中重新选择打开或关闭。mve-pytorch-trainer-1.3.0版本下载地址 - 【deepfacelab】综合讨论- AIBL论坛-AI技术交流社区。你的改版可以私发一份我试试吗？显卡小显存又想用大模型

。如果配合你这个思路，再可以前期用bf16跑，后期改tf32收敛，显存就能大大节省了。

come3002 · 发表于 2025-5-11 09:39:53

期待最终结果

		自动登录	找回密码
密码			立即注册（仅限QQ邮箱）