512-df-ud-1,726,249 赵今麦

Headmaster1615 · 发表于 2024-3-25 10:34:42

星级打分

1
2
3
4
5

平均分:NAN 参与人数:0 我的评分:未评

有xseg遮罩，训练集角度较全，期间多次加入新人脸数据。dst为泛型人脸136,665张。长期更新，可以多次下载。
角度分布.png

================ Model Summary ================
==                                        ==
==          Model name: 512wf_SAEHD       ==
==                                        ==
==    Current iteration: 1726077          ==
==                                        ==
==-------------- Model Options --------------==
==                                        ==
==          resolution: 512             ==
==          face_type: wf                ==
==    models_opt_on_gpu: True             ==
==                archi: df-ud             ==
==             ae_dims: 256             ==
==             e_dims: 64                ==
==             d_dims: 64                ==
==          d_mask_dims: 16                ==
==    masked_training: True             ==
==    eyes_mouth_prio: False             ==
==          uniform_yaw: True             ==
==       blur_out_mask: True             ==
==          adabelief: True             ==
==          lr_dropout: n                ==
==          random_warp: False             ==
==    random_hsv_power: 0.05             ==
==    true_face_power: 0.002             ==
==    face_style_power: 0.0             ==
==       bg_style_power: 0.0             ==
==             ct_mode: rct             ==
==             clipgrad: True             ==
==             pretrain: False             ==
==    autobackup_hour: 2                ==
== write_preview_history: True             ==
==          target_iter: 0                ==
==    random_src_flip: True             ==
==    random_dst_flip: False             ==
==          batch_size: 1                ==
==          gan_power: 0.0             ==
==       gan_patch_size: 40                ==
==             gan_dims: 16                ==
==                                        ==
==--------------- Running On ----------------==
==                                        ==
==       Device index: 0                ==
==                Name: AMD Radeon RX 6800 ==
==                VRAM: 14.44GB          ==
==                                        ==
===============================================

Deannnn · 发表于 2024-3-25 11:33:13

batch_size: 1 也能练？

Headmaster1615 · 发表于 2024-3-25 11:37:28

Deannnn 发表于 2024-3-25 11:33
batch_size: 1 也能练？

可以的。不影响进度

Deannnn · 发表于 2024-3-25 11:38:19

Headmaster1615 发表于 2024-3-25 11:37
可以的。不影响进度

没法收敛吧

Headmaster1615 · 发表于 2024-3-25 11:39:50

本帖最后由 Headmaster1615 于 2024-3-25 12:09 编辑

Deannnn 发表于 2024-3-25 11:38
没法收敛吧

可以的。你看曲线。

Headmaster1615 · 发表于 2024-3-25 11:41:58

Headmaster1615 发表于 2024-3-25 11:39
可以的。你看曲线。
下面是理论分析：

只不过batch太小有概率会产生梯度爆炸。但是在参数中有梯度裁剪，所以也无须担心梯度爆炸。训练就可以了

Deannnn · 发表于 2024-3-25 11:57:17

更小的batch在一个epoch中会有更多次update，每次update会进行一次梯度计算以及位置移动，所以总的来说，小的batch一个epoch的所花费的时间反而会更长一点。

这句话你验证过了么，这个是DFL官网有关batch size的说明：
Batch_size ( ?:help ) : Batch size settings affects how many faces are being compared to each other every each iteration. Lowest value is 2 and you can go as high as your GPU will allow which is affected by VRAM. The higher your models resolution, dimensions and the more features you enable the more VRAM will be needed so lower batch size might be required. It's recommended to not use value below 4. Higher batch size will provide better quality at the cost of slower training (higher iteration time). For the intial stage it can be set lower value to speed up initial training and then raised higher. Optimal values are between 6-12. How to guess what batch size to use? You can either use trial and error or help yourself by taking a look at what other people can achieve on their GPUs by checking out DFL 2.0 Model Settings and Performance Sharing Thread.

Headmaster1615 · 发表于 2024-3-25 12:10:05

本帖最后由 Headmaster1615 于 2024-3-26 09:31 编辑

Deannnn 发表于 2024-3-25 11:57
更小的batch在一个epoch中会有更多次update，每次update会进行一次梯度计算以及位置移动，所以总的来说，小 ...

batch越大，batch中的一个图运算时间会更短。应该是因为节约了IO时间。
batch太小有概率会产生梯度爆炸。但是在参数中有梯度裁剪，所以也无须担心梯度爆炸。训练就可以了

Winter · 发表于 2024-3-27 07:36:34

我对这个有许多疑问啊：一个是参数，512分辨率，AE才256，很难体现高分的优势啊；第二是看了你的SRC，是多部作品的全集，这样，很难保证SRC的一致啊；第三，就是训练中BS=1，这样172W训练对应BS=8，只有弱于21W的训练效果。
你能换一张图片，让我看看实际效果吗？1920*1080的就行。

Headmaster1615 · 发表于 2024-3-27 09:22:34

Winter 发表于 2024-3-27 07:36
我对这个有许多疑问啊：一个是参数，512分辨率，AE才256，很难体现高分的优势啊；第二是看了你的SRC，是多 ...

训练效果不是这样算的。每一个batch都会产生一次梯度更新。batch是8的时候是8张图片取平均来更新梯度，1的时候是一张图片更新一次。在训练集数据无误的情况下，无需取平均值即可稳定的更新权重值。
虽然大batch size可以提高计算效率和梯度估计的准确性，但也可能导致模型收敛到较差的局部最优解。另一方面，小batch size（如1）使得模型更频繁地更新，有助于更好地探索参数空间，但训练过程中的方差更大，可能导致训练过程更加嘈杂和不稳定。

		自动登录	找回密码
密码			立即注册（仅限QQ邮箱）

512-df-ud-1,726,249 赵今麦

浏览过的版块

万事如意节日勋章