【经验分享】如何小显存训练大参数模型

q350555108 · 发表于 2022-10-7 20:28:11

星级打分

1
2
3
4
5

平均分:NAN 参与人数:0 我的评分:未评

本帖最后由 q350555108 于 2022-10-7 20:30 编辑

相信很多朋友都有过辛辛苦苦攒灵石，买了神丹却因为自己的显存太小，无法再次训练的情况。

大家都知道，论坛大神们的神丹都有很好的基础，如果能当底丹放上别人的SRC继续训练，会省很多时间。
但是由于自己显存太小，特别是6G以下显存的，系统再占用一些显存，剩下的也就4G不到了，而这个显存想二次加工神丹，如果对参数不做修改是万万不能的。
那具体怎么修改参数才能实现小显存练大模型呢？
接下来我通过创建模型时的各种参数来一一分析怎么样把你的小显存显卡彻底利用起来。

以下是第一次以我3070显卡极限能创建出来的模型数据：

看得出来是个224模型，因为其他数据（特别是三维）不做修改的话256都创建不出来。

以下是我第二次创建的模型数据：

明显看得出来，这次是256模型，而且三维明显没有缩小，反而增大了很多。
那具体是怎么实现的呢？
那么重点来了，以下我以创建模型时各项数据参数为例，为大家一一讲解哪些需要开，哪些需要关，哪些改多大为好。重点我会红色标注。

Running trainer.

[new] No saved models found. Enter a name of a new model :
new

Model first run.

Choose one or several GPU idxs (separated by comma).

[CPU] : CPU
[0] : NVIDIA GeForce RTX 3070 Laptop GPU

[0] Which GPU indexes to choose? :
0

[0] Autobackup every N hour ( 0..24 ?:help ) :
0
[n] Write preview history ( y/n ?:help ) :
n
[0] Target iteration :
0
[n] Flip SRC faces randomly ( y/n ?:help ) :
n
[y] Flip DST faces randomly ( y/n ?:help ) :
y
[8] Batch_size ( ?:help ) :
8
【同迭代次数，此数值越高，效果越好，比较吃显存，所以可以适当增大减小，但越小迭代越快】
[128] Resolution ( 64-640 ?:help ) : 256
256
【此为模型分辨率大小，越大越吃显存】
[f] Face type ( h/mf/f/wf/head ?:help ) : wf
wf
【人脸类型】
[liae-ud] AE architecture ( ?:help ) : df-ud
df-ud
【liae贴合度更高，但更难练，练的太少不太像，所以我们一般练df-ud，很容易出效果】
[256] AutoEncoder dimensions ( 32-1024 ?:help ) : 512
512
[64] Encoder dimensions ( 16-256 ?:help ) :
64
[64] Decoder dimensions ( 16-256 ?:help ) :
64
[22] Decoder mask dimensions ( 16-256 ?:help ) : 32
32
【以上即所谓四维参数，总之越大越吃显存，但是太小练出来的效果就不够好了。】
[y] Masked training ( y/n ?:help ) :
y
【开】
[n] Eyes and mouth priority ( y/n ?:help ) :
n
【关】
[n] Uniform yaw distribution of samples ( y/n ?:help ) : y
【开】
[n] Blur out mask ( y/n ?:help ) : y
[y] Place models and optimizer on GPU ( y/n ?:help ) :
y
【用GPU训练，关了就不怕显存不够的情况，但是训练速度会非常慢，对于太低端显卡可以关闭】
[y] Use AdaBelief optimizer? ( y/n ?:help ) : n
【此项是重点，如果想跑大模型，可以把这个关闭，虽然收敛速度会减慢，但是大模型练出来的效果更好啊。所以像我这种配置低又爱玩大的可以把这个关了慢慢练，什么时候换了大显存显卡，就可以把这个打开了】
[n] Use learning rate dropout ( n/y/cpu ?:help ) :
n
[y] Enable random warp of samples ( y/n ?:help ) :
y
[0.0] Random hue/saturation/light intensity ( 0.0 .. 0.3 ?:help ) : 0.1
0.1
[0.0] GAN power ( 0.0 .. 5.0 ?:help ) :
0.0
[0.0] 'True face' power. ( 0.0000 .. 1.0 ?:help ) :
0.0
[0.0] Face style power ( 0.0..100.0 ?:help ) :
0.0
[0.0] Background style power ( 0.0..100.0 ?:help ) :
0.0
[none] Color transfer for src faceset ( none/rct/lct/mkl/idt/sot ?:help ) :
none
[n] Enable gradient clipping ( y/n ?:help ) :
n
[n] Enable pretraining mode ( y/n ?:help ) :
n

每项参数详解请参考：【老鸟进阶】训练参数详解

lovedwf · 发表于 2022-10-7 21:33:26

感谢分享，学习了！

扯蛋是一种快乐 · 发表于 2022-10-7 21:44:41

感谢分享，对新手来说太好！

lei27028 · 发表于 2022-10-8 00:17:06

感谢楼主的无私奉献,学习了

cjlzkl · 发表于 2022-10-8 00:22:51

还有一个，wf模型改成f模型，脸大一倍。

q350555108 · 发表于 2022-10-8 04:12:25

cjlzkl 发表于 2022-10-8 00:22
还有一个，wf模型改成f模型，脸大一倍。

我就是用的别人的F脸模型，自己练到230W了，但是觉得一点不好用。所以才自己练wf脸

Tekhjii · 发表于 2022-10-8 11:54:38

学习一下

ancientvoice · 发表于 2022-10-8 12:00:09

本帖最后由 ancientvoice 于 2022-10-8 12:01 编辑

关掉AdaBelief优化器后，模型文件的大小也会降低很多。。。感觉会损失些什么细节，但是又无法研究下去，大佬能否指点指点。还有就是AMP模型可以开高参数但是现存要求降低，同时模型得大小也会变小。不知道到底是同样效果优化了模型，还是实际上损失了些什么东西做到的。。。。

q350555108 · 发表于 2022-10-8 12:39:33

ancientvoice 发表于 2022-10-8 12:00
关掉AdaBelief优化器后，模型文件的大小也会降低很多。。。感觉会损失些什么细节，但是又无法研究下去，大 ...

可能开优化器10万就能练出来不开优化器20万的效果，所以只适合小显存用户拿到大模型后再加工，或者自己手痒想体验大模型，又有闲时间使劲跑的。所以，只要有时间跑，效果终究是能跑出来的。至于你说的数据大小我没研究过，没有具体对比过。

cjlzkl · 发表于 2022-10-8 20:47:50

q350555108 发表于 2022-10-8 04:12
我就是用的别人的F脸模型，自己练到230W了，但是觉得一点不好用。所以才自己练wf脸 ...

正在练一个320 380 90 90 的f，老哥你说的不好用具体指的是哪方面？我感觉wf的大部分区域根本用不到啊

		自动登录	找回密码
密码			立即注册（仅限QQ邮箱）

【经验分享】如何小显存训练大参数模型

万事如意节日勋章