yxyao 发表于 2024-5-2 15:01:44

384df-udt预训练100w

本帖最后由 yxyao 于 2024-5-15 19:59 编辑

分辨率384,参数768-96-96-32,bs8,扭曲预训练100w迭代

使用原版自带的1.5w张的数据集,先进行了100w的pretrain y的预训练,然后关闭pretrain模式,开启随机扭曲,把原版自带的1.5w数据集复制到src和dst中,又跑了100w迭代。
注意!!!使用的是4090,最大bs8,我个人没有试过更小显存的显卡能否运行,如果显存低于24G,不保证可玩性,尤其是显存低于16G,强烈不建议尝试。
首先这个参数就很奇葩,大佬轻喷,大显存的想尝试的可以试试。
参数如下:

预览图如下:



由于预训练开启了梯度裁剪,建议正训前删掉inter文件和opt文件,以避免pred像dst。具体原理请参考随风大佬的技术贴(感谢come3002大佬指路):
【随风技术论】DFL模型文件的<关系>--详解

再次提醒,这个模型对显存容量要求较高,16G以下的请不要尝试!对这个ae参数表示怀疑的也不要尝试!
使用方法:删掉inter.npy以及src_dst_opt.npy这两个文件(原因请看上面我贴的随风大佬的技术贴),用自己的src与dst开始正训即可。

come3002 发表于 2024-5-2 20:51:56

yxyao 发表于 2024-5-2 20:11
大佬您好,我仔细看了随风大佬的df模型讲解,他说如果开启梯度裁剪,那么inter文件就会只留下一条最短路 ...

问题1:梯度可以防止渣丹。
问题2:是的。正训 删inter (包含了删除梯度信息,也洗掉了dst的干扰)对重新映射有好处。

come3002 发表于 2024-5-2 17:28:15

本帖最后由 come3002 于 2024-5-2 17:30 编辑

yxyao 发表于 2024-5-2 17:22
感谢支持。在这里顺便问一下大佬,这种df的PretrainMode:n的预训练丹,使用时pred很长时间里都是像dst的 ...
推荐你可以看看 随风大佬的帖子。
隐藏内容第六行,里面提及到 预训练主要目的是什么。


deepfacelab中文网»【随风技术论】DFL模型文件的<关系>--详解

天光脑震荡 发表于 2024-5-2 17:20:25

炼丹不易,支持一下:lol

come3002 发表于 2024-5-2 16:56:31

yxyao 发表于 2024-5-2 16:49
是的,我试过不少参数,这个ae好像对显存不是那么敏感

感谢分享。已经购买。

wzx945 发表于 2024-5-2 15:57:23

这个参数好猛啊,这种参数4090还能BS8?

yxyao 发表于 2024-5-2 16:49:22

wzx945 发表于 2024-5-2 15:57
这个参数好猛啊,这种参数4090还能BS8?

是的,我试过不少参数,这个ae好像对显存不是那么敏感

yxyao 发表于 2024-5-2 17:22:23

come3002 发表于 2024-5-2 16:56
感谢分享。已经购买。
感谢支持。在这里顺便问一下大佬,这种df的PretrainMode:n的预训练丹,使用时pred很长时间里都是像dst的,该怎样解决这个问题呢?只能赢堆迭代数吗?

yxyao 发表于 2024-5-2 17:29:13

come3002 发表于 2024-5-2 17:28
推荐你可以看看 随风大佬的帖子。
里面提及到 预训练主要目的是什么。



谢谢大佬指路

yxyao 发表于 2024-5-2 20:11:55

come3002 发表于 2024-5-2 17:28
推荐你可以看看 随风大佬的帖子。
隐藏内容第六行,里面提及到 预训练主要目的是什么。



大佬您好,我仔细看了随风大佬的df模型讲解,他说如果开启梯度裁剪,那么inter文件就会只留下一条最短路径,估计这会导致转正训时pred长时间像dst,但是像这种高参单如果不开梯度,前期还是挺容易炸丹的,我在想如果现在(已经100w迭代)的这个模型我再关闭梯度跑个100w,这个问题(inter映射文件)会好转吗?另外,我现在这个丹是不是在转正训时先删inter文件?我尝试了删inter文件,感觉成像蛮快的,而且pred也像src
页: [1]
查看完整版本: 384df-udt预训练100w