384df-udt预训练100w-【DFL】综合讨论-deepfacelab中文网

yxyao 发表于 2024-5-2 15:01:44

384df-udt预训练100w

本帖最后由 yxyao 于 2024-5-15 19:59 编辑

分辨率384，参数768-96-96-32，bs8，扭曲预训练100w迭代

使用原版自带的1.5w张的数据集，先进行了100w的pretrain y的预训练，然后关闭pretrain模式，开启随机扭曲，把原版自带的1.5w数据集复制到src和dst中，又跑了100w迭代。
注意！！！使用的是4090，最大bs8，我个人没有试过更小显存的显卡能否运行，如果显存低于24G，不保证可玩性，尤其是显存低于16G，强烈不建议尝试。
首先这个参数就很奇葩，大佬轻喷，大显存的想尝试的可以试试。
参数如下：

预览图如下：

由于预训练开启了梯度裁剪，建议正训前删掉inter文件和opt文件，以避免pred像dst。具体原理请参考随风大佬的技术贴（感谢come3002大佬指路）：
【随风技术论】DFL模型文件的<关系>--详解

再次提醒，这个模型对显存容量要求较高，16G以下的请不要尝试！对这个ae参数表示怀疑的也不要尝试！
使用方法：删掉inter.npy以及src_dst_opt.npy这两个文件（原因请看上面我贴的随风大佬的技术贴），用自己的src与dst开始正训即可。

come3002 发表于 2024-5-2 20:51:56

yxyao 发表于 2024-5-2 20:11
大佬您好，我仔细看了随风大佬的df模型讲解，他说如果开启梯度裁剪，那么inter文件就会只留下一条最短路 ...

问题1：梯度可以防止渣丹。
问题2：是的。正训删inter （包含了删除梯度信息，也洗掉了dst的干扰）对重新映射有好处。

come3002 发表于 2024-5-2 17:28:15

本帖最后由 come3002 于 2024-5-2 17:30 编辑

yxyao 发表于 2024-5-2 17:22
感谢支持。在这里顺便问一下大佬，这种df的PretrainMode：n的预训练丹，使用时pred很长时间里都是像dst的 ...
推荐你可以看看随风大佬的帖子。
隐藏内容第六行，里面提及到预训练主要目的是什么。

deepfacelab中文网»【随风技术论】DFL模型文件的<关系>--详解

天光脑震荡 发表于 2024-5-2 17:20:25

炼丹不易，支持一下:lol

come3002 发表于 2024-5-2 16:56:31

yxyao 发表于 2024-5-2 16:49
是的，我试过不少参数，这个ae好像对显存不是那么敏感

感谢分享。已经购买。

wzx945 发表于 2024-5-2 15:57:23

这个参数好猛啊，这种参数4090还能BS8？

yxyao 发表于 2024-5-2 16:49:22

wzx945 发表于 2024-5-2 15:57
这个参数好猛啊，这种参数4090还能BS8？

是的，我试过不少参数，这个ae好像对显存不是那么敏感

yxyao 发表于 2024-5-2 17:22:23

come3002 发表于 2024-5-2 16:56
感谢分享。已经购买。
感谢支持。在这里顺便问一下大佬，这种df的PretrainMode：n的预训练丹，使用时pred很长时间里都是像dst的，该怎样解决这个问题呢？只能赢堆迭代数吗？

yxyao 发表于 2024-5-2 17:29:13

come3002 发表于 2024-5-2 17:28
推荐你可以看看随风大佬的帖子。
里面提及到预训练主要目的是什么。

谢谢大佬指路

yxyao 发表于 2024-5-2 20:11:55

come3002 发表于 2024-5-2 17:28
推荐你可以看看随风大佬的帖子。
隐藏内容第六行，里面提及到预训练主要目的是什么。

大佬您好，我仔细看了随风大佬的df模型讲解，他说如果开启梯度裁剪，那么inter文件就会只留下一条最短路径，估计这会导致转正训时pred长时间像dst，但是像这种高参单如果不开梯度，前期还是挺容易炸丹的，我在想如果现在（已经100w迭代）的这个模型我再关闭梯度跑个100w，这个问题（inter映射文件）会好转吗？另外，我现在这个丹是不是在转正训时先删inter文件？我尝试了删inter文件，感觉成像蛮快的，而且pred也像src

页: [1]

deepfacelab中文网's Archiver

384df-udt预训练100w