deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 1126|回复: 9

384-df-udt-768-96-96-32扭曲预训练100w

[复制链接]

9

主题

220

帖子

3419

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3419
QQ
 楼主| 发表于 2024-5-2 15:01:44 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:5  参与人数:1  我的评分:未评
本帖最后由 yxyao 于 2024-6-10 21:12 编辑

分辨率384,参数768-96-96-32,bs8,扭曲预训练100w迭代

使用原版自带的1.5w张的数据集,先进行了100w的pretrain y的预训练,然后关闭pretrain模式,开启随机扭曲,把原版自带的1.5w数据集复制到src和dst中,又跑了100w迭代。
注意!!!使用的是4090,最大bs8,我个人没有试过更小显存的显卡能否运行,如果显存低于24G,不保证可玩性,尤其是显存低于16G,强烈不建议尝试。
首先这个参数就很奇葩,大佬轻喷,大显存的想尝试的可以试试。
参数如下:
pretrain_100w_0.png
预览图如下:
pretrain_100w_1.png
pretrain_100w_2.png
pretrain_100w_3.png
由于预训练开启了梯度裁剪,建议正训前删掉inter文件和opt文件,以避免pred像dst。具体原理请参考随风大佬的技术贴(感谢come3002大佬指路):
【随风技术论】DFL模型文件的<关系>--详解

补充说明:做出本模型的初衷是为了实验对比不同参数的实际影响。
发在论坛是为了记录学习过程,同时如果有朋友有兴趣随时可以测试或使用。
如果图方便或者最佳性能的话,大可不必使用本模型,论坛中很可能有更好的选择。


再次提醒,这个模型对显存容量要求较高,16G以下的请不要尝试!对这个ae参数表示怀疑的也不要尝试!
使用方法:删掉inter.npy以及src_dst_opt.npy这两个文件(原因请看上面我贴的随风大佬的技术贴),用自己的src与dst开始正训即可。
回复

使用道具 举报

15

主题

1921

帖子

2万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
27020

万事如意节日勋章

发表于 2024-5-2 20:51:56 | 显示全部楼层
yxyao 发表于 2024-5-2 20:11
大佬您好,我仔细看了随风大佬的df模型讲解,他说如果开启梯度裁剪,那么inter文件就会只留下一条最短路 ...

问题1:梯度可以防止渣丹。
问题2:是的。正训 删inter (包含了删除梯度信息,也洗掉了dst的干扰)对重新映射有好处。

回复 支持 1 反对 0

使用道具 举报

15

主题

1921

帖子

2万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
27020

万事如意节日勋章

发表于 2024-5-2 17:28:15 | 显示全部楼层
本帖最后由 come3002 于 2024-5-2 17:30 编辑
yxyao 发表于 2024-5-2 17:22
感谢支持。在这里顺便问一下大佬,这种df的PretrainMode:n的预训练丹,使用时pred很长时间里都是像dst的 ...

推荐你可以看看 随风大佬的帖子。
隐藏内容第六行,里面提及到 预训练主要目的是什么。


deepfacelab中文网»【随风技术论】DFL模型文件的<关系>--详解
回复 支持 1 反对 0

使用道具 举报

39

主题

278

帖子

2145

积分

初级丹圣

Rank: 8Rank: 8

积分
2145

万事如意节日勋章

发表于 2024-5-2 17:20:25 | 显示全部楼层
炼丹不易,支持一下
回复 支持 1 反对 0

使用道具 举报

15

主题

1921

帖子

2万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
27020

万事如意节日勋章

发表于 2024-5-2 16:56:31 | 显示全部楼层
yxyao 发表于 2024-5-2 16:49
是的,我试过不少参数,这个ae好像对显存不是那么敏感

感谢分享。已经购买。
回复 支持 1 反对 0

使用道具 举报

15

主题

182

帖子

6296

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
6296

万事如意节日勋章

发表于 2024-5-2 15:57:23 | 显示全部楼层
这个参数好猛啊,这种参数4090还能BS8?
回复 支持 1 反对 0

使用道具 举报

9

主题

220

帖子

3419

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3419
QQ
 楼主| 发表于 2024-5-2 16:49:22 | 显示全部楼层
wzx945 发表于 2024-5-2 15:57
这个参数好猛啊,这种参数4090还能BS8?

是的,我试过不少参数,这个ae好像对显存不是那么敏感
回复 支持 反对

使用道具 举报

9

主题

220

帖子

3419

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3419
QQ
 楼主| 发表于 2024-5-2 17:22:23 | 显示全部楼层
come3002 发表于 2024-5-2 16:56
感谢分享。已经购买。

感谢支持。在这里顺便问一下大佬,这种df的PretrainMode:n的预训练丹,使用时pred很长时间里都是像dst的,该怎样解决这个问题呢?只能赢堆迭代数吗?
回复 支持 反对

使用道具 举报

9

主题

220

帖子

3419

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3419
QQ
 楼主| 发表于 2024-5-2 17:29:13 | 显示全部楼层
come3002 发表于 2024-5-2 17:28
推荐你可以看看 随风大佬的帖子。
里面提及到 预训练主要目的是什么。

谢谢大佬指路
回复 支持 反对

使用道具 举报

9

主题

220

帖子

3419

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3419
QQ
 楼主| 发表于 2024-5-2 20:11:55 | 显示全部楼层
come3002 发表于 2024-5-2 17:28
推荐你可以看看 随风大佬的帖子。
隐藏内容第六行,里面提及到 预训练主要目的是什么。

大佬您好,我仔细看了随风大佬的df模型讲解,他说如果开启梯度裁剪,那么inter文件就会只留下一条最短路径,估计这会导致转正训时pred长时间像dst,但是像这种高参单如果不开梯度,前期还是挺容易炸丹的,我在想如果现在(已经100w迭代)的这个模型我再关闭梯度跑个100w,这个问题(inter映射文件)会好转吗?另外,我现在这个丹是不是在转正训时先删inter文件?我尝试了删inter文件,感觉成像蛮快的,而且pred也像src
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-11-26 05:00 , Processed in 0.142863 second(s), 39 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表