deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 1483|回复: 12

DF-UDT 448-480-96-96 预训练模型

[复制链接]

34

主题

502

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
12221
 楼主| 发表于 2025-3-12 17:40:22 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
本帖最后由 dfl9999 于 2025-3-13 00:48 编辑

Snipaste_2025-03-12_17-18-32.png

Snipaste_2025-03-12_17-19-47.png
00919.png
17862.jpg

-------
-------
因为上一个丹的前车之鉴,SAEHD模型预训练阶段过多的训练次数没有任何意义,这个丹保持在100万迭代左右。
预训练素材库用的FFHQ精挑2万张加上Pexel上的1万2千张超清人脸,作为纹理基准,剔除了所有男性人脸,又下了JVID 900多期精挑人脸作为亚洲人脸补充,全部是人力逐张挑选,无遮挡,切图1024和768进行训练。



使用建议,到手转正训,开启随机扭曲,其他参数不动,保持学习率1E-05不用调整,等LOSS值降到0.4以下再调整到5E-05,然后打开DST翻转,接下来就按照正常炼丹流程练。

关于批量大小,BS 4是平衡质量和速度的最佳选择,过大的批量除了加速收敛不会给丹的质量带来任何额外收益,显存窘迫的BS 2也是完全可以接受的,DFL最新版跟合体版自带类似梯度积累的效果,会自动积累梯度来模拟大批量,哪怕BS1也不会轻易炸梯度,完全可以放心训练。



评分

参与人数 1贡献 +1 收起 理由
tgyoyo + 1 物有所值太棒辣

查看全部评分

回复

使用道具 举报

3

主题

62

帖子

1500

积分

初级丹圣

Rank: 8Rank: 8

积分
1500
发表于 2025-3-14 10:11:13 | 显示全部楼层
狗蛋 发表于 2025-3-13 09:14
1e-05和5e-05有什么区别,小的学习率是更能学到面部的一些细节特征,稍大的学习率更容易收敛,是这个意思不 ...

学习率的大小代表波动范围的大小。
举个例子 画一个直径10的园,学习率高的话,第一次画一个直径2的圆,loss函数反馈结果不对,小了。接着又画一个5的圆,loss函数反馈结果不对,还是小了。第三次可能就画一个20的圆,loss函数反馈结果不对,大了。第四次又可能画一个15的圆。波动性就很大。

学习率小的话,第一次画了一个2的圆,loss函数反馈结果不对,小了。后面就会小范围波动去画圆(2.1 2.2 2.3 2.4 直到画到10位置)。

学习率小代表修正的步伐慢,耗时,但是稳定。适用于训练后期,学习率大,速度快,但是不稳定,适用于训练前期。
对于人脸学习,人的脸型轮廓,五官,这些特征比较明显,大的学习率有助于快速学习。人脸微小特征,特征不明显,需要小学习率去慢慢学习
回复 支持 1 反对 0

使用道具 举报

6

主题

66

帖子

1374

积分

初级丹圣

Rank: 8Rank: 8

积分
1374
发表于 2025-3-13 18:11:09 | 显示全部楼层
本帖最后由 wangdaye 于 2025-3-13 18:13 编辑
狗蛋 发表于 2025-3-13 09:14
1e-05和5e-05有什么区别,小的学习率是更能学到面部的一些细节特征,稍大的学习率更容易收敛,是这个意思不 ...

大学习率泛化好 收敛快 但是波动大  小学习率收敛稳定波动小 收敛慢  一般大后期或小bs  容易出现色斑或剧烈波动  可以用小学习率去限制 让模型平稳训练
回复 支持 1 反对 0

使用道具 举报

7

主题

191

帖子

1740

积分

初级丹圣

Rank: 8Rank: 8

积分
1740

万事如意节日勋章

发表于 2025-3-12 17:47:00 | 显示全部楼层
if your dst has no obstruction and angles and stuff then it's not a good one and my v2 of my dst is coming whenever the post gets reapproved
回复 支持 反对

使用道具 举报

34

主题

502

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
12221
 楼主| 发表于 2025-3-12 17:55:38 | 显示全部楼层
Cxsmo 发表于 2025-3-12 17:47
if your dst has no obstruction and angles and stuff then it's not a good one and my v2 of my dst is  ...

Facial training does not require occlusion, as minimal occlusion is necessary to train a truly accurate model. Handling occlusion is the job of the masking model, and the facial model only needs to learn the correct face
回复 支持 反对

使用道具 举报

8

主题

119

帖子

1231

积分

初级丹圣

Rank: 8Rank: 8

积分
1231

万事如意节日勋章

发表于 2025-3-12 22:44:44 | 显示全部楼层
就等你这个高分模型了!!!感谢!谢谢
回复 支持 反对

使用道具 举报

44

主题

1009

帖子

5497

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
5497

万事如意节日勋章开心娱乐节日勋章

发表于 2025-3-12 23:03:39 | 显示全部楼层
为啥要一开始就打开学习率
回复 支持 反对

使用道具 举报

34

主题

502

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
12221
 楼主| 发表于 2025-3-13 00:31:23 | 显示全部楼层
pasanonic 发表于 2025-3-12 23:03
为啥要一开始就打开学习率

炼丹的不知道学习率不合适吧……
回复 支持 反对

使用道具 举报

1

主题

39

帖子

370

积分

初级丹师

Rank: 3Rank: 3

积分
370

万事如意节日勋章

发表于 2025-3-13 09:14:13 | 显示全部楼层
1e-05和5e-05有什么区别,小的学习率是更能学到面部的一些细节特征,稍大的学习率更容易收敛,是这个意思不
回复 支持 反对

使用道具 举报

7

主题

191

帖子

1740

积分

初级丹圣

Rank: 8Rank: 8

积分
1740

万事如意节日勋章

发表于 2025-3-14 07:17:09 | 显示全部楼层
dfl9999 发表于 2025-3-12 17:55
Facial training does not require occlusion, as minimal occlusion is necessary to train a truly acc ...

yeah but if you train it using obstruction dst then it will show generalize quicker when using obstruction dsts
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2025-4-2 15:05 , Processed in 0.127997 second(s), 43 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表