deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 746|回复: 11

训练步数真的越多越好吗

[复制链接]

1

主题

8

帖子

162

积分

高级丹童

Rank: 2

积分
162
 楼主| 发表于 2024-1-7 12:42:40 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
本帖最后由 sylyt62 于 2024-1-8 14:15 编辑

刚来论坛不久,发现很多丹的迭代步数都到了几百万步,我充值了滚巴石大佬的迪丽热万能丹,想在此基础上炼自己的,发现一个问题,

20240108-141354.jpg


这是丹的loss曲线,简单可以理解为约低越好。
大佬的原丹曲线是截止到第三个箭头的,第三个箭头之后是我塞了自己的数据继续训练的。
从这个loss曲线看,应该是训练过程中中断了两次,改了参数或是增加了数据,产生的断层。这个倒无所谓,没有影响曲线的走势。

不过发现一个问题就是,总共300w的步长,从很早开始loss就基本没有继续下降了,这是否说明丹其实早就到达瓶颈了,没必要训练这么久?
换句话说就是,假如整个炼丹过程数据集没有改变的话,第一个箭头的模型(100w迭代)跟第三个箭头的模型(300w迭代)比,表现会更差吗?

萌新一枚,求做过实验的大佬解惑。

回复

使用道具 举报

1

主题

8

帖子

162

积分

高级丹童

Rank: 2

积分
162
 楼主| 发表于 2024-1-7 12:51:07 | 显示全部楼层
本帖最后由 sylyt62 于 2024-1-8 14:14 编辑


20240108-141354.jpg

我图片发出来了吗、、我自己咋看不到
image.png
回复 支持 反对

使用道具 举报

9

主题

1931

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
10696

真我风采勋章万事如意节日勋章

发表于 2024-1-7 13:02:35 | 显示全部楼层
你自己炼丹时改参数,看不到LOSS数值直接会变?
每个参数都自带LOSS增量,开启就要迭代炼掉。
你上述所说100W跟300W俩阶段,效果是天差地别。
回复 支持 反对

使用道具 举报

1

主题

8

帖子

162

积分

高级丹童

Rank: 2

积分
162
 楼主| 发表于 2024-1-7 13:12:48 | 显示全部楼层
wtxx8888 发表于 2024-1-7 13:02
你自己炼丹时改参数,看不到LOSS数值直接会变?
每个参数都自带LOSS增量,开启就要迭代炼掉。
你上述 ...

是的,中间的断层就是调整参数后导致的loss突然上升,然后很快就被炼回正常的水平了。

但是从整个训练过程,100w和300w节点的loss水平差不多,如果效果天差地别的话,这个loss是不是就没有什么参考意义了
回复 支持 反对

使用道具 举报

9

主题

1931

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
10696

真我风采勋章万事如意节日勋章

发表于 2024-1-7 13:17:06 | 显示全部楼层
sylyt62 发表于 2024-1-7 13:12
是的,中间的断层就是调整参数后导致的loss突然上升,然后很快就被炼回正常的水平了。

但是从整个训练过 ...

LOSS是决定开关参数时机的参考。
所有参数都需要,在合适的时机开启或关闭。
所以,DFL是不能无脑的,零基础的话学DFL,基本上要自虐很久
回复 支持 反对

使用道具 举报

1

主题

8

帖子

162

积分

高级丹童

Rank: 2

积分
162
 楼主| 发表于 2024-1-7 13:39:23 | 显示全部楼层
wtxx8888 发表于 2024-1-7 13:17
LOSS是决定开关参数时机的参考。
所有参数都需要,在合适的时机开启或关闭。
所以,DFL是不能无脑的,零 ...

从loss曲线可以判断模型是否收敛,一旦曲线趋于水平,就代表模型找到了一个局部最优解,收敛了。我是搞AI的,一般我们最希望看到的情形是第三个箭头之后的这种陡然下降,代表模型突破了局部最优解,找到了下一个更好的局部最优解。

其实DFL缺一个可量化的评价指标,如何评价丹的好坏,只能靠眼睛看。
回复 支持 反对

使用道具 举报

9

主题

1931

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
10696

真我风采勋章万事如意节日勋章

发表于 2024-1-7 14:01:39 | 显示全部楼层
sylyt62 发表于 2024-1-7 13:39
从loss曲线可以判断模型是否收敛,一旦曲线趋于水平,就代表模型找到了一个局部最优解,收敛了。我是搞AI ...

指标。。。想多了吧。软件都停更了
回复 支持 反对

使用道具 举报

13

主题

528

帖子

3790

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3790
发表于 2024-1-7 23:38:30 | 显示全部楼层
看不到图,猜一下哈:

1)观察因素:
loss由于起始值太大(比如7.0),所以300W对比100W时的降幅,显得比例太小(假设降低了 0.02)。
因为难以观察,所以觉得没变,没降低多少。

2)细节变化:
假设100W时,dst眨眼使眼色,撅嘴等小的表情根本没有在src表现出来。
而300W时有了这些小表情,但确实loss(平均值)只降低了0.02。
因为loss其实是个区间,所以只看平均值,难以体现部分细节的loss其实下降了很多。
回复 支持 反对

使用道具 举报

1

主题

8

帖子

162

积分

高级丹童

Rank: 2

积分
162
 楼主| 发表于 2024-1-8 14:11:05 | 显示全部楼层
本帖最后由 sylyt62 于 2024-1-8 14:15 编辑
若苗瞬 发表于 2024-1-7 23:38
看不到图,猜一下哈:

1)观察因素:

嗯嗯这是可能的,局部细节对loss的影响可能很小,但对人眼感官的影响较大。

btw我图片今天发出来了:)
20240107-124517.jpg
回复 支持 反对

使用道具 举报

9

主题

1931

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
10696

真我风采勋章万事如意节日勋章

发表于 2024-1-8 17:22:18 | 显示全部楼层
本帖最后由 wtxx8888 于 2024-1-8 17:30 编辑
sylyt62 发表于 2024-1-8 14:11
嗯嗯这是可能的,局部细节对loss的影响可能很小,但对人眼感官的影响较大。

btw我图片今天发出来了:)

DST量不小
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-5-19 00:26 , Processed in 0.104340 second(s), 11 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表