训练步数真的越多越好吗

sylyt62 · 发表于 2024-1-7 12:42:40

星级打分

1
2
3
4
5

平均分:NAN 参与人数:0 我的评分:未评

本帖最后由 sylyt62 于 2024-1-8 14:15 编辑

刚来论坛不久，发现很多丹的迭代步数都到了几百万步，我充值了滚巴石大佬的迪丽热万能丹，想在此基础上炼自己的，发现一个问题，

这是丹的loss曲线，简单可以理解为约低越好。
大佬的原丹曲线是截止到第三个箭头的，第三个箭头之后是我塞了自己的数据继续训练的。
从这个loss曲线看，应该是训练过程中中断了两次，改了参数或是增加了数据，产生的断层。这个倒无所谓，没有影响曲线的走势。

不过发现一个问题就是，总共300w的步长，从很早开始loss就基本没有继续下降了，这是否说明丹其实早就到达瓶颈了，没必要训练这么久？
换句话说就是，假如整个炼丹过程数据集没有改变的话，第一个箭头的模型（100w迭代）跟第三个箭头的模型（300w迭代）比，表现会更差吗？

萌新一枚，求做过实验的大佬解惑。

sylyt62 · 发表于 2024-1-7 12:51:07

本帖最后由 sylyt62 于 2024-1-8 14:14 编辑

我图片发出来了吗、、我自己咋看不到

wtxx8888 · 发表于 2024-1-7 13:02:35

你自己炼丹时改参数，看不到LOSS数值直接会变？

每个参数都自带LOSS增量，开启就要迭代炼掉。
你上述所说100W跟300W俩阶段，效果是天差地别。

sylyt62 · 发表于 2024-1-7 13:12:48

wtxx8888 发表于 2024-1-7 13:02
你自己炼丹时改参数，看不到LOSS数值直接会变？
每个参数都自带LOSS增量，开启就要迭代炼掉。
你上述 ...

是的，中间的断层就是调整参数后导致的loss突然上升，然后很快就被炼回正常的水平了。

但是从整个训练过程，100w和300w节点的loss水平差不多，如果效果天差地别的话，这个loss是不是就没有什么参考意义了

wtxx8888 · 发表于 2024-1-7 13:17:06

sylyt62 发表于 2024-1-7 13:12
是的，中间的断层就是调整参数后导致的loss突然上升，然后很快就被炼回正常的水平了。

但是从整个训练过 ...

LOSS是决定开关参数时机的参考。
所有参数都需要，在合适的时机开启或关闭。
所以，DFL是不能无脑的，零基础的话学DFL，基本上要自虐很久

sylyt62 · 发表于 2024-1-7 13:39:23

wtxx8888 发表于 2024-1-7 13:17
LOSS是决定开关参数时机的参考。
所有参数都需要，在合适的时机开启或关闭。
所以，DFL是不能无脑的，零 ...

从loss曲线可以判断模型是否收敛，一旦曲线趋于水平，就代表模型找到了一个局部最优解，收敛了。我是搞AI的，一般我们最希望看到的情形是第三个箭头之后的这种陡然下降，代表模型突破了局部最优解，找到了下一个更好的局部最优解。

其实DFL缺一个可量化的评价指标，如何评价丹的好坏，只能靠眼睛看。

wtxx8888 · 发表于 2024-1-7 14:01:39

sylyt62 发表于 2024-1-7 13:39
从loss曲线可以判断模型是否收敛，一旦曲线趋于水平，就代表模型找到了一个局部最优解，收敛了。我是搞AI ...

指标。。。想多了吧。软件都停更了

若苗瞬 · 发表于 2024-1-7 23:38:30

看不到图，猜一下哈：

1）观察因素：
loss由于起始值太大（比如7.0），所以300W对比100W时的降幅，显得比例太小（假设降低了 0.02）。
因为难以观察，所以觉得没变，没降低多少。

2）细节变化：
假设100W时，dst眨眼使眼色，撅嘴等小的表情根本没有在src表现出来。
而300W时有了这些小表情，但确实loss（平均值）只降低了0.02。
因为loss其实是个区间，所以只看平均值，难以体现部分细节的loss其实下降了很多。

sylyt62 · 发表于 2024-1-8 14:11:05

本帖最后由 sylyt62 于 2024-1-8 14:15 编辑

若苗瞬发表于 2024-1-7 23:38
看不到图，猜一下哈：

1）观察因素：

嗯嗯这是可能的，局部细节对loss的影响可能很小，但对人眼感官的影响较大。

btw我图片今天发出来了：）

wtxx8888 · 发表于 2024-1-8 17:22:18

本帖最后由 wtxx8888 于 2024-1-8 17:30 编辑

sylyt62 发表于 2024-1-8 14:11
嗯嗯这是可能的，局部细节对loss的影响可能很小，但对人眼感官的影响较大。

btw我图片今天发出来了：）

DST量不小

		自动登录	找回密码
密码			立即注册（仅限QQ邮箱）

训练步数真的越多越好吗

真我风采勋章

万事如意节日勋章