请教，练万能丹第一步BS开4，一定要这样吗？

wtxx8888 · 发表于 2024-7-13 22:34:39

本帖最后由 wtxx8888 于 2024-7-13 22:38 编辑

wuzhicom107 发表于 2024-7-13 21:56
请问，看到的模糊的图，是不是就是没有训练到的？那么BS值开多大最有性价比呢？ ...

。。。没有无脑，只有视情况而定。

波浪式，前期低BS，中期高BS，后期低BS.
都没固定的，论什么性价比？
单独一直大BS，或一直小BS，都不是最优。

一直高的，修补其他糊图，很麻烦。
一直低的，时间成本巨大。

wuzhicom107 · 发表于 2024-7-13 22:46:23

wtxx8888 发表于 2024-7-13 22:34
。。。没有无脑，只有视情况而定。

波浪式，前期低BS，中期高BS，后期低BS.

哦哦，谢谢解答。刚刚百度了一下，看到一篇专门讲BS值对神经网络训练的影响。
BS值的大小和你讲解的差不多，原文是：
batch size越大：
训练损失减少的越慢。

最小验证损失越高。

每个时期训练所需的时间越少。

收敛到最小验证损失所需的 epoch 越多
论文中还提到，这个BS值还和学习率关系很大，
所以是否还要配合[n] Use learning rate dropout ( n/y/cpu ?:help ) 使用？

wtxx8888 · 发表于 2024-7-13 22:50:42

本帖最后由 wtxx8888 于 2024-7-13 22:53 编辑

wuzhicom107 发表于 2024-7-13 22:46
哦哦，谢谢解答。刚刚百度了一下，看到一篇专门讲BS值对神经网络训练的影响。
BS值的大小和你讲解的差不 ...

额，DFL的LRD（learning rate dropout）正确翻译应该是抛弃式学习。
意为用空数据替代图像，从而快速略过不必要的学习，这项跟学习率没一点关系

你可以理解为一条训练的捷径，它不控制学习率。
弊端为与正常学习不兼容，如LRD转正常（关闭LRD），那么开着LRD时学的，全部作废！

wuzhicom107 · 发表于 2024-7-13 22:56:18

wtxx8888 发表于 2024-7-13 22:50
额，DFL的LRD（learning rate dropout）正确翻译应该是抛弃式学习。
意为用空数据替代图像，从而快速略过 ...

哦，明白了，谢谢

wtxx8888 · 发表于 2024-7-13 23:01:34

本帖最后由 wtxx8888 于 2024-7-13 23:05 编辑

wuzhicom107 发表于 2024-7-13 22:46
哦哦，谢谢解答。刚刚百度了一下，看到一篇专门讲BS值对神经网络训练的影响。
BS值的大小和你讲解的差不 ...

原版没给学习率的控制，你就前期小BS（4）,跑个5到10万迭代。
然后极限BS（显卡不炸显存）一直跑到目标LOSS（比如LOSS 0.3以下）。
然后逐步减低BS（4或2递减，减BS时LOSS会变高一些），每次都回到目标LOSS，直到减回到BS 4，就差不多了。

wuzhicom107 · 发表于 2024-7-13 23:05:15

wtxx8888 发表于 2024-7-13 23:01
原版没给学习率的控制，你就前期小BS（4）,跑个5到10万迭代。
然后极限BS（显卡不炸显存）一直跑到目标LOS ...

好

wuzhicom107 · 发表于 2024-7-14 15:19:55

wtxx8888 发表于 2024-7-13 23:01
原版没给学习率的控制，你就前期小BS（4）,跑个5到10万迭代。
然后极限BS（显卡不炸显存）一直跑到目标LOS ...

你好，请问一个问题
假如我的DST练了一段时间后换了新的DST继续练
过一阵又把之前的DST拿回来炼，MODEL会记忆之前那个DST的特征点吗？
是在上次记忆的基础上继续练，还是之前练的所有特征点都丢失了，需要重新炼？

wtxx8888 · 发表于 2024-7-14 15:59:44

本帖最后由 wtxx8888 于 2024-7-14 16:24 编辑

wuzhicom107 发表于 2024-7-14 15:19
你好，请问一个问题
假如我的DST练了一段时间后换了新的DST继续练
过一阵又把之前的DST拿回来炼，MODEL会 ...

会比第一次的速度快，但不等于直接回到第一次的状态。
意思是需要重新练一阵，才能恢复到之前的状态。
所以，没事别换素材，换了后再想变回来，需要浪费一段，不短的时间！

模型文件的大小固定，脚趾头想，也知道记忆量，是有限度的。。。

当前的百分百，前一次的大约估计是7成，再前一次的大概5成，离得越远，能恢复的越少（恢复不了的部分，跟重练没区别）。。。

你应该看到过别人说，再好的丹，也只会越用越差？
就是这个原理，所以一般都要留个，下载时的文件，作为每次的开局。

wuzhicom107 · 发表于 2024-7-14 16:53:49

wtxx8888 发表于 2024-7-14 15:59
会比第一次的速度快，但不等于直接回到第一次的状态。
意思是需要重新练一阵，才能恢复到之前的状态。
所 ...

明白了，那假如自己从头练的话，也需要留一个练好的底丹
免得练好了的丹越来越差，最后废了
还好问一下，不然白练了

wtxx8888 · 发表于 2024-7-14 17:51:34

本帖最后由 wtxx8888 于 2024-7-14 18:41 编辑

wuzhicom107 发表于 2024-7-14 16:53
明白了，那假如自己从头练的话，也需要留一个练好的底丹
免得练好了的丹越来越差，最后废了
还好问一下， ...

嗯是的，练好了就留一份备份。
以后改练其他的，就以这个为底开始。

还有一种方式，即增量无限型。
意思是你练好的底丹，由于有训练的素材，那么可以增量继续，注意增量，不得超过现有量一半。
例如，这次炼丹成品有100张（练过的素材要留），以后又搜集了（或想增加人物），那么前次的100，可新加入50张以内（49），然后就变成149练。
再次可加入74（149除以2，等于74.5），每次增量，分批类推，这样做可不断增强底丹。

上述增量法。只要有最初的原始素材就行，然后按半数不断增加，练（用）的越久，越无敌。

这个方法，是用来练预训练的。
专丹的话，只能增量DST。

		自动登录	找回密码
密码			立即注册（仅限QQ邮箱）

请教，练万能丹第一步BS开4，一定要这样吗？

真我风采勋章

万事如意节日勋章