准备买4090显卡！

werran · 发表于 2022-10-14 15:29:20

1291667211 发表于 2022-10-14 08:59
BS开大一倍的，迭代速度差不多减少一半，迭代速度和容量无关，主要看算力。打个比方，相同模型和相同设 ...

所以我说总体效率嘛
大bs应该比小bs有优势

1291667211 · 发表于 2022-10-14 16:07:49

werran 发表于 2022-10-14 15:29
所以我说总体效率嘛
大bs应该比小bs有优势

前期用小bs，可以让模型得到更好的泛化，loss也会下降得更快。后期用大bs，减少梯度振荡，更有利与收敛。bs最小不小于4，最佳值在6~12之间。

werran · 发表于 2022-10-14 16:26:11

本帖最后由 werran 于 2022-10-14 16:30 编辑

1291667211 发表于 2022-10-14 16:07
前期用小bs，可以让模型得到更好的泛化，loss也会下降得更快。后期用大bs，减少梯度振荡，更有利与收敛。 ...

我懂这个三个回复都没说明白
我的意思是相同参数和显卡大显存的收敛速度比如bs多开一倍实际收敛速度会不会也快一倍（不看迭代速度，画面实际收敛效果）

1291667211 · 发表于 2022-10-14 16:44:20

本帖最后由 1291667211 于 2022-10-14 18:58 编辑

werran 发表于 2022-10-14 16:26
我懂这个三个回复都没说明白
我的意思是相同参数和显卡大显存的收敛速度比如bs多开一倍实际收敛速度会 ...

不太确定。根据网络上别人深度学习研究的测试，不同bs最终收敛时的达到的最终loss值大小会有区别，这和LDR学习率衰减也有关系，小bs需要小的LDR, 大BS需要大的LDR，不同bs需要有对应的LDR才能最优化收敛速度和最小loss）

浅析深度学习中Batch Size大小对训练过程的影响 - 知乎 (zhihu.com)

Batch Size的相关问题及如何选择Batch Size的大小 - 知乎 (zhihu.com)

werran · 发表于 2022-10-14 16:50:19

1291667211 发表于 2022-10-14 16:44
根据网络上别人深度学习研究的测试，其实总收敛时间都差不多。但是小bs最终收敛时的loss值可能是0.4， ...

了解啦多谢

酷妞儿 · 发表于 2022-10-14 18:16:54

1291667211 发表于 2022-10-14 16:44
根据网络上别人深度学习研究的测试，总收敛时间应该都差不多。（最终收敛时的达到的最终loss值大小会有区 ...

请问大佬，如果说同样显卡不同显存的前提下，开大开小BS总收敛效率都差不多的话，是不是说也没必要追求大显存开大BS了，反正都一样

1291667211 · 发表于 2022-10-14 18:55:10

酷妞儿发表于 2022-10-14 18:16
请问大佬，如果说同样显卡不同显存的前提下，开大开小BS总收敛效率都差不多的话，是不是说也没必要追求大 ...

更正下，总收敛时间比较复杂，和LDR等其他参数也有关系，不清楚DLF内部程序LDR针对不同BS是如果配置的，所以不确定。所以最好根据DLF指南，不用考虑那么多，前期小后期大，后期bs能开到12的足够了。

		自动登录	找回密码
密码			立即注册（仅限QQ邮箱）