16
124
1195
初级丹圣
1291667211 发表于 2022-10-14 08:59 BS开大一倍的,迭代速度差不多减少一半,迭代速度和容量无关,主要看算力。 打个比方,相同模型和相同设 ...
使用道具 举报
8
107
1万
高级丹圣
werran 发表于 2022-10-14 15:29 所以我说总体效率嘛 大bs应该比小bs有优势
1291667211 发表于 2022-10-14 16:07 前期用小bs,可以让模型得到更好的泛化,loss也会下降得更快。后期用大bs,减少梯度振荡,更有利与收敛。 ...
werran 发表于 2022-10-14 16:26 我懂这个 三个回复都没说明白 我的意思是相同参数和显卡 大显存的收敛速度 比如bs多开一倍 实际收敛速度会 ...
1291667211 发表于 2022-10-14 16:44 根据网络上别人深度学习研究的测试,其实总收敛时间都差不多。 但是小bs最终收敛时的loss值可能是0.4, ...
6
416
1291667211 发表于 2022-10-14 16:44 根据网络上别人深度学习研究的测试,总收敛时间应该都差不多。(最终收敛时的达到的最终loss值大小会有区 ...
酷妞儿 发表于 2022-10-14 18:16 请问大佬,如果说同样显卡不同显存的前提下,开大开小BS总收敛效率都差不多的话,是不是说也没必要追求大 ...
年年顺景胜人意,日日兴隆通四海
|Archiver|手机版|deepfacelab中文网 |网站地图
GMT+8, 2025-7-16 08:49 , Processed in 0.101414 second(s), 29 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.