deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
楼主: qiuyuande

准备买4090显卡!

[复制链接]

16

主题

124

帖子

1195

积分

初级丹圣

Rank: 8Rank: 8

积分
1195
发表于 2022-10-14 15:29:20 | 显示全部楼层
1291667211 发表于 2022-10-14 08:59
BS开大一倍的,迭代速度差不多减少一半,迭代速度和容量无关,主要看算力。 打个比方,相同模型和相同设 ...

所以我说总体效率嘛
大bs应该比小bs有优势
回复 支持 反对

使用道具 举报

8

主题

108

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
11904

万事如意节日勋章

发表于 2022-10-14 16:07:49 | 显示全部楼层
werran 发表于 2022-10-14 15:29
所以我说总体效率嘛
大bs应该比小bs有优势

前期用小bs,可以让模型得到更好的泛化,loss也会下降得更快。后期用大bs,减少梯度振荡,更有利与收敛。bs最小不小于4,最佳值在6~12之间。
回复 支持 反对

使用道具 举报

16

主题

124

帖子

1195

积分

初级丹圣

Rank: 8Rank: 8

积分
1195
发表于 2022-10-14 16:26:11 | 显示全部楼层
本帖最后由 werran 于 2022-10-14 16:30 编辑
1291667211 发表于 2022-10-14 16:07
前期用小bs,可以让模型得到更好的泛化,loss也会下降得更快。后期用大bs,减少梯度振荡,更有利与收敛。 ...

我懂这个 三个回复都没说明白
我的意思是相同参数和显卡 大显存的收敛速度 比如bs多开一倍 实际收敛速度会不会也快一倍 (不看迭代速度,画面实际收敛效果)
回复 支持 反对

使用道具 举报

8

主题

108

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
11904

万事如意节日勋章

发表于 2022-10-14 16:44:20 | 显示全部楼层
本帖最后由 1291667211 于 2022-10-14 18:58 编辑
werran 发表于 2022-10-14 16:26
我懂这个 三个回复都没说明白
我的意思是相同参数和显卡 大显存的收敛速度 比如bs多开一倍 实际收敛速度会 ...

不太确定。根据网络上别人深度学习研究的测试,不同bs最终收敛时的达到的最终loss值大小会有区别,这和LDR学习率衰减也有关系,小bs需要小的LDR, 大BS需要大的LDR,不同bs需要有对应的LDR才能最优化收敛速度和最小loss)

浅析深度学习中Batch Size大小对训练过程的影响 - 知乎 (zhihu.com)

Batch Size的相关问题及如何选择Batch Size的大小 - 知乎 (zhihu.com)
回复 支持 反对

使用道具 举报

16

主题

124

帖子

1195

积分

初级丹圣

Rank: 8Rank: 8

积分
1195
发表于 2022-10-14 16:50:19 | 显示全部楼层
1291667211 发表于 2022-10-14 16:44
根据网络上别人深度学习研究的测试,其实总收敛时间都差不多。  但是小bs最终收敛时的loss值可能是0.4, ...

了解啦多谢
回复 支持 反对

使用道具 举报

6

主题

422

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
15665
发表于 2022-10-14 18:16:54 | 显示全部楼层
1291667211 发表于 2022-10-14 16:44
根据网络上别人深度学习研究的测试,总收敛时间应该都差不多。(最终收敛时的达到的最终loss值大小会有区 ...

请问大佬,如果说同样显卡不同显存的前提下,开大开小BS总收敛效率都差不多的话,是不是说也没必要追求大显存开大BS了,反正都一样
回复 支持 反对

使用道具 举报

8

主题

108

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
11904

万事如意节日勋章

发表于 2022-10-14 18:55:10 | 显示全部楼层
酷妞儿 发表于 2022-10-14 18:16
请问大佬,如果说同样显卡不同显存的前提下,开大开小BS总收敛效率都差不多的话,是不是说也没必要追求大 ...

更正下,总收敛时间比较复杂,和LDR等其他参数也有关系,不清楚DLF内部程序LDR针对不同BS是如果配置的,所以不确定。所以最好根据DLF指南,不用考虑那么多,前期小后期大,后期bs能开到12的足够了。
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-9-22 21:19 , Processed in 0.088077 second(s), 8 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表