deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
12
返回列表 发新帖
楼主: sun188888

关于batch_size 有几个问题想请教大家:

[复制链接]

1

主题

76

帖子

-9万

积分

禁止访问

积分
-99036
发表于 2022-1-19 08:45:19 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

1

主题

150

帖子

1241

积分

初级丹圣

Rank: 8Rank: 8

积分
1241
发表于 2022-1-19 23:11:55 | 显示全部楼层
请问我3090跑256的模型的话BS最大可以开多少
回复 支持 反对

使用道具 举报

4

主题

118

帖子

673

积分

高级丹师

Rank: 5Rank: 5

积分
673
发表于 2022-1-23 14:04:53 | 显示全部楼层
自己试吧,不报错就往大了开
回复 支持 反对

使用道具 举报

20

主题

133

帖子

1669

积分

初级丹圣

Rank: 8Rank: 8

积分
1669
发表于 2022-1-24 10:37:10 | 显示全部楼层
有些东西不是真的越“大”越好,适合自己的才是真的好
回复 支持 反对

使用道具 举报

14

主题

343

帖子

3192

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3192
发表于 2022-4-21 16:02:51 | 显示全部楼层
w422387324 发表于 2022-1-18 23:58
BS这个参数在神经网络学习中很常见,很多人误会了这个的意思,以为越大越好,粗略地说越大越好确实没错,只 ...

那后期刻画细节的时候用小BS更合适对吗?
回复 支持 反对

使用道具 举报

0

主题

86

帖子

804

积分

高级丹师

Rank: 5Rank: 5

积分
804
发表于 2022-8-18 17:17:06 | 显示全部楼层
学习一下 BS 知识
回复 支持 反对

使用道具 举报

4

主题

110

帖子

948

积分

高级丹师

Rank: 5Rank: 5

积分
948
发表于 2024-8-4 20:07:29 | 显示全部楼层
本帖最后由 xylego 于 2024-8-4 20:09 编辑
w422387324 发表于 2022-1-18 23:58
BS这个参数在神经网络学习中很常见,很多人误会了这个的意思,以为越大越好,粗略地说越大越好确实没错,只 ...
bs越大,曲线下降越快,但是震荡幅度越大。bs越小,曲线下降更慢,但是震荡幅度越小。

我感觉你说反了。
BS越大,一次所加入的训练集越多,训练集上的方差就相对越小。整体梯度曲线下降就相对快且稳定,震荡幅度就相对
BS小,每次加入的训练集就更少,方差就相对大,噪声就大。由于噪声大,导致每次的梯度方向上的波动更

不过鉴于大多数人只能开4,8,16,所以讨论价值不大

这点确实是,dfl官方推荐8-16的bs,过小的bs有可能导致收敛缓慢或者难以收敛。但是一般批量大小的讨论都至少是128,256这种级别。
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-11-28 05:37 , Processed in 0.158680 second(s), 32 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表