deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 1189|回复: 9

所以,batch size影响的不仅仅是速度?

[复制链接]

20

主题

172

帖子

2763

积分

初级丹圣

Rank: 8Rank: 8

积分
2763
 楼主| 发表于 2023-6-19 23:17:13 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
下面是chatgpt的解说


在神经网络的训练过程中,批量大小(batch size)是指每次迭代训练中所使用的样本数量。批量大小对训练过程有一定影响。

泛化能力:较大的批量大小有时可能会导致模型的泛化能力下降。较大的批量大小意味着模型更新的频率降低,可能导致模型在训练过程中过度拟合训练数据,而无法很好地泛化到未见过的数据。较小的批量大小可能会提供更多的随机性,有助于模型更好地泛化到新数据。

参数更新的稳定性:较大的批量大小可以提供更稳定的梯度估计。由于批量中的样本数增加,梯度计算的方差减小,从而使参数更新更加稳定。这可能有助于防止模型陷入局部极小值或鞍点。

训练速度:较大的批量大小可以加快训练速度。当使用较大的批量大小时,计算图的并行度增加,可以更充分地利用硬件资源(如GPU)进行并行计算,从而加快训练速度。这是因为在每次迭代中,模型只需计算一次梯度并更新一次参数,而不需要对每个样本进行单独的参数更新。

内存需求:较大的批量大小需要更多的内存来存储样本及其对应的梯度。如果内存资源有限,选择较小的批量大小可能更为适合。


总的来说,选择适当的批量大小取决于具体问题和可用资源。在实践中,可以尝试不同的批量大小,并根据训练速度、内存需求和模型的泛化能力等因素进行权衡和调整。


回复

使用道具 举报

4

主题

168

帖子

1025

积分

初级丹圣

Rank: 8Rank: 8

积分
1025
发表于 2023-6-20 08:40:30 | 显示全部楼层
那到底具体怎么设置呢?
回复 支持 反对

使用道具 举报

20

主题

172

帖子

2763

积分

初级丹圣

Rank: 8Rank: 8

积分
2763
 楼主| 发表于 2023-6-20 09:29:48 | 显示全部楼层
djblue999 发表于 2023-6-20 08:40
那到底具体怎么设置呢?

我也也不清楚。chatgpt说:“在实践中,可以尝试不同的批量大小,并根据训练速度、内存需求和模型的泛化能力等因素进行权衡和调整。”
回复 支持 反对

使用道具 举报

5

主题

86

帖子

1010

积分

初级丹圣

Rank: 8Rank: 8

积分
1010
发表于 2023-6-20 09:50:34 | 显示全部楼层
dfllearner 发表于 2023-6-20 09:29
我也也不清楚。chatgpt说:“在实践中,可以尝试不同的批量大小,并根据训练速度、内存需求和模型的泛化 ...

终于chatgpt将自己变成了专家
回复 支持 反对

使用道具 举报

13

主题

993

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
11924
发表于 2023-6-20 14:26:33 | 显示全部楼层
以前说的是,先bs=4跑人物出来,然后再调大bs跑细节。

但是现在大家有底丹,已经不纠结跑出人物了,都在纠结细节问题,所以bs当然是越大越好,跑满显存最好啦。
回复 支持 反对

使用道具 举报

11

主题

685

帖子

4101

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4101
发表于 2023-6-20 17:58:16 | 显示全部楼层
前期rw4,后期开到最大。
回复 支持 反对

使用道具 举报

45

主题

503

帖子

3121

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3121
发表于 2023-6-21 05:57:38 | 显示全部楼层
本帖最后由 ccctttccct 于 2023-6-21 05:59 编辑
seancai110 发表于 2023-6-20 14:26
以前说的是,先bs=4跑人物出来,然后再调大bs跑细节。

但是现在大家有底丹,已经不纠结跑出人物了,都在纠 ...

底丹作用不大,闭眼,开眼,张嘴,闭嘴,眼珠方向。还有转身时,边上的半只眼睛,这些底丹能力有限
回复 支持 反对

使用道具 举报

15

主题

1936

帖子

2万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
26121

万事如意节日勋章

发表于 2023-6-21 06:57:01 | 显示全部楼层
本帖最后由 come3002 于 2023-6-21 07:00 编辑
ccctttccct 发表于 2023-6-21 05:57
底丹作用不大,闭眼,开眼,张嘴,闭嘴,眼珠方向。还有转身时,边上的半只眼睛,这些底丹能力有限 ...

感谢分享宝贵经验。
最初切src和dst是稀里糊涂默认的wf512 质量90%逐帧保留,
紧接着受论坛src板块影响,看别人删重跟着过度删重。
后来才发现,src删重能加快训练速度,但某些场景 逐帧保留更多细节,增加“下牙齿”“仰角”图片比例。但不好找平衡点。
现在看,应该训练初期用删重的素材,但是要建立 “闭眼 开眼 张嘴 眼珠”等src包 。方便后期做这几类的强化训练
回复 支持 反对

使用道具 举报

45

主题

503

帖子

3121

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3121
发表于 2023-6-21 12:42:54 | 显示全部楼层
come3002 发表于 2023-6-21 06:57
感谢分享宝贵经验。
最初切src和dst是稀里糊涂默认的wf512 质量90%逐帧保留,
紧接着受论坛src板块影响, ...

其实这样最好,先无差别的保留一批,不删重的图片,再对他进行添加,缺角度的补角度,缺牙齿补牙齿。这样才最好。你先要留一批,清晰的没用过度删重的图片,作为底部图片的
回复 支持 反对

使用道具 举报

6

主题

56

帖子

5023

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
5023
发表于 2023-6-28 22:45:43 | 显示全部楼层
预训丹可以小BS开始炮哥20W左右 开大BS  可以一直跑到预训结束,转正训这已经是个成熟的模型了,直接大BS怼就行
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-9-23 16:26 , Processed in 0.085039 second(s), 9 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表