deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 253|回复: 34

bs到底开多少合适?

[复制链接]

15

主题

60

帖子

382

积分

初级丹师

Rank: 3Rank: 3

积分
382
 楼主| 发表于 2024-10-14 22:18:42 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
我的bs能开40,有的说开的大只是局部更好和只训练部分,有的说能开多大就多大,不知道哪种才是最好
回复

使用道具 举报

18

主题

226

帖子

3187

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3187
发表于 2024-10-14 22:28:03 | 显示全部楼层
本帖最后由 dfl9999 于 2024-10-14 22:33 编辑

前期开4-8,LOSS降到0.2或者降的很慢很慢的时候就是大BS发力的时候了,这个阶段甚至会持续很久很久。。你无想象一个模型完美收敛需要多少算力,大BS就是大力出奇迹,但是你会得到一个别人无法企及的完美模型。
说大BS会漏图的是谣言,前期小BS确实好一些,后期能开多大开多大。
回复 支持 反对

使用道具 举报

14

主题

2843

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
15320

真我风采勋章万事如意节日勋章

发表于 2024-10-14 23:03:39 | 显示全部楼层
本帖最后由 wtxx8888 于 2024-10-14 23:35 编辑

愿意信谁的,就照做呗。
每个人的需求,跟标准都不同。
想要统一标准,不是纯想多了?

不过,就源代码的层面来讲,大BS会略快,因为每次生成新的样本,需时0.0050秒。
好比BS 8生成一次,等于BS 4生成2次,快一次样本的生成时间0.0050秒.
而BS 16生成一次,等于BS 4生成4次,快三次样本生的成时间0.0150秒。这是毋庸置疑的。

至于集中度的差别,也是在这里。
样本生成次数越多,随机覆盖面越广阔。
样本生成次数越少,随机覆盖面越集中。
略微想一下就知道,一个点抓一次(大BS),跟多个不同的点,各抓一次(小BS)。
虽然总数是一样的,但覆盖度的分布,铁定不一样。

选时间(大BS),还是选分布(小BS),这要靠自己来决定。
回复 支持 反对

使用道具 举报

3

主题

116

帖子

705

积分

高级丹师

Rank: 5Rank: 5

积分
705
发表于 7 天前 | 显示全部楼层
什么显卡bs能开40
回复 支持 反对

使用道具 举报

3

主题

116

帖子

705

积分

高级丹师

Rank: 5Rank: 5

积分
705
发表于 7 天前 | 显示全部楼层
wtxx8888 发表于 2024-10-14 23:03
愿意信谁的,就照做呗。
每个人的需求,跟标准都不同。
想要统一标准,不是纯想多了?

我是25分钟记录一次
bs=8时,每相隔记录条目相差2-3k多轮迭代:
image.png


bs=4时,相差4-5k多轮迭代:
image.png


bs越小,迭代越快,这是咋回事
回复 支持 反对

使用道具 举报

13

主题

1034

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
12366
发表于 7 天前 | 显示全部楼层
星期六中午 发表于 2024-10-15 14:23
我是25分钟记录一次
bs=8时,每相隔记录条目相差2-3k多轮迭代:

这不是正常吗,bs=8一次训练8张图片,bs=4一次训练4张图片。
回复 支持 反对

使用道具 举报

3

主题

116

帖子

705

积分

高级丹师

Rank: 5Rank: 5

积分
705
发表于 7 天前 | 显示全部楼层
seancai110 发表于 2024-10-15 15:29
这不是正常吗,bs=8一次训练8张图片,bs=4一次训练4张图片。

图片总数一样的,bs越大,batch越小, 是不是?
一次训练8张图,但是一个epoch训练的batch就少了,用时该怎么计算呢
回复 支持 反对

使用道具 举报

14

主题

2843

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
15320

真我风采勋章万事如意节日勋章

发表于 7 天前 | 显示全部楼层
本帖最后由 wtxx8888 于 2024-10-15 17:16 编辑
星期六中午 发表于 2024-10-15 16:11
图片总数一样的,bs越大,batch越小, 是不是?
一次训练8张图,但是一个epoch训练的batch就少了,用时该 ...

想弄明白,就去学编程,看代码。靠猜蒙吗?
而且我已经给你解释了,还自以为是?最简单的加减法,都不会算?
回复 支持 反对

使用道具 举报

3

主题

116

帖子

705

积分

高级丹师

Rank: 5Rank: 5

积分
705
发表于 7 天前 | 显示全部楼层
wtxx8888 发表于 2024-10-15 17:14
想弄明白,就去学编程,看代码。靠猜蒙吗?
而且我已经给你解释了,还自以为是?你比代码写的白底黑字, ...

我是搞编程的,AI这块的。
哪里在猜蒙?bs * batch = 图片总数,这个是确定的,我只是跟他交流,就问个是不是,有来有往嘛。
解释啥了,你说大bs会略快
但是我的截图看到的是大bs在相同时间(25min)迭代数比小bs少,说明:大bs会略慢
回复 支持 反对

使用道具 举报

14

主题

2843

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
15320

真我风采勋章万事如意节日勋章

发表于 7 天前 | 显示全部楼层
本帖最后由 wtxx8888 于 2024-10-15 17:36 编辑
星期六中午 发表于 2024-10-15 17:21
我是搞编程的,AI这块的。
哪里在猜蒙?bs * batch = 图片总数,这个是确定的,我只是跟他交流,就问个是 ...

懂编程?那看DFL代码不知道,DFL没有batch的?
DFL就是这BS一个量,决定一次的数量。一迭代,抓一次BS数的图片!

BS的量,去请求生成样本,一次耗时0.0050。
BS 16申请一次0.0050,等于BS 4申请4次0.0200耗时。

就这简单的,次数耗时差,都转不过来?你编程,学哪去喽?

BS 16一迭代的量,等于BS 4迭代4次。
BS 4的4次迭代总耗时,会比BS 16慢0.0150(多三次申请样本的耗时)。
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-10-22 12:39 , Processed in 0.100596 second(s), 11 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表