deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 1320|回复: 9

请教关于学习率的问题

[复制链接]

6

主题

37

帖子

273

积分

初级丹师

Rank: 3Rank: 3

积分
273
 楼主| 发表于 2023-9-2 18:14:19 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
本帖最后由 zhangoengdai 于 2023-9-2 18:15 编辑

首先想问下这个学习率究竟是个什么东西?起到什么作用,我之前从来没开过这个,似乎效果也没很差

其次,我3060,12g显卡开了这个东西之后BS只开到4也报错是什么原因?是显存小了吗?

OOM when allocating tensor with shape[6,144,162,162] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc
回复

使用道具 举报

13

主题

999

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
11974
发表于 2023-9-2 19:25:10 | 显示全部楼层
本帖最后由 seancai110 于 2023-9-2 19:27 编辑

开学习率的时候可以设置放到cpu。

这玩意就是随着训练次数上升,逐渐减小每次梯度下降的幅度。ice版就已经取消了这个,说是在现在200➕分辨率的模型下没啥用。

我个人也觉得用处不是很大。现在两三百的分辨率,训练个100w次根本没达到要开始慢火收敛的程度。怕模型崩溃开梯度裁剪行了。

评分

参与人数 1贡献 +1 收起 理由
WaveBedo + 1 十分给力!

查看全部评分

回复 支持 反对

使用道具 举报

6

主题

37

帖子

273

积分

初级丹师

Rank: 3Rank: 3

积分
273
 楼主| 发表于 2023-9-2 21:15:33 | 显示全部楼层
seancai110 发表于 2023-9-2 19:25
开学习率的时候可以设置放到cpu。

这玩意就是随着训练次数上升,逐渐减小每次梯度下降的幅度。ice版就已经 ...

好的感谢
回复 支持 反对

使用道具 举报

13

主题

528

帖子

3796

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3796
发表于 2023-9-2 21:50:01 | 显示全部楼层
本帖最后由 若苗瞬 于 2023-9-2 21:52 编辑

不看回复,我硬是没看懂在说啥。。。



学习率:是一个值,在原版中没有调节的地方,在ICE版中默认是: 5e-05
小了学得慢大了又容易扯蛋。

学习率丢弃(lr_dropout):是一个选项,默认情况下处于禁用。原版写道当面部经过足够的训练时,您可以启用此功能 以更少的迭代次数获得额外清晰度的选项。
是通过丢弃学习率的方式(一个简单的梯度下降与坐标下降相关的训练技术),随机设置一些参数空间学习率为零,可加速训练(收敛),同时防止过度拟合。参考论文
在ICE版本中改为瘦化神经网络,具体原因见原帖。

评分

参与人数 2贡献 +2 收起 理由
jinyuan37 + 1
WaveBedo + 1 十分给力!

查看全部评分

回复 支持 反对

使用道具 举报

13

主题

999

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
11974
发表于 2023-9-2 23:56:09 | 显示全部楼层
若苗瞬 发表于 2023-9-2 21:50
不看回复,我硬是没看懂在说啥。。。

看了论文才知道,原来真有lr dropout这个东西 我原来一直没想明白,这玩意到底是学习率下降,还是单纯的dropout
回复 支持 反对

使用道具 举报

13

主题

528

帖子

3796

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3796
发表于 2023-9-3 18:27:24 | 显示全部楼层
seancai110 发表于 2023-9-2 23:56
看了论文才知道,原来真有lr dropout这个东西 我原来一直没想明白,这玩意到底是学习率下降,还是单纯 ...

机器翻译  学习率辍学

自适应算法倾向于寻找损失下降的路径,进入了马鞍曲线。
通过学习率丢弃可以更快的摆脱鞍点。
image.png
回复 支持 反对

使用道具 举报

38

主题

737

帖子

5192

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
5192

万事如意节日勋章开心娱乐节日勋章

发表于 2024-1-14 20:54:44 | 显示全部楼层
若苗瞬 发表于 2023-9-2 21:50
不看回复,我硬是没看懂在说啥。。。

高手,你好啊

我打算在关闭扭曲之后,跑一段时间,然后开学习率下降
我是不是应该在表情、眼嘴都跑正确之后
再开学习率下降,以锁定表情、眼嘴不再变形?

因为我发觉整体、眼嘴、侧脸,似乎是会相互拉扯的,
整体跑正确之后,再开眼嘴或者侧脸,表情似乎又变得不准了,
所以,我想在表情、眼嘴跑正确之后,是不是可以把它锁定下来,
后面只要负责跑清晰就好了

开学习率下降可以锁定表情、眼嘴不再变形吗?




回复 支持 反对

使用道具 举报

13

主题

75

帖子

657

积分

高级丹师

Rank: 5Rank: 5

积分
657
发表于 2024-3-15 00:54:34 | 显示全部楼层
seancai110 发表于 2023-9-2 19:25
开学习率的时候可以设置放到cpu。

这玩意就是随着训练次数上升,逐渐减小每次梯度下降的幅度。ice版就已经 ...

开学习率,是不是BS也要降低?我开学习率,都是32的BS,学习数值调的是1e-05!我收敛我512的丹,其实也还行,就总感觉清晰度还差那么一点点,练很久都效果不大!  学习
回复 支持 反对

使用道具 举报

13

主题

999

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
11974
发表于 2024-3-15 12:50:32 | 显示全部楼层
menglue 发表于 2024-3-15 00:54
开学习率,是不是BS也要降低?我开学习率,都是32的BS,学习数值调的是1e-05!我收敛我512的丹,其实也还 ...

和bs没关系。
回复 支持 反对

使用道具 举报

4

主题

68

帖子

491

积分

初级丹师

Rank: 3Rank: 3

积分
491
发表于 2024-5-12 05:28:06 | 显示全部楼层
menglue 发表于 2024-3-15 00:54
开学习率,是不是BS也要降低?我开学习率,都是32的BS,学习数值调的是1e-05!我收敛我512的丹,其实也还 ...

总结出来是什么经验了吗
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-9-27 22:02 , Processed in 0.111882 second(s), 11 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表