deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
楼主: lispmox

【用时间换显存】RG版DFL(解压即用)

  [复制链接]

4

主题

38

帖子

4313

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4313
 楼主| 发表于 2021-9-8 08:19:13 | 显示全部楼层
本帖最后由 lispmox 于 2021-9-8 08:22 编辑

没有吧,你原来看到的是多少?我刚才把附件收费调整成主题收费了,价格应该没变啊。
回复 支持 反对

使用道具 举报

4

主题

247

帖子

2万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
23770

荣誉会员勋章小有贡献勋章灵石富豪勋章

发表于 2021-9-8 08:28:46 | 显示全部楼层
lispmox 发表于 2021-9-8 08:19
没有吧,你原来看到的是多少?我刚才把附件收费调整成主题收费了,价格应该没变啊。 ...

建议20-30比较合理,让大部分人能用上。。。。
回复 支持 反对

使用道具 举报

2

主题

331

帖子

1944

积分

初级丹圣

Rank: 8Rank: 8

积分
1944
发表于 2021-9-8 08:31:54 | 显示全部楼层
大神你原来的贴子  torch 训练中  自动求导是 怎么搞的?

是不是  

1定义后变量
2定义好  df-ud 层
3定仪个  optimizer
4 计算loss
5 loss.backward()   括号里面有东西吗?
6  optim.step()
7 print(loss,acc)
8  done  

求指教下
回复 支持 反对

使用道具 举报

2

主题

458

帖子

9924

积分

超级版主

Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64

积分
9924

超级版主勋章荣誉会员勋章优质版主勋章小有贡献勋章

QQ
发表于 2021-9-8 08:34:43 | 显示全部楼层
支持技术贴,大佬有空多多分享
杀生为护身,斩业非斩人
回复 支持 反对

使用道具 举报

3

主题

165

帖子

949

积分

高级丹师

Rank: 5Rank: 5

积分
949
发表于 2021-9-8 08:53:53 | 显示全部楼层
感觉就是先分别计算多个batch,过程中先不反馈损失信息,等多个batch处理完后再通过链式法则进行反馈
回复 支持 反对

使用道具 举报

4

主题

38

帖子

4313

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4313
 楼主| 发表于 2021-9-8 09:04:08 | 显示全部楼层
hhuangfh 发表于 2021-9-8 08:53
感觉就是先分别计算多个batch,过程中先不反馈损失信息,等多个batch处理完后再通过链式法则进行反馈 ...

区别还是有的,你说的应该是梯度累积?梯度累积是把一个大batch拆分成多个小batch分别计算,最后把梯度累加起来一次更新。如果bs=1都会爆显存,梯度累积也没用。

我这里用到的是检查点,模型在训练的时候很大一部分显存被用来存计算图的中间结果,这些中间结果在算梯度时要用到。检查点就是把模型切分成段,只保留每段开头和结尾的结果,中间结果就先释放了。等到需要计算这一部分梯度的时候,再从段头开始重新计算一遍拿到被释放的中间结果。这种方法好处是性能损失比较小,而且能跑一些原来bs=1也跑不动的模型。
回复 支持 反对

使用道具 举报

25

主题

2107

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
12083
发表于 2021-9-8 09:06:30 | 显示全部楼层
不明觉厉
回复

使用道具 举报

39

主题

1495

帖子

8134

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
8134

万事如意节日勋章

发表于 2021-9-8 09:10:56 | 显示全部楼层
路过看看
回复

使用道具 举报

3

主题

165

帖子

949

积分

高级丹师

Rank: 5Rank: 5

积分
949
发表于 2021-9-8 09:18:25 | 显示全部楼层
lispmox 发表于 2021-9-8 09:04
区别还是有的,你说的应该是梯度累积?梯度累积是把一个大batch拆分成多个小batch分别计算,最后把梯度累 ...

谢谢大佬分享信息
回复 支持 反对

使用道具 举报

11

主题

250

帖子

4828

积分

超级版主

Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64Rank: 64

积分
4828

超级版主勋章见习版主勋章优质版主勋章小有贡献勋章

发表于 2021-9-8 09:39:46 | 显示全部楼层
本帖最后由 suhgnksg 于 2021-9-8 09:41 编辑

让别测试了一下,用云盘那个DFL软件,跑320wf 高参模型,跑不起来,显卡RTX 1660s (6g显存)
( *・ω・)✄╰ひ╯论坛鉴男第一把子,帅哥收集控
回复 支持 1 反对 0

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-5-18 16:06 , Processed in 0.100080 second(s), 13 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表