【用时间换显存】RG版DFL（解压即用）

lispmox · 发表于 2021-9-8 08:19:13

本帖最后由 lispmox 于 2021-9-8 08:22 编辑

比昂发表于 2021-9-8 08:15
一眨眼涨价了

没有吧，你原来看到的是多少？我刚才把附件收费调整成主题收费了，价格应该没变啊。

leeso · 发表于 2021-9-8 08:28:46

lispmox 发表于 2021-9-8 08:19
没有吧，你原来看到的是多少？我刚才把附件收费调整成主题收费了，价格应该没变啊。 ...

建议20-30比较合理，让大部分人能用上。。。。

great2008ok · 发表于 2021-9-8 08:31:54

大神你原来的贴子  torch 训练中  自动求导是怎么搞的？

是不是

1定义后变量
2定义好  df-ud 层
3定仪个  optimizer
4 计算loss
5 loss.backward() 括号里面有东西吗？
6  optim.step()
7 print(loss,acc)
8  done

求指教下

后会无期 · 发表于 2021-9-8 08:34:43

支持技术贴，大佬有空多多分享

hhuangfh · 发表于 2021-9-8 08:53:53

感觉就是先分别计算多个batch，过程中先不反馈损失信息，等多个batch处理完后再通过链式法则进行反馈

lispmox · 发表于 2021-9-8 09:04:08

hhuangfh 发表于 2021-9-8 08:53
感觉就是先分别计算多个batch，过程中先不反馈损失信息，等多个batch处理完后再通过链式法则进行反馈 ...

区别还是有的，你说的应该是梯度累积？梯度累积是把一个大batch拆分成多个小batch分别计算，最后把梯度累加起来一次更新。如果bs=1都会爆显存，梯度累积也没用。

我这里用到的是检查点，模型在训练的时候很大一部分显存被用来存计算图的中间结果，这些中间结果在算梯度时要用到。检查点就是把模型切分成段，只保留每段开头和结尾的结果，中间结果就先释放了。等到需要计算这一部分梯度的时候，再从段头开始重新计算一遍拿到被释放的中间结果。这种方法好处是性能损失比较小，而且能跑一些原来bs=1也跑不动的模型。

whl716694 · 发表于 2021-9-8 09:06:30

不明觉厉

1234qwer111 · 发表于 2021-9-8 09:10:56

路过看看

hhuangfh · 发表于 2021-9-8 09:18:25

lispmox 发表于 2021-9-8 09:04
区别还是有的，你说的应该是梯度累积？梯度累积是把一个大batch拆分成多个小batch分别计算，最后把梯度累 ...

谢谢大佬分享信息

suhgnksg · 发表于 2021-9-8 09:39:46

本帖最后由 suhgnksg 于 2021-9-8 09:41 编辑

让别测试了一下，用云盘那个DFL软件，跑320wf 高参模型，跑不起来，显卡RTX 1660s （6g显存）

		自动登录	找回密码
密码			立即注册（仅限QQ邮箱）

【用时间换显存】RG版DFL（解压即用）

荣誉会员勋章

小有贡献勋章

超级版主勋章

优质版主勋章

万事如意节日勋章

开心娱乐节日勋章

见习版主勋章