deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
楼主: dfl9999

DeepSeek将彻底颠覆传统的深度思考和问题解决方式

[复制链接]

38

主题

541

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
17235
 楼主| 发表于 2025-1-27 13:59:33 | 显示全部楼层
wtxx8888 发表于 2025-1-27 13:54
NAN问题,你应该看显卡的资料,NAN代表显卡收到的数据,是空白。
一般都是驱动方面(也可能是CUDA跟CUDNN ...

原版dfl不会炸nan,但是原版没有fs-uag,据我观察分析,大bs内存压力非常大,有可能数据会出错,导致cpu传送错误的参数给显卡,特别是内存超8000的时候出错概率会增加,从而导致nan,但是我不是这方面的专家,也没时间去处理,我特么只想安安静静练个丹
回复 支持 反对

使用道具 举报

14

主题

3401

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18323

真我风采勋章万事如意节日勋章

发表于 2025-1-27 14:02:03 | 显示全部楼层
dfl9999 发表于 2025-1-27 13:59
原版dfl不会炸nan,但是原版没有fs-uag,据我观察分析,大bs内存压力非常大,有可能数据会出错,导致cpu ...

我正在最后一遍测试运行,然后打包,上传。
还有8小时,等用新版吧。
回复 支持 反对

使用道具 举报

38

主题

541

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
17235
 楼主| 发表于 2025-1-27 14:03:37 | 显示全部楼层
本帖最后由 dfl9999 于 2025-1-27 14:06 编辑
wtxx8888 发表于 2025-1-27 13:56
嗯,就是重复训练的问题,老重复一个样本,就会炸。所以我改了算法。
过了0点(变28号),就能下到了。 ...

那就只能暂时放弃重训了,虽然这个功能确实有用,平均loss降到0.1,特么还有些图能卡在0.7,不用高loss重训把这些图揪出来重新训练那真没办法
回复 支持 反对

使用道具 举报

2

主题

51

帖子

523

积分

高级丹师

Rank: 5Rank: 5

积分
523

万事如意节日勋章

发表于 2025-1-27 14:28:12 | 显示全部楼层
wtxx8888 发表于 2025-1-27 13:56
嗯,就是重复训练的问题,老重复一个样本,就会炸。所以我改了算法。
过了0点(变28号),就能下到了。 ...

6666666666666666666666666666666,佬,bs开32,甚至几百。。。是怎么能开到那么高的。魔改版?原版好像开不了多高
回复 支持 反对

使用道具 举报

38

主题

541

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
17235
 楼主| 发表于 2025-1-27 14:30:26 | 显示全部楼层
本帖最后由 dfl9999 于 2025-1-27 14:40 编辑
dfl9999 发表于 2025-1-27 13:59
原版dfl不会炸nan,但是原版没有fs-uag,据我观察分析,大bs内存压力非常大,有可能数据会出错,导致cpu ...

刚查了一下资料,分析下来是内存占用超过2/3以上会不稳定,内存溢出导致数据污染,有概率会导致cpu解码出错,从而传递错误或者损坏的数据给显卡,从而导致loss NaN中断,大bs会导致更高的内存占用,不知道是不是这个原因,开梯度裁剪可以避免出错,但是梯度有可能会限制面部纹理细节的学习。
显存占用超过98%也有概率溢出导致计算错误,还是不能太贪,盲目追求大bs
回复 支持 反对

使用道具 举报

14

主题

3401

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18323

真我风采勋章万事如意节日勋章

发表于 2025-1-27 14:39:41 | 显示全部楼层
本帖最后由 wtxx8888 于 2025-1-27 14:47 编辑
我没素质还倒卖蛋 发表于 2025-1-27 14:28
6666666666666666666666666666666,佬,bs开32,甚至几百。。。是怎么能开到那么高的。魔改版?原版 ...

原版代码BS就没写上限,多大都随意开,只要你机器抗得了。
4090你跑Q96,随便开几百的BS,小儿科。
回复 支持 反对

使用道具 举报

14

主题

3401

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18323

真我风采勋章万事如意节日勋章

发表于 2025-1-27 14:43:20 | 显示全部楼层
dfl9999 发表于 2025-1-27 14:30
刚查了一下资料,分析下来是内存占用超过2/3以上会不稳定,内存溢出导致数据污染,有概率会导致cpu解码出 ...

你内存很小?你光显卡厉害了?
DFL要求CPU,内存全要跟上的。
你没发现MVE的所有随机,全是CPU算法?
全开了,CPU弱点的,干脆就跟不上开大BS。(CPU随便就能上百分百的功耗)
回复 支持 反对

使用道具 举报

38

主题

541

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
17235
 楼主| 发表于 2025-1-27 14:46:28 | 显示全部楼层
wtxx8888 发表于 2025-1-27 14:43
你内存很小?你光显卡厉害了?
DFL要求CPU,内存全要跟上的。
你没发现MVE的所有随机,全是CPU算法?

32g应该也不小了,上64g会稳一点但是我不想再额外花1400块钱,我的cpu是9950x,天花板了不可能再升了,将就用着吧,不行就降低bs,还不行就开梯度
回复 支持 反对

使用道具 举报

14

主题

3401

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18323

真我风采勋章万事如意节日勋章

发表于 2025-1-27 14:49:39 | 显示全部楼层
dfl9999 发表于 2025-1-27 14:46
32g应该也不小了,上64g会稳一点但是我不想再额外花1400块钱,我的cpu是9950x,天花板了不可能再升了,将 ...

32G不小了。不是内存的问题。就是重复训练单样本太多次,造成的。
我用时,发现它有问题了,不然也不会改算法。
回复 支持 反对

使用道具 举报

38

主题

541

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
17235
 楼主| 发表于 2025-1-27 14:51:52 | 显示全部楼层
wtxx8888 发表于 2025-1-27 14:49
32G不小了。不是内存的问题。就是重复训练单样本太多次,造成的。
我用时,发现它有问题了,不然也不会改 ...

那就好
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2025-7-3 23:11 , Processed in 0.218789 second(s), 29 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表