deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 1245|回复: 10

跑訓練都會遇到的問題,變NAN [14:56:15][#001836][0206ms][nan][nan]

[复制链接]

6

主题

63

帖子

408

积分

初级丹师

Rank: 3Rank: 3

积分
408
发表于 2021-10-22 14:59:16 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
求高手解惑QQ

Initializing models: 100%|###############################################################| 5/5 [00:00<00:00,  5.45it/s]

Loading samples: 100%|##############################################################| 200/200 [00:00<00:00, 445.19it/s]
Loading samples: 100%|############################################################| 4043/4043 [00:32<00:00, 123.63it/s]
====================== Model Summary ======================
==                                                       ==
==        Model name: new_Quick96                        ==
==                                                       ==
== Current iteration: 0                                  ==
==                                                       ==
==-------------------- Model Options --------------------==
==                                                       ==
==        batch_size: 4                                  ==
==                                                       ==
==--------------------- Running On ----------------------==
==                                                       ==
==      Device index: 0                                  ==
==              Name: NVIDIA GeForce RTX 3070 Laptop GPU ==
==              VRAM: 5.36GB                             ==
==                                                       ==
===========================================================
Starting. Press "Enter" to stop training and save model.


Trying to do the first iteration. If an error occurs, reduce the model parameters.


!!!
Windows 10 users IMPORTANT notice. You should set this setting in order to work correctly.
https://i.imgur.com/B7cmDCB.jpg
!!!
[14:53:12][#000002][0086ms][3.5109][3.5835]
[14:56:15][#001836][0206ms][nan][nan]
[14:56:20][#001865][0148ms][nan][nan]
[14:56:24][#001924][0064ms][nan][nan]


回复

使用道具 举报

7

主题

49

帖子

292

积分

初级丹师

Rank: 3Rank: 3

积分
292
发表于 2021-10-22 19:22:16 | 显示全部楼层
本帖最后由 xsummer 于 2021-10-22 19:23 编辑

无丹,路过
回复

使用道具 举报

3

主题

635

帖子

3877

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3877
发表于 2021-10-22 19:22:33 | 显示全部楼层
这个显存为啥要跑q96
回复 支持 反对

使用道具 举报

6

主题

63

帖子

408

积分

初级丹师

Rank: 3Rank: 3

积分
408
 楼主| 发表于 2021-10-22 22:33:31 | 显示全部楼层
因為我SAEHD很不穩定
跑一飽都會損失率那邊都會變成NAN

還沒抓到原因QQ
回复 支持 反对

使用道具 举报

6

主题

63

帖子

408

积分

初级丹师

Rank: 3Rank: 3

积分
408
 楼主| 发表于 2021-10-23 09:32:39 | 显示全部楼层
我應該找到原因了,是因為超頻的關係QQ
回复 支持 反对

使用道具 举报

6

主题

63

帖子

408

积分

初级丹师

Rank: 3Rank: 3

积分
408
 楼主| 发表于 2021-10-30 05:08:37 | 显示全部楼层
建議大家不要隨意超頻,尤其筆電
回复 支持 反对

使用道具 举报

5

主题

39

帖子

229

积分

初级丹师

Rank: 3Rank: 3

积分
229
发表于 2021-12-24 20:43:28 | 显示全部楼层
我没超频啊,这个怎么解决啊
回复 支持 反对

使用道具 举报

0

主题

87

帖子

864

积分

高级丹师

Rank: 5Rank: 5

积分
864
发表于 2022-2-5 16:05:28 | 显示全部楼层
同問~沒超頻 還是 NAN  請大神求救
回复 支持 反对

使用道具 举报

1

主题

23

帖子

509

积分

高级丹师

Rank: 5Rank: 5

积分
509
发表于 2022-9-13 11:57:43 | 显示全部楼层
同问,没超频,突然就变成NAN了
回复 支持 反对

使用道具 举报

1

主题

4

帖子

55

积分

高级丹童

Rank: 2

积分
55
发表于 2024-2-27 20:37:00 | 显示全部楼层
所以各位大佬有解决这个问题吗?Github上作者给的方案是GPU降频(https://github.com/iperov/DeepFaceLab/issues/120)或者降低模型参数(https://github.com/iperov/DeepFaceLab/issues/378),还有个老哥说换了cuda的版本(https://github.com/iperov/DeepFaceLab/issues/5525)。但这些解决方案在我这儿都没用。直接使用q96也不行,只有第一次训练的时候显示了一次loss,之后就有变回NaN了。训练SAEHD的话,一点进展都没有。而且我的那个训练程度的预览窗口都不是每次都有。我用的Linux系统,显卡是3090。cuda11.8 cudnn8.9.7
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-9-20 11:50 , Processed in 0.105683 second(s), 9 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表