deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 780|回复: 7

【求助帖】训练过程无法开始,卡在“Starting”的求助

[复制链接]

2

主题

17

帖子

273

积分

初级丹师

Rank: 3Rank: 3

积分
273
发表于 2021-10-2 22:26:13 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
本帖最后由 ishinofree 于 2021-10-2 22:30 编辑

如题,30系显卡在进行模型训练时,卡在“Starting. Press "Enter" to stop training and save model.”,无法继续;





显存占用会呈现如图的周期型波动,



目前找到的一个workaround是先用极大的batch size尝试,使模型报OOM,之后重新打开训练脚本,并将batch size降低到可运行范围内,重新开始训练
那么显存占用率在提示starting后可以稳定达到100%,模型也能成功run

但是关于为何会卡在这一步的原因仍未知,同时这个workaround确实有些不方便,有了解原因的大佬麻烦给到一些建议!提前感谢!
11.png
22.png
回复

使用道具 举报

3

主题

635

帖子

3877

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3877
发表于 2021-10-3 09:07:50 | 显示全部楼层
不懂帮顶
回复

使用道具 举报

1

主题

255

帖子

3798

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3798
发表于 2021-10-3 11:28:53 | 显示全部楼层
这问题我也遇到好多次,描述和你一样。卡在这里,但是GPU在跑,原理不知道。重新再开几次就行,但是我昨天删了SRC里不清晰的照片,然后又卡在这里,重开5次没结果。我先跑了个别的材料的train Quick96.bat。跑起来了。然后我又回去开那个跑不起来的train SAEHD.bat,就行了。你试试看。
回复 支持 反对

使用道具 举报

25

主题

2099

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
12085
发表于 2021-10-3 11:53:34 | 显示全部楼层
用的是30系列专用的软件?
回复 支持 反对

使用道具 举报

2

主题

326

帖子

2081

积分

初级丹圣

Rank: 8Rank: 8

积分
2081
发表于 2021-10-3 12:35:14 | 显示全部楼层
不懂帮顶
回复

使用道具 举报

2

主题

17

帖子

273

积分

初级丹师

Rank: 3Rank: 3

积分
273
 楼主| 发表于 2021-10-3 17:25:41 | 显示全部楼层
whl716694 发表于 2021-10-3 11:53
用的是30系列专用的软件?

嗯啊 是的
回复 支持 反对

使用道具 举报

2

主题

17

帖子

273

积分

初级丹师

Rank: 3Rank: 3

积分
273
 楼主| 发表于 2021-10-3 17:34:05 | 显示全部楼层
zhaitian520 发表于 2021-10-3 11:28
这问题我也遇到好多次,描述和你一样。卡在这里,但是GPU在跑,原理不知道。重新再开几次就行,但是我昨天 ...

嗯 跑一遍Quick96和我帖子里的那种方法都算是workaround。。只是不知道如何从根本上去解决,没啥思路。。
回复 支持 反对

使用道具 举报

22

主题

501

帖子

5821

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
5821
发表于 2021-10-3 18:30:07 | 显示全部楼层
没用过30系的卡呢
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-9-20 06:23 , Processed in 0.124760 second(s), 11 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表