deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
楼主: Hedwig

【高端操作】(2.14更新)香喷喷的白嫖Kaggle教程来了!!

  [复制链接]

0

主题

845

帖子

4645

积分

禁止访问

积分
4645
发表于 2021-10-14 10:37:32 | 显示全部楼层
支持一下!!!
回复

使用道具 举报

42

主题

274

帖子

4101

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4101
发表于 2021-10-14 08:32:36 | 显示全部楼层
本帖最后由 slib 于 2021-10-14 09:28 编辑
Hedwig 发表于 2021-10-13 22:26
我最大试过6G,保存很快。按着教程选择run without gpu...然后quick save半分钟就存好了 ...

刚刚成功save了,就是点击保存,等半个小时左右,不管error,直接点左侧code,就已经保存好了
回复 支持 反对

使用道具 举报

10

主题

454

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
11451

可爱萌新勋章荣誉会员勋章小有贡献勋章

 楼主| 发表于 2021-10-13 22:26:45 | 显示全部楼层
slib 发表于 2021-10-13 21:41
保存失败可能是gpu问题? 我出错,刷新页面之后,session 就一直在starting,然后cpu占用率一直是150%以上 ...

我最大试过6G,保存很快。按着教程选择run without gpu...然后quick save半分钟就存好了
回复 支持 反对

使用道具 举报

42

主题

274

帖子

4101

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4101
发表于 2021-10-13 21:41:42 | 显示全部楼层
本帖最后由 slib 于 2021-10-13 21:52 编辑

保存失败可能是gpu问题? 我出错,刷新页面之后,session 就一直在starting,然后cpu占用率一直是150%以上,总共15.9g的gpu显存占用了15.2g。  我测试了在拷贝到output的时候就保存,失败;在没有运行的时候(draft session off)保存,失败;在训练模型时保存,失败;停止训练时保存失败;切换账号进行同样的尝试,失败
楼主有试过output文件在9g左右的时候吗, 然后的话我的output里会比input少个600mb
回复 支持 反对

使用道具 举报

42

主题

274

帖子

4101

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4101
发表于 2021-10-13 21:20:00 | 显示全部楼层

好吧,那我只能再保存试试看了,我检查了好多遍从代码到运行和训练都没啥问题,就是保存的时候一直是queued,然后跳出error,接着刷新界面保存也是同样的
回复 支持 反对

使用道具 举报

10

主题

454

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
11451

可爱萌新勋章荣誉会员勋章小有贡献勋章

 楼主| 发表于 2021-10-13 21:17:06 | 显示全部楼层
slib 发表于 2021-10-13 21:14
ok那保存之前要点暂停训练dfl吗

点不点都可以
回复 支持 反对

使用道具 举报

42

主题

274

帖子

4101

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4101
发表于 2021-10-13 21:14:13 | 显示全部楼层
Hedwig 发表于 2021-10-13 20:44
暂停训练只有不关机都不会清除output

ok那保存之前要点暂停训练dfl吗
回复 支持 反对

使用道具 举报

10

主题

454

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
11451

可爱萌新勋章荣誉会员勋章小有贡献勋章

 楼主| 发表于 2021-10-13 20:44:52 | 显示全部楼层
slib 发表于 2021-10-13 20:37
会不会是因为我没停止训练?但停止训练的话不就没保存进度了

暂停训练只有不关机都不会清除output
回复 支持 反对

使用道具 举报

42

主题

274

帖子

4101

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4101
发表于 2021-10-13 20:37:07 | 显示全部楼层
Hedwig 发表于 2021-10-13 19:08
多刷几次,你是模型很大吗?咋老失败。我用了两个月了从来没出现保存失败过。 ...

会不会是因为我没停止训练?但停止训练的话不就没保存进度了
回复 支持 反对

使用道具 举报

42

主题

274

帖子

4101

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4101
发表于 2021-10-13 20:28:14 | 显示全部楼层
Hedwig 发表于 2021-10-13 19:08
多刷几次,你是模型很大吗?咋老失败。我用了两个月了从来没出现保存失败过。 ...

算大吧,不清楚。我parameter加workspace和dfl总共是9g左右,我刷新之后保存也是error,之前就算是error在第二次error之后去code界面里看data,output里也有文件,这次output里除了data_dst什么都没保存
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-10-24 00:26 , Processed in 0.095968 second(s), 8 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表