deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
楼主: xxmr121

分享下在Colab下自动保存时间的设置以及大模型保存失败思路

[复制链接]

0

主题

245

帖子

2085

积分

初级丹圣

Rank: 8Rank: 8

积分
2085

万事如意节日勋章

发表于 2022-4-23 02:44:26 | 显示全部楼层
6666666666666666666666666
回复 支持 反对

使用道具 举报

0

主题

5

帖子

34

积分

禁止访问

积分
34
发表于 2022-4-23 08:30:28 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

0

主题

201

帖子

1661

积分

初级丹圣

Rank: 8Rank: 8

积分
1661
发表于 2022-4-23 09:16:44 | 显示全部楼层
wcw888 发表于 2022-4-22 21:48
感谢分享。coable可以挂机吗

需要一直开着浏览器
回复 支持 反对

使用道具 举报

8

主题

400

帖子

3483

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3483
发表于 2022-4-23 22:20:49 | 显示全部楼层
楼主我今天测试了一下,好像不太行哦。我已经按ME版的读取写入部分修改了原版的代码,运行训练也没有任何报错,但是到保存的时候也是跟之前一样,卡在储存的那一步一动不动。我用的是滚石的热巴liae模型
回复 支持 反对

使用道具 举报

1

主题

20

帖子

139

积分

高级丹童

Rank: 2

积分
139
 楼主| 发表于 2022-4-24 12:33:16 | 显示全部楼层
dsyrock 发表于 2022-4-23 22:20
楼主我今天测试了一下,好像不太行哦。我已经按ME版的读取写入部分修改了原版的代码,运行训练也没有任何报 ...

你是不是只改了load的逻辑没有改save的,save的也要改的,改成使用joblib去写,我现在每天挂机正常跑没有问题,每次都是2.5G的一个文件读写,经常配额就不够用了
回复 支持 反对

使用道具 举报

8

主题

400

帖子

3483

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3483
发表于 2022-4-24 12:37:35 | 显示全部楼层
xxmr121 发表于 2022-4-24 12:33
你是不是只改了load的逻辑没有改save的,save的也要改的,改成使用joblib去写,我现在每天挂机正常跑没有 ...

都改了。原来是我测试的时候是在rg版上测试的,我改了原版的和rg版的代码,然后先测试了rg里保存还是卡住,后来又测了一下原版,似乎就正常了。还得多试几次,谢谢
回复 支持 反对

使用道具 举报

8

主题

400

帖子

3483

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3483
发表于 2022-4-24 21:02:22 | 显示全部楼层
不对,我再测试了一段长的时间,发现保存卡住这个是不定时出现的,不一定每次都失败,但一出现就一直停在那了。代码我确定是已经改好了的,但似乎没起作用
回复 支持 反对

使用道具 举报

1

主题

20

帖子

139

积分

高级丹童

Rank: 2

积分
139
 楼主| 发表于 2022-4-24 21:43:40 | 显示全部楼层
dsyrock 发表于 2022-4-24 21:02
不对,我再测试了一段长的时间,发现保存卡住这个是不定时出现的,不一定每次都失败,但一出现就一直停在那 ...

我这两天跑下来除了配额用完倒没遇到问题……等周末我回家打包下我的代码,发给你
回复 支持 反对

使用道具 举报

8

主题

400

帖子

3483

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3483
发表于 2022-4-24 21:46:36 | 显示全部楼层
xxmr121 发表于 2022-4-24 21:43
我这两天跑下来除了配额用完倒没遇到问题……等周末我回家打包下我的代码,发给你 ...

你有试过两个页面一起跑吗?我一直是这样同时开着两个页面训练两个模型的,不知道是不是因为这个原因
回复 支持 反对

使用道具 举报

1

主题

20

帖子

139

积分

高级丹童

Rank: 2

积分
139
 楼主| 发表于 2022-4-25 10:10:54 | 显示全部楼层
dsyrock 发表于 2022-4-24 21:46
你有试过两个页面一起跑吗?我一直是这样同时开着两个页面训练两个模型的,不知道是不是因为这个原因 ...

我只开一个丹炉跑的……
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-9-21 19:52 , Processed in 0.091136 second(s), 8 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表