deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 409|回复: 13

给位大佬,求助一下,我的模型训练时保存怎么很慢呢?

[复制链接]

9

主题

82

帖子

560

积分

高级丹师

Rank: 5Rank: 5

积分
560
 楼主| 发表于 2024-2-22 22:54:00 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
给位大佬,求助一下,我的模型训练时保存怎么很慢呢?

我才训练了5万多次,自动保存一次得半个多小时
我真日了狗了
回复

使用道具 举报

6

主题

838

帖子

5281

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
5281

万事如意节日勋章

发表于 2024-2-22 23:59:35 | 显示全部楼层
内存低吧,应该是虚拟内存大量使用了
回复 支持 反对

使用道具 举报

13

主题

528

帖子

3790

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3790
发表于 2024-2-23 09:48:06 | 显示全部楼层
半小时备份一次,每次备份需要半小时。。。
回复 支持 反对

使用道具 举报

9

主题

82

帖子

560

积分

高级丹师

Rank: 5Rank: 5

积分
560
 楼主| 发表于 2024-2-23 20:39:17 | 显示全部楼层
lknet 发表于 2024-2-22 23:59
内存低吧,应该是虚拟内存大量使用了

没有表述清楚
云端训练,内存48G,显卡3090 24G显存,虚拟内存设置400G。
是训练了50W次,然后就很卡,卡到死机重启后,模型损坏.
内存应该不算低了吧
但是你说的虚拟内存大量使用应该是真的,可是,虚拟内存大量使用这个应该怎么清理呢?
回复 支持 反对

使用道具 举报

9

主题

82

帖子

560

积分

高级丹师

Rank: 5Rank: 5

积分
560
 楼主| 发表于 2024-2-23 20:40:25 | 显示全部楼层
若苗瞬 发表于 2024-2-23 09:48
半小时备份一次,每次备份需要半小时。。。

是啊
而且还自动保存,还是连续自动保存   我都疯了
回复 支持 反对

使用道具 举报

9

主题

430

帖子

4691

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4691

万事如意节日勋章

发表于 2024-2-24 00:49:46 | 显示全部楼层
沒用過雲端   
問一下用雲端可以看到預覽窗口嗎  可的話 按L改變一下 有差
回复 支持 反对

使用道具 举报

6

主题

838

帖子

5281

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
5281

万事如意节日勋章

发表于 2024-2-24 07:46:49 | 显示全部楼层
之前不卡那就重启一下服务器试试,任务管理器看看是哪个占用高
回复 支持 反对

使用道具 举报

9

主题

82

帖子

560

积分

高级丹师

Rank: 5Rank: 5

积分
560
 楼主| 发表于 2024-2-24 11:43:19 | 显示全部楼层
本帖最后由 飞天猪 于 2024-2-24 11:50 编辑
z6163727 发表于 2024-2-24 00:49
沒用過雲端   
問一下用雲端可以看到預覽窗口嗎  可的話 按L改變一下 有差 ...

我是租用的3090    可以看到预览窗口   都是一样的图形
L键是干什么的啊?
大佬  问一下    SRC原图切脸的时候   我没有选择要debug这个文件   就是我的data_src里没有debug这个文件   然后就直接写入遮罩后训练了   这样可以吗?
这个debug文件在训练的时候没有可以吗?

大佬   可以指点一下吗?  万分感谢

回复 支持 反对

使用道具 举报

9

主题

82

帖子

560

积分

高级丹师

Rank: 5Rank: 5

积分
560
 楼主| 发表于 2024-2-24 11:49:54 | 显示全部楼层
本帖最后由 飞天猪 于 2024-2-24 11:56 编辑
lknet 发表于 2024-2-24 07:46
之前不卡那就重启一下服务器试试,任务管理器看看是哪个占用高

大佬   任务管理没有几个任务   而且是在保存的时候非常卡  直接卡死    性能显示也是指显示硬盘100%,其他cpu  gpu都没有超过15%的使用率
后来我直接格式化硬盘了    然后用备份文件继续训练了   但是现在怎么目标损失率降的非常少,11个小时了,只降了不到0.08 ,这正常吗?
用的显卡3090  三天多时间,现在跑到70万了,目标损失率在0.77,用的原作者的RTT和RTM
也用的论坛里另外一位分享的 新手训练步骤  7步法    第一步目标损失率降0.48,就步降了或者反弹了,然后就第二步参数修改后训练,目标损失率反而从0.85开始,到现在12个小时了 ,目标损失率都没有继续下降,很慢 很慢 这正常吗?
大佬   可以指点一下吗?万分感谢

联想截图_20240224115307.png
回复 支持 反对

使用道具 举报

9

主题

82

帖子

560

积分

高级丹师

Rank: 5Rank: 5

积分
560
 楼主| 发表于 2024-2-24 11:52:17 | 显示全部楼层
lknet 发表于 2024-2-22 23:59
内存低吧,应该是虚拟内存大量使用了

租的机器  内存是48G   显卡3090  分配的虚拟显存400000M   
这个虚拟内存可以在训练的时候清理吗?怎么清理啊?
大佬   麻烦指点一下   万分感谢
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-5-19 00:26 , Processed in 0.094252 second(s), 11 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表