deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 690|回复: 5

来个大佬帮忙指导一下。

[复制链接]

32

主题

762

帖子

4658

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4658
 楼主| 发表于 2021-12-11 09:56:02 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
           论坛里买的丹,第一次训练没问题。但是保存一次后再继续训练就报错,再次训练的参数和第一次训练的参数一模一样。论坛里看了一些帖子,很多认为是虚拟内存不足的问题,但现在虚拟内存已调整至130G至200G,问题仍然未解决,请大佬们帮忙看下。如图
image.png image.png image.png
回复

使用道具 举报

4

主题

601

帖子

3550

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3550

万事如意节日勋章

发表于 2021-12-11 10:03:18 | 显示全部楼层
报OOM应该就是内存的问题,除了改虚拟内存外可以修改一下参数,比如bs调小或者把“Place models and optimizer on GPU”这一项调成false等
回复 支持 反对

使用道具 举报

32

主题

762

帖子

4658

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4658
 楼主| 发表于 2021-12-11 10:50:11 | 显示全部楼层
guoruoxuan 发表于 2021-12-11 10:03
报OOM应该就是内存的问题,除了改虚拟内存外可以修改一下参数,比如bs调小或者把“Place models and optimi ...

刚试了一下,把bs调到最小2,Place models and optimizer on GPU”这一项调成false,仍然报错,还是OOM 。真是无语了,如果把模型里的文件全删了,重新放下刚下载的模型,再重新开始训练,bs开到8,Place models and optimizer on GPU调成Y 都没问题。。。
回复 支持 反对

使用道具 举报

4

主题

601

帖子

3550

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3550

万事如意节日勋章

发表于 2021-12-11 10:53:15 | 显示全部楼层
A335-P91 发表于 2021-12-11 10:50
刚试了一下,把bs调到最小2,Place models and optimizer on GPU”这一项调成false,仍然报错,还是OOM  ...

我一直有这个问题,就是同一模型同一参数这次能跑,下次就很可能不能跑了,但是多运行几次,不超过三次就能成功跑起来,真的太玄学了
回复 支持 反对

使用道具 举报

32

主题

762

帖子

4658

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4658
 楼主| 发表于 2021-12-11 11:22:23 | 显示全部楼层
guoruoxuan 发表于 2021-12-11 10:53
我一直有这个问题,就是同一模型同一参数这次能跑,下次就很可能不能跑了,但是多运行几次,不超过三次就 ...

同一模型同一参数,我只能第一次跑正常,保存后下次再跑怎么都跑不起来,真不知道是哪出了问题
回复 支持 反对

使用道具 举报

22

主题

501

帖子

5821

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
5821
发表于 2021-12-11 18:17:05 | 显示全部楼层
看不懂 等大佬了
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-9-20 17:33 , Processed in 0.098949 second(s), 10 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表