deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
楼主: Pxhpanic

(算已解决)大家在服务器上炼丹都是怎么解决内存不足的

[复制链接]

28

主题

302

帖子

2746

积分

初级丹圣

Rank: 8Rank: 8

积分
2746

万事如意节日勋章

QQ
 楼主| 发表于 2023-5-10 15:05:15 | 显示全部楼层
本帖最后由 Pxhpanic 于 2023-5-10 15:07 编辑
ken2099 发表于 2023-5-10 13:19
你的理解肯定是有问题的
我在linux下,32G的系统内存,可以跑任何丹,只要显存足够 ...


感觉你的逻辑非常奇怪

首先,我在自己的电脑上跑一个模型 配置1650 16g内存,跑 4 batch size oom了,我给电脑加了100虚拟内存,然后可以运行起来了

同一个模型,在linxu服务器上跑,2080ti 40g内存比我的配置要高非常多吧,跑  4 batch size oom了同时报错  erro xxx kiled,把线程杀了
它是跑了一会儿才oom的,所以排除我2080ti机子的环境问题

于是,我得出的结论,需要配置虚拟内存,否则继续oom

但是,这次换了一个更高的模型了和配置, 配置 3090 80g内存 12 batch size 跑完一点问题没有
所以,我再次验证我的结论,是内存问题

也许不是内存,但是我的逻辑能自洽

然后你的结论,你能跑我不能,所以我的理解肯定有问题
你这啥逻辑啊兄弟
回复 支持 反对

使用道具 举报

3

主题

434

帖子

2448

积分

初级丹圣

Rank: 8Rank: 8

积分
2448
发表于 2023-5-10 16:43:58 | 显示全部楼层
本帖最后由 ken2099 于 2023-5-10 16:45 编辑
Pxhpanic 发表于 2023-5-10 15:05
感觉你的逻辑非常奇怪

首先,我在自己的电脑上跑一个模型 配置1650 16g内存,跑 4 batch size oom了,我 ...

我的逻辑是我使用过多台32G的linux服务器,
且跑过从256到512各种极限参数的丹不下几十个
且用了快一年时间
从来没有发现过内存不足的情况
你会发生这种问题,锅也许不在linux,而在于给你那个机器的那个系统环境
类似这种参数:
448 512 144 144 48
512 512 128 128 40
这种丹很极限了吧,可以跑BS12以上
回复 支持 反对

使用道具 举报

28

主题

302

帖子

2746

积分

初级丹圣

Rank: 8Rank: 8

积分
2746

万事如意节日勋章

QQ
 楼主| 发表于 2023-5-10 18:43:32 | 显示全部楼层
ken2099 发表于 2023-5-10 16:43
我的逻辑是我使用过多台32G的linux服务器,
且跑过从256到512各种极限参数的丹不下几十个
且用了快一年时 ...

确实奥,你是对的,我重开了一台2080ti怎么跑都不oom了
我做出与上次不同的操作是使用系统自带的cudnn而不是使用conda安装的cudnn(之前不知道平台自带了一直自己用conda下载)
估计是这个cudnn的原因
回复 支持 反对

使用道具 举报

3

主题

434

帖子

2448

积分

初级丹圣

Rank: 8Rank: 8

积分
2448
发表于 2023-5-10 18:52:23 | 显示全部楼层
Pxhpanic 发表于 2023-5-10 18:43
确实奥,你是对的,我重开了一台2080ti怎么跑都不oom了
我做出与上次不同的操作是使用系统自带的cudnn而 ...

找到问题就好
回复 支持 反对

使用道具 举报

28

主题

302

帖子

2746

积分

初级丹圣

Rank: 8Rank: 8

积分
2746

万事如意节日勋章

QQ
 楼主| 发表于 2023-5-15 18:20:11 | 显示全部楼层
本帖最后由 Pxhpanic 于 2023-5-15 19:01 编辑

为什么我在服务器上练的丹效果会不如我在自己电脑上练的丹啊,而且在服务器上的丹batch_size开的更大,迭代的更多,训练的流程也是一样的
是linux版本的dfl不行吗
回复 支持 反对

使用道具 举报

28

主题

302

帖子

2746

积分

初级丹圣

Rank: 8Rank: 8

积分
2746

万事如意节日勋章

QQ
 楼主| 发表于 2023-5-17 14:49:20 | 显示全部楼层

说话啊兄弟,别光上线不吭声
回复 支持 反对

使用道具 举报

3

主题

434

帖子

2448

积分

初级丹圣

Rank: 8Rank: 8

积分
2448
发表于 2023-5-18 07:59:28 | 显示全部楼层
Pxhpanic 发表于 2023-5-15 18:20
为什么我在服务器上练的丹效果会不如我在自己电脑上练的丹啊,而且在服务器上的丹batch_size开的更大,迭 ...

估计你用的linux就是原版吧
但是不知道你在本地用什么版本
相对来说,ME版,ICE版都比原版更好
回复 支持 反对

使用道具 举报

28

主题

302

帖子

2746

积分

初级丹圣

Rank: 8Rank: 8

积分
2746

万事如意节日勋章

QQ
 楼主| 发表于 2023-5-18 17:50:56 | 显示全部楼层
ken2099 发表于 2023-5-18 07:59
估计你用的linux就是原版吧
但是不知道你在本地用什么版本
相对来说,ME版,ICE版都比原版更好

...我是直接git clone的官方
看来我得研究一下me 和 ICE 了
回复 支持 反对

使用道具 举报

3

主题

434

帖子

2448

积分

初级丹圣

Rank: 8Rank: 8

积分
2448
发表于 2023-5-18 18:58:22 | 显示全部楼层
Pxhpanic 发表于 2023-5-18 17:50
...我是直接git clone的官方
看来我得研究一下me 和 ICE 了

me版可以用在linux下,ICE目前还没有linux版本
ME版有诸多原版不具备的特性,而且有更好的训练器
省显存,速度快,更多参数,更灵活的特性
没玩过ME,那大概只相当于玩了一半的DFL.
回复 支持 反对

使用道具 举报

28

主题

302

帖子

2746

积分

初级丹圣

Rank: 8Rank: 8

积分
2746

万事如意节日勋章

QQ
 楼主| 发表于 2023-5-18 21:36:21 | 显示全部楼层
ken2099 发表于 2023-5-18 18:58
me版可以用在linux下,ICE目前还没有linux版本
ME版有诸多原版不具备的特性,而且有更好的训练器
省显存 ...

ok  私我一下好兄弟,现在貌似me不分享了
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-9-23 14:32 , Processed in 0.096002 second(s), 8 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表