deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 208|回复: 14

训练速度问题

[复制链接]

3

主题

15

帖子

148

积分

高级丹童

Rank: 2

积分
148
 楼主| 发表于 5 天前 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
================= Model Summary ==================
==                                              ==
==            Model name: 猫之汉化神丹_SAEHD          ==
==                                              ==
==     Current iteration: 8745203               ==
==                                              ==
==--------------- Model Options ----------------==
==                                              ==
==            resolution: 256                   ==
==             face_type: wf                    ==
==     models_opt_on_gpu: True                  ==
==                 archi: df-ud                 ==
==               ae_dims: 256                   ==
==                e_dims: 64                    ==
==                d_dims: 64                    ==
==           d_mask_dims: 22                    ==
==       masked_training: True                  ==
==       eyes_mouth_prio: True                  ==
==           uniform_yaw: False                 ==
==             adabelief: True                  ==
==            lr_dropout: y                     ==
==           random_warp: False                 ==
==       true_face_power: 0.1                   ==
==      face_style_power: 0.0                   ==
==        bg_style_power: 0.0                   ==
==               ct_mode: rct                   ==
==              clipgrad: True                  ==
==              pretrain: False                 ==
==                  猫の汉化: http://t.hk.uy/4ks    ==
==                  出售仙丹: QQ564646676           ==
==       autobackup_hour: 0                     ==
== write_preview_history: False                 ==
==           target_iter: 0                     ==
==       random_src_flip: False                 ==
==       random_dst_flip: True                  ==
==            batch_size: 48                    ==
==             gan_power: 0.0                   ==
==        gan_patch_size: 16                    ==
==              gan_dims: 16                    ==
==        loss_optimizer: False                 ==
==            trainer_rg: True                  ==
==         blur_out_mask: True                  ==
==      random_hsv_power: 0.01                  ==
==          skin_texture: False                 ==
==                    lr: 5e-05                 ==
==               version: V3                    ==
==                                              ==
==----------------- Running On -----------------==
==                                              ==
==          Device index: 0                     ==
==                  Name: NVIDIA A100-SXM4-40GB ==
==                  VRAM: 37.67GB               ==
==                                              ==
==================================================
这是配置。src和dst都用的1024的
主机是租用的GPU服务器,CPU 48核,内存96G GPU A100 40G,但是在训练的时候,发现GPU占用率出现了90%→0→90%的循环,而且训练速度平均在700ms左右,显存占用17986G(BS在12的时候也是这个显存),不知道这个是不是正常的,我感觉有点问题。之前用4090训练,BS在8的时候可以到150ms左右,参数一样。不知道现在的情况具体是什么问题,哪位大佬可以帮忙解决一下?

回复

使用道具 举报

0

主题

100

帖子

1303

积分

初级丹圣

Rank: 8Rank: 8

积分
1303

万事如意节日勋章开心娱乐节日勋章

发表于 5 天前 | 显示全部楼层
我猜的会不会是你用这个显卡跑这个模型性能过剩 吕布骑狗 显卡性能跑不满啊
回复 支持 反对

使用道具 举报

0

主题

52

帖子

951

积分

高级丹师

Rank: 5Rank: 5

积分
951
发表于 5 天前 | 显示全部楼层
a18367774619 发表于 2025-12-3 18:00
我猜的会不会是你用这个显卡跑这个模型性能过剩 吕布骑狗 显卡性能跑不满啊 ...

可以用上中文字符了吗?
回复 支持 反对

使用道具 举报

7

主题

83

帖子

2534

积分

初级丹圣

Rank: 8Rank: 8

积分
2534

万事如意节日勋章

发表于 4 天前 | 显示全部楼层
大概率CPU问题,然后硬盘读写问题,最后图片名称不能是一些奇怪的路径:000001_000001.jpg
如果你觉得我不对,那就一定是你对
回复 支持 反对

使用道具 举报

3

主题

15

帖子

148

积分

高级丹童

Rank: 2

积分
148
 楼主| 发表于 4 天前 | 显示全部楼层
a18367774619 发表于 2025-12-3 18:00
我猜的会不会是你用这个显卡跑这个模型性能过剩 吕布骑狗 显卡性能跑不满啊 ...

现在是CPU、内存、显卡使用率和显存全都不满。CPU基本在20%使用率上,内存是23%,显存45%
回复 支持 反对

使用道具 举报

3

主题

15

帖子

148

积分

高级丹童

Rank: 2

积分
148
 楼主| 发表于 4 天前 | 显示全部楼层
lhs 发表于 2025-12-4 08:22
大概率CPU问题,然后硬盘读写问题,最后图片名称不能是一些奇怪的路径:000001_000001.jpg ...

CPU也跑不满,我看了下,可能出在I/O上,I/O的波动曲线跟显卡使用率的波动曲线一样
回复 支持 反对

使用道具 举报

7

主题

83

帖子

2534

积分

初级丹圣

Rank: 8Rank: 8

积分
2534

万事如意节日勋章

发表于 4 天前 | 显示全部楼层
azrael 发表于 2025-12-4 08:41
CPU也跑不满,我看了下,可能出在I/O上,I/O的波动曲线跟显卡使用率的波动曲线一样 ...

总之正常情况是显卡波动趋于平稳,无论是50%还是90%,他就在这附近波动。首先我们不可能加载所有数据到gpu或者内存中 ,所以你可以想象cpu去硬盘拿一个批次的数据到gpu推理,gpu很快就推理完成了下一个批次的数据还没有送来......期间CPU还需要做一些事并不是直接拿过来使用
如果你觉得我不对,那就一定是你对
回复 支持 反对

使用道具 举报

3

主题

15

帖子

148

积分

高级丹童

Rank: 2

积分
148
 楼主| 发表于 4 天前 | 显示全部楼层
lhs 发表于 2025-12-4 09:16
总之正常情况是显卡波动趋于平稳,无论是50%还是90%,他就在这附近波动。首先我们不可能加载所有数据到gp ...

那就是说CPU的性能限制了?但是我看CPU使用率也一直在20%左右。。。。。
回复 支持 反对

使用道具 举报

1

主题

45

帖子

584

积分

高级丹师

Rank: 5Rank: 5

积分
584
发表于 4 天前 | 显示全部楼层
隔一段时间,会卡几秒吗?
回复 支持 反对

使用道具 举报

3

主题

15

帖子

148

积分

高级丹童

Rank: 2

积分
148
 楼主| 发表于 4 天前 | 显示全部楼层
lhs 发表于 2025-12-4 09:16
总之正常情况是显卡波动趋于平稳,无论是50%还是90%,他就在这附近波动。首先我们不可能加载所有数据到gp ...

我用的是deepfacelab_nvidia_rtx3000_series这个版本,有关系吗?
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2025-12-8 06:00 , Processed in 0.126242 second(s), 34 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表