deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
楼主: wtxx8888

20250128 DeepFaceLab_MVEfork_合体版

  [复制链接]

9

主题

56

帖子

3758

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3758
发表于 2024-10-31 23:33:10 | 显示全部楼层
wtxx8888 发表于 2024-10-31 22:23
Traceback (most recent call last):
  File "/root/autodl-tmp/DFL/DeepFaceLab/samplelib/SampleGenerato ...


正常加载模型,然后加载src,等开始加载dst就卡住了,在等待就开始报错,最后被关机
微信截图_20241031232931.png 微信截图_20241031232944.png 微信截图_20241031233033.png 微信截图_20241031233042.png
回复 支持 反对

使用道具 举报

14

主题

3427

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18540

真我风采勋章万事如意节日勋章

 楼主| 发表于 2024-11-1 00:13:43 | 显示全部楼层
本帖最后由 wtxx8888 于 2024-11-1 00:20 编辑
drhacker 发表于 2024-10-31 23:33
正常加载模型,然后加载src,等开始加载dst就卡住了,在等待就开始报错,最后被关机

...

can't start new thread”这个运行时错误,通常发生在操作系统无法创建新的线程时。这种情况可能由以下几个原因引起:

‌线程限制‌:每个操作系统对可以并行运行的线程数都有上限。当你尝试创建的线程数超过这个限制时,就会遇到这个错误。例如,在Linux中,可以通过ulimit -u命令查看或设置用户级别的线程(进程)限制。

‌资源不足‌:系统可能由于资源不足(如内存)而无法创建新线程。当系统内存或特定资源(如栈空间)不足时,尝试创建新线程可能会失败。

Linux穷毛病真多。。。估计你跟前面的一个毛病,谁家的Linux?限制这么多?不是同时打开文件数受限,就是线程受限。。。

另,你开了GAN,GAN的新代码,可能不支持A卡。
回复 支持 反对

使用道具 举报

9

主题

56

帖子

3758

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3758
发表于 2024-11-1 00:28:28 | 显示全部楼层
wtxx8888 发表于 2024-11-1 00:13
“can't start new thread”这个运行时错误,通常发生在操作系统无法创建新的线程时。这种情况可能由以下 ...

AutoDl的,我用的还是N卡
回复 支持 反对

使用道具 举报

14

主题

3427

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18540

真我风采勋章万事如意节日勋章

 楼主| 发表于 2024-11-1 00:31:49 | 显示全部楼层
本帖最后由 wtxx8888 于 2024-11-1 00:40 编辑
drhacker 发表于 2024-11-1 00:28
AutoDl的,我用的还是N卡

估计为了节省资源占用吧,前面那位也是载入DST时发生的,证明你们的DST,量太大了,超了它系统给的限度。

Linux我也不太熟悉,答案也是百度来的 个人估计,是它这系统的限度,给得比较低的缘故。

ulimit -u 是查看
ulimit -u 8192   后面跟数字这种,是指定上限
回复 支持 反对

使用道具 举报

9

主题

56

帖子

3758

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3758
发表于 2024-11-1 01:09:31 | 显示全部楼层
wtxx8888 发表于 2024-11-1 00:31
估计为了节省资源占用吧,前面那位也是载入DST时发生的,证明你们的DST,量太大了,超了它系统给的限度。
...

根据命令提示是无限制的 unlimited
回复 支持 反对

使用道具 举报

14

主题

3427

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18540

真我风采勋章万事如意节日勋章

 楼主| 发表于 2024-11-1 02:20:55 | 显示全部楼层
drhacker 发表于 2024-11-1 01:09
根据命令提示是无限制的 unlimited

那就是资源不足了,反正报错,是无法创建线程
回复 支持 反对

使用道具 举报

2

主题

90

帖子

1150

积分

初级丹圣

Rank: 8Rank: 8

积分
1150

万事如意节日勋章

发表于 2024-12-12 09:04:56 | 显示全部楼层
wtxx8888 发表于 2024-11-1 02:20
那就是资源不足了,反正报错,是无法创建线程

大佬,我最近尝试使用这个版本训练的时候一直出现这个问题是什么情况,有的时候在启动训练的时候就开始报这个错误,但通常是在接近第二次保存的时候,我测试内存条内存条没有问题,然后检查了src和dst也没有错图,快被这个问题搞崩溃了

========================模型概要========================

                  模型名字: Liae384-LYF_SAEHD

                  当前迭代: 377134

----------------------模型选项----------------------

                 archi: liae-udt
            resolution: 384
               ae_dims: 512
                e_dims: 96
                d_dims: 80
           d_mask_dims: 32
             face_type: wf
          session_name:
       autobackup_hour: 8
write_preview_history: False
              pretrain: False
           target_iter: 0
            batch_size: 10
     models_opt_on_gpu: True
       masked_training: True
           uniform_yaw: False
         blur_out_mask: False
             adabelief: True
            lr_dropout: n
              clipgrad: True
       true_face_power: 0.0
      face_style_power: 0.0
        bg_style_power: 0.0
             gan_power: 0.0
        gan_patch_size: 48
              gan_dims: 32
           random_warp: True
       random_src_flip: False
       random_dst_flip: True
      random_hsv_power: 0.0
               ct_mode: fs-aug
                    炼制: unknown
                    分享: zhatv.cn
    retraining_samples: False
        high_loss_auto: True
       high_loss_power: 15
      number_of_cycles: 10
             eyes_prio: True
            mouth_prio: False
     random_downsample: False
          random_noise: False
           random_blur: False
           random_jpeg: False
         random_shadow: none
      background_power: 0.0
          random_color: False
       preview_samples: 2
    force_full_preview: False
                    lr: 5e-05
         gan_smoothing: 0.1
             gan_noise: 0.0

----------------------运行信息----------------------

                  设备编号: 0
                  设备名称: NVIDIA GeForce RTX 4090
                  显存大小: 20.84GB

================================================
启动中. 按回车键停止训练并保存进度。

保存时间|迭代次数|单次时间|SRC损失|DST损失
[08:36:55][#379172][0644ms][0.3074][0.7105]
D:\Deepfacelab1120\_internal\DeepFaceLab\samplelib\SampleGeneratorFace.py:154: VisibleDeprecationWarning: Creating an ndarray from ragged nested sequences (which is a list-or-tuple of lists-or-tuples-or ndarrays with different lengths or shapes) is deprecated. If you meant to do this, you must specify 'dtype=object' when creating the ndarray
  yield ([np.array(batch) for batch in batches], filenames)
Error: setting an array element with a sequence.
TypeError: only size-1 arrays can be converted to Python scalars

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
  File "D:\Deepfacelab1120\_internal\DeepFaceLab\mainscripts\Trainer.py", line 131, in trainerThread
    iter, iter_time = model.train_one_iter()
  File "D:\Deepfacelab1120\_internal\DeepFaceLab\models\ModelBase.py", line 571, in train_one_iter
    losses, iter_time = self.onTrainOneIter()
  File "D:\Deepfacelab1120\_internal\DeepFaceLab\models\Model_SAEHD\Model.py", line 1008, in onTrainOneIter
    src_loss, dst_loss = self.src_dst_train (warped_src, target_src, target_srcm, target_srcm_em, warped_dst, target_dst, target_dstm, target_dstm_em)
  File "D:\Deepfacelab1120\_internal\DeepFaceLab\models\Model_SAEHD\Model.py", line 727, in src_dst_train
    self.target_dstm_em:target_dstm_em,
  File "D:\Deepfacelab1120\_internal\python-3.6.8\lib\site-packages\tensorflow\python\client\session.py", line 968, in run
    run_metadata_ptr)
  File "D:\Deepfacelab1120\_internal\python-3.6.8\lib\site-packages\tensorflow\python\client\session.py", line 1160, in _run
    np_val = np.asarray(subfeed_val, dtype=subfeed_dtype)
  File "D:\Deepfacelab1120\_internal\python-3.6.8\lib\site-packages\numpy\core\_asarray.py", line 83, in asarray
    return array(a, dtype, copy=False, order=order)
ValueError: setting an array element with a sequence.
任务处理完成.
请按任意键继续. . .
回复 支持 反对

使用道具 举报

14

主题

3427

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18540

真我风采勋章万事如意节日勋章

 楼主| 发表于 2024-12-12 11:10:55 | 显示全部楼层
本帖最后由 wtxx8888 于 2024-12-12 12:15 编辑
长大后才知道 发表于 2024-12-12 09:04
大佬,我最近尝试使用这个版本训练的时候一直出现这个问题是什么情况,有的时候在启动训练的时候就开始报 ...

你BS开的太极限了吧?
导致处理文件样本的列表时(DST的),数据错误,降低一到两个BS尝试。
太极限的BS,毛病很多,还可能会造成图像的错乱。
LOSS不明状态的突然暴增(预览图像花一阵子,随即恢复正常),也是BS太极限了。
并不是,不炸显存(报错OOM),就万事无忧了,太极限太勉强的BS值,也不行。
一般需要炸显存之下,让出2到3个BS,只让1个就属于太极限。
BS值,对于单数还是双数,没有限制,单数也没问题。

另外这问题,也可能是虚拟内存不足造成的,也可以尝试检查下,虚拟内存的设置。
SampleGeneratorFace.py这个文件,是处理面部数据样本的,后继一连串的样本运算,全部报错
回复 支持 反对

使用道具 举报

2

主题

90

帖子

1150

积分

初级丹圣

Rank: 8Rank: 8

积分
1150

万事如意节日勋章

发表于 2024-12-12 12:24:32 | 显示全部楼层
wtxx8888 发表于 2024-12-12 11:10
你BS开的太极限了吧?
导致处理文件样本的列表时(DST的),数据错误,降低一到两个BS尝试。
太极限的BS, ...

但我换了一个320的丹,把BS降低到4 也出现了同样的报错
回复 支持 反对

使用道具 举报

14

主题

3427

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18540

真我风采勋章万事如意节日勋章

 楼主| 发表于 2024-12-12 13:38:33 | 显示全部楼层
本帖最后由 wtxx8888 于 2024-12-12 13:48 编辑
长大后才知道 发表于 2024-12-12 12:24
但我换了一个320的丹,把BS降低到4 也出现了同样的报错

本地测试过,是没问题的。
我发了两个多月了,两千多的下载,你是第一个说这个报错。
我个人,也天天用着呢,虽然是20版的,有问题,早就发现了。

或者你用20版的,或DX12的试试,有同样报错没?这俩我知道的,就很多人在用。
毕竟我显卡不是30系及以上,30版,确实不能百分百肯定。

代码没改动过涉及硬件的,理论上,改动过的代码,本身就是三版通用的(除了DX12版的原硬件代码,不支持新的GAN参数外)。
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2025-7-19 21:55 , Processed in 0.116202 second(s), 31 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表