大家有遇到Batch_size愈開愈小的狀況嗎

swda1234 · 发表于 2021-11-6 11:25:18

星级打分

1
2
3
4
5

平均分:NAN 参与人数:0 我的评分:未评

本帖最后由 swda1234 于 2021-11-6 11:56 编辑

我的顯卡是 3070 8G

原始綠坝丹的次數520萬
但只要我用我自己的DST SRC訓練過

Batch_size一開始可以開5~6

訓練過後，540萬後，關掉再重開訓練

Batch_size就必須下降才能跑!!!????
只能跑3~4

如果開眼睛修正等等，就只能下降到2

有大大遇過相同的狀況嗎

======================== Model Summary ========================
==                                                          ==
==          Model name: 256dffd_SAEHD                   ==
==                                                          ==
==    Current iteration: 5216128                         ==
==                                                          ==
==---------------------- Model Options ----------------------==
==                                                          ==
==          resolution: 256                               ==
==          face_type: f                               ==
==    models_opt_on_gpu: True                            ==
==                archi: df-d                            ==
==             ae_dims: 256                               ==
==             e_dims: 64                               ==
==             d_dims: 64                               ==
==          d_mask_dims: 22                               ==
==    masked_training: True                            ==
==          uniform_yaw: False                            ==
==          lr_dropout: y                               ==
==          random_warp: False                            ==
==          gan_power: 0.0                               ==
==    true_face_power: 0.0                               ==
==    face_style_power: 0.0                               ==
==       bg_style_power: 0.0                               ==
==             ct_mode: none                            ==
==             clipgrad: False                            ==
==             pretrain: False                            ==
==    autobackup_hour: 3                               ==
== write_preview_history: False                            ==
==          target_iter: 0                               ==
==          random_flip: True                            ==
==          batch_size: 3                               ==
==    eyes_mouth_prio: False                            ==
==       blur_out_mask: False                            ==
==          adabelief: True                            ==
==    random_src_flip: False                            ==
==    random_dst_flip: False                            ==
==       gan_patch_size: 32                               ==
==             gan_dims: 16                               ==
==                                                          ==
==----------------------- Running On ------------------------==
==                                                          ==
==       Device index: 0                               ==
==                Name: NVIDIA GeForce RTX 3070 Laptop GPU ==
==                VRAM: 6.45GB                            ==
==                                                          ==
===============================================================

swda1234 · 发表于 2021-11-6 11:35:38

本帖最后由 swda1234 于 2021-11-6 11:40 编辑

同樣條件下重開，就會顯示    顯存不足

Starting. Press "Enter" to stop training and save model.
Error: 2 root error(s) found.
  (0) Resource exhausted: OOM when allocating tensor with shape[3,3,512,1024] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc
      [[node mul_140 (defined at F:\FACE\DeepFace GOOD\CHINESE\DeepFaceLab_NVIDIA_RTX3000_series\DeepFaceLab_NVIDIA_RTX3000_series\_internal\DeepFaceLab\core\leras\optimizers\AdaBelief.py:63) ]]
Hint: If you want to see a list of allocated tensors when OOM happens, add report_tensor_allocations_upon_oom to RunOptions for current allocation info.

swda1234 · 发表于 2021-11-6 11:54:03

我的SRC截圖大小是2048X2048 大概1300張

DST是1280大概3500張

lalakia2012 · 发表于 2021-11-6 12:55:17

有邏輯就知道啦！

whl716694 · 发表于 2021-11-6 15:16:48

同问帮顶

swda1234 · 发表于 2021-11-7 23:06:46

lalakia2012 发表于 2021-11-6 12:55
有邏輯就知道啦！

所以丹也不是練越多越好對嗎因為開啟條件會被VRAM障礙(太多的丹吃掉太多)

Gottvonkarlberg · 发表于 2021-11-8 05:31:36

我也遇到过这种情况，我的解决办法有两个，一个是重启电脑（真的有用），另一个是重建一个模型参数和当前模型一样的模型，然后将它的XXX_data.dat文件改成和现有模型的这个文件的文件名相同，接着覆盖掉现有的模型的这个文件

20210901 · 发表于 2021-11-9 01:10:35

adabelief: True

这个后期可以关了。能省不少显存

swda1234 · 发表于 2021-11-9 01:57:28

Gottvonkarlberg 发表于 2021-11-8 05:31
我也遇到过这种情况，我的解决办法有两个，一个是重启电脑（真的有用），另一个是重建一个模型参数和当前模 ...

這個的意思是

假如我有一個a模型另新建一個參數相同沒跑過的全新的b模型，
然後把b的 b_data.dat改名為a_data.dat覆蓋過去a模型該檔案

這樣對嗎

Gottvonkarlberg · 发表于 2021-11-9 19:13:21

本帖最后由 Gottvonkarlberg 于 2021-11-9 19:14 编辑

swda1234 发表于 2021-11-9 01:57
這個的意思是

假如我有一個a模型另新建一個參數相同沒跑過的全新的b模型，

对的，不过一定要模型参数完全一致，不然预览图会变得和一个全新的模型一样全是糊的。不过在这样做之前记得备份原文件，以防意外

		自动登录	找回密码
密码			立即注册（仅限QQ邮箱）