deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 635|回复: 6

报错

[复制链接]

1

主题

4

帖子

286

积分

初级丹师

Rank: 3Rank: 3

积分
286
 楼主| 发表于 2023-9-16 18:06:15 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评

请问大佬们这种是啥情况
错误:发现 2 个根错误。
(0) 资源耗尽:通过分配器 GPU_0_bfc [[
node Pad_17 (定义at D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\Conv2D.py:87) ]]
提示:如果您想在 OOM 发生时查看分配的张量列表,请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时,此功能不可用。
     [[concat_7/concat/_153]]

提示:如果您想在 OOM 发生时查看分配的张量列表,请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时,此功能不可用。
(1) 资源耗尽:通过分配器 GPU_0_bfc [[node Pad_17 (
定义at D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\Conv2D.py:87) ]]
提示:如果您想在 OOM 发生时查看分配的张量列表,请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时,此功能不可用。
0 次成功操作。
0 个派生错误被忽略。
错误可能源自输入操作。
连接到节点 Pad_17 的输入源操作:
LeakyRelu_16(定义于 D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py:29)
连接到节点 Pad_17 的输入源操作:
LeakyRelu_16(定义于 D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py:29)
“Pad_17”的原始堆栈跟踪:
文件“threading.py”,第 884 行,在 _bootstrap
文件“threading.py”,第 916 行,在 _bootstrap_inner
文件“threading.py”,第 864 行,在运行
文件“D:\DFL_RTX3000_series_2023_internal \DFL\mainscripts\Trainer.py”,第 58 行,在 trainerThread
debug=debug 中)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\models\ModelBase.py”,第 193 行,在init
self.on_initialize()
文件“D:\ DFL_RTX3000_series_2023_internal\DFL\models\Model_SAEHD\Model.py”,第 424 行,在 on_initialize
gpu_pred_src_src,gpu_pred_src_srcm = self.decoder(gpu_src_code)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\模型\ModelBase.py”,第 117 行,通话中
return self.forward(*args, **kwargs)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py”,第 225 行,前进
x = self.upscale2(x)
文件“D:\ DFL_RTX3000_series_2023_internal\DFL\core\leras\models\ModelBase.py”,第 117 行,调用中返回
self.forward(*args, **kwargs)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py ”,第 71 行,前向
x = self.conv1(x)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\LayerBase.py”,第 14 行,调用中return
self.forward(*args, ** kwargs)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\Conv2D.py”,第 87 行,向前
x = tf.pad (x,填充,模式='恒定')
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\util\dispatch.py​​”,第 206 行,包装器返回目标
(*args,**kwargs)
文件“D:\ DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\ops\array_ops.py”,第 3528 行,在 pad
结果 = gen_array_ops.pad(tensor, paddings, name=name)
文件“D:\DFL_RTX3000_series_2023_internal \python-3.6.8\lib\site-packages\tensorflow\python\ops\gen_array_ops.py”,第 6487 行,在垫“
Pad”中,输入=输入,填充=填充,名称=名称)
文件“D:\ DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\framework\op_def_library.py”,第 750 行,在 _apply_op_helper
attrs=attr_protos,op_def=op_def 中)
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\framework\ops.py”,第 3569 行,在 _create_op_internal op_def=op_def 中) 文件“D:\DFL_RTX3000_series_2023_internal\python-
3.6
. 8\lib\site-packages\tensorflow\python\framework\ops.py”,第 2045 行,在init
self._traceback = tf_stack.extract_stack_for_node(self._c_op)中
回溯(最近一次调用最后一次):
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\client\session.py”,第 1375 行,在 _do_call return
fn(*args)
文件中“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\client\session.py”,第 1360 行,在 _run_fn target_list、run_metadata 中)文件

D:\DFL_RTX3000_series_2023_internal\python-3.6.8 \lib\site-packages\tensorflow\python\client\session.py”,第 1453 行,在 _call_tf_sessionrun
run_metadata 中)
tensorflow.python.framework.errors_impl.ResourceExhaustedError:发现 2 个根错误。

(0) 资源耗尽:通过分配器 GPU_0_bfc [[{{node Pad_17] 在 /job:localhost/replica:0/task:0/device:GPU:0 上分配形状为 [2048,66,66] 的张量并键入 float 时出现 OOM }}]]
提示:如果您想在 OOM 发生时查看已分配张量的列表,请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时,此功能不可用。
     [[concat_7/concat/_153]]

提示:如果您想在 OOM 发生时查看分配的张量列表,请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时,此功能不可用。

(1) 资源耗尽:通过分配器 GPU_0_bfc [[{{node Pad_17]在 /job:localhost/replica:0/task:0/device:GPU:0 上分配形状为 [2048,66,66] 的张量并键入 float 时出现 OOM }}]]
提示:如果您想在 OOM 发生时查看已分配张量的列表,请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时,此功能不可用。
0 次成功操作。
0 个派生错误被忽略。
在处理上述异常的过程中,又出现了一个异常:
回溯(最近一次调用最后):
文件“D:\ DFL_RTX3000_series_2023_internal \ DFL \ mainscripts \ Trainer.py”,第133行,在trainerThread
iter中,iter_time = model.train_one_iter()
文件“D:\ DFL_RTX3000_series_2023_internal \ DFL \ models \ ModelBase .py”,第 474 行,在 train_one_iter 中,
loss = self.onTrainOneIter()
文件“D:\DFL_RTX3000_series_2023_internal\DFL\models\Model_SAEHD\Model.py”,第 774 行,在 onTrainOneIter
src_loss, dst_loss = self.src_dst_train (warped_src, target_src) ,target_srcm,target_srcm_em,warped_dst,target_dst,target_dstm,target_dstm_em)
文件“D:\ DFL_RTX3000_series_2023_internal \ DFL \ models \ Model_SAEHD \ Model.py”,第584行,在src_dst_train
self.target_dstm_em:target_dstm_em中,
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\client\session.py”,第 968 行,运行 run_metadata_ptr) 文件“D:\DFL_RTX3000_series_2023_internal\python-
3.6.8
\ lib\site-packages\tensorflow\python\client\session.py”,第 1191 行,在 _run
feed_dict_tensor、选项、run_metadata 中)
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python \client\session.py”,第 1369 行,在 _do_run
run_metadata 中)
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\client\session.py”,第 1394 行,在 _do_call 中
raise type(e)(node_def, op, message) # pylint: 禁用=无参数值
tensorflow.python.framework.errors_impl.ResourceExhaustedError:发现 2 个根错误。
(0) 资源耗尽:通过分配器 GPU_0_bfc [[
node Pad_17 (定义at D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\Conv2D.py:87) ]]
提示:如果您想在 OOM 发生时查看分配的张量列表,请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时,此功能不可用。
     [[concat_7/concat/_153]]

提示:如果您想在 OOM 发生时查看分配的张量列表,请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时,此功能不可用。
(1) 资源耗尽:通过分配器 GPU_0_bfc [[node Pad_17 (
定义at D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\Conv2D.py:87) ]]
提示:如果您想在 OOM 发生时查看分配的张量列表,请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时,此功能不可用。
0 次成功操作。
0 个派生错误被忽略。
错误可能源自输入操作。
连接到节点 Pad_17 的输入源操作:
LeakyRelu_16(定义于 D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py:29)
连接到节点 Pad_17 的输入源操作:
LeakyRelu_16(定义于 D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py:29)
“Pad_17”的原始堆栈跟踪:
文件“threading.py”,第 884 行,在 _bootstrap
文件“threading.py”,第 916 行,在 _bootstrap_inner
文件“threading.py”,第 864 行,在运行
文件“D:\DFL_RTX3000_series_2023_internal \DFL\mainscripts\Trainer.py”,第 58 行,在 trainerThread
debug=debug 中)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\models\ModelBase.py”,第 193 行,在init
self.on_initialize()
文件“D:\ DFL_RTX3000_series_2023_internal\DFL\models\Model_SAEHD\Model.py”,第 424 行,在 on_initialize
gpu_pred_src_src,gpu_pred_src_srcm = self.decoder(gpu_src_code)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\模型\ModelBase.py”,第 117 行,通话中
return self.forward(*args, **kwargs)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py”,第 225 行,前进
x = self.upscale2(x)
文件“D:\ DFL_RTX3000_series_2023_internal\DFL\core\leras\models\ModelBase.py”,第 117 行,调用中返回
self.forward(*args, **kwargs)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py ”,第 71 行,前向
x = self.conv1(x)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\LayerBase.py”,第 14 行,调用中return
self.forward(*args, ** kwargs)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\Conv2D.py”,第 87 行,向前
x = tf.pad (x,填充,模式='恒定')
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\util\dispatch.py​​”,第 206 行,包装器返回目标
(*args,**kwargs)
文件“D:\ DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\ops\array_ops.py”,第 3528 行,在 pad
结果 = gen_array_ops.pad(tensor, paddings, name=name)
文件“D:\DFL_RTX3000_series_2023_internal \python-3.6.8\lib\site-packages\tensorflow\python\ops\gen_array_ops.py”,第 6487 行,在垫“
Pad”中,输入=输入,填充=填充,名称=名称)
文件“D:\ DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\framework\op_def_library.py”,第 750 行,在 _apply_op_helper
attrs=attr_protos,op_def=op_def 中)
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\framework\ops.py”,第 3569 行,在 _create_op_internal op_def=op_def 中) 文件“D:\DFL_RTX3000_series_2023_internal\python-
3.6
. 8\lib\site-packages\tensorflow\python\framework\ops.py”,第 2045 行,在init
self._traceback = tf_stack.extract_stack_for_node(self._c_op)中

回复

使用道具 举报

1

主题

4

帖子

286

积分

初级丹师

Rank: 3Rank: 3

积分
286
 楼主| 发表于 2023-9-17 00:37:45 | 显示全部楼层
htyy 发表于 2023-9-17 00:24
4060跑不了8个应该,调低即可

感谢老哥.听你的改了之后可以了
回复 支持 1 反对 0

使用道具 举报

2

主题

11

帖子

132

积分

高级丹童

Rank: 2

积分
132

开心娱乐节日勋章

发表于 2023-9-16 18:10:08 | 显示全部楼层
OOM,显存不足了。你是什么显卡?显存多少?如果显存太少的话要降低训练时的参数
回复 支持 反对

使用道具 举报

1

主题

4

帖子

286

积分

初级丹师

Rank: 3Rank: 3

积分
286
 楼主| 发表于 2023-9-16 19:52:31 | 显示全部楼层
本帖最后由 wmzk666666 于 2023-9-16 19:56 编辑
redorangetooth 发表于 2023-9-16 18:10
OOM,显存不足了。你是什么显卡?显存多少?如果显存太少的话要降低训练时的参数 ...

我是4060的显卡老哥.显存有5.33gb


image.png

image.png
回复 支持 反对

使用道具 举报

1

主题

165

帖子

2346

积分

初级丹圣

Rank: 8Rank: 8

积分
2346
发表于 2023-9-16 20:14:39 | 显示全部楼层
模型参数比较大,你的显存也比较小,可以把batch size调小,或者有些参数前期关闭,如果还不行,换套小参模型
回复 支持 反对

使用道具 举报

13

主题

392

帖子

2621

积分

初级丹圣

Rank: 8Rank: 8

积分
2621
发表于 2023-9-17 00:24:23 | 显示全部楼层
4060跑不了8个应该,调低即可
回复 支持 反对

使用道具 举报

1

主题

4

帖子

286

积分

初级丹师

Rank: 3Rank: 3

积分
286
 楼主| 发表于 2023-9-17 00:40:03 | 显示全部楼层
番茄哥 发表于 2023-9-16 20:14
模型参数比较大,你的显存也比较小,可以把batch size调小,或者有些参数前期关闭,如果还不行,换套小参模 ...

感谢 老哥改小了之后可以了
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-9-24 00:32 , Processed in 0.099785 second(s), 12 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表