报错

wmzk666666 · 发表于 2023-9-16 18:06:15

星级打分

1
2
3
4
5

平均分:NAN 参与人数:0 我的评分:未评

请问大佬们这种是啥情况

错误：发现 2 个根错误。
(0) 资源耗尽：通过分配器 GPU_0_bfc [[
node Pad_17 (定义at D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\Conv2D.py:87) ]]
提示：如果您想在 OOM 发生时查看分配的张量列表，请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时，此功能不可用。

[[concat_7/concat/_153]]

提示：如果您想在 OOM 发生时查看分配的张量列表，请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时，此功能不可用。

(1) 资源耗尽：通过分配器 GPU_0_bfc [[node Pad_17 (
定义at D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\Conv2D.py:87) ]]
提示：如果您想在 OOM 发生时查看分配的张量列表，请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时，此功能不可用。

0 次成功操作。
0 个派生错误被忽略。

错误可能源自输入操作。
连接到节点 Pad_17 的输入源操作：
LeakyRelu_16（定义于 D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py:29）

连接到节点 Pad_17 的输入源操作：
LeakyRelu_16（定义于 D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py:29）

“Pad_17”的原始堆栈跟踪：
文件“threading.py”，第 884 行，在 _bootstrap
文件“threading.py”，第 916 行，在 _bootstrap_inner
文件“threading.py”，第 864 行，在运行
文件“D:\DFL_RTX3000_series_2023_internal \DFL\mainscripts\Trainer.py”，第 58 行，在 trainerThread
debug=debug 中）
文件“D:\DFL_RTX3000_series_2023_internal\DFL\models\ModelBase.py”，第 193 行，在init
self.on_initialize()
文件“D:\ DFL_RTX3000_series_2023_internal\DFL\models\Model_SAEHD\Model.py”，第 424 行，在 on_initialize
gpu_pred_src_src，gpu_pred_src_srcm = self.decoder(gpu_src_code)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\模型\ModelBase.py”，第 117 行,通话中
return self.forward(*args, **kwargs)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py”，第 225 行，前进
x = self.upscale2(x)
文件“D:\ DFL_RTX3000_series_2023_internal\DFL\core\leras\models\ModelBase.py”，第 117 行，调用中返回
self.forward(*args, **kwargs)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py ”，第 71 行，前向
x = self.conv1(x)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\LayerBase.py”，第 14 行，调用中return
self.forward(*args, ** kwargs)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\Conv2D.py”，第 87 行，向前
x = tf.pad (x,填充，模式='恒定'）
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\util\dispatch.py”，第 206 行，包装器返回目标
(*args，**kwargs)
文件“D:\ DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\ops\array_ops.py”，第 3528 行，在 pad
结果 = gen_array_ops.pad(tensor, paddings, name=name)
文件“D:\DFL_RTX3000_series_2023_internal \python-3.6.8\lib\site-packages\tensorflow\python\ops\gen_array_ops.py”，第 6487 行，在垫“
Pad”中，输入=输入，填充=填充，名称=名称）
文件“D：\ DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\framework\op_def_library.py”，第 750 行，在 _apply_op_helper
attrs=attr_protos，op_def=op_def 中）
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\framework\ops.py”，第 3569 行，在 _create_op_internal op_def=op_def 中) 文件“D:\DFL_RTX3000_series_2023_internal\python-
3.6
. 8\lib\site-packages\tensorflow\python\framework\ops.py”，第 2045 行，在init
self._traceback = tf_stack.extract_stack_for_node(self._c_op)中

回溯（最近一次调用最后一次）：
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\client\session.py”，第 1375 行，在 _do_call return
fn(*args)
文件中“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\client\session.py”，第 1360 行，在 _run_fn target_list、run_metadata 中）文件
“
D:\DFL_RTX3000_series_2023_internal\python-3.6.8 \lib\site-packages\tensorflow\python\client\session.py”，第 1453 行，在 _call_tf_sessionrun
run_metadata 中）
tensorflow.python.framework.errors_impl.ResourceExhaustedError：发现 2 个根错误。

(0) 资源耗尽：通过分配器 GPU_0_bfc [[{{node Pad_17] 在 /job:localhost/replica:0/task:0/device:GPU:0 上分配形状为 [2048,66,66] 的张量并键入 float 时出现 OOM }}]]
提示：如果您想在 OOM 发生时查看已分配张量的列表，请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时，此功能不可用。

[[concat_7/concat/_153]]

提示：如果您想在 OOM 发生时查看分配的张量列表，请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时，此功能不可用。

(1) 资源耗尽：通过分配器 GPU_0_bfc [[{{node Pad_17]在 /job:localhost/replica:0/task:0/device:GPU:0 上分配形状为 [2048,66,66] 的张量并键入 float 时出现 OOM }}]]
提示：如果您想在 OOM 发生时查看已分配张量的列表，请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时，此功能不可用。

0 次成功操作。
0 个派生错误被忽略。

在处理上述异常的过程中，又出现了一个异常：

回溯（最近一次调用最后）：
文件“D：\ DFL_RTX3000_series_2023_internal \ DFL \ mainscripts \ Trainer.py”，第133行，在trainerThread
iter中，iter_time = model.train_one_iter（）
文件“D：\ DFL_RTX3000_series_2023_internal \ DFL \ models \ ModelBase .py”，第 474 行，在 train_one_iter 中，
loss = self.onTrainOneIter()
文件“D:\DFL_RTX3000_series_2023_internal\DFL\models\Model_SAEHD\Model.py”，第 774 行，在 onTrainOneIter
src_loss, dst_loss = self.src_dst_train (warped_src, target_src) ，target_srcm，target_srcm_em，warped_dst，target_dst，target_dstm，target_dstm_em）
文件“D：\ DFL_RTX3000_series_2023_internal \ DFL \ models \ Model_SAEHD \ Model.py”，第584行，在src_dst_train
self.target_dstm_em：target_dstm_em中，
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\client\session.py”，第 968 行，运行 run_metadata_ptr) 文件“D:\DFL_RTX3000_series_2023_internal\python-
3.6.8
\ lib\site-packages\tensorflow\python\client\session.py”，第 1191 行，在 _run
feed_dict_tensor、选项、run_metadata 中）
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python \client\session.py”，第 1369 行，在 _do_run
run_metadata 中)
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\client\session.py”，第 1394 行，在 _do_call 中
raise type(e)(node_def, op, message) # pylint: 禁用=无参数值
tensorflow.python.framework.errors_impl.ResourceExhaustedError：发现 2 个根错误。
(0) 资源耗尽：通过分配器 GPU_0_bfc [[
node Pad_17 (定义at D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\Conv2D.py:87) ]]
提示：如果您想在 OOM 发生时查看分配的张量列表，请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时，此功能不可用。

[[concat_7/concat/_153]]

提示：如果您想在 OOM 发生时查看分配的张量列表，请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时，此功能不可用。

(1) 资源耗尽：通过分配器 GPU_0_bfc [[node Pad_17 (
定义at D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\Conv2D.py:87) ]]
提示：如果您想在 OOM 发生时查看分配的张量列表，请将 report_tensor_allocations_upon_oom 添加到 RunOptions 以获取当前分配信息。在 Eager 模式下运行时，此功能不可用。

0 次成功操作。
0 个派生错误被忽略。

错误可能源自输入操作。
连接到节点 Pad_17 的输入源操作：
LeakyRelu_16（定义于 D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py:29）

连接到节点 Pad_17 的输入源操作：
LeakyRelu_16（定义于 D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py:29）

“Pad_17”的原始堆栈跟踪：
文件“threading.py”，第 884 行，在 _bootstrap
文件“threading.py”，第 916 行，在 _bootstrap_inner
文件“threading.py”，第 864 行，在运行
文件“D:\DFL_RTX3000_series_2023_internal \DFL\mainscripts\Trainer.py”，第 58 行，在 trainerThread
debug=debug 中）
文件“D:\DFL_RTX3000_series_2023_internal\DFL\models\ModelBase.py”，第 193 行，在init
self.on_initialize()
文件“D:\ DFL_RTX3000_series_2023_internal\DFL\models\Model_SAEHD\Model.py”，第 424 行，在 on_initialize
gpu_pred_src_src，gpu_pred_src_srcm = self.decoder(gpu_src_code)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\模型\ModelBase.py”，第 117 行,通话中
return self.forward(*args, **kwargs)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py”，第 225 行，前进
x = self.upscale2(x)
文件“D:\ DFL_RTX3000_series_2023_internal\DFL\core\leras\models\ModelBase.py”，第 117 行，调用中返回
self.forward(*args, **kwargs)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\archis\DeepFakeArchi.py ”，第 71 行，前向
x = self.conv1(x)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\LayerBase.py”，第 14 行，调用中return
self.forward(*args, ** kwargs)
文件“D:\DFL_RTX3000_series_2023_internal\DFL\core\leras\layers\Conv2D.py”，第 87 行，向前
x = tf.pad (x,填充，模式='恒定'）
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\util\dispatch.py”，第 206 行，包装器返回目标
(*args，**kwargs)
文件“D:\ DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\ops\array_ops.py”，第 3528 行，在 pad
结果 = gen_array_ops.pad(tensor, paddings, name=name)
文件“D:\DFL_RTX3000_series_2023_internal \python-3.6.8\lib\site-packages\tensorflow\python\ops\gen_array_ops.py”，第 6487 行，在垫“
Pad”中，输入=输入，填充=填充，名称=名称）
文件“D：\ DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\framework\op_def_library.py”，第 750 行，在 _apply_op_helper
attrs=attr_protos，op_def=op_def 中）
文件“D:\DFL_RTX3000_series_2023_internal\python-3.6.8\lib\site-packages\tensorflow\python\framework\ops.py”，第 3569 行，在 _create_op_internal op_def=op_def 中) 文件“D:\DFL_RTX3000_series_2023_internal\python-
3.6
. 8\lib\site-packages\tensorflow\python\framework\ops.py”，第 2045 行，在init
self._traceback = tf_stack.extract_stack_for_node(self._c_op)中

wmzk666666 · 发表于 2023-9-17 00:37:45

htyy 发表于 2023-9-17 00:24
4060跑不了8个应该，调低即可

感谢老哥.听你的改了之后可以了

redorangetooth · 发表于 2023-9-16 18:10:08

OOM，显存不足了。你是什么显卡？显存多少？如果显存太少的话要降低训练时的参数

wmzk666666 · 发表于 2023-9-16 19:52:31

本帖最后由 wmzk666666 于 2023-9-16 19:56 编辑

redorangetooth 发表于 2023-9-16 18:10
OOM，显存不足了。你是什么显卡？显存多少？如果显存太少的话要降低训练时的参数 ...

我是4060的显卡老哥.显存有5.33gb

番茄哥 · 发表于 2023-9-16 20:14:39

模型参数比较大，你的显存也比较小，可以把batch size调小，或者有些参数前期关闭，如果还不行，换套小参模型

htyy · 发表于 2023-9-17 00:24:23

4060跑不了8个应该，调低即可

wmzk666666 · 发表于 2023-9-17 00:40:03

番茄哥发表于 2023-9-16 20:14
模型参数比较大，你的显存也比较小，可以把batch size调小，或者有些参数前期关闭，如果还不行，换套小参模 ...

感谢老哥改小了之后可以了

		自动登录	找回密码
密码			立即注册（仅限QQ邮箱）

报错

开心娱乐节日勋章

万事如意节日勋章