deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 138|回复: 5

请教,猫版遮罩训练时出错如何调整?

[复制链接]

1

主题

60

帖子

1400

积分

初级丹圣

Rank: 8Rank: 8

积分
1400
 楼主| 发表于 前天 11:02 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
前不久试用猫之汉化Deepfacelab 2026新春情人节pytorch版 ,基本的切DST图也能直接出错,当时忘了截图。系统上装了多个python版本,都是3.12和3.13较高版本怀疑是自己系统文件不正确引起的就弃用了,沿用之前的猫版。





但使用这个猫版一直存在遮罩训练出错的问题。
D:\DeepFaceLab\_internal\python-3.6.8\lib\site-packages\numpy\core\fromnumeric.py:3420: RuntimeWarning: Mean of empty slice.
  out=out, **kwargs)
D:\DeepFaceLab\_internal\python-3.6.8\lib\site-packages\numpy\core\_methods.py:188: RuntimeWarning: invalid value encountered in double_scalars
  ret = ret.dtype.type(ret / rcount)
Error: 'numpy.float64' object is not iterable
Traceback (most recent call last):
  File "<frozen mainscripts.Trainer>", line 144, in trainerThread
TypeError: 'numpy.float64' object is not iterable
完成鸟哇.
Press any key to continue . . .



以前诸如DFL_UPTO2080TI_2023的其他版本正常训练时,一般在25分钟时自动记录保存一次并继续训练,但猫版训练到25分钟就自动挂了,断在这个界面。

遮罩模型训练25分钟出错

遮罩模型训练25分钟出错


回复

使用道具 举报

15

主题

3647

帖子

2万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
20297

真我风采勋章万事如意节日勋章

发表于 前天 17:14 | 显示全部楼层
本帖最后由 wtxx8888 于 2026-3-8 17:39 编辑

你这是numpy库的报错,代码尝试对一个numpy.float64的纯数据,进行迭代。
可迭代的数据,必须是数据集(数据列表),这里只有一个数据,是无法迭代的。

看了下原版代码,应该是Trainer.py的第144行,是求 LOSS平均值的.
这句应该是,对一段LOSS集群 求平均值(存盘间隔内的全部),你的代码这里,很可能是,只给了个当前的LOSS值。

你看看是不是这句的问题。 正确的是  
mean_loss = np.mean ( loss_history[save_iter:iter], axis=0)

标红才是正确写法,save_iter开始 到当前iter ,间隔内的一段。
回复 支持 反对

使用道具 举报

1

主题

60

帖子

1400

积分

初级丹圣

Rank: 8Rank: 8

积分
1400
 楼主| 发表于 昨天 19:24 | 显示全部楼层
本帖最后由 jinjin 于 2026-3-9 21:19 编辑

屏幕截图 2026-03-09 211545.png
我这个是DeepFaceLab整合CUDA+DML 双12版。
里面两个要红勾的文件夹都含这个Trainer.py文件

屏幕截图 2026-03-08 092907x.png

这个“_internal”程序文件夹大小居然达到了34G,差不是是其它版本的近10倍。其中python就有三个版本在里面14G的大小(python-3.6.7,python-3.6.8,python-3.8.5)。
屏幕截图 2026-03-09 191831.png

回复 支持 反对

使用道具 举报

15

主题

3647

帖子

2万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
20297

真我风采勋章万事如意节日勋章

发表于 昨天 21:23 | 显示全部楼层
本帖最后由 wtxx8888 于 2026-3-9 21:29 编辑
jinjin 发表于 2026-3-9 19:24
我这个是DeepFaceLab整合CUDA+DML 双12版。
里面两个要红勾的文件夹都含这个Trainer.py文件

摆弄不明白,就换其他版本吧。 不遭罪吗?
我前面说的 看得懂,再考虑修改代码吧。
回复 支持 反对

使用道具 举报

1

主题

60

帖子

1400

积分

初级丹圣

Rank: 8Rank: 8

积分
1400
 楼主| 发表于 昨天 22:23 | 显示全部楼层
测试了三个版本,发现都是一样了,都是25分钟保存记录时断掉。
屏幕截图 2026-03-08 092907x.png
不同版本提示略有不同,都卡在3.6.8上。

屏幕截图 2026-03-09 210159.png
之前几个版本训练都是正常的,自从用了用猫之汉化版本之后,似乎就出现了不可逆转的问题。

屏幕截图 2026-03-09 221530.png
是不是用猫版之后的遮罩数据文件发生了问题?

回复 支持 反对

使用道具 举报

15

主题

3647

帖子

2万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
20297

真我风采勋章万事如意节日勋章

发表于 昨天 22:51 | 显示全部楼层
本帖最后由 wtxx8888 于 2026-3-10 02:02 编辑
jinjin 发表于 2026-3-9 22:23
测试了三个版本,发现都是一样了,都是25分钟保存记录时断掉。

不同版本提示略有不同,都卡在3.6.8上。

2026-03-09_224701.png

查上图标注变量 mean_loss 的相关代码。
看不懂,就别再问了,超出你能力的事,强求不了!
我 看着都累。。。(自己看几个报错的 路径,都是自带的368,互不干涉 谁也影响不到谁)
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2026-3-10 21:28 , Processed in 0.108876 second(s), 34 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表