继续继续，讨论一下怎样能精确的挑选错图、糊图

奇奇怪怪的ID · 发表于 2024-8-30 22:25:43

星级打分

1
2
3
4
5

平均分:NAN 参与人数:0 我的评分:未评

本帖最后由奇奇怪怪的ID 于 2024-9-1 08:01 编辑

原文再续，书接上一回，不知道怎么回事的可以看上一个帖子

这两天去给别人卖身，关于loss挑选的事没时间想这玩意儿

现在汇报一下当前进度（主要是希望大佬指点一下）

1.loss日志的导出，导出原理是在模型训练时调用自DFL为训练准备的样本数据，因为我训练的样本是万人SRC对练，loss输出我没做区分都写在同列，所以会存在多个相同文件名，大概长这个屌样。生成（training_log.csv）

2.loss分析，分析loss日志的准确性我做了两手准备，一是因为几个因素波动会导致loss值出现某一次训练输出的loss比以往高很多，这样会影响到我们后续挑选素材的依据，二就是整理写在同列存在多个相同文件名的问题了不方便阅读

a) 关于因素波动导致loss值异常的问题，我没想到什么好办法（望大佬们指导），干脆就是计算相同文件名的loss中最大值-最小值≥0.1则删除最大值

b）存在多行相同文件名，我将loss日志中相同文件名作为键，loss作为值，重新写入一份分析文件中，为什么在这里有这个动作而不是在导出时直接添加到键当中呢，是因为那个吊毛csv的增删改查会导致训练迭代时间多200ms的耗时，这个臣妾受不了

导出（分析.csv）

3.计算（分析.csv）数据并按计算方式的结果移动素材到相应文件夹，我做了三种计算loss的方式，分别是

# 创建一个新的CSV文件来存储处理后的数据
with open(processed_csv_file_path, mode='w', newline='', encoding='utf-8') as csvfile:
csv_writer = csv.writer(csvfile)

# 根据用户输入处理数据并写入文件
if user_input == '1':
      # 遍历字典并写入文件名和最小损失值
      for filename, losses in filename_losses.items():
         min_loss = min(losses)
         csv_writer.writerow([filename, min_loss])
elif user_input == '2':
      # 遍历字典并计算每个文件名的平均损失值
      for filename, losses in filename_losses.items():
         avg_loss = sum(losses) / len(losses)
         csv_writer.writerow([filename, avg_loss])
elif user_input == '3':
      # 遍历字典并写入文件名和最大损失值
      for filename, losses in filename_losses.items():
         max_loss = max(losses)
         csv_writer.writerow([filename, max_loss])
else:
      print("无效的输入，请输入1、2或3。")

我一般使用“2”计算平均值

根据计算方式挑选出来的素材是这样分布的

因为我现在模型的损失值0.21左右，基于当前模型的损失值，

我观察到0-0.1的素材有相当一部分是属于模糊的，这种素材反而练得快，loss掉得快，也不存在错图。

0.6往上的多是些奇葩角度和极端光影，当然也有模糊的、错图，需要自己分辨咯

最后！

我是想着写个窗口程序出来的，但是我还没学会...

所以还得等等，因为现在只是 .py文件，需要的模块啊什么的对大多数人不友好

游客，如果您要查看本帖隐藏内容请回复

dottingfly · 发表于 2024-8-30 23:11:49

学习一下

zhou041234 · 发表于 2024-8-31 03:48:57

还是没太看懂啊

jinjin · 发表于 2024-8-31 10:41:58

看得都有点头大

luckXu · 发表于 2024-8-31 22:31:47

不如直接用tb面板分析

DFL小白02 · 发表于 2024-9-1 04:51:09

之前别人做过，通过算法比较图片对比度，后来是把检测范围缩小到了遮罩人脸，但效果不怎么好

燕翎风 · 发表于 2024-9-1 07:41:28

学习学习

奇奇怪怪的ID · 发表于 2024-9-2 03:53:25

DFL小白02 发表于 2024-9-1 04:51
之前别人做过，通过算法比较图片对比度，后来是把检测范围缩小到了遮罩人脸，但效果不怎么好 ...

看来我还是没说明白，计算的是素材相对模型的loss，不是图片本身的loss

DFL小白02 · 发表于 2024-9-2 04:28:04

奇奇怪怪的ID 发表于 2024-9-2 03:53
看来我还是没说明白，计算的是素材相对模型的loss，不是图片本身的loss

我说的是素材本身模糊度的排序...计算loss相似度早就有人做完了

奇奇怪怪的ID · 发表于 2024-9-2 07:06:38

本帖最后由奇奇怪怪的ID 于 2024-9-2 07:21 编辑

DFL小白02 发表于 2024-9-2 04:28
我说的是素材本身模糊度的排序...计算loss相似度早就有人做完了

我找到了，你说的是这个吧更新：CLIP-IQA：只检测遮罩内脸部的清晰度来批量排序
https://dfldata.cc/forum.php?mod=viewthread&tid=18496
(出处: deepfacelab中文网)

		自动登录	找回密码
密码			立即注册（仅限QQ邮箱）

继续继续，讨论一下怎样能精确的挑选错图、糊图

浏览过的版块

万事如意节日勋章

开心娱乐节日勋章