deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 62|回复: 4

优化预览显示文件名与loss值

[复制链接]

27

主题

192

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
11859
 楼主| 发表于 9 小时前 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评

优化预览显示文件名与loss值
只适用我的 : DFL 原版焕新:完美适配 RTX 30-50 系,算力性能翻倍! 版本,其它版本,会导致错误,不要使用。


256分辨率: ScreenShot_2026-04-18_010828_953.jpg
512分辨率: ScreenShot_2026-04-18_004944_109.jpg

使用方法:解压,覆盖同名文件
预览文件名及Loss补丁.tar (91.5 KB, 下载次数: 2)



回复

使用道具 举报

15

主题

3670

帖子

2万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
20577

真我风采勋章万事如意节日勋章

发表于 9 小时前 | 显示全部楼层
本帖最后由 wtxx8888 于 2026-4-18 01:36 编辑

果然 也是真爱。。。
不过混合精度  20系就能开,为什么没写呢?
甚至16系 都能开混合精度,只不过16系 开混合精度 是负优化。。。
回复 支持 反对

使用道具 举报

27

主题

192

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
11859
 楼主| 发表于 9 小时前 | 显示全部楼层
wtxx8888 发表于 2026-4-18 01:34
果然 也是真爱。。。
不过混合精度  20系就能开,为什么没写呢?
甚至16系 都能开混合精度,只不过16系 开 ...

fp16不太行,很容易nan,主要是用bf16计算,fp32保存,达到速度与质量的结合,30系以下好像不支持bf16吧?
回复 支持 反对

使用道具 举报

27

主题

192

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
11859
 楼主| 发表于 9 小时前 | 显示全部楼层
wtxx8888 发表于 2026-4-18 01:34
果然 也是真爱。。。
不过混合精度  20系就能开,为什么没写呢?
甚至16系 都能开混合精度,只不过16系 开 ...

真爱也是真爱,懒也是个原因,搞其它src素材不容易
我去查了下资料:
NVIDIA 的 GeForce RTX 20 系列显卡(Turing 架构)不支持硬件原生的 bfloat16 (BF16) 数据格式。

BF16 硬件加速是从 Ampere 架构(即 RTX 30 系列及以上) 开始引入的。以下是 20 系显卡在 AI 模型运行中遇到 BF16 格式时的关键细节:
1. 硬件限制
架构缺失:20 系列采用的 Turing 架构虽然拥有 Tensor Cores,但仅支持 FP16、INT8、INT4 等格式,并不具备 BF16 的原生计算单元。
计算效率:由于缺乏硬件支持,如果在 20 系显卡(如 RTX 2080 Ti)上强制运行 BF16 模型,程序通常会报错或回退(Fallback)到 FP32(单精度)进行模拟计算。这会导致显存占用翻倍,且运行速度极慢。
回复 支持 反对

使用道具 举报

15

主题

3670

帖子

2万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
20577

真我风采勋章万事如意节日勋章

发表于 8 小时前 | 显示全部楼层
本帖最后由 wtxx8888 于 2026-4-18 03:19 编辑
iyuandou 发表于 2026-4-18 01:55
fp16不太行,很容易nan,主要是用bf16计算,fp32保存,达到速度与质量的结合,30系以下好像不支持bf16吧 ...

混合精度的概念,本身 就是从20系发展来的。
BF16是把混合精度 自动化了。并不是BF16才叫混合精度,FP32 与 FP16并存,就叫 混合精度。
20系需要 纯手搓代码。。。走FP16 AMP,要配合GradScaler 使用(TensorFlow是用这个  tf.keras.mixed_precision),动态缩放损失 以避免梯度下溢。
我写完了(Torch版),但没20的卡 没测。
理论上 跟BF16 AMP一样,精度 就低1个百分点(BF16 AMP精度是97.X,20系手搓 FP16 AMP是 96.X)。

我还写了 16系的混合精度,更是全程的代码控制(AMP加速 都吃不到)。
16系确实也能跑 混合精度,显存也能减半,然而,迭代耗时 翻倍。
代码太多了,不但抵消了 混合精度的红利,还特么更慢了直接吐了(我就是16系 哎)。。。
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2026-4-18 10:58 , Processed in 0.127982 second(s), 34 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表