deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 392|回复: 6

优化预览显示文件名与loss值

[复制链接]

28

主题

197

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18124
 楼主| 发表于 7 天前 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评

优化预览显示文件名与loss值
只适用我的 : DFL 原版焕新:完美适配 RTX 30-50 系,算力性能翻倍! 版本,其它版本,会导致错误,不要使用。


256分辨率: ScreenShot_2026-04-18_010828_953.jpg
512分辨率: ScreenShot_2026-04-18_004944_109.jpg

使用方法:解压,覆盖同名文件
预览文件名及Loss补丁.tar (91.5 KB, 下载次数: 11)



回复

使用道具 举报

15

主题

3681

帖子

2万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
20668

真我风采勋章万事如意节日勋章

发表于 7 天前 | 显示全部楼层
本帖最后由 wtxx8888 于 2026-4-18 01:36 编辑

果然 也是真爱。。。
不过混合精度  20系就能开,为什么没写呢?
甚至16系 都能开混合精度,只不过16系 开混合精度 是负优化。。。
回复 支持 反对

使用道具 举报

28

主题

197

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18124
 楼主| 发表于 7 天前 | 显示全部楼层
wtxx8888 发表于 2026-4-18 01:34
果然 也是真爱。。。
不过混合精度  20系就能开,为什么没写呢?
甚至16系 都能开混合精度,只不过16系 开 ...

fp16不太行,很容易nan,主要是用bf16计算,fp32保存,达到速度与质量的结合,30系以下好像不支持bf16吧?
回复 支持 反对

使用道具 举报

28

主题

197

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18124
 楼主| 发表于 7 天前 | 显示全部楼层
wtxx8888 发表于 2026-4-18 01:34
果然 也是真爱。。。
不过混合精度  20系就能开,为什么没写呢?
甚至16系 都能开混合精度,只不过16系 开 ...

真爱也是真爱,懒也是个原因,搞其它src素材不容易
我去查了下资料:
NVIDIA 的 GeForce RTX 20 系列显卡(Turing 架构)不支持硬件原生的 bfloat16 (BF16) 数据格式。

BF16 硬件加速是从 Ampere 架构(即 RTX 30 系列及以上) 开始引入的。以下是 20 系显卡在 AI 模型运行中遇到 BF16 格式时的关键细节:
1. 硬件限制
架构缺失:20 系列采用的 Turing 架构虽然拥有 Tensor Cores,但仅支持 FP16、INT8、INT4 等格式,并不具备 BF16 的原生计算单元。
计算效率:由于缺乏硬件支持,如果在 20 系显卡(如 RTX 2080 Ti)上强制运行 BF16 模型,程序通常会报错或回退(Fallback)到 FP32(单精度)进行模拟计算。这会导致显存占用翻倍,且运行速度极慢。
回复 支持 反对

使用道具 举报

15

主题

3681

帖子

2万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
20668

真我风采勋章万事如意节日勋章

发表于 7 天前 | 显示全部楼层
本帖最后由 wtxx8888 于 2026-4-18 03:19 编辑
iyuandou 发表于 2026-4-18 01:55
fp16不太行,很容易nan,主要是用bf16计算,fp32保存,达到速度与质量的结合,30系以下好像不支持bf16吧 ...

混合精度的概念,本身 就是从20系发展来的。
BF16是把混合精度 自动化了。并不是BF16才叫混合精度,FP32 与 FP16并存,就叫 混合精度。
20系需要 纯手搓代码。。。走FP16 AMP,要配合GradScaler 使用(TensorFlow是用这个  tf.keras.mixed_precision),动态缩放损失 以避免梯度下溢。
我写完了(Torch版),但没20的卡 没测。
理论上 跟BF16 AMP一样,精度 就低1个百分点(BF16 AMP精度是97.X,20系手搓 FP16 AMP是 96.X)。

我还写了 16系的混合精度,更是全程的代码控制(AMP加速 都吃不到)。
16系确实也能跑 混合精度,显存也能减半,然而,迭代耗时 翻倍。
代码太多了,不但抵消了 混合精度的红利,还特么更慢了直接吐了(我就是16系 哎)。。。
回复 支持 反对

使用道具 举报

28

主题

197

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18124
 楼主| 发表于 7 天前 | 显示全部楼层
wtxx8888 发表于 2026-4-18 02:49
混合精度的概念,本身 就是从20系发展来的。
BF16是把混合精度 自动化了。并不是BF16才叫混合精度,FP32  ...

你是真爱,原作者都放弃了FP16
回复 支持 反对

使用道具 举报

15

主题

3681

帖子

2万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
20668

真我风采勋章万事如意节日勋章

发表于 7 天前 | 显示全部楼层
本帖最后由 wtxx8888 于 2026-4-18 16:05 编辑
iyuandou 发表于 2026-4-18 14:35
你是真爱,原作者都放弃了FP16

原作者 是全量FP16,和FP16 加FP32的混合精度,不是一码事。
BF16 AMP ,是FP16加FP32的 自动模式(FP32与FP16 自动转换),
20系 需要手搓,控制FP32的 那部分代码(梯度控制部分 是FP32)。(BF16 AMP这部分 是全自动)
懂意思了 没?
BF16是全自动 混合精度(30系才支持,会自动判别哪是梯度,自动转回FP32,不需要 特殊干预)。
20系 是半自动,前向后向FP16 AMP,FT32部分(梯度) 需要手动代码,控制转换回 FP32(推理前 存的FP32副本,去验证梯度),就这个 差别。
30系及以上 是自动档,20系 是手动档。
(原版 是全量FP16,包括梯度 也是FP16就必炸!梯度 需要FP32验证 才能不炸,这就是混合精度 的理论)
我看的 付费资料,本想让我的破 1660T沾点光,谁知道 特么的负优化。(能吃到显存减半,但迭代耗时 翻倍)
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2026-4-25 17:01 , Processed in 0.119619 second(s), 34 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表