优化预览显示文件名与loss值

iyuandou · 发表于 7 天前

星级打分

1
2
3
4
5

平均分:NAN 参与人数:0 我的评分:未评

优化预览显示文件名与loss值
只适用我的 : DFL 原版焕新：完美适配 RTX 30-50 系，算力性能翻倍！版本，其它版本，会导致错误，不要使用。

256分辨率：

512分辨率：

使用方法：解压，覆盖同名文件

预览文件名及Loss补丁.tar (91.5 KB, 下载次数: 11)

wtxx8888 · 发表于 7 天前

本帖最后由 wtxx8888 于 2026-4-18 01:36 编辑

果然也是真爱。。。
不过混合精度 20系就能开，为什么没写呢？
甚至16系都能开混合精度，只不过16系开混合精度是负优化。。。

iyuandou · 发表于 7 天前

wtxx8888 发表于 2026-4-18 01:34
果然也是真爱。。。
不过混合精度 20系就能开，为什么没写呢？
甚至16系都能开混合精度，只不过16系开 ...

fp16不太行，很容易nan，主要是用bf16计算，fp32保存，达到速度与质量的结合，30系以下好像不支持bf16吧？

iyuandou · 发表于 7 天前

wtxx8888 发表于 2026-4-18 01:34
果然也是真爱。。。
不过混合精度 20系就能开，为什么没写呢？
甚至16系都能开混合精度，只不过16系开 ...

真爱也是真爱，懒也是个原因，搞其它src素材不容易

我去查了下资料：
NVIDIA 的 GeForce RTX 20 系列显卡（Turing 架构）不支持硬件原生的 bfloat16 (BF16) 数据格式。

BF16 硬件加速是从 Ampere 架构（即 RTX 30 系列及以上）开始引入的。以下是 20 系显卡在 AI 模型运行中遇到 BF16 格式时的关键细节：
1. 硬件限制
架构缺失：20 系列采用的 Turing 架构虽然拥有 Tensor Cores，但仅支持 FP16、INT8、INT4 等格式，并不具备 BF16 的原生计算单元。
计算效率：由于缺乏硬件支持，如果在 20 系显卡（如 RTX 2080 Ti）上强制运行 BF16 模型，程序通常会报错或回退（Fallback）到 FP32（单精度）进行模拟计算。这会导致显存占用翻倍，且运行速度极慢。

wtxx8888 · 发表于 7 天前

本帖最后由 wtxx8888 于 2026-4-18 03:19 编辑

iyuandou 发表于 2026-4-18 01:55
fp16不太行，很容易nan，主要是用bf16计算，fp32保存，达到速度与质量的结合，30系以下好像不支持bf16吧 ...

混合精度的概念，本身就是从20系发展来的。
BF16是把混合精度自动化了。并不是BF16才叫混合精度，FP32 与 FP16并存，就叫混合精度。
20系需要纯手搓代码。。。走FP16 AMP，要配合GradScaler 使用（TensorFlow是用这个 tf.keras.mixed_precision），动态缩放损失以避免梯度下溢。
我写完了（Torch版），但没20的卡没测。
理论上跟BF16 AMP一样，精度就低1个百分点（BF16 AMP精度是97.X，20系手搓 FP16 AMP是 96.X）。

我还写了 16系的混合精度，更是全程的代码控制（AMP加速都吃不到）。
16系确实也能跑混合精度，显存也能减半，然而，迭代耗时翻倍。
代码太多了，不但抵消了混合精度的红利，还特么更慢了

直接吐了（我就是16系哎）。。。

iyuandou · 发表于 7 天前

wtxx8888 发表于 2026-4-18 02:49
混合精度的概念，本身就是从20系发展来的。
BF16是把混合精度自动化了。并不是BF16才叫混合精度，FP32 ...

你是真爱，原作者都放弃了FP16

wtxx8888 · 发表于 7 天前

本帖最后由 wtxx8888 于 2026-4-18 16:05 编辑

iyuandou 发表于 2026-4-18 14:35
你是真爱，原作者都放弃了FP16

原作者是全量FP16，和FP16 加FP32的混合精度，不是一码事。
BF16 AMP ，是FP16加FP32的自动模式（FP32与FP16 自动转换），
20系需要手搓，控制FP32的那部分代码（梯度控制部分是FP32）。（BF16 AMP这部分是全自动）
懂意思了没？
BF16是全自动混合精度（30系才支持，会自动判别哪是梯度，自动转回FP32，不需要特殊干预）。
20系是半自动，前向后向FP16 AMP，FT32部分（梯度）需要手动代码，控制转换回 FP32（推理前存的FP32副本，去验证梯度），就这个差别。
30系及以上是自动档，20系是手动档。

（原版是全量FP16，包括梯度也是FP16就必炸！梯度需要FP32验证才能不炸，这就是混合精度的理论）
我看的付费资料，本想让我的破 1660T沾点光，谁知道特么的负优化。

（能吃到显存减半，但迭代耗时翻倍）

		自动登录	找回密码
密码			立即注册（仅限QQ邮箱）

优化预览显示文件名与loss值

真我风采勋章

万事如意节日勋章