deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 68|回复: 1

所谓的50系DFL现在根本就没实现

[复制链接]

44

主题

576

帖子

2万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
22715
 楼主| 发表于 8 小时前 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
本帖最后由 dfl9999 于 2025-10-13 08:15 编辑

Snipaste_2025-10-13_00-51-24.jpg

怀着沉痛的心情写下这些,把4090D卖了换5090D期待的提升根本没有,换了几个支持50系的DFL版本,训练延迟从40系的500MS飙升到1300MS,安装了所谓的CUDA12.8和CUDNN 9,提升到1200MS,后来狗急跳墙尝试开启FP16,50系不是最擅长的FP16吗,显存使用量马上减少了一半,悲剧的是DFL的进程跟FP16的CUDA上下文都没办法衔接,软件变成了一个单进程软件,所有操作回退到单进程,一核有难31核围观,延迟也FP32的1200MS变成77秒,终于知道修改者和作者为什么要把FP16注释掉了,因为DFL底层架构上就是一个FP32软件,不支持混合精度,当现在所有AI软件都转向FP16迈向FP8的时候,DFL在FP32上止步了,除非有大神完成FP16的适配,目前勉强能用的FP32精度的1200MS延迟我是绝对不能接受的,而50系又是FP16优化的,让50系去运行FP32就是让李逵去绣花,显存使用跟40系版本比起来也超级加倍,速度减半,手上还有40系卡还想用DFL的别急着换卡,目前的情况就是一坨,像我这种庸人的努力在绝对的技术鸿沟面前都是笑话,手上有50卡又实在想用的,可以下载论坛的DeepFaceLab_NVIDIA_RTX5000_RTX4000 Pytorch 1.4.2个人免费版
回复

使用道具 举报

15

主题

3531

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
19440

真我风采勋章万事如意节日勋章

发表于 1 小时前 | 显示全部楼层
本帖最后由 wtxx8888 于 2025-10-13 08:41 编辑

用DX12版啊。都不至于,增加这么多延迟吧?
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2025-10-13 09:44 , Processed in 0.106623 second(s), 34 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表