deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 1544|回复: 12

【神农汉化】RG | DML | FP16 非常重要的测评

[复制链接]

68

主题

468

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
15897

万事如意节日勋章

 楼主| 发表于 2024-3-20 04:17:36 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
本帖最后由 Lau9 于 2024-3-22 18:05 编辑


2024/3/22 更新:

TF模式RGBSFP16时间ms
CUDA8320
CUDA8250
DX128235
DML8350
DML8250
CUDA1923650
CUDA1923200能开但是中途崩掉了
DML1927200
CUDA1923320
CUDA1601920
DML1603950
DX1290开不起
CUDA961200
CUDA90开不起
DX1232780
CUDA32535
CUDA32465
DML32825
DML32780
DML321220
CUDA32735
CUDA2564550
CUDA3206300


新增了FP16这个变量。

结论是:
1.FP16一定会提高BS上限

2.FP16对速度的提升非常轻微。不到一成

3.所以我打算保留这个参数,虽然不建议使用。
有没有可能导出dfm和直播的时候也节约显存呢?

----------------------------------------------------------------------
2024/3/20:

dx12我不详细介绍了,我打算舍弃掉独立的model mlnet.py
一律用DML的python环境来实现无痛切换(DX12和DML的区别在于前者能显示A卡或N卡,后者一律显示“DML”。前者显存正常,后者显存虚高)

关于【RG优化】的结论:
1.确实很影响速度,这点出乎了我的意料,迭代耗时大概是150%
2.确实对BS的提升非常大。提高50~100%的BS

关于DML的结论:
1.略微比DX12慢,但是可以忽略不计
2.其实DX12是开不了【RG优化】的,但是DML可以
3.DML和RG同时开的时候有可能会比较慢。目前看来BS越小差距越小,BS越大差距越大。

综上所述,我打算完全引用DML,使整合包节省一大半的空间。也有利于版本的统一
(不然dx12和cuda的代码不同,
导致我这次升级1.8.6的时候,dx12还停留在1.5.4。
而dml可以直接使用cuda的代码)

接下来我对于原版和MVE版 都会有重大优化!
灵活开关RG是重中之重
QQ截图20240320040041.png
回复

使用道具 举报

68

主题

468

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
15897

万事如意节日勋章

 楼主| 发表于 2024-3-20 04:20:28 | 显示全部楼层
表格 最后一个被挡住的数值是735。

关于RG这个简称,跟函数名相关。
时间换显存并不是翻译它的字义(别拿这个事来吐槽我),只是方便大家理解罢了。
回复 支持 反对

使用道具 举报

40

主题

861

帖子

4685

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4685

万事如意节日勋章

发表于 2024-3-20 08:27:26 | 显示全部楼层
大佬如此重视a卡玩家们,致敬
回复 支持 反对

使用道具 举报

0

主题

106

帖子

3040

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3040

万事如意节日勋章

发表于 2024-3-20 10:11:31 | 显示全部楼层
N卡路过。
回复

使用道具 举报

14

主题

181

帖子

5973

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
5973

万事如意节日勋章

发表于 2024-3-20 10:11:54 | 显示全部楼层
支持,A卡玩家望眼欲穿
回复 支持 反对

使用道具 举报

8

主题

73

帖子

9083

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
9083
发表于 2024-3-20 12:24:07 | 显示全部楼层
大佬很用心,不断的更新迭代,很重视用户体验
回复 支持 反对

使用道具 举报

68

主题

468

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
15897

万事如意节日勋章

 楼主| 发表于 2024-3-20 12:53:48 | 显示全部楼层
备注:虽然DML的显存会虚高2倍以上,但不意味着可以开更大的BS。

倒是可以DML+RG来开启更大BS,之前测试过RG和FP16同时开启的效果不好。我再测一下,如果确认了,可能图表会更新一版,然后全面永久封杀FP16
回复 支持 反对

使用道具 举报

68

主题

468

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
15897

万事如意节日勋章

 楼主| 发表于 2024-3-20 12:56:12 | 显示全部楼层
pasanonic 发表于 2024-3-20 08:27
大佬如此重视a卡玩家们,致敬

如果耽误正事,我确实打算放弃。但好消息是通过DML链接,模型架构的代码是不需要更改的,举手之劳 顺水推舟
回复 支持 反对

使用道具 举报

68

主题

468

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
15897

万事如意节日勋章

 楼主| 发表于 2024-3-22 18:06:13 | 显示全部楼层
完结了关于性能的探究
回复 支持 反对

使用道具 举报

6

主题

38

帖子

2747

积分

初级丹圣

Rank: 8Rank: 8

积分
2747
发表于 2024-3-22 18:30:45 | 显示全部楼层
膜拜大神
回复

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-11-22 09:31 , Processed in 0.135230 second(s), 40 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表