deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 816|回复: 8

同一個MODEL,不同顯示卡,訓練速度疑問

[复制链接]

41

主题

215

帖子

3913

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3913
 楼主| 发表于 2024-4-10 19:48:47 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评

4070 vs 1060 網站說速度差 Effective Speed  +238% ,也就是快2.3倍。

想問是不是如果用同個MODEL下去跑

本來我用1060跑,只要20分鐘就能8成像,換成4070是不是會壓縮到只要10分鐘以內呢?

image.png
比如我1060 本來紅框框數字一開始是是 3.1234 跑20分鐘後,會變成0.9238。
是不是4070的話只要10分鐘以內,就會變成0.9238

另外CPU配AMD R7 7800X3D,也該不會影響什麼吼?主要應該還是看顯卡是不是N卡對吧?

本來考慮 i7 14700可是看到 13、14代,一堆要手動「降壓」不然很容易電腦藍白畫面,不敢選 INTEL.......

回复

使用道具 举报

9

主题

217

帖子

3389

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3389
QQ
发表于 2024-4-10 20:01:36 | 显示全部楼层
本帖最后由 yxyao 于 2024-4-10 20:04 编辑

其他参数相同的话,基本上算力越高时间越短并且成反比,所以你的时间推测应该是差不多准确的。
至于13、14代CPU,普通体质默频的话风冷极限也就压250W左右,我个人用的13900k风冷压,是要手动降压的,不然温度长期偏高不太好。当然频率没有手动改。
如果不想降压,又对温度比较在意,i7以上最好上水冷。
刚刚没有看到你的CPU已经是7800x3D了,如果多核性能够用的话感觉没必要换的。
具体到训练dfl模型的情况的话,AMD的显卡比硬件规格接近的NVIDIA显卡要慢很多,但是AMD的CPU应该和Intel的CPU没差的。
回复 支持 1 反对 0

使用道具 举报

13

主题

128

帖子

1493

积分

初级丹圣

Rank: 8Rank: 8

积分
1493
发表于 2024-4-11 01:17:55 | 显示全部楼层
yxyao 发表于 2024-4-10 20:01
其他参数相同的话,基本上算力越高时间越短并且成反比,所以你的时间推测应该是差不多准确的。
至于13、14 ...

并没有慢很多,rx7900xtx跟4090开一样大的bs只比4090慢10%左右
回复 支持 反对

使用道具 举报

9

主题

217

帖子

3389

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3389
QQ
发表于 2024-4-11 10:08:29 | 显示全部楼层
fghfdg 发表于 2024-4-11 01:17
并没有慢很多,rx7900xtx跟4090开一样大的bs只比4090慢10%左右

哦是这样吗?我之前看到一个油管主说要慢好多,我自己没有实际对比过
回复 支持 反对

使用道具 举报

8

主题

66

帖子

578

积分

高级丹师

Rank: 5Rank: 5

积分
578
发表于 2024-4-11 14:36:58 | 显示全部楼层
跑DFL主要吃GPU,CPU占用率只30%左右,我自己5600不带X,4060Ti+16G,跑320丹可以开12bs,不过迭代一次需要1200ms左右(显存位宽不够,GPU吃不饱),4070在同参数下估计约8~900ms左右
回复 支持 反对

使用道具 举报

41

主题

215

帖子

3913

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3913
 楼主| 发表于 2024-4-13 14:57:20 | 显示全部楼层
yxyao 发表于 2024-4-10 20:01
其他参数相同的话,基本上算力越高时间越短并且成反比,所以你的时间推测应该是差不多准确的。
至于13、14 ...


今天應該會拿到電腦,所以我還是想一直用我之前這個丹的話。

image.png



到時候訓練的時候(6) train SAEHD.bat),我什麼參數需要改訓練時間才會縮短嗎?

還是不需要改什麼設定,直接跑就可以?

回复 支持 反对

使用道具 举报

9

主题

217

帖子

3389

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3389
QQ
发表于 2024-4-13 21:57:13 | 显示全部楼层
main9dog 发表于 2024-4-13 14:57
今天應該會拿到電腦,所以我還是想一直用我之前這個丹的話。

主要是batch_size这个参数如果太大的话会爆显存,可以将它调到不爆显存的最大值即可
回复 支持 反对

使用道具 举报

41

主题

215

帖子

3913

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3913
 楼主| 发表于 2024-4-13 23:47:33 | 显示全部楼层
本帖最后由 main9dog 于 2024-4-14 01:19 编辑
yxyao 发表于 2024-4-13 21:57
主要是batch_size这个参数如果太大的话会爆显存,可以将它调到不爆显存的最大值即可 ...

看起來不改,是就快很多了

剛剛兩台電腦分別測試,第一次自動存檔的紀錄(不確定是不是每20分鐘自動執行)
4070 = [5010514]
1060 = [5006421]

同樣時間下4070 多訓練4093次
10514-6421 = *4,093* 

當作每20分鐘自動記錄一次來看的話
4093/20 = 204.65(每分鐘多處理204次)
等於1秒多處理3
可以當程式快3倍嗎?(不知道,我有沒有對不起我數學老師XD)

回复 支持 反对

使用道具 举报

9

主题

217

帖子

3389

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3389
QQ
发表于 2024-4-14 06:50:57 | 显示全部楼层
本帖最后由 yxyao 于 2024-4-14 06:54 编辑
main9dog 发表于 2024-4-13 23:47
看起來不改,是就快很多了

剛剛兩台電腦分別測試,第一次自動存檔的紀錄(不確定是不是每20分鐘自動執行 ...

你需要看两次保存的间隔,只看一次是得不出结果的。打个比方,我的情况(跑参数和数据集完全相同的模型):
GPU1:
[07:12:01][#571442][0668ms][0.4045][0.4067]
[07:37:01][#573681][0665ms][0.4053][0.4054]

GPU2:
[07:17:45][#323680][1240ms][0.4412][0.4565]
[07:42:49][#324861][1244ms][0.4404][0.4533]

所以可以看出GPU1在25分钟内迭代了2239次,GPU2在25分钟内迭代了1181次,所以GPU1比GPU2快:
[(2239-1181)/1181]*100%,大约是89.6%
所以对于我的情况,我的GPU1比GPU2快了89.6%左右

你给的数据相当于是:
GPU1(4070):
4070 = [5010514]

GPU2 (1060):
1060 = [5006421]

所以无从得知具体时间段内具体迭代次数,所以没法得出结论
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-11-23 04:03 , Processed in 0.153817 second(s), 37 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表