deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 1553|回复: 30

DeepSeek将彻底颠覆传统的深度思考和问题解决方式

[复制链接]

38

主题

541

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
17240
 楼主| 发表于 2025-1-27 12:38:01 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:NAN  参与人数:0  我的评分:未评
本帖最后由 dfl9999 于 2025-1-27 13:11 编辑

1000623263.jpg

1000623264.jpg
搜了几个deepfacelab的炼丹问题,deepseek的信息提炼分析和深度思考已经非常优秀,大体方向还是对的,不过准确性并非100%,比如不知道模型训练过程中模型分辨率是不可改变的,把mask_trining和梯度裁剪当成可以不开的冗余选项,不知道随机扭曲强度在大多数dfl版本中是不能随意改变的……等等,ai没有实操过,对实操细节还是掌握的不够。
老手用这个可以作为进阶专业知识补充,新手过度依赖可能会掉沟里去……








回复

使用道具 举报

14

主题

3401

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18328

真我风采勋章万事如意节日勋章

发表于 2025-1-27 13:11:03 | 显示全部楼层
本帖最后由 wtxx8888 于 2025-1-27 13:14 编辑

人造物,只能强化或补足人类。
在某些逻辑上(权衡利弊的选择上),人有时都迷茫(任何事物都是利弊共存,都想要,弊也想变成利,但只能选一样),何况是AI了。
回复 支持 反对

使用道具 举报

38

主题

541

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
17240
 楼主| 发表于 2025-1-27 13:14:49 | 显示全部楼层
wtxx8888 发表于 2025-1-27 13:11
人造物,只能强化或补足人类。
在某些逻辑上(权衡利弊的选择上),人有时都迷茫(任何事物都是利弊共存, ...

对专业术语还是能解释清楚的,模型的原理可以通过它了解,具体实操还是有点抓瞎,毕竟是ai,没有定向强化训练,准确度有待提高
回复 支持 反对

使用道具 举报

14

主题

3401

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18328

真我风采勋章万事如意节日勋章

发表于 2025-1-27 13:21:00 | 显示全部楼层
dfl9999 发表于 2025-1-27 13:14
对专业术语还是能解释清楚的,模型的原理可以通过它了解,具体实操还是有点抓瞎,毕竟是ai,没有定向强化 ...

AI喂的,都是已有的资料呗(存在于网络上的)。
现有的DFL资料,训练就是五花八门。
个人都能整一套,适合自己需求的练法,但别人,特么能跟你一个需求吗?
回复 支持 反对

使用道具 举报

14

主题

3401

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18328

真我风采勋章万事如意节日勋章

发表于 2025-1-27 13:26:55 | 显示全部楼层
本帖最后由 wtxx8888 于 2025-1-27 13:29 编辑
dfl9999 发表于 2025-1-27 13:14
对专业术语还是能解释清楚的,模型的原理可以通过它了解,具体实操还是有点抓瞎,毕竟是ai,没有定向强化 ...

而且啊,过拟合真不用特别的关注,关键点就在于,只要有新东西学(新素材,新算法,等等一切可新学习的东西),就能破过拟合。
一般人很难遇到,除非懒得要死,参数都不变一下(改参数就代表新算法,破过拟合),就会挂机,而且挂了很久。。。
回复 支持 反对

使用道具 举报

38

主题

541

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
17240
 楼主| 发表于 2025-1-27 13:33:25 | 显示全部楼层
wtxx8888 发表于 2025-1-27 13:26
而且啊,过拟合真不用特别的关注,关键点就在于,只要有新东西学(新素材,新算法,等等一切可新学习的东 ...

我现在的问题是开大bs,比如32的时候,模型预训练到100万以后模型dst src的loss值变成nan,直接废模,现在找不出原因来,才开始关注过拟合
回复 支持 反对

使用道具 举报

14

主题

3401

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18328

真我风采勋章万事如意节日勋章

发表于 2025-1-27 13:40:06 | 显示全部楼层
dfl9999 发表于 2025-1-27 13:33
我现在的问题是开大bs,比如32的时候,模型预训练到100万以后模型dst src的loss值变成nan,直接废模,现 ...

开了重复训练?正常下,大BS也不会NAN的。
没见过猫炼丹的截图?人家都开好几百的BS练小丹。
回复 支持 反对

使用道具 举报

38

主题

541

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
17240
 楼主| 发表于 2025-1-27 13:52:42 | 显示全部楼层
本帖最后由 dfl9999 于 2025-1-27 13:54 编辑
wtxx8888 发表于 2025-1-27 13:40
开了重复训练?正常下,大BS也不会NAN的。
没见过猫炼丹的截图?人家都开好几百的BS练小丹。 ...

是开了重训高loss选项,是这个的原因吗,bs越高nan越快,以前不管怎么练都不会nan,把内存降频或者减小bs可以缓解,但是还会出现
回复 支持 反对

使用道具 举报

14

主题

3401

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18328

真我风采勋章万事如意节日勋章

发表于 2025-1-27 13:54:46 | 显示全部楼层
dfl9999 发表于 2025-1-27 13:33
我现在的问题是开大bs,比如32的时候,模型预训练到100万以后模型dst src的loss值变成nan,直接废模,现 ...

NAN问题,你应该看显卡的资料,NAN代表显卡收到的数据,是空白。
一般都是驱动方面(也可能是CUDA跟CUDNN库)的毛病。
你可以尝试,用原版练练(低版本的CUDNN),很可能是升级8.9.7的问题。
回复 支持 反对

使用道具 举报

14

主题

3401

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
18328

真我风采勋章万事如意节日勋章

发表于 2025-1-27 13:56:29 | 显示全部楼层
dfl9999 发表于 2025-1-27 13:52
是开了重训高loss选项,是这个的原因吗,bs越高nan越快,以前不管怎么练都不会nan,把内存降频或者减小bs ...

嗯,就是重复训练的问题,老重复一个样本,就会炸。所以我改了算法。
过了0点(变28号),就能下到了。
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2025-7-4 09:08 , Processed in 0.109882 second(s), 33 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表