DeepSeek将彻底颠覆传统的深度思考和问题解决方式

dfl9999 · 发表于 2025-1-27 12:38:01

星级打分

1
2
3
4
5

平均分:NAN 参与人数:0 我的评分:未评

本帖最后由 dfl9999 于 2025-1-27 13:11 编辑

搜了几个deepfacelab的炼丹问题，deepseek的信息提炼分析和深度思考已经非常优秀，大体方向还是对的，不过准确性并非100%，比如不知道模型训练过程中模型分辨率是不可改变的，把mask_trining和梯度裁剪当成可以不开的冗余选项，不知道随机扭曲强度在大多数dfl版本中是不能随意改变的……等等，ai没有实操过，对实操细节还是掌握的不够。
老手用这个可以作为进阶专业知识补充，新手过度依赖可能会掉沟里去……

wtxx8888 · 发表于 2025-1-27 13:11:03

本帖最后由 wtxx8888 于 2025-1-27 13:14 编辑

人造物，只能强化或补足人类。
在某些逻辑上（权衡利弊的选择上），人有时都迷茫（任何事物都是利弊共存，都想要，弊也想变成利，但只能选一样），何况是AI了。

dfl9999 · 发表于 2025-1-27 13:14:49

wtxx8888 发表于 2025-1-27 13:11
人造物，只能强化或补足人类。
在某些逻辑上（权衡利弊的选择上），人有时都迷茫（任何事物都是利弊共存， ...

对专业术语还是能解释清楚的，模型的原理可以通过它了解，具体实操还是有点抓瞎，毕竟是ai，没有定向强化训练，准确度有待提高

wtxx8888 · 发表于 2025-1-27 13:21:00

dfl9999 发表于 2025-1-27 13:14
对专业术语还是能解释清楚的，模型的原理可以通过它了解，具体实操还是有点抓瞎，毕竟是ai，没有定向强化 ...

AI喂的，都是已有的资料呗（存在于网络上的）。
现有的DFL资料，训练就是五花八门。
个人都能整一套，适合自己需求的练法，但别人，特么能跟你一个需求吗？

wtxx8888 · 发表于 2025-1-27 13:26:55

本帖最后由 wtxx8888 于 2025-1-27 13:29 编辑

dfl9999 发表于 2025-1-27 13:14
对专业术语还是能解释清楚的，模型的原理可以通过它了解，具体实操还是有点抓瞎，毕竟是ai，没有定向强化 ...

而且啊，过拟合真不用特别的关注，关键点就在于，只要有新东西学（新素材，新算法，等等一切可新学习的东西），就能破过拟合。
一般人很难遇到，除非懒得要死，参数都不变一下（改参数就代表新算法，破过拟合），就会挂机，而且挂了很久。。。

dfl9999 · 发表于 2025-1-27 13:33:25

wtxx8888 发表于 2025-1-27 13:26
而且啊，过拟合真不用特别的关注，关键点就在于，只要有新东西学（新素材，新算法，等等一切可新学习的东 ...

我现在的问题是开大bs，比如32的时候，模型预训练到100万以后模型dst src的loss值变成nan，直接废模，现在找不出原因来，才开始关注过拟合

wtxx8888 · 发表于 2025-1-27 13:40:06

dfl9999 发表于 2025-1-27 13:33
我现在的问题是开大bs，比如32的时候，模型预训练到100万以后模型dst src的loss值变成nan，直接废模，现 ...

开了重复训练？正常下，大BS也不会NAN的。
没见过猫炼丹的截图？人家都开好几百的BS练小丹。

dfl9999 · 发表于 2025-1-27 13:52:42

本帖最后由 dfl9999 于 2025-1-27 13:54 编辑

wtxx8888 发表于 2025-1-27 13:40
开了重复训练？正常下，大BS也不会NAN的。
没见过猫炼丹的截图？人家都开好几百的BS练小丹。 ...

是开了重训高loss选项，是这个的原因吗，bs越高nan越快，以前不管怎么练都不会nan，把内存降频或者减小bs可以缓解，但是还会出现

wtxx8888 · 发表于 2025-1-27 13:54:46

dfl9999 发表于 2025-1-27 13:33
我现在的问题是开大bs，比如32的时候，模型预训练到100万以后模型dst src的loss值变成nan，直接废模，现 ...

NAN问题，你应该看显卡的资料，NAN代表显卡收到的数据，是空白。
一般都是驱动方面（也可能是CUDA跟CUDNN库）的毛病。
你可以尝试，用原版练练（低版本的CUDNN），很可能是升级8.9.7的问题。

wtxx8888 · 发表于 2025-1-27 13:56:29

dfl9999 发表于 2025-1-27 13:52
是开了重训高loss选项，是这个的原因吗，bs越高nan越快，以前不管怎么练都不会nan，把内存降频或者减小bs ...

嗯，就是重复训练的问题，老重复一个样本，就会炸。所以我改了算法。
过了0点（变28号），就能下到了。

		自动登录	找回密码
密码			立即注册（仅限QQ邮箱）

DeepSeek将彻底颠覆传统的深度思考和问题解决方式

真我风采勋章

万事如意节日勋章