共建小分辨率大三围的LIAE-UDT架构的预训练丹

yxyao · 发表于 2024-8-16 10:00:52

本帖最后由 yxyao 于 2024-8-16 10:14 编辑

楼上的大佬说得对，三围够用之后，再多的话没啥意义，不过多少够用还是有讲究的，暂时还在探索中，有时影响的是前期loss下降速度，有时影响的是后期loss下限，总之探索这个东西很耗时间
不过以我目前的测试来看，看起来非常不同的三围，区别却很有限，以我测试最多的224分辨率模型为例，这两个模型：
224res-288-96-96
224res-512-64-64
在bs11训练200-300w迭代以上之后，loss的值和变化率可以说是毫无差别，合成效果更是没法用肉眼分辨高低
有时把更多的精力放在src质量上，对效果影响应该会大得多，不过初期谁不是有个探索的过程呢？哈哈

		自动登录	找回密码
密码			立即注册（仅限QQ邮箱）

共建 小分辨率大三围的LIAE-UDT架构的预训练丹

共建小分辨率大三围的LIAE-UDT架构的预训练丹