万人预训练不会过拟合的,而且我还开了大loss。只不过是直接改的代码,没有添加hyperparameter。
另外,wtxx大佬的解释要看目的了,我个人控制变量测试过,不开扭曲的万人-万人预训练,转单人-万人正训的话收敛非常慢,和比没有预训练的train from scratch快不了多少,而开启扭曲的预训练则明显要更快。
如果你还是不确定,你可以自己用一个低分辨率低参的丹做个简单的控制变量对比测试。当然如果怕麻烦,还是听一些经验丰富的大佬的回复是最好的,比如wtxx。我只是个初学者,发模型也是交流学习的作用,甚至是给你提供对比素材的,毕竟我数据集用的就是原版自带的,复现也是很简单。