关于lora学习的一点见解
本帖最后由 sxxzwbl 于 2023-3-27 17:32 编辑首先这是一片讨论帖,只是自己的看法欢迎讨论学习。
一 原理:
首先你得明白一个基本原理 lora学习是做减法的 :
把你画面内容减去生成的tag剩下的东西如果有固定tag就会学到tag中(这就是tag为啥要唯一不重复)其他的会学到这个lora的画风中
举例(应该有描述谬误,不过大概过程不会错):
你拿一张坤坤打篮球的照片给lora学习(烂梗勿喷,脑容量小想不到合适的能出现在各位脑海里的图片),你给电脑看这个电脑是很懵逼的,他需要认识这张图,这个时候就是把文字和图片对应的tag就出现了,于是有了:
tag:pants,1boy, solo, male focus,black shirt, long sleeves, grey pants,rompers ,black eye ,black hair.....
那么问题来了 既然ai知道了这些,他还去学什么呢?
所以他学的是他不知道的内容才合理,比如画风,比如人物特征(三庭五眼比例这种很难描绘的东西)所以他就把关于这些具象的东西从这里剔除,学习tag以外的东西
二 根据原来的基本推论
一 根据以上理论很容易推论出如何训练好一个lora
1.素材质量高
2.画面里你想保存学习的tag手动删除,例如人物的眼睛 头发 脸型,嘴巴,鼻子等固有特征。
对应到坤坤例子中应该吧tag里的back hair, black eye删除(如果你只想生成黑眼睛坤坤,黑发坤坤)
如果你觉得没有背带裤的坤坤是没有灵魂的 那你应该把背带裤英语rompers也同时删除(举例子,正常情况下背带裤通过文生图的tag就能生成,因此建议炼丹的tag中应当加上不让学习)
3.不要的内容就要尽量描述tag打上,如果是人物的话 还需要把人物姿态,构图,动作也要手动补齐以达到不让学习到这个内容的目的,
不然训练出来的角度会和你原始素材过拟合(看见有兄弟说了他最后出图和原图太像 估计就是这里出了问题)
建议在他理论基础上去选择手段。自主分析是否可行,如果能帮到你我很开心,有谬误请留言讨论
感谢分享 你这只是一种打标签的方式,另一种bilp则需要反其道而行之 单词和句子有啥区别?你细细品blip和wd14是不同的 感谢提供思路和心得 目前只拿脸部特写素材训练 可是训练了很久 就是不像已经接档训练了7次
确认了五官特征 都删除了
och 1/12
steps: 8%|█████ | 112/1344 epoch 2/12
steps:17%|██████████ | 224/1344 epoch 3/12
steps:25%|███████████████ | 336/1344 epoch 4/12
steps:25%|███████████████ | 338/1344 本帖最后由 wtxx8888 于 2023-4-10 01:55 编辑
koower5512 发表于 2023-4-3 22:07
目前只拿脸部特写素材训练 可是训练了很久 就是不像已经接档训练了7次
确认了五官特征 都删除了
LOSS=NAN,意味着根本就没训练,是空白的数据,这都看不见也是醉了。
LOSS=(变动数字),才是正常训练数据的表现。
别说7遍,LOSS=NAN你永远也训练不出自己要的人物,就是个空白文件(启用LORA,跟没用一样)。
目测你是16系显卡:lol
坤坤这个例子实在举得很好! 受教了,感谢。 有个问题,素材较少的时候很容易学好(除了角度较少),素材特别多的时候却容易练的不像(有时候效果特别好,有时候一点都不像),打tag都是一样打的,去掉五官特征,加上自定义tag控制出图。素材有什么讲究吗,话说lora感觉真的就是拼尸块,如果几个尸块一致性不够强的话,容易练不到一张脸上去,这跟df完全不一样,df会自己学习共同的特征,不会把不重要的特征拼到模型里
页:
[1]