sxxzwbl 发表于 2023-3-27 16:30:23

关于lora学习的一点见解

本帖最后由 sxxzwbl 于 2023-3-27 17:32 编辑


首先这是一片讨论帖,只是自己的看法欢迎讨论学习。

一 原理:
首先你得明白一个基本原理 lora学习是做减法的 :

把你画面内容减去生成的tag剩下的东西如果有固定tag就会学到tag中(这就是tag为啥要唯一不重复)其他的会学到这个lora的画风中



举例(应该有描述谬误,不过大概过程不会错):

你拿一张坤坤打篮球的照片给lora学习(烂梗勿喷,脑容量小想不到合适的能出现在各位脑海里的图片),你给电脑看这个电脑是很懵逼的,他需要认识这张图,这个时候就是把文字和图片对应的tag就出现了,于是有了:
tag:pants,1boy, solo, male focus,black shirt, long sleeves, grey pants,rompers ,black eye ,black hair.....

那么问题来了 既然ai知道了这些,他还去学什么呢?

所以他学的是他不知道的内容才合理,比如画风,比如人物特征(三庭五眼比例这种很难描绘的东西)所以他就把关于这些具象的东西从这里剔除,学习tag以外的东西




二 根据原来的基本推论

一 根据以上理论很容易推论出如何训练好一个lora

1.素材质量高

2.画面里你想保存学习的tag手动删除,例如人物的眼睛 头发 脸型,嘴巴,鼻子等固有特征。

对应到坤坤例子中应该吧tag里的back hair, black eye删除(如果你只想生成黑眼睛坤坤,黑发坤坤)

如果你觉得没有背带裤的坤坤是没有灵魂的 那你应该把背带裤英语rompers也同时删除(举例子,正常情况下背带裤通过文生图的tag就能生成,因此建议炼丹的tag中应当加上不让学习)

3.不要的内容就要尽量描述tag打上,如果是人物的话 还需要把人物姿态,构图,动作也要手动补齐以达到不让学习到这个内容的目的,
不然训练出来的角度会和你原始素材过拟合(看见有兄弟说了他最后出图和原图太像 估计就是这里出了问题)



建议在他理论基础上去选择手段。自主分析是否可行,如果能帮到你我很开心,有谬误请留言讨论





578154710 发表于 2023-3-27 18:37:34

感谢分享

tian316891 发表于 2023-3-27 21:23:55

你这只是一种打标签的方式,另一种bilp则需要反其道而行之

yy407 发表于 2023-3-28 00:22:08

单词和句子有啥区别?你细细品blip和wd14是不同的

manlyboy2 发表于 2023-3-30 05:24:32

感谢提供思路和心得

koower5512 发表于 2023-4-3 22:07:00

目前只拿脸部特写素材训练   可是训练了很久 就是不像已经接档训练了7次
确认了五官特征 都删除了

och 1/12
steps:   8%|█████                                                       | 112/1344 epoch 2/12
steps:17%|██████████                                                | 224/1344 epoch 3/12
steps:25%|███████████████                                             | 336/1344 epoch 4/12
steps:25%|███████████████                                             | 338/1344

wtxx8888 发表于 2023-4-10 01:40:35

本帖最后由 wtxx8888 于 2023-4-10 01:55 编辑

koower5512 发表于 2023-4-3 22:07
目前只拿脸部特写素材训练   可是训练了很久 就是不像已经接档训练了7次
确认了五官特征 都删除了


LOSS=NAN,意味着根本就没训练,是空白的数据,这都看不见也是醉了。
LOSS=(变动数字),才是正常训练数据的表现。

别说7遍,LOSS=NAN你永远也训练不出自己要的人物,就是个空白文件(启用LORA,跟没用一样)。


目测你是16系显卡:lol

nashin 发表于 2023-7-28 02:19:36

坤坤这个例子实在举得很好!

xnswhcm 发表于 2023-11-4 20:33:23

受教了,感谢。

柯征 发表于 2024-2-5 18:16:52

有个问题,素材较少的时候很容易学好(除了角度较少),素材特别多的时候却容易练的不像(有时候效果特别好,有时候一点都不像),打tag都是一样打的,去掉五官特征,加上自定义tag控制出图。素材有什么讲究吗,话说lora感觉真的就是拼尸块,如果几个尸块一致性不够强的话,容易练不到一张脸上去,这跟df完全不一样,df会自己学习共同的特征,不会把不重要的特征拼到模型里
页: [1]
查看完整版本: 关于lora学习的一点见解