deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 2579|回复: 14

CACD预训练集-WF256-共16万带名字影星头像-超多重磅!

[复制链接]

26

主题

333

帖子

2万

积分

高级丹圣

风擎

Rank: 13Rank: 13Rank: 13Rank: 13

积分
27848
 楼主| 发表于 2023-3-20 18:41:00 | 显示全部楼层 |阅读模式
星级打分
  • 1
  • 2
  • 3
  • 4
  • 5
平均分:3.5  参与人数:2  我的评分:未评
本帖最后由 windjet 于 2023-4-23 01:19 编辑

CACD数据集的全称是Cross Age Celebrity Dataset,是为了研究跨年龄的人脸识别和检索的一个比较有名的头像集合,该数据集包含约16万多张从16岁至62岁之间的两千位名人的头像(主要是国际影星),据说提出的方法可以在该数据集以及其他用于跨年龄的人脸识别的数据集上均达到最先进的性能。
好了,研究机构自吹自擂的套话就不多说了,简单说来就是我把这个数据集切成了DeepFaceLab(DFL)可以用于训练的WF256头像,除去一些垃圾及不太适合训练的头像后大概有近16万张,角度虽然正脸居多但总体还过得去,由于数量太多,所以整理花了不少时间,但质量是有保证了。
这些头像都是按编号及名字分好类的,比如李连杰就是"48_Jet_Li_0001_0.jpg",盖尔·加朵就是"20_Gal_Gadot_0013_0.jpg",所以你也可以把这个集合当成国际影星的一个收藏集合,想查谁,输入英文名字就能检索到,尤其就欧美影星来说应该是全覆盖到了的。
切的是WF256头像,好处是体积小,装载快,对目前主流WF256及以下模型正好适用,经本人测试就是WF320及WF384模型也能有不错的效果,分辨率再往以上的模型就得斟酌一下了。

WF256模型训练效果(自用训练中途图):


WF320模型训练效果:


WF384模型训练效果:


找了一下常见的影星,发现都能找到(你看看能认识几个,能认全的估计电影没少看):
男影星:


女影星:


头像按编号人名排序但男女是混合排的,也有极个别归类不太准的,整体大概这样:




CACD预训练集1.5倍角度分布图:
(可以看到还不错,在DFL正常训练能达到的1.5倍角度下,除了极少数极限角度,基本都能覆盖到,毕竟数量在那里,堆也堆出来了)


CACD预训练集1倍角度分布图:




此外,和这个类似的大型预训练集是CelebA预训练集,20万张头像,是目前论坛里面数量最大,角度也是目前最全的预训练集了,但没有按人名排序,也不是什么知名国际影星,收藏价值要差一些。

https://dfldata.cc/forum.php?mod=viewthread&tid=13537
香港中文大学CelebA预训练集-20万头像-论坛数量最多角度最全

---下载分单个包下载和整体包下载

适合小本本及想分开训练的朋友:
预训练pak包1:59453张
预训练pak包2:58483张
预训练pak包3:41805张
(包1加包2加包3=包all)

适合云端训练及有闲置机器撒手不管的朋友:
预训练pak包all:159741张
(分单文件下载和多文件下载,内容都一样,网速稳定的下单文件包否则下多文件包)

文件下载后就是pak文件包(faceset.pak),可以直接使用,不用再解压为图片了,除非你想加自己的资源,DFL对pak包的装载远远快于对单张图片的装载。
使用方法:
1,官方标准预训练的模型的训练(pretrain: True),把"\_internal\pretrain_faces"下面的原始faceset.pak备份,然后用这个faceset.pak包替换它。
2,非官方标准预训练的模型的训练(pretrain: False),把faceset.pak包放"\data_src\aligned"和"\data_dst\aligned"下各一份,直接用不要再解压成图片了。
3,专人模型的训练,把faceset.pak包放"\data_dst\aligned"下,直接用不要再解压成图片了。
4,想看头像图片,把faceset.pak包放"\data_dst\aligned"下,执行5.2) data_dst util faceset unpack.bat来解压图片。






本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册(仅限QQ邮箱)

x

评分

参与人数 1贡献 +1 收起 理由
GHnewbie2022 + 1 很给力!

查看全部评分

风擎,就是风之引擎。
回复

使用道具 举报

217

主题

1999

帖子

69万

积分

管理员

Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96Rank: 96

积分
691123

隐世金马甲勋章超级版主勋章可爱萌新勋章见习版主勋章荣誉会员勋章男同管理员-无尚荣耀勋章优质版主勋章小有贡献勋章

发表于 2023-3-21 00:43:41 | 显示全部楼层
这种数据集主要是正脸,侧面和大表情数据不多
提供数字人直播服务、文字/音频驱动数字人服务,有意者联系我QQ563861181
全站默认解压密码dfldata.xyz
DFL交流QQ群五群974612885
AI绘画交流QQ群710238550
我的B站账号:特看科技的滚石   其他自称彦祖的不是我,请勿上当
回复 支持 3 反对 0

使用道具 举报

26

主题

333

帖子

2万

积分

高级丹圣

风擎

Rank: 13Rank: 13Rank: 13Rank: 13

积分
27848
 楼主| 发表于 2023-3-21 14:55:39 | 显示全部楼层
GHnewbie2022 发表于 2023-3-20 23:34
本來還在觀望樓主另一篇香港大學的,看起來這一批的效果會更好耶

用途不一样的,香港大学相关数据集是WF512的,人脸是随机的路人,没有名字标号的。
这个是WF256的,经测试也就将就能对应分辨率384的模型,在往上估计就难了,但好处是体积小而量大,且基本上都是带名字标号的电影明星,可以作为收藏用。
另外,添加了角度分布图,角度还不错。
风擎,就是风之引擎。
回复 支持 1 反对 0

使用道具 举报

2

主题

21

帖子

289

积分

初级丹师

Rank: 3Rank: 3

积分
289
发表于 2023-3-20 23:34:27 | 显示全部楼层
本來還在觀望樓主另一篇香港大學的,看起來這一批的效果會更好耶
回复 支持 反对

使用道具 举报

2

主题

212

帖子

1868

积分

初级丹圣

Rank: 8Rank: 8

积分
1868
发表于 2023-3-21 09:12:42 | 显示全部楼层
感谢分享
回复

使用道具 举报

26

主题

333

帖子

2万

积分

高级丹圣

风擎

Rank: 13Rank: 13Rank: 13Rank: 13

积分
27848
 楼主| 发表于 2023-3-21 15:01:14 | 显示全部楼层
滚石 发表于 2023-3-21 00:43
这种数据集主要是正脸,侧面和大表情数据不多

嗯,我也担心角度问题,所以用MVE测试了一下角度,结果意外地发现角度还挺好,基本都能覆盖了,毕竟数量在那里有16万张,角度堆也堆出来了。
在帖子最后添加了MVE的角度分布图,可以参考一下。
风擎,就是风之引擎。
回复 支持 反对

使用道具 举报

6

主题

71

帖子

829

积分

高级丹师

Rank: 5Rank: 5

积分
829
发表于 2023-3-22 00:52:11 | 显示全部楼层
可以放幾張圖出來看看256是怎樣質素?
回复 支持 反对

使用道具 举报

26

主题

333

帖子

2万

积分

高级丹圣

风擎

Rank: 13Rank: 13Rank: 13Rank: 13

积分
27848
 楼主| 发表于 2023-3-22 01:59:56 | 显示全部楼层
2094018445 发表于 2023-3-22 00:52
可以放幾張圖出來看看256是怎樣質素?

正好我自己正在训练WF256的预训练模型,现在用的就是这个数据集,已经把中途的训练图追加到里面去了,你参考一下吧。
风擎,就是风之引擎。
回复 支持 反对

使用道具 举报

2

主题

21

帖子

289

积分

初级丹师

Rank: 3Rank: 3

积分
289
发表于 2023-3-22 06:59:59 | 显示全部楼层
windjet 发表于 2023-3-21 14:55
用途不一样的,香港大学相关数据集是WF512的,人脸是随机的路人,没有名字标号的。
这个是WF256的,经测 ...

謝謝,看起來CACD會更適合我,有空來嘗試看看,感謝樓主的整理與分享!
回复 支持 反对

使用道具 举报

0

主题

25

帖子

325

积分

初级丹师

Rank: 3Rank: 3

积分
325
发表于 2023-4-2 02:58:38 | 显示全部楼层
windjet 发表于 2023-3-21 14:55
用途不一样的,香港大学相关数据集是WF512的,人脸是随机的路人,没有名字标号的。
这个是WF256的,经测 ...

香港大学那个也是WF256的吧?大佬有WF512的吗?或者有源数据集吗?想自己切个WF512的,256大分辨率不够用
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2024-12-4 16:40 , Processed in 0.142897 second(s), 39 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表