|

楼主 |
发表于 2025-5-9 05:03:51
|
显示全部楼层
本帖最后由 lispmox 于 2025-5-9 05:07 编辑
理论上当然是参数越多模型越好,这是做通用大模型的思路。DFL做的只是src->dst的视频换脸,不仅要效果好还得速度快。如果用SD那种参数的模型,那可太慢了。另外还有一个问题是,SD这种扩散模型在多帧一致性上表现得并不好,如果想要比较稳定高效地视频换脸,我目前找到比较靠谱地方案也只有自编码器这种架构。
而且DFL的模型参数已经并不少了,liae-udt,512分辨率320,80,80,30三维的模型参数量差不多有0.3B,但是它能做的也就是把src换到dst上去,甚至不是一个像inswapper那样的通用模型。这种参数量和模型能力很显然不匹配的。如果还想要加分辨率,DFL的三维还得加,模型参数量又要涨一圈,但是做的事情无外乎还是把src换到dst上去。如果同样的参数量去堆一个UNet跑扩散算法,单论图片生成的能力绝对比DFL要好得多。
SD的VAE训练的很好,我试过如果把图像编码到潜空间在解码回图像空间,肉眼损失很小。一些图片和纹理可能会出现问题,DFL对这些也处理不好,DFL其实只训练到了皮肤和五官,SD的VAE在大多时候应该够用了。
DFL的用处还是在视频换脸,需要做的只是稳定快速地把src特征迁移到dst,我理解并不需要强求它直接控制表情,直接用liveportrait会更容易。
我也预计会有一些坑,比如mask的处理,以及DFL的训练方法能不能从潜空间生成清晰的图像。不过得等我跑个几十万轮才知道了。
|
|