人脸图像GAN，今如何？（附多篇论文下载）

本文发于公众号【机器学习与生成对抗网络】，欢迎关注、并诚邀您加入CV&GAN交流群一起讨论）

下述paper均属CVPR 2020

0、前言

今天分享的是关于GAN在人脸图像生成/编辑方面的进展，下述论文均属CVPR 2020。
短视频等作为未来的风口趋势，视频图像等编辑处理是研究热点；而人作为视频主体之一，人脸相关的视觉算法、图像处理又是研究重点；
GAN擅长进行图像生成和编辑，但具体落于实际用处，仍有诸多待解决问题；
不难看到，CVPR 2020的有不少GAN论文在研究人脸图像生成和编辑。主要集中在：（1）如何更精准可控的生成人脸？（潜码空间Z的可解释性，解耦表征学习，融合一些先验、3D等，复杂任务模块化分解，）（2）以及如何在更少样本下进行图像处理/生成？等等。

https://arxiv.org/pdf/2004.04467.pdf
本文提出的Adversarial Latent Autoencoder (ALAE)是一种结合了自编码器、更具通用性的、利用GAN方法的架构，它可以进行更“解耦”的表征学习。
ALAE不仅可以生成可以和StyleGAN媲美的1024大图，还可以对真实image进行更好的重建、编辑等。

https://arxiv.org/pdf/1903.06048.pdf
生成对抗网络（GAN）及其变体在图像合成任务取得了巨大成功，但众所周知，它们很难适应不同的数据集，部分原因是训练期间不稳定和对超参数敏感。对于这种不稳定，一种普遍的观点是：当真实分布和生成分布的支撑集不够重叠时，鉴别器反馈给生成器的梯度是无法提供有益的信息的。
在这项工作中，提出了多尺度梯度生成对抗网络（MSG-GAN），一种简单但有效的手段，通过在多个尺度上从鉴别器到生成器提供梯度。这可为高分辨率图像合成提供了一种稳定训练的方法，也可以替代常用的渐进式生长的ProGAN。作者表明MSG-GAN在不同的尺寸、分辨率和图像域的数据集，以及不同类型的损失函数和网络结构下，都可以使用相同的一组超参数稳定收敛。与先进的GAN相比，该方法在大多数情况下具有优势。

提出了一种更具可控性的人脸图像生成方法，以解耦表示人的身份，表情，姿势和光照因素等。
将3D先验嵌入到对抗性学习中，并训练网络以模仿3D面部变形和渲染过程的图像形成。为了处理由真实和渲染图像之间域差引起的自由度，进一步引入Contrastive Learning，以通过比较生成的图像对来促进解纠缠。
https://github.com/microsoft/DisentangledFaceGAN

尽管人脸图像处理已取得了巨大发展，但大多数方法要么在一组预定义的面部属性上进行操作，要么只能给用户提供很小的交互操作自由空间。本文提出为MaskGAN，可进行多种交互式的人脸编辑。
本文关键之处是，语义mask可作为具有高保真度、灵活的面部操作的中间表示。MaskGAN具有两个主要组件：1）密集映射网络（DMN）和 2）编辑行为模拟训练（EBST）。具体来说，DMN学习用户自由修改的mask和目标图像之间的映射，实现多种生成结果。 EBST在源mask上对用户编辑行为进行建模，从而使整个框架对各种操纵的输入更加健壮。具体来说，它引入了dual-editing consistency作为辅助监督。
为便于进行广泛的研究，还构建了一个名为CelebAMask-HQ的细粒度mask的、大规模高分辨率数据集。
https://arxiv.org/pdf/1907.11922.pdf
https://github.com/switchablenorms/CelebAMask-HQ

为了解决这些局限性，提出Cascade Expression Focal GAN（Cascade EF-GAN）能够以局部表情为重点进行渐进式表情编辑。通过将大幅度表情转换分成多个小面部表情来设计级联式的转换，有助于抑制重叠的伪像并产生更逼真自然的效果。

https://arxiv.org/pdf/2003.12869.pdf
基于已经学习到通用人脸分布的预训练StyleGAN模型，本文提出了与给定的一幅图像示例落于相同分布的人脸图像。
给定目标图像，可以通过这种迭代优化方案快速调整模型的权重，以将输出的高级分布转移到目标分布。这样一来，可以生成无限数量的人脸（这些人脸都继承了普通人脸和给定图像的分布）。新生成的数据可以用作其他下游任务如增强训练数据。

GAN&CV交流群，无论小白还是大佬，诚挚邀您加入！

GAN相关阅读：

1.01-GAN公式简明原理之铁甲小宝篇

部分应用介绍：

编辑于 2021-04-17 16:17