新知
首发于新知
高清实景合成解读 (ICCV 2017)

高清实景合成解读 (ICCV 2017)

Photographic Image Synthesis with Cascaded Refinement Networks

Qifeng Chen, Vladlen Koltun Link: arxiv.org/pdf/1707.0940


此文一出各界都表示震惊,一是因为破了GAN的生成领域神话,二是高清图像的生成省去了很多后处理的工作。有知乎文章、和科技评论已对此做出了领读,但本文想就算法细节继续深究一下:


1.任务

从mask(或者说是layout)去生成RGB图像,实际上与分割(segmentation)互为逆任务。那么这个任务的困难点则在于生成图像的尺寸上:大部分用GAN的算法仅能生成64*64或128*128的图像,且训练极不稳定。如果不能一步到位,那只能借助Laplacian pyramid的思想,构造多尺度的(multi-scale)。作者总结了生成高质量图片的三要素:

  1. 全局协调性
  2. 高清
  3. 足够大的网络

其实个人觉得也就在说一件事情:从小迭代到大


2.方法

在网络中我们的输入是semantic layout L,尺寸w_i * h_i * c,c类别数,即每个pixel用one-hot vector表征一个类别,输出是F,尺寸是w_i * h_i * d_i, d_i 代表在这个尺度下的feature map数(512->128->32)。那这个级联网络究竟是怎么从小到大训练的呢:我们跟着示意图看

首先网络由很多模块M组成,且一开始M_0分辨率只有4*8,input L也被降采样

到4*8。接着如上图所示Mi接收w_i * h_i尺寸的L_i(upsampled)和上一个模块的输出F^i-1,再输出F^i。每层layer跟一个3*3的卷积、layer normalization和LReLu。

直到最后一层只conv+一个线性映射(1*1conv),为了让最后的d_i映射到RGB的channel=3.

【训练】

因为文章明确表示是supervised fashion,那作为GT的Image应该如何监督呢?


这里loss还构造得很直接:这里Phi表示与一个结构类似的visual perception network(VGG-19), g表示上部分提到的image synthesis network, Loss相当于一个L1-loss,这个假设是基于我需要g学到一个映射,使得每一层的output和vgg的output是一样的。假设loss趋近于0的时候,

output of layer_i = Phi(I) = Phi(g(L)) 则 I = g(L)

【生成多样的图片】

由于这个问题是1 vs n的,即一个layout可对应多种生成图片,那作者针对多样性设计了一个loss去生成一组图(3*k channels)

发布于 2017-08-27

文章被以下专栏收录