CVPR 2018 | 商汤科技论文详解:基于空间特征调制的图像超分辨率

CVPR 2018 | 商汤科技论文详解:基于空间特征调制的图像超分辨率

在底层视觉算法领域,商汤科技提出的面向生成更自然真实纹理图像的超分辨率算法。本文为商汤科技CVPR 2018论文解读第3期。

论文:Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform
作者:Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy

论文链接:

arxiv.org/abs/1804.0281
Project page:
mmlab.ie.cuhk.edu.hk/pr


简介

单帧图像超分辨率旨在基于单张低分辨率图像恢复对应的高分辨率图像。卷积神经网络近年在图像超分辨率任务中表现出了优异的重建效果,但是恢复出自然而真实的纹理依然是超分辨率任务中的一大挑战。

如何恢复出自然而真实的纹理呢?一个有效的方式是考虑语义类别先验,即使用图像中不同区域所属的语义类别作为图像超分辨率的先验条件,比如天空、草地、水、建筑、森林、山、植物等。不同类别下的纹理拥有各自独特的特性,换句话说,语义类别能够更好的约束超分辨中同一低分辨率图存在多个可能解的情况。如图1中展示的建筑和植物的例子,它们的低分辨率图像块非常类似。虽然结合生成对抗式网络(GAN)进行超分复原,若未考虑图像区域的类别先验信息,获得的结果虽然增加了纹理细节,但是并不符合图像区域本身应该具有的纹理特点。

图1:不同的语义先验对建筑和植物区域图像超分辨率的影响

在结合语义类别先验的过程中会遇到两个问题。第一个问题是,如何表达语义类别先验,特别是当一个图像中存在多种语义类别时。本文选择了语义分割概率图作为先验条件,其能提供像素级的图像区域信息,每个像素点的概率向量能够更精细地调控纹理结果。第二个问题是,如何有效地将语义先验结合到网络中去。本文提出了一种新的空间特征调制层(SFT),它能将额外的图像先验(比如语义分割概率图)有效地结合到网络中去,恢复出与所属语义类别特征一致的纹理。

最终结果显示(如图2所示)和现有的SRGAN模型以及EnhanceNet模型相比,使用空间特征调制层的超分辨率网络能够生成更加自然的纹理,恢复出的高分辨率图像视觉效果更为真实。

图2:在4倍超分辨率下,SRCNN、SRGAN、EnhanceNet和本文提出SFT-GAN算法最终结果的比较


空间特征调制

本文提出的空间特征调制层受到条件BN层的启发,但是条件BN层以及其他的特征调制层(比如FiLM),往往忽略了网络提取特征的空间信息,即对于同一个特征图的不同位置,调制的参数保持一致。但是超分辨率等底层视觉任务往往需要考虑更多的图像空间信息,并在不同的位置进行不同的处理。基于这个观点,本文提出了空间特征调制层,其结构如图3所示。

图3:空间特征调制层的结构

空间特征调制层对网络的中间特征进行仿射变换,变换的参数由额外的先验条件(如本文中考虑的语义分割概率图)经过若干层神经网络变换得到。若以F表示网络的特征,γ β 分别表示得到的仿射变换的尺度和平移参数,那么经过空间特征调制层得到的输出特征为:

空间特征调制层可以方便地被集成至现有的超分辨率网络,如SRResNet等。图4是本文中使用的网络结构。为了提升算法效率,先将语义分割概率图经过一个Condition Network得到共享的中间条件,然后把这些条件“广播”至所有的SFT层。本文算法模型在网络的训练中,同时使用了perceptual loss和adversarial loss,被简称为SFT-GAN。

图4:网络框架示意图

实验结果

语义分割结果

如图5所示,当前基于深度学习的语义分割网络在低分辨率数据集上进行fine-tune后,对于大多数场景能够生成较为满意的分割效果。

图5:语义分割结果

SFT-GAN和其他模型的结果比较

图6展示了SFT-GAN模型和其他模型结果的比较,可以看到基于GAN的算法模型SRGAN、EnhanceNet以及本文的SFT-GAN在视觉效果上超过了以优化PSNR为目标的模型。SFT-GAN在纹理的恢复上能够生成比SRGAN和EnhanceNet更自然真实的结果(图中的动物毛发、建筑物的砖块、以及水的波纹)。

图6:本文SFT-GAN模型和现有超分辨率模型的结果对比

在进行的人类用户评价中,SFT-GAN模型在各个语义类别上也比之前的基于GAN的方法有着显著的提升(如图7所示)。

图7:人类用户评价不同算法效果

其他实验探究

本文还可视化了语义分割概率图和特征调制层参数的关系。图8中展示了建筑和草地类别的概率图以及网络中某一层的调制参数的联系。可以看到,调制参数和语义分割概率图有着紧密的联系,同时在调制参数中不同类别的界限依旧比较清晰。

图8:语义分割概率图和特征调制层参数的联系

实际场景中,物体类别的分隔界限通常并不十分明显,比如图9中的植物和草的区域,它们之间的过渡是“无缝”且连续的,而本文中使用的语义分割概率图以及调制层的参数也是连续变化的。因此,SFT-GAN可以更为精细地调制纹理的生成。

图9:SFT层能够更为精细地调制参数

本文还比较了其他结合先验条件的方式:

  1. 将图像和得到的语义分割概率图级联起来共同输入;
  2. 通过不同的分支处理不同的场景类别,然后利用语义分割概率图融合起来;
  3. 不考虑空间关系的特征调制方法FiLM。

从图10中可以看到:

方法1)的结果没有SFT层有效(SFT-GAN模型中有多个SFT层能将先验条件更为紧密地结合);

方法2)的效率不够高(SFT-GAN只需要进行一次前向运算);

方法3)由于没有空间位置的关系,导致不同类别之间的纹理相互干扰。

图10:不同先验条件结合方式的结果比较

结论

本文深入探讨了如何使用语义分割概率图作为语义先验来约束超分辨率的解空间,使生成的图像纹理更符合真实而自然的纹理特性。还提出了一种新颖的空间特征调制层(SFT)来有效地将先验条件结合到现有网络中。空间特征调制层可以和现有的超分辨率网络使用同样的损失函数,端到端地进行训练。测试时,整个网络可以接受任意大小尺寸的图像作为输入,只需要一次前向传播,就能够输出结合语义类别先验的高分辨率图像。实验结果显示,相较于现有超分辨率算法,本文SFT-GAN模型生成的图像具有更加真实自然的纹理。


参考文献

  1. SRGAN: C.Ledig, L.Theis, F.Husz´ar, J.Caballero, A.Cunningham, A.Acosta, A.Aitken, A.Tejani, J.Totz, Z.Wang, et al.Photo-realistic single image super-resolution using a generative adversarial network. In CVPR, 2017.
  2. EnhanceNet: M.S.Sajjadi, B.Scholkopf, and M.Hirsch. EnhanceNet: Single image super-resolution through automated texture synthesis. In ICCV, 2017
  3. FilM: E.Perez, F.Strub, H.de Vries, V.Dumoulin, and A.Courville. FiLM: Visual reasoning with a general conditioning layer. In AAAI 2018.

编辑于 2018-06-04

文章被以下专栏收录