关于感受野的总结

关于感受野的总结

感受野是卷积神经网络里面最重要的概念之一,为了更好地理解卷积神经网络结构,甚至自己设计卷积神经网络,对于感受野的理解必不可少。

一、定义

感受野被定义为卷积神经网络特征所能看到输入图像的区域,换句话说特征输出受感受野区域内的像素点的影响。

比如下图(该图为了方便,将二维简化为一维),这个三层的神经卷积神经网络,每一层卷积核的 kernel\_size=3, stride=1 ,那么最上层特征所对应的感受野就为如图所示的7x7。

感受野示例[1]


二、计算方式

RF_{l+1}=RF_{l}+(kernel\_size_{l+1}-1)\times feature\_stride_{l}

其中 RF 表示特征感受野大小, l 表示层数, feature\_stride_l=\prod_{i=1}^{l}stride_i, l=0 表示输入层, RF_{0}=1 , feature\_stride_0=1

  • 第一层特征,感受野为3

RF_{1}=RF_{0}+(kernel\_size_{1}-1)\times feature\_stride_{0}=1+(3-1)\times 1=3

第1层感受野[1]
  • 第二层特征,感受野为5

RF_{2}=RF_{1}+(kernel\_size_{2}-1)\times feature\_stride_{1}=3+(3-1)\times 1=5

第2层感受野[1]
  • 第三层特征,感受野为7

RF_{3}=RF_{2}+(kernel\_size_{3}-1)\times feature\_stride_{2}=5+(3-1)\times 1=7

第3层感受野[1]

如果有dilated conv的话,计算公式为

RF_{l+1}=RF_{l}+(kernel\_size_{l+1}-1)\times feature\_stride_{l}\times dilation_{l+1}

三、更上一层楼

上文所述的是理论感受野,而特征的有效感受野(实际起作用的感受野)实际上是远小于理论感受野的,如下图所示。具体数学分析比较复杂,不再赘述,感兴趣的话可以参考论文[2]。

有效感受野示例[2]

下面我从直观上解释一下有效感受野背后的原因。以一个两层 kernel\_size=3stride=1 的网络为例,该网络的理论感受野为5,计算流程可以参加下图。其中 x 为输入, w 为卷积权重, o 为经过卷积后的输出特征。

很容易可以发现, x_{1,1} 只影响第一层feature map中的 o_{1,1}^1 ;而 x_{3,3} 会影响第一层feature map中的所有特征,即 o_{1,1}^1,o_{1,2}^1,o_{1,3}^1,o_{2,1}^1,o_{2,2}^1,o_{2,3}^1,o_{3,1}^1,o_{3,2}^1,o_{3,3}^1

第一层的输出全部会影响第二层的 o_{1,1}^2

于是 x_{1,1} 只能通过 o_{1,1}^1 来影响 o_{1,1}^2 ;而 x_{3,3} 能通过 o_{1,1}^1,o_{1,2}^1,o_{1,3}^1,o_{2,1}^1,o_{2,2}^1,o_{2,3}^1,o_{3,1}^1,o_{3,2}^1,o_{3,3}^1 来影响 o_{1,1}^2 。显而易见,虽然 x_{1,1}x_{3,3} 都位于第二层特征感受野内,但是二者对最后的特征 o_{1,1}^2 的影响却大不相同,输入中越靠感受野中间的元素对特征的贡献越大。

两层3x3 conv计算流程图

四、应用

  • 分类

Xudong Cao写过一篇叫《A practical theory for designing very deep convolutional neural networks》的technical report,里面讲设计基于深度卷积神经网络的图像分类器时,为了保证得到不错的效果,需要满足两个条件:

Firstly, for each convolutional layer, its capacity of learning more complex patterns should be guaranteed; Secondly, the receptive field of the top most layer should be no larger than the image region.

其中第二个条件就是对卷积神经网络最高层网络特征感受野大小的限制。

  • 目标检测

现在流行的目标检测网络大部分都是基于anchor的,比如SSD系列,v2以后的yolo,还有faster rcnn系列。

基于anchor的目标检测网络会预设一组大小不同的anchor,比如32x32、64x64、128x128、256x256,这么多anchor,我们应该放置在哪几层比较合适呢?这个时候感受野的大小是一个重要的考虑因素。

放置anchor层的特征感受野应该跟anchor大小相匹配,感受野比anchor大太多不好,小太多也不好。如果感受野比anchor小很多,就好比只给你一只脚,让你说出这是什么鸟一样。如果感受野比anchor大很多,则好比给你一张世界地图,让你指出故宫在哪儿一样。

《S3FD: Single Shot Scale-invariant Face Detector》这篇人脸检测器论文就是依据感受野来设计anchor的大小的一个例子,文中的原话是

we design anchor scales based on the effective receptive field

《FaceBoxes: A CPU Real-time Face Detector with High Accuracy》这篇论文在设计多尺度anchor的时候,依据同样是感受野,文章的一个贡献为

We introduce the Multiple Scale Convolutional Layers
(MSCL) to handle various scales of face via enriching
receptive fields and discretizing anchors over layers

引用:

[1]convolutional nerual networks

[2]Understanding the Effective Receptive Field in Deep Convolutional Neural Networks

编辑于 2018-07-25

文章被以下专栏收录