【Classification】MobileNets阅读笔记

过河卒子能当車

motivation

自从2012年ILSVRC的AlexNet，神经网络铺天盖地，各种脑洞大开的结构层出不穷，尽管在图像分类，物体检测，人体姿态估计，行为识别，人脸识别等都各个方形都有突破性进展，但是像经典的ResNet落地到嵌入式系统比如智能手机，还有不小的路要走，模型加速优化和压缩也是从学术界落地到工业界的重点。

google 17年发表的这篇mobilenets，其核心思想是将标准的卷积分解为一个depthwise卷积和一个1*1的pointwise卷积。depthwise卷积单独对每个输入通道用一个滤波器计算，pointwise卷积使用1*1的卷积组合depthwise的结果。这个分解可以有效降低计算量和模型大小。depthwise separable convolutions在Google的其它论文其实已经有类似的思想，inception v1-v4 到Xception,Google提出很多卷积方法，在本论文比较有创新性的就是chanel影响因子α和分辨率影响因子ρ。

Architecture

depthwise separable convolutions的网络结构很简单，作者用Depthwise Separable convolutions with Depthwise and Pointwise layers followed by batchnorm and ReLU替代Standard convolutional layer with batchnorm and ReLU，上面这幅图怎么看着都别扭，换一个一眼看明白的图示。