2019AAAI目标检测论文M2Det(One-stage算法)
背景
论文《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network》是2019 AAAI的paper,作者来自于北大和达摩院。其思路类似本专栏之前介绍的RFBNet和CFENet(该作者同时也是M2Det的作者),但是从效果上看,M2Det在COCO上保证FPS达到11.4的情况下,单模型mAP达到了41%,从目前看是性能(速度和精度)最好的目标检测算法。代码预计在3月1日公布。
论文地址:
代码地址:
一、研究动机
目前主流的目标检测算法普遍会采用图像金字塔来提升检测性能,这里作者给出了几种典型的结构,如图所示(a是SSD的方式,b是典型的FPN,c是STDN)。但是目前金字塔的设计都是简单的不同尺度的融合。针对这个问题,作者提出了新的不同尺度层融合的方法Multi-Level Feature Pyramid Network (MLFPN)。
其实这个问题是目前目标检测研究的一个热点,包括2018 ECCV PFPNet以及2019 arxiv TridentNet 普通讨论了这个问题,较FPN也都有了较大的提升。
二、具体方法
整体框架如图所示:
整体步骤上,
1)首先,主干网络的输出(以VGG为例,conv4_3 和 conv5_3),经过第一个FFM1模块,将不同尺度的层进行融合,作为Base feature输入到下一单元;FFM1如图所示:
2)第二个模块整体是一个类似于shortcut的结构,由8个TUM构成,每个TUM的输出都会和Base Feature进行融合(FFM2),输入到下一个TUM中。
FFM2如图:
TUM如图:
可以看到每个TUM的输出包含6个不同尺度的特征。
3)SFAM:不同尺度的特征进行重组和融合,基本原理是对不同TUM的输出(每个TUM有6个不同尺度的输出),将其中相同尺度的特征进行concat,然后经过一个SE模块(对通道进行reweighting)输出,然后进行检测。
三、实验结果
个人觉得本篇paper的实验结果做了非常好的对比,对现有检测算法的精度和速度对比比较全面。从表中可以看到,相比于SSD-VGG-512,有8.8个点的提升,提升非常巨大,对比目前RefineDet也有很大的优势。在800x800上,在FPS达到10以上的情况下,还能做到41%,检测结果就目前检测算法而言非常好了。
对比于之前检测新思路CorNerNet,也有不小的优势。
四、总结分析
优点:
1)新的特征融合方式,可以替换FPN,可以引入到其他方法中,也是目标检测目前研究的热点。
2)性能非常出色,在FPS达到10以上的情况下,mAP做到41%,兼顾速度和效率。
缺点:
从论文里看,其计算量并不会小,这么快的速度需要验证,期待作者的代码。