首发于目标检测

2019AAAI目标检测论文M2Det(One-stage算法)

背景

论文《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network》是2019 AAAI的paper,作者来自于北大和达摩院。其思路类似本专栏之前介绍的RFBNet和CFENet(该作者同时也是M2Det的作者),但是从效果上看,M2Det在COCO上保证FPS达到11.4的情况下,单模型mAP达到了41%,从目前看是性能(速度和精度)最好的目标检测算法。代码预计在3月1日公布。

论文地址:

代码地址:

一、研究动机

目前主流的目标检测算法普遍会采用图像金字塔来提升检测性能,这里作者给出了几种典型的结构,如图所示(a是SSD的方式,b是典型的FPN,c是STDN)。但是目前金字塔的设计都是简单的不同尺度的融合。针对这个问题,作者提出了新的不同尺度层融合的方法Multi-Level Feature Pyramid Network (MLFPN)。

其实这个问题是目前目标检测研究的一个热点,包括2018 ECCV PFPNet以及2019 arxiv TridentNet 普通讨论了这个问题,较FPN也都有了较大的提升。

二、具体方法

整体框架如图所示:

整体步骤上,

1)首先,主干网络的输出(以VGG为例,conv4_3 和 conv5_3),经过第一个FFM1模块,将不同尺度的层进行融合,作为Base feature输入到下一单元;FFM1如图所示:

2)第二个模块整体是一个类似于shortcut的结构,由8个TUM构成,每个TUM的输出都会和Base Feature进行融合(FFM2),输入到下一个TUM中。

FFM2如图:

TUM如图:

可以看到每个TUM的输出包含6个不同尺度的特征。

3)SFAM:不同尺度的特征进行重组和融合,基本原理是对不同TUM的输出(每个TUM有6个不同尺度的输出),将其中相同尺度的特征进行concat,然后经过一个SE模块(对通道进行reweighting)输出,然后进行检测。

三、实验结果

个人觉得本篇paper的实验结果做了非常好的对比,对现有检测算法的精度和速度对比比较全面。从表中可以看到,相比于SSD-VGG-512,有8.8个点的提升,提升非常巨大,对比目前RefineDet也有很大的优势。在800x800上,在FPS达到10以上的情况下,还能做到41%,检测结果就目前检测算法而言非常好了。

对比于之前检测新思路CorNerNet,也有不小的优势。

四、总结分析

优点:

1)新的特征融合方式,可以替换FPN,可以引入到其他方法中,也是目标检测目前研究的热点。

2)性能非常出色,在FPS达到10以上的情况下,mAP做到41%,兼顾速度和效率。

缺点:

从论文里看,其计算量并不会小,这么快的速度需要验证,期待作者的代码。

编辑于 2019-07-31 22:02