2019AAAI目标检测论文M2Det（One-stage算法）

ustc，垂死病中惊坐起

背景

论文《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network》是2019 AAAI的paper，作者来自于北大和达摩院。其思路类似本专栏之前介绍的RFBNet和CFENet（该作者同时也是M2Det的作者），但是从效果上看，M2Det在COCO上保证FPS达到11.4的情况下，单模型mAP达到了41%，从目前看是性能（速度和精度）最好的目标检测算法。代码预计在3月1日公布。

论文地址：

代码地址：

一、研究动机

目前主流的目标检测算法普遍会采用图像金字塔来提升检测性能，这里作者给出了几种典型的结构，如图所示（a是SSD的方式，b是典型的FPN，c是STDN）。但是目前金字塔的设计都是简单的不同尺度的融合。针对这个问题，作者提出了新的不同尺度层融合的方法Multi-Level Feature Pyramid Network (MLFPN)。

其实这个问题是目前目标检测研究的一个热点，包括2018 ECCV PFPNet以及2019 arxiv TridentNet 普通讨论了这个问题，较FPN也都有了较大的提升。

二、具体方法

整体框架如图所示：

整体步骤上，

1）首先，主干网络的输出（以VGG为例，conv4_3 和 conv5_3），经过第一个FFM1模块，将不同尺度的层进行融合，作为Base feature输入到下一单元；FFM1如图所示：

2）第二个模块整体是一个类似于shortcut的结构，由8个TUM构成，每个TUM的输出都会和Base Feature进行融合（FFM2），输入到下一个TUM中。

FFM2如图：

TUM如图：

可以看到每个TUM的输出包含6个不同尺度的特征。

3）SFAM：不同尺度的特征进行重组和融合，基本原理是对不同TUM的输出（每个TUM有6个不同尺度的输出），将其中相同尺度的特征进行concat，然后经过一个SE模块（对通道进行reweighting）输出，然后进行检测。

三、实验结果

个人觉得本篇paper的实验结果做了非常好的对比，对现有检测算法的精度和速度对比比较全面。从表中可以看到，相比于SSD-VGG-512，有8.8个点的提升，提升非常巨大，对比目前RefineDet也有很大的优势。在800x800上，在FPS达到10以上的情况下，还能做到41%，检测结果就目前检测算法而言非常好了。

对比于之前检测新思路CorNerNet，也有不小的优势。

四、总结分析

优点：

1）新的特征融合方式，可以替换FPN，可以引入到其他方法中，也是目标检测目前研究的热点。

2）性能非常出色，在FPS达到10以上的情况下，mAP做到41%，兼顾速度和效率。

缺点：

从论文里看，其计算量并不会小，这么快的速度需要验证，期待作者的代码。

编辑于 2019-07-31 22:02

人工智能

计算机视觉

目标检测

文章被以下专栏收录

目标检测