ECCV 2022 | AirDet: 无需微调的小样本目标检测方法

Jaraxxus

CMU Robotics PhD｜Robot Vision

本文提出无需微调的小样本目标检测方法AirDet，针对机器人自主探索任务设计。基训练后，未经微调的AirDet表现甚至优于部分微调后的方法。论文、项目代码、ROS部署接口均已开源。

AirDet

项目网站开源论文开源代码 ROS部署

引言

小样本目标检测（FSOD）是近年兴起的一项计算机视觉任务，其基本设定是，仅提供少量（通常少于等于10个）新类样本情况下，方法即需检测基训练集之外类别的目标。

由于其在自主探索中的重要作用，FSOD受到了机器人界越来越多的关注。这是因为我们通常期望机器人在未知环境中检测到（模型训练过程中未见过的）新物体，然而在线探索的过程中，用户只能在线标注提供少量的新类样本。譬如图一（a）中，用户提供少量标注后，方法需要检测钻孔机、头盔等未见过的新颖类别目标。

尽管FSOD最近有了很显著的发展，但是大多数现有的方法在应用前都遵循基训练、小样本微调两阶段范式。然而微调阶段并不适用于机器人在线探索的应用场合，因为：

探索过程中待检测的新类别是可以动态变化的（如不断增加的）。如果每次改变类别都重新微调模型，一方面对于时间紧迫的探索任务而言效率极低，另一方面也会为有限的机器人机载算力带来过高负荷。
微调阶段的许多超参数都需要验证集进行调节，如微调学习率、模型收敛epoch等。然而对于在线探索任务而言，验证集是不存在的，超参调节自然也就难以进行。

为此，我们提出了一种无需微调的小样本目标检测方法AirDet。如图一（b）所示，未经微调的AirDet甚至能取得比一些微调后的方法更好的结果。

图一. 来自机器人探索（DARPA Subt 挑战赛）的代表性图像和性能比较。实线表示没有微调的结果，虚线表示在少样本数据上微调后的结果。

贡献

本文提出在机器人自主探索任务中可行的，无需微调的小样本检测模型，AirDet。
本文提出“与类别无关的关联性（class-agnostic relation）”，包含空间关联性与通道关联性，这是AirDet的模型设计核心。
在COCO，VOC，LVIS数据集与DARPA Subt挑战赛真实数据中的详尽实验评估证明了AirDet的优越性与可行性。
我们也提供了AirDet的ROS接口与AGX上的部署指南。

方法介绍

图二展示了机器人自主探索任务的流程和AirDet的宏观模型结构。

任务流程

在探索未知环境过程中，机器人首先将可能包含重要物体（如头盔）的原始图片发送给用户。用户会在线给出标注并提供少量样本。此后，机器人便可立即通过对后续环境的感知检测这些新类样本。

宏观结构

AirDet宏观上包含四个模块

共享的骨干网络，用于特征提取
由支持样本引导的多层特征融合的区域建议网络，用于在测试图片上生成候选框
基于全局-局部联系的样本融合网络，用于生成更具表征能力，更可靠的类原型特征
基于关联性的检测头，分为分类分支和检测框回归分支

核心理念

AirDet的模块设计理念均基于“与类别无关的关联性（class-agnostic relation）”。

具体而言，我们定义了如下两种关联性：空间尺度关联性 \mathcal{R}_{\rm{s}}(\cdot, \cdot) 和特征通道关联性 \mathcal{R}_{\rm{c}}(\cdot, \cdot)

空间尺度关联性：目标的类别与其外观紧密相关，而目标的外观由特征的空间维度描述。因此，两个特征的空间关联性可以很大程度上反映两个特征的相关程度（如相似性）。我们定义 \mathcal{R}_{\rm{s}}(\cdot, \cdot) 如下：

\mathcal{R}_{\rm{s}}(\mathbf{A}, \mathbf{B}) = \mathbf{A} \odot \mathrm{MLP}\Big(\mathrm{Flatten}\big(\mathrm{Conv}(\mathbf{B})\big)\Big),

其中， \mathbf{A}, \mathbf{B}\in\mathbb{R}^{C\times W\times H} 是两个任意张量。 \rm{Flatten} 意味着将特征在空间尺度下展平。 \mathrm{MLP} 是常用的多层感知机，故而 \rm{MLP}\Big(\rm{Flatten}\big(\rm{Conv}(\mathbf{B})\big)\Big) \in \mathbb{R}^{C\times 1\times 1} 可以生成带有 \mathbf{B} 的空间信息的核，此后使用逐通道卷积 \odot 便可计算 \mathbf{A}, \mathbf{B} 间的空间关联性 \mathcal{R}_{\rm{s}}(\mathbf{A}, \mathbf{B}) 。

特征通道关联性：在以往的研究中表明，图片的类别信息通常存于特征通道中。譬如，考虑两辆汽车的深度特征，其沿通道的分布是相似的。受此启发，我们提出特征通道关联性模块 \mathcal{R}_{\rm{c}}(\cdot, \cdot) ：

\mathcal{R}_{\rm{c}}(\mathbf{A}, \mathbf{B}) = \mathrm{{Conv}}\big(\mathrm{Cat}(\mathbf{A}, \mathbf{B})\big) + \mathrm{Cat}\big(\mathrm{{Conv}}(\mathbf{A}), \mathrm{{Conv}}(\mathbf{B})\big),

其中， \mathrm{Cat(\cdot, \cdot)} 代表沿通道维度串联两个特征。

与类别无关的关联性贯穿AirDet每个子模块的设计，这使得AirDet无需微调即可工作。每个子模块的设计细节请有兴趣的读者参阅我们的原文或代码。

实验

条件设定

基训练集：

COCO2017 train数据集中非VOC的60类数据（等价于COCO2014 trainval中剔除5k测试图片）

测试集：

COCO2017 val数据集中属于VOC的20个新类数据（提供1,2,3,5shot 支持样本）
Pascal VOC2012 val数据集
LVIS 数据集中四组非常规类别
DARPA Subt 挑战赛中的真实数据

值得一提的是，由于AirDet无需微调，在所有测试数据，不同shot的设定中，我们都可采用同一个基训练出来的模型（而不需要针对不同的场景调整不同的微调超参数）。

COCO

COCO上的结果显示，无需微调的AirDet已经比肩，甚至优于许多微调后的方案，微调后，AirDet的性能更加可观。无需微调的条件下，方法的结果对支持样本较敏感，故而我们随机采样了3-5组样本，展示了其平均结果和标准差，表中由 \dagger 表示。

得益于AirDet中由支持样本引导，可学习多层特征联系的SCS模块（详见原文），AirDet在多尺度目标检测中也比已有的方案更优（优于采纳FPN的方案）。

值得一提的是，对于多尺度目标的检测，微调后的模型表现不一定更好。

大多现有方案对于COCO数据集采纳10-shot场景，我们也给出AirDet 10-shot的结果如上表。（不过最新的CVPR2022中，COCO 10-shot已经能达到17-18 AP，不得不感慨CV发展的迅猛）

VOC

通常机器人的工作环境与训练集有较大差别，我们展示的跨领域性能（COCO训练，VOC测试）如上表。

Subt 挑战赛

感觉放了好多表，SUBT就放一些定性图。左侧是提供给AirDet的新类样本，右侧是AirDet的检测结果，可见AirDet对真实探索环境中的尺度变化、照度变化等挑战因素较为鲁棒。

局限性

无需微调的小样本目标检测研究甚少，目前可以不微调直接工作的仅有A-RPN和AirDet两个方法，而这个任务对机器人在位置环境中的探索感知又比较重要。为了这个领域未来能得到关注并发展的更好，我们也真诚摆出AirDet的局限性：

AirDet目前模型参数较多，运行速度不快，我们在AGX Xavier上如果不做TensorRT加速，运行速度仅有1~2FPS。更轻量化的模型是可优化的方向。
我们观察到AirDet的failure case主要是由分类导致的，具体问题有两个。第一，类间variance大，有些类AP高达30，有些类低至0.5。第二，AirDet对正样本分类不够好。举例来说，如果给猫（新类）的支持样本，AirDet在测试图片上：在猫的区域生成候选框，和将含有猫的候选框分类为猫，这两个任务表现不佳（体现为loss大）。所以设计更有效地分类策略是提升AirDet性能的可观方向。
AirDet对于多类检测的效率较低。AirDet的SCS和检测头内部会对支持类跑循环，最后在所有类下找到得分最高的，这种跑法会导致类别过多时推理速度变慢。（这应该也是大多数基于元学习（meta-learning）的FSOD的局限性）
最后坦白的说，未经微调的AirDet与微调的方法在某些情况下仍有一些差距，这也说明AirDet的性能仍有较大提升空间。

致谢

本文是我参加CMU RISS2021暑研期间的工作，从第一次讨论这个方向，到至今论文中稿已逾一年。非常感谢期间王晨博士和Scherer教授对我的指导帮助，也非常感谢pranay和Seungchan学长的协助合作。本文主要受A-RPN与《learning to compare》两篇文章启发，在此向文章的作者们致以真挚的谢意（代码基于FewX）。

欢迎大家关注、交流讨论。

By 李博文（Bowen Li）

于2022.07.24

编辑于 2023-07-16 13:28・IP 属地湖北

小样本学习 (Few-Shot Learning)

目标检测

eccv2022