应用于雷达信号的深度学习方法

应用于雷达信号的深度学习方法

雷达信号有全天候的优点,但分辨率低,不容易得到目标轮廓,而且缺乏高度信息,只是一个扇面的发射-接收(RCS)信息和速度信息。下面介绍一些论文,主要是关于深度学习在雷达信号的应用。


“Micro-Doppler Based Human-Robot Classification Using Ensemble and Deep Learning Approaches”(2018.2)

雷达传感器可用于分析在距离和速度维度的微运动而引起的频移,分别确定为微多普勒(μ-D)和微距离(μ-R)。不同的移动目标具有唯一的μ-D和μ-R签名,可用于目标分类。本文在工业安全中使用25GHz FMCW单输入单输出(SISO)雷达进行实时人机识别。由于存在实时约束,直接分析联合多普勒成像(R-D)图的分类问题。对于集成分类器(ensemble classifiers),重组后的距离和速度配置文件直接传递到集成树(ensemble trees),例如梯度增强(gradient boosting)和无特征提取的随机森林(random forest)。最终,使用深度卷积神经网络(DCNN),并将原始R-D图像直接馈入网络。

如图是人-机的R-D图比较:


这是馈入CNN的灰度R-D图:

如图是CNN架构:

一些结果如下表:传统方法和CNN方法


“Deep Learning for End-to-End Automatic Target Recognition from Synthetic Aperture Radar Imagery”(2018)

合成孔径雷达(SAR)自动目标识别(ATR)的标准体系结构包括三个阶段:检测、鉴别和分类。SAR ATR的CNN大多将SAR图像提取的目标碎片类别进行分类。该报告提出了用于SAR图像的端到端ATR的CNN架构。叫验证支持网络(VersNet,verification support network)的CNN执行SAR ATR端到端的这三个阶段。VersNet输入具有多个类别和多个目标的任意大小的SAR图像,并输出代表每个检测目标的位置、类别和姿态的SAR ATR图像。该报告给出VersNet的评估,该VersNet经过训练可以输出所有12个类别得分:用MSTAR(moving and stationary target acquisition and recognition)公共数据集为每个像素输出10个目标类别、目标前端类别和背景类别。

如图是VersNet在可变大小的SAR图像中执行多类别/多目标的自动目标识别ATR。 在这种情况下,输入是具有三个类别和四个目标的单个图像(左上和右下目标是同一类别)。 VersNet输出每个检测到的目标的位置、类别和姿势(正面)。

下图是该CNN模型的训练过程:

如图从左到右分别对应CNN的输入、输出和真实结果。



“Practical classification of different moving targets using automotive radar and deep neural networks“ (2018)

这项工作提出使用汽车雷达数据和不同NN对不同类别的目标(汽车、单人和多人、自行车)进行分类的结果。与NXP 半导体公司制造的汽车雷达收发器TEF810X和微控制器单元SR32R274一起,它提出了一种用于检测、跟踪和微多普勒(micro-Doppler)提取的雷达算法快速实现方案。对于记录的四类目标不同分类问题,考虑了三种不同类型的神经网络,即经典卷积网络、残差网络以及卷积网络和递归网络的组合。

一个多目标分类系统的框图如下:

下图是不同目标频谱图示例:(a)单人行走,(b)两个人一起散步,(c)自行车,(d)汽车。

如图给出表示不同的网络体系结构:(a)类似于VGG类型的CNN,(b)卷积残差网络,(c)卷积网络和递归LSTM网络的组合。

最后是一些结果:


“RRPN: Radar Region Proposal Network For Object Detection In Autonomous Vehicles“ (2019.5)

区域提议(Region Proposal)算法通过假设图像的目标位置,在大多数最新的两步目标检测网络中发挥重要作用。已知区域提议算法是大多数两步目标检测网络的瓶颈,这会增加每个图像的处理时间,并导致网络速度缓慢,不适用于实时应用(例如自动驾驶汽车)。本文介绍了RRPN,这是一种基于雷达的实时区域提议算法,用于自动驾驶汽车中的目标检测。RRPN通过将雷达检测映射到图像坐标系并为每个映射的雷达检测点生成预定义的锚框来生成目标建议。然后根据目标距车辆的距离对这些锚框进行转换和缩放,为检测目标提供更准确的建议。开源代码在github.com/mrnabati/RRP

生成ROI的第一步是将雷达检测结果从车辆坐标映射到摄像机视角坐标。以鸟瞰视角报告雷达检测结果,并在车辆坐标系中测量物体的距离和方位角。将这些检测结果映射到摄像机视图坐标,可以将雷达检测到的目标与在摄像机获取的图像中看到的目标相关联。将雷达检测结果映射到图像坐标后,它将获得图像中每个检测到的物体的大概位置。这些称为“兴趣点(POI,Points of Interest)”的映射雷达检测可以提供有关每个图像目标有价值的信息,而无需对图像本身进行任何处理。 有了此信息,提出ROI的简单方法就是引入一个以每个POI为中心的框。

此方法使用Faster R-CNN提到的锚框(anchor bounding box)。对每个POI,它会生成几个以POI为中心的具有不同大小和纵横比的边框。如图所示,它使用4种不同的大小和3种不同的纵横比来生成这些锚框。

考虑到POI并不总是映射到图像坐标下目标的中心,它还会生成锚的不同平移版本。当POI向目标的右侧、左侧或底部映射时,这些平移锚框将提供更准确的边框。雷达检测具有每个检测目标的距离信息,该信息在此步骤用于缩放所有生成的锚框。

最后是一些结果例子:


“Vehicle Detection With Automotive Radar Using Deep Learning on Range-Azimuth-Doppler Tensors“ (2019.10)

二十多年来,雷达一直是汽车高级驾驶员辅助系统的关键推动力。作为一种廉价的、全天候且可同时进行速度测量的远程传感器,雷达有望成为自动驾驶车未来不可或缺的一部分。传统的雷达信号处理无法区分杂波和目标的反射,通常仅限于检测接收信号中的峰值。这些峰值检测方法有效地将像图像的雷达信号压缩成稀疏点云。该文展示了一种基于深度学习的车辆检测解决方案,该解决方案在图像的张量空间运行,而不是峰值检测产生的点云空间运行。

如图是带有相应相机和激光雷达图像的雷达信号示例。 雷达信号位于极坐标空间中:垂直轴是距离,水平轴是方位角(角度)。

下图是绘制了标记点的多普勒(速度)通道值。 这些点中的每一个也标记在摄像头坐标系中。

雷达张量是3-D:它具有两个空间维度(距离和方位角),以及第三个多普勒维度,代表物体相对于雷达的速度,最高达到一定的混叠速度(aliasing velocity)。

这里提出两个方法。第一种方法是在该维度信号功率求和来消除多普勒维度,该模型的输入是一个距离-方位角张量,因此将此解决方案称为距离-方位角(RA)模型。第二种方法提供距离多普勒和方位多普勒张量作为输入,距离多普勒输入的方位角维度已消除;类似地,方位多普勒输入的距离维度已消除;因此,该模型在初始处理后融合三个输入,称为距离-方位角-多普勒(RAD)模型。

由于雷达信号的特性,无法预期一个平移等方差。 最新的方法CoordConv(arXiv1807.03247论文“An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution“)用于第一层。实际上,这意味着将两个附加通道叠加到输入中,其中包含像素坐标,能够根据位置调整卷积。

如图是DL模型体系结构的概念图。 图片中未显示特征通道。 其中的表示:(R)距离; (A)方位角; (D)多普勒。 通过对每个维度求和,可以从原始RAD张量计算出不同的2D张量。

用于距离-方位角(RA)模型的特征提取器受特征金字塔网络(FPN)架构的推动。它由多个连续卷积层组成,并具有多个下采样,即跨步卷积(strided convolution)层。下一步是使用转置卷积多次上采样。跳连接在上采样路径和下采样路径的形状匹配特征图之间。在特征图合并之前,对每个跳连接执行一个附加的卷积层。层配置的构造使最后一层的特征具有跨整个输入的感受野。

RAD模型在3D雷达张量的三个投影上运行,以降低计算复杂度。投影是沿忽略维度对信号功率求和得出。该网络具有三个2D输入:距离-方位角,方位角-多普勒和距离-多普勒。

距离-方位分支与距离-方位(RA)模型的下采样部分完全相同。另外,有两个分支分别以距离-多普勒张量和方位-多普勒张量为输入。这些分支仅有下采样。

然后将生成的特征图进行如下融合:

  1. 首先,沿着忽略维度重复每个特征图,使张量有兼容的形状。
  2. 产生三个4D特征张量,一个通道为特征通道,其余通道对应于距离-方位-多普勒。
  3. 将它们在通道维度串联起来并应用3D卷积层。
  4. 在卷积之后,在多普勒维度执行最大池化,并继续进行距离-方位角模型的上采样层。

如图是笛卡尔网格下方位角舱(bin)的物理中心方向图。

在FFT后,雷达张量位于极坐标空间(范围方位角)中。随着距离的增加,相邻舱之间的距离也变大:前舱中心与下一个舱中心之间的角度为3.7°,相当于在47米的距离处横向距离约3米,而对角最大极值舱的舱角度增加到11°(或9米) 。

采用SSD方法,在输入张量放置一个先验框网格。

基准方法:极输入,极输出。基准解决方案将距离-方位角雷达张量作为输入。先前的边框分布在极空间的均匀网格上。

3种替代方法:

  1. 笛卡尔输入,笛卡尔输出。 使用双线性插值将输入张量从极坐标空间转换为笛卡尔空间。 笛卡尔输入张量被裁剪,得到一个正方形特征图。
  2. 极输入,能学习变换的笛卡尔输出。 NN的输入张量在极坐标空间,但输出在笛卡尔空间的均匀网格上。 因此,NN必须明确学习极空间到笛卡尔空间的变换。
  3. 潜特征的极坐标到笛卡尔坐标变换。 与极坐标输入-笛卡尔输出解决方案相同,但在特征提取之后,显式的转换层( transformation layer)将潜特征从极坐标空间转换为笛卡尔坐标空间(使用双线性插值)。

另外还有:

  1. 利用LSTM模块将网络转换为RNN。
  2. 为全卷积方式操作,使用卷积LSTM单元。
  3. 本质上讲,与传统的LSTM单元相比,某些操作被卷积代替,并且该单元在3D张量上运行。
  4. 采用单步目标检测模型,即单击检测器(SSD)。
  5. 本质上,SSD在骨干网提取的一个或多个特征图运行。
  6. SSD用回归来调整预定义框的大小和位置,更好地匹配实际目标的边框。
  7. 在推理期间,NMS删除可能对同一目标进行的重叠检测。
  8. 与困难负样本挖掘(hard negative mining)方法相比,用焦点损失(focal loss)提供更好结果。

最后是一些结果:雷达信号在笛卡尔坐标可视化图,其中目标用黑色表示,预测用白色轮廓表示,速度估算目标和预测也可见。


“2D Car Detection in Radar Data with PointNets“ (2019.12)

对许多自动驾驶功能而言,对车辆环境的高度准确感知是至关重要的前提。现代高分辨率雷达传感器对每个物体(object)会产生多个雷达目标(target),使这些传感器特别适合2D物体检测任务。这项工作提出一种基于PointNets模型根据稀疏雷达数据检测2D目标的方法。该方法使用单雷达传感器,有助于分类以及目标的边框估计。针对雷达数据,作者对PointNet模型进行了调整,执行带分割的2D目标分类和2D边框回归,以估计非模态(amodal)2D边框。用自动创建的数据集对算法进行评估,该数据集由各种实际驾驶操作组成。结果表明,使用PointNets模型在高分辨率雷达数据中目标检测有巨大潜力。

如图是雷达数据的2D目标检测。 具有反射的雷达点云属于汽车(红色)或杂波(蓝色)。 箭头的长度显示多普勒速度,点的大小表示雷达横截面(RCS,radar cross section)值。 红色框是预测的无模态2D边框。

如图是基于PointNets雷达数据进行2D目标检测的流程图。 首先,补丁提议(patch proposal )用整个雷达目标列表确定多个RoI,称为一组补丁。 其次,分类和分割网络对这些补丁进行分类。 随后,对n个雷达目标的每一个进行分类以获得实例分割(instance segmentation)。 最后,回归网络用m个分割的汽车雷达目标估计一个物体的无模式2D边框。

补丁提议将雷达点云划分为感兴趣的区域。在每个雷达目标周围确定具有特定长度和宽度的补丁。补丁的长度和宽度的选择必须使包含整个感兴趣的物体(这里是汽车)。重要的是,每个补丁都包含足够的雷达目标区域,在分类步骤中区分汽车和杂物补丁,在分割步骤中区分汽车和杂物目标。补丁提议生成包含同一目标的多个补丁。最终的2D目标检测器为单个目标提供了多个假设。这种行为是期待的,因为在进一步环境感知的处理链中,目标跟踪系统处理每个目标的多个假设。补丁被标准化为旋转不变的中心视图(center view)。补丁中的所有雷达目标都送往分类/分割网络。

分类和目标分割模块由一个网络组成,该网络对每个补丁进行分类,并对补丁内的所有雷达目标进行分割。为此,对整个补丁用分类网络,区分汽车和杂乱补丁。对于汽车补丁,分割网络预测每个雷达目标的概率得分,该得分指示雷达目标属于汽车的概率。在掩码步骤中,提取被确定为汽车目标的雷达目标。分割的雷达目标坐标被标准化以确保算法的平移不变性。

请注意,分类和分割模块可以轻松扩展到多个类别。为此,将补丁分类为某类,并因此将预测的分类信息用于分割。

下一个模块估计相关的非模态2D边框。首先,一种轻量级回归PointNet,称为Transformer PointNet(T-Net),它估计无模态边框的中心并将雷达目标转换到相对于预测中心的局部坐标系。回归网络可预测2D边框的参数,即其中心(xc,yc),航向角θ及其大小(l,w)。框中心估计采用基于残差的2D定位。用分类和分割方法的组合来预测航向角和边框的大小。尺寸估计考虑预定义的尺寸模板进行分类。预测与这些类别有关的残差值。在多个类别的情况下,框估计网络将分类信息用于边框回归。因此,尺寸模板必须通过其他类别来扩展,例如,行人或骑自行车人。

如图即网络架构图:


对于雷达数据的目标检测任务,网络体系结构是基于PointNet和Frustum PointNets的概念。该网络体系结构由分类、分割和2D边界框回归网络组成。对于分类和分割网络,该体系结构在概念上类似于PointNet模型。用于模态2D边框估计的网络与Frustum pointnets网络相同。在这项工作中,分类和边框回归网络的输入是雷达数据。因此,有关原始PointNet的输入已扩展到雷达目标列表。

对于分类和分割网络以及边框回归网络,雷达目标表示为包含二维空间数据、自我运动补偿多普勒速度和雷达横截面RCS信息的4-d点集。对于分类和分段网络,输入是带有一个补丁n个点的雷达目标列表。然后,将有m个点属于一个物体的分割雷达目标列表馈入2D边框估计网络。考虑整个数据集以及单次驾驶操作,结果如下表所示。


“Radar and Camera Early Fusion for Vehicle Detection in Advanced Driver Assistance Systems“(2019.12)

感知模块是高级驾驶员辅助系统(ADAS)的核心。为了提高该模块的质量和鲁棒性,尤其是在环境噪声(例如变化的光照和天气条件)的存在下,传感器(主要是相机和激光雷达)的融合已成为近期研究的重点。本文重点介绍了一个相对未开发的领域,该领域解决了相机和雷达传感器的早期融合问题。它将经过最少处理的雷达信号及其对应的摄像头框架馈入该深度学习架构,以增强此感知模块的准确性和鲁棒性。在真实数据做的评估表明,可以利用雷达和摄像机信号的互补性来减少横向误差。

雷达给出了一种替代激光雷达的低成本替代方案,作为距离估计传感器。由于其基本设计的性质,典型的汽车雷达目前比激光雷达便宜得多。除了成本外,雷达还可以适应不同的光照和天气条件(例如,雨和雾),并能够提供瞬时速度测量值,从而为改善系统反应时间提供了机会。在车辆上具有多个传感器的情况下,传感器融合对于ADAS系统来说是自然而然的下一步,因为它可以提高在相对嘈杂的环境中进行目标检测的准确性,尤其是鲁棒性。

与早期融合方法相比,跨不同传感器的数据融合可以在后期进行,其复杂度要比早期融合方法低,在早期融合方法中,来自多模态的传感器测量值联合处理可生成目标属性。传统上,早期融合允许对特征进行低级融合,从而提高检测精度。

在自动驾驶和ADAS的背景下,雷达数据已用于提高传感器融合和/或感知模块的准确性。但是,雷达数据通常使用恒定误报率(CFAR,constant false alarm rate)算法进行处理,将原始数据转换为点云,从而将感兴趣的目标与周围的杂波分开。将原始的4D雷达张量(由密集的2D欧氏空间、多普勒和时间组成)转换为稀疏的2D点云将删除信号中的大量信息。相比之下,依赖于原始雷达数据的方法,最小化信号后处理引入的畸变以及最小化雷达输出的抽象度。

如图是提出的FusionNet网络架构:受SSD启发,FusionNet提取并结合从已知相对位置、不同角度观察、同一空间的不同传感器特征。 每个特征提取分支均包含空间变换,使特征图与其他分支在空间上对齐。

FusionNet中实现了两个分支,一个是雷达分支,处理来自雷达的距离-方位图,另一个是摄像头分支,它处理前向摄像头捕获的图像。在独立的特征提取器分支之后,这些特征通过融合层。为了确保网络从不同的信号源中学习有意义的表示,该架构采用了一种独特的训练策略,即部分冻结网络并进行微调(partially freezing the network and fine-tuning)。

结果如下:成功的,以及不成功的。


可以看出,在雷达信号的深度学习方法借助于图像和激光雷达点云领域提出的一些模型。

编辑于 2020-01-18

文章被以下专栏收录