ECCV 2020 | 利用多视角(multi-view)处理严重遮挡下的行人检测和保持社交距离

ECCV 2020 | 利用多视角(multi-view)处理严重遮挡下的行人检测和保持社交距离

本文介绍澳洲国立大学郑良老师实验室在ECCV 2020上的新工作《Multiview Detection with Feature Perspective Transformation》。一直以来,遮挡问题严重影响了识别、检测等诸多计算机视觉系统的性能。在这篇文章中,作者提出的MVDet模型通过联合考虑多个相机,极大缓解了遮挡对检测系统的影响;此外,文章还提出了一个新的仿真数据集MultiviewX。此外,文章中提出的多相机检测模型,也可以应用在保持社交距离(social distancing)中,对抗击疫情提供技术上的支持。

题目:Multiview Detection with Feature Perspective Transformation

论文地址:arxiv, ecva.net

作者:Yunzhong Hou, Liang Zheng, Stephen Gould

链接:webpage, MVDet code (github), synthetic dataset MultiviewX, ECCV 2020 online

真实数据集Wildtrack上效果可视化
仿真数据集MultiviewX上效果可视化

多相机(multi-view)系统

上:多相机(multi-view)输入。其中红圈内人群被严重遮挡,一般单目检测系统难以识别。下:地面上(鸟瞰),多个相机的视野(field of view)交集。

在一个多相机系统中,包含多个同步、有公共视野、标定好的相机。在多相机检测系统中,由于相机参数已知,可以通过假设行人3D包围框(3D bounding box)的直径和高度,计算得到每个相机中的2D包围框(2D bounding box)。因此,多相机检测一般在地面(俯瞰)上评估行人的检测效果。利用多相机进行检测,有两个亟待解决的问题:

  1. 如何联合考虑多个相机的信息?
  2. 如何联合考虑地面上相邻位置,以做出联合判断?(对于不清楚的位置,如果周围没有其他人,则大概率该位置无人;若周围十分拥挤,则大概率该位置有人)
多相机系统的输入输出;以及需要解决的两个问题

方法:MVDet网络

1. 联合考虑多相机

多相机信息聚合:之前的工作使用anchor box(绿框)代表相机内一个位置的行人信息;本文使用一种anchor-free方法,通过行人脚的位置的feature vector表示该位置的信息

anchor-free的行人信息表示

之前工作一般利用相机参数和行人3D形状,计算每个相机内,对应每个位置的anchor box。之后,再利用anchor box feature(以及ROI pooling)表示该位置的行人信息。但是,这一类anchor box形状不一定准确,导致聚合的信息不准(上图白衣女士坐在地上,导致anchor box feature很大一部分都在描述背景而非行人,严重影响检测)。

本文中,作者使用了一套anchor-free的信息表示方法。对于地面上每个位置,直接选取该位置的feature vector作为代表(该feature vector也同时表示站在该处行人的信息)。

利用feature map的投影变换进行多相机信息聚合

利用相机参数,可以得到图片像素和地面上坐标的对应关系。通过一组地面坐标和一组图像像素的对应,可以建立出一张参数化的sampling grid。

该sampling grid完全可导。上图给出了利用sampling grid对RGB图像投影的实例。同理,我们可以对feature map进行投影;并通过连接(concatenate)多张投影后的feature map,完成anchor free的多相机信息聚合。

2. 联合考虑地面相邻位置

通过大卷积核卷积联合考虑地面相邻位置

从左至右依次为:不用大卷积核卷积的系统输出;使用大卷积核卷积的系统输出;真值

之前工作一般利用条件随机场(conditional random field)完成这一任务。本文中,作者使用拥有大卷积核(大感受野)的卷积,完成这一操作,并得到全卷积的检测器MVDet。

MVDet检测器系统框图。输入多张图片后,利用共享权重的CNN提取出多张feature map,投影后串联得到对整个场景的信息表述,并通过大卷积核卷积,输出最终结果。监督来自两处:最终输出的地面上行人位置图(occupancy map);以及单目检测结果(辅助)。

3. 训练及监督

训练中,MVDet主要使用地面上行人位置图作为监督。为了进一步提高性能,可以加入单目检测作为辅助(可选)。

4. 测试

测试时在网络输出后加入非极大值抑制(NMS)即可。

实验

1. 仿真数据集MultiviewX

利用Unity引擎以及PersonX 数据集 中提供的3D行人模型,我们创建了一个3D仿真multiview detection数据集,MultiviewX

2. 性能

在真实数据集上,MVDet超出之前state-of-the-art方法14.1% MODA性能。相比使用Faster RCNN进行单目检测(RCNN projected),MVDet性能更是远远超出。

3. 帮助保持社交距离

由于MVDet直接输出地面上的行人位置图,且对遮挡比较鲁棒,该方法也可以帮助保持社交距离。


感谢观看!

如果你有兴趣,欢迎查看相关工作和我之前的工作!

https://zhuanlan.zhihu.com/p/79990547zhuanlan.zhihu.com图标https://zhuanlan.zhihu.com/p/64816434zhuanlan.zhihu.com图标https://zhuanlan.zhihu.com/p/198061566zhuanlan.zhihu.com图标https://zhuanlan.zhihu.com/p/148160812zhuanlan.zhihu.com图标https://zhuanlan.zhihu.com/p/96999382zhuanlan.zhihu.com图标

编辑于 09-15

文章被以下专栏收录