ECCV 2020 | 利用多视角（multi-view）处理严重遮挡下的行人检测和保持社交距离

本文介绍澳洲国立大学郑良老师实验室在ECCV 2020上的新工作《Multiview Detection with Feature Perspective Transformation》。一直以来，遮挡问题严重影响了识别、检测等诸多计算机视觉系统的性能。在这篇文章中，作者提出的MVDet模型通过联合考虑多个相机，极大缓解了遮挡对检测系统的影响；此外，文章还提出了一个新的仿真数据集MultiviewX。此外，文章中提出的多相机检测模型，也可以应用在保持社交距离（social distancing）中，对抗击疫情提供技术上的支持。

题目：Multiview Detection with Feature Perspective Transformation

论文地址：arxiv, ecva.net

作者：Yunzhong Hou, Liang Zheng, Stephen Gould

链接：webpage, MVDet code (github), synthetic dataset MultiviewX, ECCV 2020 online

多相机（multi-view）系统

上：多相机（multi-view）输入。其中红圈内人群被严重遮挡，一般单目检测系统难以识别。下：地面上（鸟瞰），多个相机的视野（field of view）交集。

在一个多相机系统中，包含多个同步、有公共视野、标定好的相机。在多相机检测系统中，由于相机参数已知，可以通过假设行人3D包围框（3D bounding box）的直径和高度，计算得到每个相机中的2D包围框（2D bounding box）。因此，多相机检测一般在地面（俯瞰）上评估行人的检测效果。利用多相机进行检测，有两个亟待解决的问题：

如何联合考虑多个相机的信息？
如何联合考虑地面上相邻位置，以做出联合判断？（对于不清楚的位置，如果周围没有其他人，则大概率该位置无人；若周围十分拥挤，则大概率该位置有人）

方法：MVDet网络

1. 联合考虑多相机

多相机信息聚合：之前的工作使用anchor box（绿框）代表相机内一个位置的行人信息；本文使用一种anchor-free方法，通过行人脚的位置的feature vector表示该位置的信息

anchor-free的行人信息表示

之前工作一般利用相机参数和行人3D形状，计算每个相机内，对应每个位置的anchor box。之后，再利用anchor box feature（以及ROI pooling）表示该位置的行人信息。但是，这一类anchor box形状不一定准确，导致聚合的信息不准（上图白衣女士坐在地上，导致anchor box feature很大一部分都在描述背景而非行人，严重影响检测）。

本文中，作者使用了一套anchor-free的信息表示方法。对于地面上每个位置，直接选取该位置的feature vector作为代表（该feature vector也同时表示站在该处行人的信息）。

利用feature map的投影变换进行多相机信息聚合

利用相机参数，可以得到图片像素和地面上坐标的对应关系。通过一组地面坐标和一组图像像素的对应，可以建立出一张参数化的sampling grid。