重识别(re-ID)特征适合直接用于跟踪(tracking)问题么?

重识别(re-ID)特征适合直接用于跟踪(tracking)问题么?

本文要介绍的是澳洲国立大学(Australian National University)郑良老师实验室和清华大学电子系计算机视觉实验室合作的工作《Locality Aware Appearance Metric for Multi-Target Multi-Camera Tracking》。

文章指出跟踪(tracking)问题和重识别(re-ID)问题存在一个本质区别:局部匹配vs全局匹配。跟踪系统只需匹配局部邻域(同一相机相邻帧/相邻相机)内的样本;而重识别系统需要全局(全部相机的所有数据)搜索、匹配。该区别导致在跟踪这一局部匹配问题上,直接应用全局学习到的重识别特征,并不能得到最好的结果[1]。面对这个区别/失配,文章提出了一套可学的,关注局部邻域内目标外观的度量(Locality Aware Appearance Metric)。

文章链接:arXiv ;代码:re-id feature extraction, tracker & Locality Aware Appearance Metric

写在前面

本文中提到的局部/全局并不指代单张行人图片中的部分/整体;而是指代待匹配数据的选择范围。如上图(题图)所示,重识别系统(第一行)在查找所有相机进行匹配;单相机跟踪(第二行)只关心同相机相邻帧,不关心其他相机(红叉);多相机跟踪(第三行)只关心相邻相机,不关心距离太远,目标不可能连续出现的相机(红叉)。


什么是多目标、多相机跟踪(multi-target multi-camera tracking)?

多目标、多相机跟踪(multi-target multi-camera tracking)问题,关注多个相机内的每一帧中,每个目标的身份(如下方视频,每种颜色对应一个identity),以及所在的位置(bounding box和身后的轨迹)[1]。

多目标、多相机跟踪示例

在跟踪系统中,相似度估计(similarity estimation)作为数据匹配(data association)的标准,是一个非常重要的部分。近期,随着行人/车辆重识别技术的飞速发展,重识别特征也被广泛利用于跟踪问题中的外观相似度估计。


为什么跟踪是一个局部匹配问题?

由于目标(行人/车辆)轨迹(trajectory)的连续性,在一般情况下,跟踪系统只需要匹配一个局部邻域(local neighbor)中的目标[1],而不需要全局匹配

  • 局部邻域:对于单相机跟踪,指代同相机的连续帧内的样本;对于跨相机跟踪,指代相邻(距离较小)的几个相机(如下图小框中的一组相机)内的样本。
  • 全局:指代全部相机中的样本。
CityFlow 多目标、多相机跟踪问题场景。蓝色小旗代表一个相机。为了简化问题,在匹配时,跟踪系统一般会利用时间滑动窗。多相机匹配时,滑窗大概率会将相邻相机(如图中各个小框包含相机)内的候选目标选出,即局部匹配。

为什么重识别是一个全局匹配问题?

不同于跟踪问题,在一般情况下,重识别系统无法得到目标的轨迹。因此,重识别系统一般难以将匹配范围限制在局部邻域,重识别问题也被描述成一个全局匹配问题。为了解决这个全局匹配问题,重识别特征一般由全局随机采样训练而成[2,3,4]。

局部vs全局的失配在哪里?

如上文提到的,跟踪系统中的匹配一般被限制在局部邻域内;而应用于相似度估计的重识别特征,则是从全局学到的。相似度估计的结果直接决定数据匹配的性能。在这个关键部分,出现了局部vs全局的失配,则会对系统整体性能有很大影响。如下图所示,全局度量(global metric)一般利用模型的全部性能照顾各类外观变化。在局部邻域内,样本直接的区分一般较小(同相机连续帧/相邻相机之间,可能出现的外观变化有限;远远小于全部相机间的各种组合),全局模型由于能力有限,却不能有效区分相似样本(见下图A)。

注意,这篇文章指出的局部vs全局的失配,是指基于外观(appearance)的相似度评估,和利用时空信息缩小范围不一样。

A. 全局度量(global metric)在局部匹配中,不能有效区分相似的样本。B. 局部邻域内目标外观的度量(spatial locality metric),能够有效区分相似样本:局部匹配中,需要考虑的外观变化更少,局部度量可以将能力投入可能出现的外观变化。C/D. 单相机/多相机跟踪对应的局部度量。

如何训练局部邻域内目标外观的度量(Locality Aware Appearance Metric)

这篇文章提出了一种局部邻域内目标外观的度量。这种度量不需要照顾全局匹配中的各种外观变化;相反,它只需要照顾局部匹配中可能出现的几种外观变化,对于相似样本也更加有效。

特别的,对于单相机跟踪/多相机跟踪,文章分别提出了相机内(intra-camera)/相机间度量(inter-camera metric)。类似于跟踪系统为了限制匹配范围使用的时间滑动窗(temporal sliding window),文章也利用了相似的样本选择窗(data sampling window)训练相机内/相机间度量。

  • 相机内度量:通过样本选择窗,选择同相机相邻帧内的正负样本对。
  • 相机间度量:通过样本选择窗,选择不同相机的正样本对,以及来自任意相机的负样本对。
训练相机内/相机间度量的两种样本选择窗
局部敏感的外观度量使用最基础的全连接模型和交叉熵损失函数

文章的主要贡献在于发现跟踪系统相似度估计和重识别特征之间,局部vs全局的失配;并提出一套简单易行的训练局部邻域内目标外观度量的方法。该度量使用的模型和损失函数,并非文章的贡献点。如上图,文章使用了最基础的全连接模型和交叉熵损失函数。


实验结果

  1. 局部度量可以明显降低匹配错误率

2. 局部度量在多种重识别特征(IDE[2], triplet[3], PCB[4])上的跟踪性能提高

3. 提出的度量在多个跟踪数据集(CityFlow, DukeMTMC)上的跟踪性能提高


在最后,再次感谢大家看完。欢迎大家在评论区留下自己的意见、想法、问题!谢谢!

有更多问题,欢迎大家私信 @侯云钟


参考文献

[1]. Ergys Ristani and Carlo Tomasi. Features for multi-target multi-camera tracking and re-identification. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6036-6046, 2018.

[2]. Liang Zheng, Liyue Shen, Lu Tian, Shengjin Wang, Jingdong Wang, and Qi Tian. Scalable person re-identification: A benchmark. In Proceedings of the IEEE International Conference on Computer Vision, pages 1116–1124, 2015.

[3]. Alexander Hermans, Lucas Beyer, and Bastian Leibe. In defense of the triplet loss for person re-identification. arXiv preprint arXiv:1703.07737, 2017.

[4]. Yifan Sun, Liang Zheng, Yi Yang, Qi Tian, and Shengjin Wang. Beyond part models: Person retrieval with refined part pooling (and a strong convolutional baseline). In ECCV, 2018.


编辑于 2019-12-13

文章被以下专栏收录