行人重识别综述:从哈利波特地图说起

行人重识别综述:从哈利波特地图说起

一. 本文的目的是提供一个行人重识别的简要概况。为了方便/直观的理解这个问题,我们先来说两则相关的故事。一则阐明重识别问题的实际意义,一则故事说明重识别问题的难点。


  1. 重识别的应用:哈利·波特 在《阿兹卡班囚徒》中使用 实点图 (Marauder’s Map) 实时追踪并识别追踪人 (显示人名)。将这个应用转化一下,试想:如果在迪斯尼乐园/机场/大学校园里和孩子走散了,除了广播“xx小朋友你的家长在广播室等你”的被动方式。我们可以翻开 实点图就找到熊孩子。而实点图就可以通过重识别来实现:主动输入小朋友的照片,检索多个不同位置的摄像头下的当前帧,找到熊孩子的出现摄像头。最后联系摄像头的位置,就可以定位孩子了。这个应用同样也可以用来找小偷/保护vip等等。
  2. 重识别的难点:荷马史诗 (Odyssey iv:412),Mennelaus 被告知,如果想要众神息怒并平安回家,就要在特洛伊战争的回家路上抓到 Proteus,让他告诉自己躲避的方法。虽然Proteus变成了狮子,巨蛇,豹,甚至水和大树,Mennelaus最终还是在海边的海豹群中抓住了他,并知晓了自己平安回家的方法。这大概是最早的重识别的成功案例。对照西游记的话,那大概就是大师兄三打白骨精的故事了。重识别的难点在于,我们没有大师兄的火眼金睛。多个摄像头下拍摄行人的角度不同,图像中的行人可能72变。所以要正确判断的话,就要找到行人上的局部不变的part(比如:衣服颜色,衣服纹理,手提包,背包等等)。在计算机视觉中,常用的特征就有颜色直方图等等。


(DukeMTMC-reID 数据集的retrieval demo)


二. 为了更好的理解这个问题,我们再思考几个补充问题:

1. 能不能用人脸识别做重识别?

理论上是可以的。但是有两个原因导致人脸识别较难应用:首先,广泛存在后脑勺和侧脸的情况,做正脸的人脸识别难。其次,摄像头拍摄的像素可能不高,尤其是远景摄像头里面人脸截出来很可能都没有32x32的像素。所以人脸识别在实际的重识别应用中很可能有限。

2. 有些人靠衣服的颜色就可以判断出来了,还需要行人重识别么?

衣服颜色确实是行人重识别 做出判断一个重要因素,但光靠颜色是不足的。首先,摄像头之间是有色差,并且会有光照的影响。其次,有撞衫(颜色相似)的人怎么办,要找细节,但比如颜色直方图这种统计的特征就把细节给忽略了。在多个数据集上的测试表明,光用颜色特征是难以达到50%的top1正确率的。

3. 使用图像检索的指标来衡量行人重识别的结果是否合适?

在早期,行人重识别数据集是由两个摄像头采集的比如viper,每个query只有一个正确的retrieval目标。所以往往使用top1比较。但在近期,随着大数据集的提出,数据集中往往包含多个摄像头的多个正确目标。光使用top1的话,不能反应模型的真实能力。所以类似图像检索,重识别加入了mAP作为衡量标准,将top2,top3...topn都考虑进去。

4. 测试方式

主要有两种方案:a.测试的输入是一对行人,输出为这对行人的相似度,然后再按相似度排序;b.输入单个人,提取特征,再计算与其他人的欧式距离,然后再按距离排序。

第一种方案的优点是,判断两个人是不是一个人,简单的二分类(是/否)。但缺点是如果我们搜索库中有m张图片,那么与目标图片组成m对图片对。每一对都要进一次模型,估算相似度,这极大的增加了测试的时间。如果我们有n个query,那么我们要计算nm次相似度(而m往往很大)。另一种方案是,预先提取行人的特征,我们只要预先提好n+m次特征。之后只要比较就好了,比较特征可以简单的用矩阵乘法实现。

目前两种方案都有在用,但是后一种更接近实际中图像搜索的要求,用特征来快速检索。


三. 科研中的方案

概括得不全,比较直接和简要的想法有以下两种(主要在神经网络上实现):

1. Part匹配:一部分一部分来比较。

a.常见方案是水平切条,就是将图像切为几个水平的条。由于人体身材往往差不多,所以可以用简单的水平条来做一一比较 [1,2,3,4]。

b.在领域中做匹配,采用的是一个正方形的领域 [6]。

c.另一个较新的方案是先在人体上检测部件(手,腿,躯干等等)再进行匹配,这样的话可以减少位置的误差,但可能引入检测部件的误差 [7,8]。

d. 类似LSTM的attention匹配,但必须pair输入,测试时间较长。[5,10]


2.Loss设计:常见的几种学习特征表达的loss

a. identification loss 直接拿身份label做多类分类 [9]


b.verification loss [2,3,5,6] (主要是contrastive loss。[3, 6]中采用的是二分类loss)

c. identification loss + verification loss [11,12]

d. triplet loss [10,13,14]

e. 加入辅助任务 比如使用attribute等等 [15],

f. 数据增强 混合多数据集训练 [16] ,加入训练集上GAN生成的数据 [17].


目前有一些公开的代码,可详见之前的知乎回答:有哪些行人重识别公开代码 做了一些汇总。


谢谢您看完~我也是刚刚学习行人重识别,欢迎各种建议。

更多内容 关注 行人重识别 专栏


Reference

[1] Shengcai Liao, Yang Hu, Xiangyu Zhu, and Stan Z Li. 2015. Person re-identification by local maximal occurrence representation and metric learning.In CVPR.

[2] Dong Yi, Zhen Lei, Shengcai Liao, and Stan Z Li. 2014. Deep metric learning for person re-identification. In ICPR.

[3] Wei Li, Rui Zhao, Tong Xiao, and Xiaogang Wang. 2014. Deepreid: Deep filter pairing neural network for person re-identification. In CVPR.

[4] Rui Zhao, Wanli Ouyang, and Xiaogang Wang. 2013. Person re-identification by salience matching. In ICCV.

[5] Rahul Rama Varior, Mrinal Haloi, and Gang Wang. 2016. Gated siamese convolutional neural network architecture for human re-identification. In ECCV.

[6] Ejaz Ahmed, Michael Jones, and Tim K Marks. 2015. An improved deep learning architecture for person re-identification. In CVPR.

[7] Liang Zheng, Yujia Huang, Huchuan Lu, and Yi Yang. 2017. Pose Invariant Embedding for Deep Person Re-identication. arXiv:1701.07732.

[8] Dong Seon Cheng, Marco Cristani, Michele Stoppa, Loris Bazzani, and Vittorio Murino. 2011. Custom Pictorial Structures for Re-identification.. In BMVC.

[9] Liang Zheng, Yi Yang, and Alexander G Hauptmann. 2016. Person Re-identification: Past, Present and Future. arXiv:1610.02984

[10] Hao Liu, Jiashi Feng, Meibin Qi, Jianguo Jiang, and Shuicheng Yan. 2016. End-to-End Comparative Attention Networks for Person Re-identification. arXiv:1606.04404


[11] Zheng Z, Zheng L, Yang Y. A Discriminatively Learned CNN Embedding for Person Re-identification[J]. arXiv preprint arXiv:1611.05666, 2016.

[12] Mengyue Geng, Yaowei Wang, Tao Xiang, and Yonghong Tian. 2016. Deep Transfer Learning for Person Re-identification. arXiv:1603.06765

[13] Shengyong Ding, Liang Lin, Guangrun Wang, and Hongyang Chao. 2015. Deep feature learning with relative distance comparison for person re-identification. Pattern Recognition 48, 10 (2015), 2993–3003.

[14] Alexander Hermans, Lucas Beyer, and Bastian Leibe. 2017. In Defense of the Triplet Loss for Person Re-Identification. arXiv:1703.07737

[15] Yutian Lin, Liang Zheng, Zhedong Zheng, Yu Wu, and Yi Yang. 2017. Improving Person Re-identification by Attribute and Identity Learning. arXiv:1703.07220

[16] Tong Xiao, Hongsheng Li, Wanli Ouyang, and Xiaogang Wang. 2016. Learning deep feature representations with domain guided dropout for person reidentification. In CVPR.

[17] Zhedong Zheng, Liang Zheng, and Yi Yang. 2017. Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro. arXiv:1701.07717

编辑于 2018-01-28

文章被以下专栏收录