SIGAI
首发于SIGAI
异质人脸识别研究综述

异质人脸识别研究综述

异质人脸识别研究综述

SIGAI特约作者

YTimo(PKU EECS)

研究方向:深度学习,计算机视觉

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造,自2019年1月出版以来已重印3次。

PDF全文链接:异质人脸识别研究综述

摘要


人脸识别(Face Recognition),是指对输入的图像或视频,判断其中是否存在人脸,进而依据人脸的面部特征,自动进行身份识别。 其过程可分为人脸检测、人脸特征提取和人脸识别三个阶段。人脸识别是身份认证的重要生物识别技术,也是计算机视觉领域研究最多的课题之一,经过近30年的研究,在受控和均匀的可见光条件下的传统人脸识别得到了很大的发展,目前已广泛应用于军事、金融、公共安全和日常生活等领域。


在深度学习得到大规模应用之前,人脸识别技术主要有整体法、手动设计特征的方法和基于学习的特征描述子方法【1】,识别准确率在缓慢提高但一直无法取得理想效果。深度学习的引入和发展使人脸识别的准确率得到了很大的提升,2014年,DeepFace【2】在LFW数据集上的识别准确率首次超过人类。随着后续更多的研究和探索,最新的深度学习人脸识别模型在LFW上的准确度已达到99.8%以上【3】。


现在,许多研究工作都集中在不受控制的,非可见光条件下和异质的人脸识别上,这仍然是一个悬而未决的问题。异质人脸识别(Heterogeneous face recognition,HFR)是指跨不同视觉域进行人脸识别和匹配,它不仅仅涉及照片,还包括解决不同视觉域间的人脸图像差距问题【4】。相对于传统的可见光下的人脸识别,异质人脸识别充满着许多严峻的挑战,但在真实世界中,它有更大的重要性和价值。例如,在光照不可控的条件下,最好用红外线拍摄图像,然后再与库中的可见光人脸进行匹配;或者在无法准确获知目标人脸时,先根据已知条件生成一个大概图像。如法医根据目击证人的描述画出素描图,据此去与真实人脸进行匹配。


异质人脸识别的重要性与价值,以及其面临的严峻挑战,使其成为人脸识别研究中越来越重要且受到密切关注的领域。



传统人脸识别


自从20世纪90年代早期Eigenface【5】被提出后,人脸识别开始得到研究者们的密切关注,大量的研究方法陆续被提出。关于人脸识别的研究可分为两个阶段:早期方法和深度学习方法。


(1)早期人脸识别方法


早期方法主要有整体法、基于人工特征的方法和基于学习的局部描述子方法:

整体方法将人脸图像当成一个高维的向量,然后将向量投影到低维空间中,利用投影之后得到的低维向量达到对不同的人具有良好的区分度。如子空间算法【5】【6】和流形学习【7】【8】【9】。


子空间算法的典型代表为Eigenface【5】和Fisherface【6】。Eigenface使用主成分分析(PCA),在进行投影之后尽量多的保留原始数据的主要信息,降低数据的冗余信息,以利于后续的识别。Fisherface使用线性判别分析(LDA),在进行投影之后尽量多的保留原始数据的主要信息,降低数据的冗余信息,以利于后续的识别。而流形学习【7】【8】【9】考虑人脸在高维空间中的分布显然是非线性的,假设向量点在高维空间中的分布具有某些几何形状,然后在保持这些几何形状约束的前提下,通过非线性变换将向量投影到低维空间中。


整体法推动人脸识别技术往前迈出了一大步,但这些算法都严重依赖训练集和测试集场景,且对光照、人脸的表情、姿态敏感,泛化能力不足,并不具有太多的实用价值。这个问题引发了新的基于人工特征的方法。Gabor【10】和LBP【11】通过局部滤波提取特征,有效提高了算法的鲁棒性和识别的准确度。


但人工特征毕竟缺乏独特性和紧凑性,在2010年初,基于学习的局部描述子被引入人脸识别研究中【12】【13】【14】,通过学习局部滤波器和编码方式以获得更好的独特性和紧凑性。然而,这些浅层学习面对复杂的人脸条件变化仍然不具有很好的鲁棒性。


图1:人脸识别方法演变


(2)深度学习方法


早期人脸识别方法试图通过一层或两层表示来识别人脸,如过滤响应和特征直方图等,研究也主要集中在改进预处理、局部描述符和特征变换,虽然这些方法缓慢地提高了人脸识别准确率,但大多数的方法只针对人脸面部变化的某一方面进行了改进,如光照、姿势、表情或遮挡,没有任何方法整体考虑这些问题。因此,尽管通过十多年的研究努力,最好的浅层的学习方法也仅将LWF上的准确率提高到95%【15】。


深度学习的引入,使人脸识别研究得到了极大的飞跃。深度卷积神经网络【16】使用级联的多层处理单元进行特征提取和转换,学习了与不同抽象层次相对应的多层次表示,这些层次构成了人脸的层次结构,表现出对人脸姿势,光照和表情变化的强不变性。2014年,Deepface【2】使用深度卷积神经网络针对对齐后的人脸Patch进行多类的分类学习,使用Softmax损失函数进行问题优化,最后通过特征嵌入(Feature Embedding)得到固定长度的人脸特征向量,使得人脸识别在LWF上的准确度首次超过人类,奠定了深度学习在人脸识别领域的重要基础。


根据损失函数设计的思路,深度人脸识别研究可分为两类:(1)度量学习(Metric Learning);(2)基于间距进行分类(Margin-Based Classification)。


1.度量学习(Metric Learning)


度量学习通过构建一个距离函数去反映人脸间的相似度,直观上的思想是构建一个损失函数,使得同一人的人脸在特征空间距离足够近,而不同人的人脸在特征空间距离足够远。典型的损失函数为DeepID2【17】的Contrastive Loss和Facenet【18】的Triplet Loss。


DeepID2【17】在训练时引入了Contrastive Loss,输入时不是以一张图片为单位,而是以Image pair为单位。每次输入两张图片,为同一人则label为1,不是同一人则label为-1,使同一个人的照片在特征空间距离足够近,不同人在特征空间里相距足够远直到超过某个阈值m。


Facenet【18】提出了一个绝大部分人脸问题的统一解决框架,即:识别、验证、搜索等问题都可以放到特征空间里做,需要专注解决的仅仅是如何将人脸更好的映射到特征空间。其将Contrastive Loss改进为Triplet Loss ,输入不再是Image Pair,而是三张图片(Triplet),分别为Anchor face, negative face和positive face。Anchor与positive face为同一人,与negative face为不同人。那么Triplet loss的损失即可表示为:


\left\|x_{i}^{a}-x_{i}^{p}\right\|_{2}^{2}+\alpha<\left\|x_{i}^{a}-x_{i}^{n}\right\|_{2}^{2}, \forall\left(x_{i}^{a}, x_{i}^{p}, x_{i}^{n}\right) \in \mathcal{T}


即在特征空间里anchor与positive的距离要小于anchor与negative的距离超过一个margin alpha。与DeepID2【17】相比,Facenet【18】学到的特征更好,并取得了当时state-of-art的结果。


图2:Contrastive Loss和Triplet Loss示意图


基于间距进行分类(Margin Based Classification)


虽然度量学习思路非常直观,在应用过程中也取得了不错的效果,但其模型很难拟合,而且模型效果非常依赖于训练时的采样方式。而基于间距进行分类的方法不在特征层对特征加以很强的限制,而是通过对softmax公式进行改造,间接实现对特征层增加一个间距限制,使模型最后得到的特征更有区别度。相关的典型工作主要有Sphereface 【19】,Normface【20】,AM-softmax 【21】,CosFace 【22】,ArcFace 【3】。


图3:对softmax公式改造示意图【19】


这几项工作可概括为将对距离的度量改为对角度的度量。如上图所示,黄点和红点分别代表两个类,在原始的softmax公式下这两个类存在重叠部分,不能由角度进行区分,进行如下改造后,两个类转为角度后的没有重合,于是可以进行区分。


L_{\text { modified }}=\frac{1}{N} \sum_{i}-\log \left(\frac{e^{\left\|\boldsymbol{x}_{i}\right\| \cos \left(\theta_{y_{i}, i}\right)}}{\sum_{j} e^{\left\|\boldsymbol{x}_{i}\right\| \cos \left(\theta_{j, i}\right)}}\right)


为了更好地区分两个类,对于特征x_i,损失函数优化的方向是使得其向该类别y_i中心靠近,并且远离其他的类别中心,以最小化类内距离并且最大化类间距离。此外,为了保证人脸比对的正确性,还要保证最大类内距离还要小于最小类间距离。上面的损失函数并不能保证这一点,为此同样需要引入一个间距作为超参数。


目前,最新的深度学习人脸识别模型在LFW上的准确度已达到99.8%以上【3】,但人脸识别领域研究的脚步还远没有停下,考虑到真实环境中复杂条件的影响以及不同应用场景下的要求,越来越多的研究者开始把目光转向异质人脸识别。


异质人脸识别


1、异质人脸识别问题定义


异质人脸识别(Heterogeneous face recognition,HFR)是指跨不同视觉域进行人脸识别和匹配,它不仅仅涉及照片,还包括解决不同视觉域间的人脸图像差距问题,如(1)使用不同的采集设备(例如,可见光与近红外或3D设备);(2)使用不同的相机设置和规格(例如,高分辨率与低分辨率图像);以及(3)使用不同的图像形式(例如,艺术家的素描与数字照片)等。


大部分情况下,异质人脸识别问题的gallery由可见光照片组成,而probe则是来自于其他视觉域的图片。如图4所示:根据人脸的不同模态,目前异质人脸识别研究主要有为Sketch-VIS、NIR-VIS、3D-2D、High-Low Resolution。由于整形手术等方式对人脸也能造成较大差异,且在安防和医学鉴定上存在应用场景,也获得了部分研究者的关注【4】。本文主要关注前四项异质人脸识别问题。


图4:异质人脸识别问题划分


(1)Sketch-photo


与设备采集不同,Sketch图片主要来自于人类描绘,一个最主要的应用场景就是法医根据目击证人的描述绘画出嫌疑人的脸部素描,然后利用素描图去与图片库里的真实人脸照片进行比对。素描图片可由艺术家手动绘画(hand-drawn)或者由软件合成(composite),同时根据艺术家绘画时是否有参照的真实图片,又可分为viewed和forensic,此外还有一类经过艺术夸张和抽象的Sketch图片,被称为Caricature。


(2)NIR-VIS


近红外(NIR)图像由红外线而非可见光设备捕获,其主要考虑的是在光照条件不可控的情况下,人脸数据只能用红外设备去采集,然后与图片库里的可见光图像匹配。


(3)3D-2D


由于3D图片比2D图片多了很多信息,在实际场景中,往往采用3D照片作为gallery,2D图片作为probe,因此如果能解决2D到3D之间的异质问题,采用3D进行人脸识别在安全性上可能有很大提高。


(4)high-low resolution


经过登记的图片往往是高分辨率的,但在真实世界中比如监控摄像头进行采集时往往由于设备或距离原因导致图片分辨率较低。如何将低分辨率图片与高分辨率图片进行人脸比对和识别,同样是异质人脸识别研究中面对的重要问题。


不同的异质人脸识别问题带来了许多不同的严峻的挑战。其中包括(1)比较单通道和多通道图像(如红外与RGB可见光图像),(2)不同的坐标系(如2D和3D深度图像)以及(3)人脸外观细节缺失(如素描与照片,低分辨率与高分辨率图像)等。随着研究的逐渐深入,研究者们也提出了很多不同的方法和数据集去解决这些问题。


2.异质人脸识别方法和数据集


异质人脸识别研究可分为三个组成部分:人脸特征表示、跨模态、人脸匹配和识别。人脸特征表示、匹配和识别已经在传统人脸识别中得到了长足的发展,因此主要的异质人脸识别研究都集中于如何解决异质人脸的跨模态问题,这也是异质人脸识别相对传统人脸识别最具有挑战性和独特性的部分。


目前解决跨模态问题的方法可分为三类:特征设计法(feature design)、图片合成法(synthesis)和子空间投影(subspace projection)。


特征设计法集中于人工设计或通过学习得到在不同模态间仍然保持一致的人脸特征,同时这些特征还应满足在不同人脸间的区别度足够高,典型的工作如基于SIFT【23】和LBP【24】的许多变体。


图片合成法的直观思路是将某一模态的图片经过转换生成得到另一模态的图片,然后在同一模态中进行匹配和识别。典型的工作如MRFs【25】和LLE【26】。合成的图片可直接应用现有的传统人脸识别模型进行匹配,因此其性能和鲁棒性主要依赖于图片合成方法的性能。


子空间投影法是将两种不同模态的图片投影到同一个子空间中,以使得它们之间能更好地进行比较。典型的工作有LDA【27】,CCA【28】,PLS【29】等。


当然这三类方法不是完全独立的,它们可以联合起来使用,如【30】使用特征选择的方式,忽略无用特征,只选择人脸在不同模态间有用的特征进行子空间投影,而不是将全部的人脸表示都进行投影。


在这三类方法中,图片合成法的思路最为直观,而且合成后可直接利用现有的传统人脸识别模型。特别由于GAN【31】的提出掀起了图片生成与转换的研究热潮,图片合成法成为异质人脸识别研究中的主要方向。


此外,相比于传统人脸识别可以大规模地采集数据,异质人脸数据集的规模都比较小,因此异质人脸识别的方法和模型对训练数据往往要求都很高,这也是异质人脸识别研究中面临的一大挑战。


对于Sketch-VIS, 目前的研究主要集中于viewed hand-drawn sketch和 forensic sketch,主要的数据集有香港中文大学提出的CUHK Face sketch dataset(CUFS)和CUHK Face sketch FERET dataset(CUFSF),以及印度理工大学提出的III-D Sketch dataset。前两者的图片都是viewed hand-drawn,而后者还包含semi-forensic和forensic以及composite图片。


表1:Sketch-photo数据集


对于NIR-VIS,目前的数据集主要有CA- SIA HFB dataset、CASIA NIR-VIS 2.0、The Cross Spectral Dataset以及The PolyU NIR face dataset,这四个数据集包含的人脸数据情况概括如下:

表2:NIR-VIS数据集


对于3D-2D,主要的数据集有The face Recognition Grand Challenge (FRGC) V2.0 dataset和UHDB11,既包含2D人脸图片也包含由3D设备采集的3D图片。


图5:FRGC2.0的2D和3D图片示例


对于high-low resolution问题,目前还没有一个标准的数据集,实验中往往通过缩减像素采样(downsampling)来模拟降低分辨率。


3.现有异质人脸识别发展概述


采用图片合成思路的方法中,受到Eigenface【5】的启发,eigensketch transformation【32】将人脸分为几何结构和纹理两部分,转换过程中人脸的几何结构不变,而利用Karhunen-Loeve Transform (KLT)对人脸纹理进行变换,然后将几何结构和纹理融合得到Sketch图片。而考虑到图片间的转换是非线性的,基于LLE【26】的方法将人脸进行分块,然后针对每一块去进行合成,得到了更好的效果。之后比较典型的工作中,基于典型相关分析(CCA)的多变量映射算法被应用于从2D的NIR图片生成3D图片【28】。Multi-scale MRF【25】被扩展为从给定的Sketch生成photo,反之也可以由photo生成Sketch图片。


图6:示例:Sketch-photo的转换生成


特征设计和子空间投影方面的研究同样取得了很多成果,CDFE【33】将不同的模态转换到同一特征空间,同时考虑模态间的差异性和模态内的一致性。基于LBP的许多工作致力于提取不同模态图片的更鲁棒的特征。DSR【34】以及自适应学习等方法也被用于更好地将异质数据映射到相同的子空间,以减少不同模态间的差异。许多深度学习方法的应用也带来了异质人脸识别性能上的提升,其中【35】将子空间学习、特征提取与卷积神经网络相结合,在CASIA NIR-VIS 2.0 database取得了state-of-art的结果。


2014年开始,GAN【31】显示出其在图像生成方面的巨大潜力,pix2pix[36]和cycleGAN【37】为图像转换领域的研究奠定了基础,在此基础上的异质人脸转换和识别取得了很好的效果,并正在受到越来越多研究者的关注。

图7:示例:利用GANs进行photo和sketch的相互转换效果【38】


总结


人脸识别发展至今,在受控条件下的识别率已经近乎达到100%,并已得到大规模的发展和应用。相较于传统的人脸识别,异质人脸识别有需要解决不同视觉域图片间的匹配和识别问题,有着重要的价值,但也存在着严峻的挑战。解决HFR问题最直观的思路是将不同域间的图片转换到同一域,然后再进行匹配和识别,其中GANs的发展正逐渐在这一领域绽放光彩。总的来说,异质人脸识别的研究方兴未艾,还有很大的发展空间。



参考文献:

[1] Wang M, Deng W. Deep face recognition: A survey[J]. arXiv preprint arXiv:1804.06655, 2018.

[2] Yaniv Taigman, Ming Yang, Marcaurelio Ranzato, Lior Wolf. DeepFace: Closing the Gap to Human-Level Performance in Face Verification. 2014,computer vision and pattern recognition.

[3] Deng J, Guo J, Xue N, et al. Arcface: Additive angular margin loss for deep face recognition[J]. arXiv preprint arXiv:1801.07698, 2018.

[4] Ouyang S, Hospedales T, Song Y Z, et al. A survey on heterogeneous face recognition: Sketch, infra-red, 3D and low-resolution[J]. Image and Vision Computing, 2016, 56: 28-48.

[5] Matthew Turk,Alex Pentland. Eigenfaces for recognition. 1991, Journal of Cognitive Neuroscience.

[6] Eigenfaces vs. Fisherfaces: recognition using class specific linear projection. Peter N Belhumeur J P Hespanha David Kriegman. 1997 IEEE Transactions on Pattern Analysis and Machine Intelligence.

[7] X. He, S. Yan, Y. Hu, P. Niyogi, and H.-J. Zhang. Face recognition using laplacianfaces. IEEE Trans. Pattern Anal. Mach. Intell.,27(3):328–340, 2005.

[8] S. Yan, D. Xu, B. Zhang, and H.-J. Zhang. Graph embedding: A general framework for dimensionality reduction. Computer Vision and Pattern Recognition, IEEE Computer Society Conference on, 2:830–837, 2005.

[9] W. Deng, J. Hu, J. Guo, H. Zhang, and C. Zhang. Comments on “globally maximizing, locally minimizing: Unsupervised discriminant projection with applications to face and palm biometrics”. IEEE Trans. Pattern Anal. Mach. Intell., 30(8):1503–1504, 2008.

[10] C. Liu and H. Wechsler. Gabor feature based classification using the enhanced fisher linear discriminant model for face recognition. Image processing, IEEE Transactions on, 11(4):467476, 2002.

[11] T. Ahonen, A. Hadid, and M. Pietikainen. Face description with local binary patterns: Application to face recognition. IEEE Trans. Pattern Anal. Machine Intell., 28(12):2037–2041, 2006.

[12] Z. Cao, Q. Yin, X. Tang, and J. Sun. Face recognition with learning- based descriptor. In CVPR, pages 2707–2714. IEEE, 2010.

[13] Z. Lei, M. Pietikainen, and S. Z. Li. Learning discriminant face descriptor. IEEE Trans. Pattern Anal. Machine Intell., 36(2):289–302, 2014.

[14] T.-H. Chan, K. Jia, S. Gao, J. Lu, Z. Zeng, and Y. Ma. Pcanet: A simple deep learning baseline for image classification? IEEE Transactions on Image Processing, 24(12):5017–5032, 2015.

[15] Dong Chen,Xudong Cao,Fang Wen,Jian Sun.Blessing of Dimensionality: High-Dimensional Feature and Its Efficient Compression for Face Verification.2013,computer vision and pattern recognition.

[16] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, pages 1097–1105, 2012.

[17] Y. Sun, X. Wang, and X. Tang. Deep learning face representation by joint identification-verification. CoRR, abs/1406.4773, 2014.

[18] Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition and clustering[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 815-823.

[19] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song. Sphereface: Deep hypersphere embedding for face recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2017

[20] Wang F, Xiang X, Cheng J, et al. Normface: l 2 hypersphere embedding for face verification[C]//Proceedings of the 25th ACM international conference on Multimedia. ACM, 2017: 1041-1049.

[21] F. Wang, W. Liu, H. Liu, and J. Cheng. Additive margin softmax for face verification. In arXiv:1801.05599, 2018.

[22] CosFace: Large Margin Cosine Loss for Deep Face Recognition

[23] Klare B, Jain A K. Sketch-to-photo matching: a feature-based approach[C]//Biometric Technology for Human Identification VII. International Society for Optics and Photonics, 2010, 7667: 766702.

[24] Bhatt H S, Bharadwaj S, Singh R, et al. Memetically optimized MCWLD for matching sketches with digital face images[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(5): 1522-1535.

[25] Wang X, Tang X. Face photo-sketch synthesis and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(11): 1955-1967.

[26] Liu Q, Tang X, Jin H, et al. A nonlinear approach for face sketch synthesis and recognition[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). IEEE, 2005, 1: 1005-1010.

[27] Wang X, Tang X. Face photo-sketch synthesis and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(11): 1955-1967.

[28] Yang W, Yi D, Lei Z, et al. 2D–3D face matching using CCA[C]//2008 8th IEEE International Conference on Automatic Face & Gesture Recognition. IEEE, 2008: 1-6.

[29] Klare B, Jain A K. Sketch-to-photo matching: a feature-based approach[C]//Biometric Technology for Human Identification VII. International Society for Optics and Photonics, 2010, 7667: 766702.

[30] Liu S, Yi D, Lei Z, et al. Heterogeneous face image matching using multi-scale features[C]//2012 5th IAPR International Conference on Biometrics (ICB). IEEE, 2012: 79-84.

[31] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Advances in neural information processing systems. 2014: 2672-2680.

[32] Tang X, Wang X. Face photo recognition using sketch[C]//Proceedings. International Conference on Image Processing. IEEE, 2002, 1: I-I.

[33] Lin D, Tang X. Inter-modality face recognition[C]//European conference on computer vision. Springer, Berlin, Heidelberg, 2006: 13-26.

[34] Huang X, Lei Z, Fan M, et al. Regularized discriminative spectral regression method for heterogeneous face matching[J]. IEEE Transactions on Image Processing, 2013, 22(1): 353-362.

[35] He R, Wu X, Sun Z, et al. Learning invariant deep representation for nir-vis face recognition[C]//Thirty-First AAAI Conference on Artificial Intelligence. 2017.

[36] Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1125-1134.

[37] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2223-2232.

发布于 2019-04-29

文章被以下专栏收录

    专注于AI技术研究与机器学习框架研发,让AI所见即所得