异常检测概述(二) :  Reconstruction Model

异常检测概述(二) : Reconstruction Model

本文在part I拖更了数个月,终于抽空写完,本文相对于上篇,更注重对于最近的方法研究进展的探索,评判。视频异常检测是一个相当偏向应用的子方向,其中相当多的进展,其实并不是本方向的探索,多是“拿来”相关方向的进展,然后用于本方向,然后修改下,就成了本方向的进展,所以方法相当丰富,也让人一时眼花缭乱。

这么多年的尝试,但是怎样的方向才更有研究的价值,且但当涉猎,见见往事。

大家且读且评,一家之言,望不吝斧正。

异常检测概述(一):An Overview of Anomaly Detection Part I

0. Definition

视频异常检测,但从名字来理解,是从视频为基本的数据来源,发现其中的异常。

异常为何?异常不以为着危险,而根据[5]所说异常(离群点)是an observation “deviates so significantly from other observations as to arouse suspicion that it was generated by a different mechanism.”(一个观察结果严重偏离其他观察结果,以至于引起怀疑这个观察结果是否来自于不同的机制)。

由[4]中所述,异常是指不符合预期的模式。那么预期来源是什么?预期的描述可以有多个来源,来自专家知识编写的规则,来自数据驱动,还有两者之间的结合数据和专家知识建模。

由[2]所述,视频异常检测是指发现数据中的异常模式或者运动,而这些异常的模式和内容是被定义为非频繁或者是罕见事件。

1. Taxonomy

本文结合[1] [2] [3],对现有的视频异常检测领域的方法进行分类整理。

  • 根据视频的主体的对象,可以分为群体场景(Crowd Scene)和非群体场景(Un-crowd Scene)。
  • 根据视频的异常是定义为狭义的危险、违法犯罪 [7,11],或是广义的不符合训练集(历史)规律分为real-world,和非real-world(虽然后者一般不会提这点)
  • 根据[1]监督信息的情况,可以分为
  • 有监督:如[7] [11],对真实情景下的异常分类收集,产生一个较大的数据集,并根据数据集中对于异常与正常的差别进行有监督训练得到模型;[7] [11]都贡献了一个比较大的真实异常数据集,并且其中的异常被狭义理解为危险、暴力、犯罪等。
  • 半监督的rule base方法:通过对训练集进行观察,生成规则,根据规则检测测试集中的异常;这种方法在解决虽然容易理解,但是较高的记忆和计算复杂度限制了其使用。
  • 半监督的model base 方法:通过建立模型来表示正常行为,对于异常行为,其产生的表示应当与正常产生一定的差别,从而使得正常与异常可分。(但是这种方法对于非异常但是没出现过在训练集中的事情,容易误报,实际应用可能需要较大的训练集来避免这种情况。)
  • 无监督方法:通过使用统计属性来区分这些没有标记的数据,快速没有使用先验信息。但是需要话费时间来对数据记性处理,依赖于异常行为足够的罕见。

有监督默认了 WDAD (Well Define Anomaly Distribution)假设,而半监督默认WDND (Well Define Nomal Distribution) 假设,而这两个假设能否在使用的过程得到保证,使这两种方法可行的前提。

  • 根据使用的特征又可以分为光流(运动特征)、帧(Appearance)(stacked、切块)、压缩视频帧(motion vector residual)handcarfted features(HOF、HOG)、频域、轨迹

我将按照模型的具体方法大概划分为重构、时空模型、生成、和其他模型。划分方法与[1][2][3]等有所不同,可能存在问题,望不吝指正。

篇幅较长,将分为三部分介绍,本文为VAD Taxonomy 的第一篇,也可以理解为 异常检测概述第二部分。

2. Reconstruction

Reconstruction,实际上就是对于输入的帧进行降维,通常后续伴随着恢复维度,以重建的图像与原来图像的差别作为异常检测的分数和定位的依据。最common的就是PCA降维,或者AutoEncoder这些,但是对图像用FC层叠成的AutoEncoder,参数量过大,不能加深,一般不用。(另外这些方法能够直接无视了图像的空间结构,毕竟输入到AE中的或者PCA中的都是flatten后的一维向量,没有上下,只有左右。)

2.1 Conv-AutoEncoder (CVPR 2016)[6]

*常用baseline

该文提出了两种方法:一种是基于handcarfted时空的局部特征(HOG+HOF),一种是基于CNN。handcarfted features模型省略不讲。主要讲deeplearning base的模型。

CAE网络结构采用的是,以一个sliding windows获取T个连续帧,然后输入到网络进行重构。其中T在采取5,10,20时,T越大收敛越慢,发现异常的能力越强。

另外采用了不同的时间间隔取帧的方法来做数据增强,担心相对小的数据量不能够训练好模型,认为让模型能够对于不同的运动速度的重构能力(这样的速度变化,是否影响模型的表现,持保留意见)

文中的实现结果为:

但在[4]中模型对比时,对其复现结果为:

Reconstructed Model应该还有更多的衍生模型,针对此模型的改进与应还有很大的空间。

另外重构的好处在于,可以将输出重新输入模型,进一步放大重构差异,从而增加发现异常的能力。

2.2 Constractive-AutoEncoder (JMLR 2014)

Constarctive-AE与Conv-AE的loss很像,对于Weight的loss包括重构损失和隐层表示向量的正则。这种正则让模型尽管在最小化重构损失时,仍然能够保持对输入变化的低敏感度。

在只有三层FC的情况下,CUHK avenue中AUC能够达到83%~84%.

2.3 Adversarial-AutoEncoder

AAE的本质是通过GAN的方法,让AutoEncoder的隐层表示向量与p(z)相同。并且在这过程当中,改善了autoencoder的重构损失。让AE的隐层向量符合某种分布,而文中的分布是高斯分布,那么这个做法,实际上跟加了个BN层在中间,似乎差别并不大,有趣的是CAE和AAE中都没有用上BN?why?

没有获得其AUC的结果,但是将对抗引入到异常检测中,后续还有更多的发展。比如GANomaly.

2.4 Denoising AutoEncoder

Denoising-AE是相当老的一篇论文,来自ICML 2008, 本质上就是对于输入的进行mask/noise,然后让模型学习去猜缺失的是什么,从而获得一个更好的数据集表示。

在CVPR 2018,此模型在衍生出了对抗学习单分类器。其实本质上是让模型对于数据集的某一种属性(表观结构)overfit,对于不符合数据集规律的个体,应当是错误还原,从而放大错误,得到更好的识别能力。

更多可以看我关于这篇写的论文笔记



2.5 Cross-Channels Prediction [13]

Cross-Channel Prediction的idea是来自于CVPR 2017的 ”Split-brain autoencoders: Unsupervised learning by cross-channel prediction“。这篇首先提出对于输入的图片划分为多类channel,相当于是多模态的信息,不同模态的相互image transfer。

虽然名字说是预测,但我更认为,实际上就是跨模态的重构。[14]应用了[13]的思路,将帧切分为光流和实际图像,采用了U-Net作为base model做这两种模态的跨模态重构。这个模型并不是为了让图片生成的真实,而是为了让模型学会在训练集中这两种模态的转换方式。由于真实optical flow和预测产生的之间如果逐像素的比较并没有明显意义,这里采用了imagenet pretrained Alexnet来评价两者的语义差异。只采用了Alexnet前5层,然后语义损失是第5层输出的中两者的差,这两者的差的归一化就是语义差热图。而对于生成的图像,差值的归一化也产生了一个heat map,两者加权就产生了最终的异常热图。

对于在UCSD上的[14]这个表现非常好,是我所知道的在UCSD的表现最好的结果,ped1 97.4%, ped2 93.5%.

但是这种方法有其局限性。对于UCSD数据集中,单个行人所占的size很小,并且通常情况下,人与人之间有足够的间隔,这样所产生的光溜能够很好的区分好各个行人,对于行人只需要生成黑色的行人姿态,基本不会产生很大的difference heat map。而且异常都是骑自行车的人、巡逻车这些,他们表观差异就很大,移动速度不同,那么就能比较明显的发现它们。对于CUHK avenue他们没有公布结果,大概也是结果不好不公布。

Reference

[1] Ben Mabrouk, A., & Zagrouba, E. (2018, January 1). Abnormal behavior recognition for intelligent video surveillance systems: A review. Expert Systems with Applications. Elsevier Ltd. doi.org/10.1016/j.eswa.

[2] Kiran, B. R., Thomas, D. M., & Parakkal, R. (2018). An overview of deep learning based methods for unsupervised and semi-supervised anomaly detection in videos. doi.org/10.3390/jimagin

[3] Chalapathy, R., & Chawla, S. (2019). Deep Learning for Anomaly Detection: A Survey. doi.org/arXiv:1901.0340

[4] Liu, W., Luo, W., Lian, D., & Gao, S. (2017). Future Frame Prediction for Anomaly Detection -- A New Baseline. doi.org/10.1109/CVPR.20

[5] D. Hawkins. Identification of Outliers. Chapman and Hall, London, 1980.

[6] Hasan, M., Choi, J., Neumann, J., Roy-Chowdhury, A. K., & Davis, L. S. (2016). Learning Temporal Regularity in Video Sequences. doi.org/10.1109/CVPR.20

[7] Baker, L. G., Specht, C. A., Donlin, M. J., & Lodge, J. K. (2007). Chitosan, the Deacetylated Form of Chitin, Is Necessary for Cell Wall Integrity in Cryptococcus neoformans . Eukaryotic Cell, 6(5), 855–867. doi.org/10.1128/ec.0039

[8] Heng Wang, Cordelia Schmid. (2013) Action Recognition with Improved Trajectories ICCV 2013

[9] N. Srivastava, E.Mansimov, R.Salakutdinov; Unsupervised Learning of Video Representations using LSTMs; ICML 2015

[10]Chong, Y.S.; Tay, Y.H. Abnormal event detection in videos using spatiotemporal autoencoder. In Proceedings of the14th International Symposium, ISNN 2017, Sapporo, Hakodate, and Muroran, Hokkaido, Japan, 21–26 June 2017; pp. 189–196.

[11] F.Landi C.Snooek R.Cucchiara; Anomaly Locality in Video Surveillance, imagelab.ing.unimore.it

[12] Mohammad Sabokrou⁎,1 ,a, Mohsen Fayyaz1,b, Mahmood Fathya, Zahra. Moayedc,Reinhard Klette; Deep-anomaly: Fully convolutional neural network for fast anomalydetection in crowded scenes ,doi.org/10.1016/j.cviu.

[13] Zhang, R.; Isola, P.; Efros, A.A. Split-brain autoencoders: Unsupervised learning by cross-channel prediction. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, Honolulu, HI, USA, 21–26 July 2017; Volume 1, No. 2

[14] Ravanbakhsh, M.; Sangineto, E.; Nabi, M.; Sebe, N. Abnormal Event Detection in Videos using Generative Adversarial Nets. In Proceedings of the IEEE International Conference on Image Processing (ICIP) 2017, Beijing, China, 17–20 September 2017.

[15] S.Biswas, R. Venkatesh Babu; REAL TIME ANOMALY DETECTION IN H.264COMPRESSED VIDEOS 2013 Fourth National Conference on Computer Vision, Pattern Recognition, Image Processing and Graphics (NCVPRIPG)


本文首发于个人专栏,欢迎投稿。大家且读且评,一家之言,望不吝斧正。

CV上手之路zhuanlan.zhihu.com图标

编辑于 2019-03-26

文章被以下专栏收录