【CV-Action Recognition】重新认识two stream的光流算法

原文标题:On the Integration of Optical Flow and Action Recognition

motivation

在行为识别领域,比较主流的算法有two-streams,3D convolutions 和RNN,尤其以two-streams算法性能良好。而在two-streams算法中一般集成光流计算,但是为什么光流算法有效?光流的计算精度和行为识别的计算精度相关?有比光流更好的行为识别表示?

arxiv刚挂出这篇论文,个人感觉比较新颖,作者没有提出什么模型或者算法,只是在行为识别经典算法TSN基础上,深入分析光流计算方法和行为识别的内因。

作者分析典型计算光流的算法FlowNet和SpyNet,一般基于以下三点假设:

1、The optical flow between two frames is a good feature for video classification。

光流计算是有效的算法,但是为什么有效那?也许光流包含运动轨迹,对行为识别很有用。但是论文打乱optical flow的顺序,行为识别的精度略微降低(1%),而RGB图像顺序改变,境地降低50%,论文认为光流是对外观不变性的表示。

2、the accuracy of optical flow is correlated with accuracy of action recognition.

光流的典型计算方法包括end-point-error (EPE,详细可参看论文《A Database and Evaluation Methodology for Optical Flow》)。作者对比EPE和行为识别的精度,发现并非线性相关。用行为识别分类误差来训练(fine tune)光流比起用EPE误差来能获得更好的行为识别效果。

3、Optical flow is the best motion representation for action recognition.

光流是是行为识别的最佳运动表示。

本文主要是用实验推翻以上3点假设,改进算法的效率和性能。

Architecture

略。作者没有提出任何模型。

Experiment

作者的实验模型是Temporal Segment Network (TSN),数据集UCF101

1、Why Use Optical Flow as Input for Video Classification?

这一部分,作者仅仅改变输入通道RGB和Flow的关系。比如shuffled 输入通道Flow和RGB的顺序,发现Flow shuffled,对于行为识别影响较少,而RGB通道 shuffled,精度显著降低。对RGB图像改变外观(altered colormap和shift color),对RGB影响很大,但是对Flow还是影响有效。

从以上试验中论文得出结论:光流的时序结构对行为识别没有太多帮助,关键是外观的不变形。

2、Is Optical Flow Accuracy Correlated withAction Recognition Accuracy?

光流计算中一般使用EPE(end-point-error)。EPE是一种对光流预测错误率的一种评估方式。 指所有像素点的gound truth和预测出来的光流之间差别距离(欧氏距离)的平均值,越低越好。

论文对比了EPE和行为识别的精度,如论文中Figure 4,两者不是线性相关的。

3、Are There Better Motion Representations for Action Recognition than Optical Flow?

论文认为光流的边界和人体的位置影响光流的计算。

Conclusion

昨天晚上看到这篇论文,被名字所吸引,以为会深入分析光流计算的内因。纵观全文,作者提出反对3个假设。

1、从作者的实验看,EPE度量方法无效,论文中使用行为识别分类误差来训练(fine tune)

,如果提出一种新的的度量方法,这难道不是一篇论文。

2、光流的边界和人体的位置从直觉上这是对的,但是怎么计算又是一个问题。这样又可以写一篇论文了。



返回CV-Action Recognition目录

返回CV总目录

编辑于 2018-01-06

文章被以下专栏收录