2018年 Action recognition 的汇总(ECCV CVPR AAAI)

把ECCV和CVPR还有AAAI 2018年的action recognition汇了个总,放在这里。


ECCV 2018

Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning

Dividing and Aggregating Network for Multi-view Action Recognition

Deep Bilinear Learning for RGB-D Action Recognition

Modality Distillation with Multiple Stream Networks for Action Recognition

Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification

Motion Feature Network: Fixed Motion Filter for Action Recognition

Spatio-Temporal Channel Correlation Networks for Action Classification

Recurrent Tubelet Proposal and Recognition Networks for Action Detection

PM-GANs: Discriminative Representation Learning for Action Recognition Using Partial-modalities

RESOUND: Towards Action Recognition without Representation Bias

CVPR 2018

MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition

Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition

2D/3D Pose Estimation and Action Recognition Using Multitask Deep Learning

Temporal Hallucinating for Action Recognition With Few Still Images

Deep Progressive Reinforcement Learning for Skeleton-Based Action Recognition

Im2Flow: Motion Hallucination From Static Images for Action Recognition

Compressed Video Action Recognition

A Closer Look at Spatiotemporal Convolutions for Action Recognition

Temporal Deformable Residual Networks for Action Segmentation in Videos

PoTion: Pose MoTion Representation for Action Recognition

What Have We Learned From Deep Representations for Action Recognition?

Towards Universal Representation for Unseen Action Recognition

AAAI 2018

Action Recognition from Skeleton Data via Analogical Generalization over Qualitative Representations

Action Recognition with Coarse-to-Fine Deep Feature Integration and Asynchronous Fusion

Cooperative Training of Deep Aggregation Networks for RGB-D Action Recognition

Hierarchical Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map based Feature Extraction for Human Action Recognition

中文的报道:【重磅】自适应无监督学习的特征提取方法

Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

中文的报道:港中文AAAI录用论文详解:ST-GCN 时空图卷积网络模型 | AAAI 2018

code: github.com/yysijie/st-g

亲测,非常好用

T-C3D: Temporal Convolutional 3D Network for Real-time Action Recognition

code:tc3d/tc3d

Unsupervised Deep Learning of Mid-Level Video Representation for Action Recognition

Unsupervised Representation Learning with Long-Term Dynamics for Skeleton Based Action Recognition

Deformable Pose Traversal Convolution for 3D Action and Gesture Recognition

Junwu Weng, Mengyuan Liu, Xudong Jiang, and Junsong Yuan

School of EEE, Nanyang Technological University

Department of CSE, The State University of New York, Buffalo jsyuan@buffalo.edu

这又是一个NTU 的作品。在NTU的库上做的东西。

本文的贡献是3D姿势的表征。他们提出了一种可变形姿势遍历卷积网络 Deformable Pose Traversal Convolution,它采用一维卷积来遍历3D姿势以表示其姿态,而不是直接通过其关节位置来表示3D姿势。 在执行遍历卷积时感受野也不是固定的,而是通过考虑具有不同权重的上下文关节来优化每个关节的卷积核。 这种可变形卷积更好地利用上下文关节进行动作和手势识别,并且对于嘈杂的关节更加鲁棒。 此外,通过将学习的姿势特征馈送到LSTM,我们执行端对端训练,其共同优化姿势表征和时间序列识别。

测试了三个基准数据集的实验验证了我们提出的方法的竞争性能,以及它处理姿态噪声关节的效率和鲁棒性。

这篇工作是基于NTU之前的一个基本的LSTM的工作:

Liu, J., Shahroudy, A., Xu, D., Wang, G.: Spatio-temporal lstm with trust gates for 3d human action recognition. In: ECCV, Springer (2016) 816–833

code(lua):github.com/kinect59/Spa

来做的。

他们也是用了一个树遍历的方法来表示相关节点的空间临近关系。然后用一个一维的卷积去卷。



基本思想就是卷积不是固定的,而是可以 deformable 的。



卷积的形变是通过一个offset的向量来学习的。

贡献可归纳如下:
•引入了一维卷积神经网络,Deformable Pose Traversal Convolution,来表示3D姿势。 它可以通过识别关节的关键组合来提取姿势特征。
•应用ConvLSTM 来学习卷积的变形偏移。 它模拟关节关键组合的时间动态。

convLSTM在此:

Xingjian, S., Chen, Z., Wang, H., Yeung, D.Y., Wong, W.K., Woo, W.c.: Convolutional lstm network: A machine learning approach for precipitation nowcasting. In: NIPS. (2015) 802–810

code(Theano):home.cse.ust.hk/~xshiab

Dynamic Hand Gesture 14/28 dataset (DHG)



the NTU-RGB+D dataset (NTU)



the Berkeley Multi-modal Human Action dataset (MHAD)


Deep Bilinear Learning for RGB-D Action Recognition

Jian-Fang Hu, Wei-Shi Zheng, Jiahui Pan, Jianhuang Lai, and Jianguo Zhang

Sun Yat-sen University, China

University of Dundee, United Kingdom

Key Laboratory of Machine Intelligence and Advanced Computing, MOE 4 Inception Institute of Artificial Intelligence, United Arab Emirates

中山大学 Jian-Fang Hu 的工作。

简述

这篇文章提出了一个RGB-D动作识别的多模态和时序信息交互的学习方法。 为了共同学习时变信息和多模态特征,他们提出了一种新颖的深层双线性学习框架。

在该框架中,我们提出了由两个线性池化层 two linear pooling layers组成的双线性模块 bilinear blocks,用于分别从模态和时间方向池化输入的特征。

为了捕获丰富的模态 - 时间信息并促进深层双线性学习,他们给网络的特征进行了创新,提出了一种称为模态 - 时间立方体的新动作特征,用于从全面的角度表征RGB-D动作。

具体

骨骼的特征

把 一个动作分成D 个segment, 每个segment的开始d个小segment组成一组Action history sequence 共有D个AHS

再用RNN 来提skeleton特征,用了这个工作,也是这个人的

Hu, J.F., Zheng, W.S., Lai, J., Zhang, J.: Jointly learning heterogeneous features for rgb-d activity recognition. IEEE transactions on pattern analysis and machine intelligence

的描述子

code: isee.sysu.edu.cn/~hujia

RGB 的特征

GIST frames , 用基于骨骼节点附近的RGB patch来平铺成一个新的长段轨迹,所以这篇工作也属于基于轨迹的动作识别家族的文章。

基于轨迹的动作识别的汇总:Wang, H., Klaser, A., Schmid, C., Liu, C.L.: Dense trajectories and motion boundary descriptors for action recognition. International Journal of Computer Vision

再针对这个训练了两个,K-channel 的CNN descriptors,K 是depth 貌似是16.

为了训练K channel 的CNN, 选了K 个frame的 GIST ,

选择的方法是 max(1, 1 + (u − 1)ls/ K + δ),就是在后面加了一个随机扰动。

用了两组depth, K = 1 是为了学习静态的外观,K = 16 学习动态的外观。

最后得到的特征

包含五个具有时序信息的特征cube,其中两个来自RGB AHS(1通道CNN和16通道CNN),两个来自深度AHS((1通道CNN和16通道CNN),以及一个来自骨架AHS(RNN),其中每一个都表征了特定模态下不同AHS长度的动作。它们的组合可以形成一个综合的动作表示。

然后,到此为止,特征已经做完,重点来了。

先开始我还没看懂他说的第三维就是类别什么意思,后来发现,他融合的不是特征,而是上一层神经网络给出的probability。

所以第三维是类别的数量。



深度双线性学习

由于不同模块直接融合不好,如上图所示,他们提出了新的融合方法。

在数学中,双线性映射是组合两个向量空间的元素以产生第三向量空间的元素的函数。

深双线性结构。给定一组M×T×C大小的模态 - 时间立方体,我们的目标是学习底层映射f,其将所有立方体元素合并为鲁棒的表征。换句话说,目标是找到一个映射,将输入多维数据集的模态维度和时间维度汇总到一维。在本文中,我们将映射f定义为双线性块,Relu和softmax运算符的堆栈,即f =g1◦g2◦... gn ...(•),其中gn表示到上述操作之一或双线性区块。


深层双线性架构的形式是灵活的。本文中的实验涉及具有三个双线性块,三个Relu层和softmax层的深层架构,而更多层也是可以的。在该体系结构中,每个双线性块后面都有一个Relu层,以非线性方式映射块的输出。图5中可以找到所采用的深层体系结构的图示。



结果

NTU



SYSU 3D HOI set 他们自己的库



AHS的作用



跟其他的融合方法相比


Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning

Chenyang Si, Ya Jing, Wei Wang, Liang Wang, and Tieniu Tan

Center for Research on Intelligent Perception and Computing (CRIPAC), National Laboratory of Pattern Recognition (NLPR)

Center for Excellence in Brain Science and Intelligence Technology (CEBSIT), Institute of Automation, Chinese Academy of Sciences (CASIA)

University of Chinese Academy of Sciences (UCAS)

中科院的工作。

简述

大多数之前骨架序列的表征缺少空间结构信息和详细的时间动态特征。

这篇文章提出了一种基于空间推理和时间栈学习 a novel model with spatial reasoning and temporal stack learning(SR-TSL)的基于骨架的动作识别的新模型,它由空间推理网络(SRN)和时间栈学习网络(TSLN)组成。

SRN可以通过残差图神经网络捕获每个帧内的高级空间结构信息,而TSLN可以通过多个跳过剪辑LSTM的组合来模拟骨架序列的详细时间动态。

在训练中,提出新的clip-based incremental loss。

在SYSU 3D数据集和NTU RGB + D数据集验证了。

抛出的两个问题

首先,人类行为是协调完成的。例如,走路需要腿走路,也需要摆动手臂以协调身体平衡。如果直接将所有身体关节喂到神经网络,抓住高级特征是很难的是。

其次,这些方法利用RNN直接模拟骨架序列的整体时间动态。最终RNN的隐藏表示用于识别动作。对于长期序列,最后隐藏的表示不能完全包含序列的详细时间动态。

方法的描述

一,提出了一个空间推理网络来捕捉每个帧内的高级空间结构特征。身体可以分解成不同的部分,例如两条胳膊,两条腿和一条树干。每个部分的连接的连接被转换成具有线性层的单独空间特征。身体部位的这些个体空间特征被馈送到残差图神经网络(RGNN)以捕获不同身体部位之间的高级结构特征,其中每个节点对应于身体部位。

二,在时序上,提出了一个temporal stack learning network(TSLN)去建模序列的detailed temporal dynamics。

其由三个skip clip 的LSTM组成

经过空间推理网络后,可以得到了一个特征序列。在时序空间上,这里的时序堆叠学习网络,首先是将长时序列划分成多个连续的短时clip,每个clip通过LSTM进行时序建模,不同clip之间的LSTM是参数共享的。每个短时序clip的最后一个隐含层的状态最为这个clip的表示,然后将该clip以及之前的所有clip的表示进行累加,列所包含的所有详细的动态特征。为了更好地保持表示从开始到该clip的为止的长时序序clip之间的时序关系 ,我们将这个详细的动态特征去初始化下一个clip的LSTM。


三,为了进一步学习详细的时序特征,又提出了一个Clip-based Incremental Loss去优化网络。

结果

NTU



SYSU 3D HOI set



不同step的影响



Motion Feature Network: Fixed Motion Filter for Action Recognition

Myunggi Lee, Seungeui Lee, Sungjoon Son , Gyutae Park, and Nojun Kwak

Seoul National University, Seoul, South Korea

V.DO Inc., Suwon, Korea

首尔大学韩国兄弟的工作。

简述

之前将光流作为时间信息与包含空间信息的一组RGB图像组合使用的方法已经在动作识别任务中显示出极大的性能增强(个人觉得说的是双流呀, optical flow guided呀 )。 然而,它具有昂贵的计算成本并且需要双流(RGB和光流)框架。 本文提出了包含运动块的MFNet(运动特征网络(Motion Feature Network) ),该运动块使得可以在可以端到端训练的统一网络中的相邻帧之间编码时空信息。 运动块可以附加到任何现有的基于CNN的动作识别框架,只需要很少的额外成本。

在两个动作识别数据集(Jester和Something-Something)上评估了。

抛出的问题

CNN好是好,但是没有时序信息。用光流又太耗时间了。

其次,很多数据集都是在对对象做分类,而不是action本身(仅仅通过一帧的场景,对象就能识别)。

所以他们的点子就做了一个专门识别motion feature的network MFN,再用这个block来做RGB 的处理。

方法的描述



MFNet的结构如图所示。他们的工作是基于wang liming的时间片段网络(TSN),该体系结构用于从整个视频中采样的K个片段序列。

code:github.com/yjxiong/temp

他们的网络由两个主要组成部分组成。

一个是对空间信息进行编码的外观块。这可以是图像分类任务中使用的任何体系结构。在我们的实验中,他们用的ResNet [10]作为外观块的骨干网络。

另一个组件是运动块,它对时间信息进行编码。为了对运动表示进行建模,它将来自相同层次3的相应连续帧的两个连续特征映射作为输入,然后使用一组固定运动滤波器来提取时间信息。应将每个层次结构中提取的空间和时间特征适当地传播到下一个层次结构。

为了捕获运动表示,动作识别中常用的方法之一是使用光流作为CNN的输入。 尽管在动作识别任务中它具有重要作用,但光学流程在实践中计算成本很高。 为了取代光流的作用并提取时间特征,我们提出了与光流密切相关的运动滤波器。



这个就是滤波模块。

滤波的模块和RGB的特征有两种融合方法,一是相加,二是concat。


最后的结果,他在两个别的库上跑的结果。

K是分割的个数。

Dividing and Aggregating Network for Multi-view Action Recognition

Dongang Wang1, Wanli Ouyang1,2 , Wen Li3, and Dong Xu1

1 The University of Sydney, School of Electrical and Information Engineering

2 The University of Sydney, SenseTime Computer Vision Research Group

3 ETH Zurich, Computer Vision Laboratory

欧阳万里组的工作。

简述

本文提出了一种新的划分和聚合用于多视图动作识别的网络(DA-Net)。在DA-Net中,学习了较低层的所有视角共享的表示,而在较高层学习了每个视角的特定表示。然后,基于每个视角的视角特定表示和基于较低层的共享表示的视角分类器来训练特定于视角的动作分类器。视图分类器用于预测每个视频属于每个视角的可能性。最后,当融合视角特定动作分类器的预测分数时,来自多个视角的预测视角概率被用作权重。还提出了一种基于条件随机场(CRF)公式的新方法,以在来自不同分支的视角特定表示之间传递消息以相互帮助。

方法的描述

最后的结果,他在NTU库上跑的结果。

Modality Distillation with Multiple Stream Networks for Action Recognition

Nuno C. Garcia, Pietro Morerio, and Vittorio Murino

Istituto Italiano di Tecnologia

Universita’ degli Studi di Genova

Universita‘ di Verona

简述

如何在训练阶段学习利用多模态数据的稳健表示的挑战,同时考虑在测试时的限制,例如噪声或丢失模态。本文提出了一种新的多模态视频动作识别方法,该方法是在蒸馏和特权信息的统一框架内开发的,称为广义蒸馏。特别是,虽然在训练的时候考虑从深度和RGB视频学习,但能仅在测试时依赖RGB数据。我们提出了一种新的方法来训练幻化网络,该网络通过时空表示的乘法连接,利用软标签和硬标签以及特征图之间的距离来学习提取深度特征。

方法的描述

这种学习范例,即使用额外信息训练模型时,通常被称为学习特权信息[30]或学附带信息[11]。

[30] Vapnik, V., Vashist, A.: A new learning paradigm: Learning using privileged information. Neural networks 22(5), 544–557 (2009)

[11] Hoffman, J., Gupta, S., Darrell, T.: Learning with side information through modality hallucination. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 826–834 (2016)

在这种情况下,我们引入了一种新的学习范式,如图1所示,将深度传递的信息提取到幻化网络中,这意味着在测试时“模仿”缺失的流。蒸馏[10] [1]是指任何培训程序,其中知识从先前训练的复杂模型转移到更简单的模型。我们的学习过程引入了一种新的损失函数,它受到广义精馏框架的启发[15],它正式统一了蒸馏和特权信息学习理论。

我们的模型受到了Simonyan和Zisserman [25]引入的双流网络的启发,该网络在视频动作识别任务的传统设置中取得了显着的成功[2] [5]。与以前的工作不同,我们使用多模态数据,为每种模态部署一个流(在我们的例子中为RGB和深度),并在特权信息的框架中使用它。另一个鼓舞人心的工作是[11],它提出了一个幻化网络来学习辅助信息。我们建立在这个想法的基础上,通过设计一个新的概念来扩展它通过更一般的损失函数和流间连接来学习和使用这种幻觉流的机制。

总之,本文的主要贡献如下:
- 提出了一种能够利用的新的多模式流网络架构训练时采用多种数据模式,同时在测试时仅使用一种模式;


- 引入了一种新的范例来学习一个幻化网络新颖的双流模型;


- 在这种情况下,实现了一种流间连接机制改善幻化网络的学习过程,并设计了一个
更广泛的损失函数,基于广义蒸馏框架;

最后的结果,他在NUT库上跑的结果。


持续更新中。。。


总结:

几个大家都在做而且对性能很有帮助的点:

  1. RGB 和skeleton,depth 的有效融合。比如hu jianfang的双线性融合,Verona大学的幻化网络来处理Depth模块。
  2. skeleton的更好的表征的探索。比如NTU liu jun的形变卷积去做,或者中科院的 spatial reasoning network去做。
  3. 时序信息和RGB的有效结合。Hu jianfang的时空feature,韩国首尔大学的motion filter替代光流。
  4. 多阶时序信息的使用。Action history sequence, skip -clips, 等等,都是在做这个东西。

我在接下来的工作中,也是准备用HMM和多阶时序信息结合来更好地表征action的动作。

发布于 2019-01-31

文章被以下专栏收录