深度学习从入门到放弃之CV-video segmentation综述

目录

1、Problem

2、metrics 、datasets和challenge

3、two main approaches

4、DAVIS-2017 challenge

5、 video segmentation参考文献

1、Problem

计算机视觉领域中,Image和目标有关的经典任务有三种:classification, detection 和segmentation。其中classification实现“是什么”,detection 和segmentation都可以实现定位,前者是依照边界框形式,而后者是像素级的分割。

Classical computer vision tasks (image from Stanford’s cs231n course slides)


Video实现目标检测任务有:Visual tracking,action classification, action (temporal) Recognition, video semantic segmentation,person ReID,Pose estimation等。

video object segmentation和Visual tracking有相似之处。video object segmentation需要解决的是半监督问题,只给出视频第一帧的正确分割掩膜,然后在之后的每一连续帧中像素级分割标注的目标,实际就是像素级的目标追踪问题;而Visual tracking解决的是只给出视频第一帧的定位边界框,在后续每一连续帧中同样用边界框的形式标注物体。两者关系类似于Segmentation和Detection的关系。


Visual tracking一直是相关滤波的天下,CNN一直很难占领;video object segmentation自 DAVIS-2016,主流算法就是基于CNN的OSVOS和MaskTrack。而且classification/detection/ segmentation/Visual tracking论文满天飞,detection领域有RGB,Kaiming He等不断填坑,与大神竞争实在是很难。但是,Video Object Segmentation领域才开始,DAVIS Challenge on Video Object Segmentation 才举办两年,算法实时性/精度有限,很多荒地等待开垦。


基于图片的语义分割经典算法包括FCN,SegNet、Dilated Convolutions、DeepLab (v1 & v2& v3)、RefineNet、PSPNet、Large Kernel Matters等。但是,视频目标分割任务和图片的语义分割有两个基本区别:视频目标分割任务分割的是非语义的目标,并且视频目标分割添加了一个时序模块,它的任务是在视频的每一连续帧中寻找目标的对应像素。直接使用经典的语义分割算法难以达到视频处理的性能,这也是为什么基于时序的MaskTrack算法优于基于视频独立帧独立处理的OSVOS算法。

Segmentation子领域和代表数据集


Video Segmentation问题中,又可以划分两个子类别Unsupervised 和Semi-supervised,如上图所示:

Unsupervised :任务是查找和分割视频中的主要目标,因为没有监督,算法自行决定主分割是什么。

Semi-supervised:只给出视频第一帧的正确分割掩膜,然后在之后的每一连续帧中像素级分割标注的目标,实际就是像素级的目标追踪问题。Semi-supervised又可以细分为单目标分割和多目标分割。

2、metrics 、datasets和challenge

metrics

分割的准确率主要有两个标准:

区域相似度(Region Similarity):区域相似度是掩膜 M 和真值 G 之间的 Intersection over Union 函数

轮廓精确度(Contour Accuracy):将掩膜看成一系列闭合轮廓的集合,并计算基于轮廓的 F 度量,即准确率和召回率的函数。即轮廓精确度是对基于轮廓的准确率和召回率的 F 度量。

直观上,区域相似度度量标注错误像素的数量,而轮廓精确度度量分割边界的准确率。

datasets和challenge

1、DAVIS-2016和DAVIS-2017,链接 davischallenge.org/code

2、DAVIS挑战赛官网链接 davischallenge.org/

3、GyGO: E-commerce Video Object Segmentation by Visualead,电商视频目标分割数据集,链接 github.com/ilchemla/gyg

3、two main approaches


DAVIS-2016出现的算法OSVOS(One Shot Video Object Segmentation,OSVOS)和MaskTrack,成为DAVIS-2017的主流算法。OSVOS 独立地分割视频的每一帧,而 MaskTrack 还需要考虑视频中的时序信息。OSVOS和MaskTrack 算法相关论文和笔记可以参考第五部分的目录。


4、DAVIS-2017 challenge

在准确性方面,2017年DAVIS的表现有了显着的飞跃。作为参考:2016年最先进的OSVOS在2017年的挑战中获得了46%的区域相似度得分,而今年的获胜者取得了令人印象深刻的67.9分!在DAVIS-2017 22个参赛队伍中,排名前9位的成绩如下:


从上述表格,可以看到如下趋势:

1、MaskTrack 和OSVOS占主流,前三名使用MaskTrack ,后六名使用OSVOS,MaskTrack 已经完胜OSVOS。

2、另外一种数据增强方式Lucid Data Dreaming走上舞台。前九名6个参赛队伍在使用,包括冠军和亚军。

3、VGG16和ResNet各占4名,ResNet走上前台。

4、很多参赛队在其解决方案中使用语义分割或目标检测(Faster -RCNN)网络。

5、video segmentation参考文献

特别参考Eddie Smolyansky撰写的博客:

The Basics of Video Object Segmentation

A Meta-analysis of DAVIS-2017 Video Object Segmentation Challenge

相关论文:

2016----A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation

2016----Clockwork Convnets for Video Semantic Segmentation

2016----MaskTrack ----Learning Video Object Segmentation from Static Images

2017----DAVIS-Challenge-1st----Video Object Segmentation with Re-identification

2017----DAVIS-Challenge-2nd----Lucid Data Dreaming for Multiple Object Tracking

2017----DAVIS-Challenge-3rd----Instance Re-Identification Flow for Video Object Segmentation

2017----DAVIS-Challenge-4th----Multiple-Instance Video Segmentation with Sequence-Specific Object Proposals

2017----DAVIS-Challenge-5th Online Adaptation of Convolutional Neural Networks for the 2017 DAVIS Challenge on Video Object Segmentation

2017----DAVIS-Challenge-6th ----Learning to Segment Instances in Videos with Spatial Propagation Network

2017----DAVIS-Challenge-7th----Some Promising Ideas about Multi-instance Video Segmentation

2017----DAVIS-Challenge-8th----One-Shot Video Object Segmentation with Iterative Online Fine-Tuning

2017----DAVIS-Challenge-9th----Video Object Segmentation using Tracked Object Proposals

2017----ICCV2017----SegFlow_Joint Learning for Video Object Segmentation and Optical Flow

2017----OSVOS----One-Shot Video Object Segmentation

2017----Surveillance Video Parsing with Single Frame Supervision

2017----The 2017 DAVIS Challenge on Video Object Segmentation

2017----Video Propagation Networks



返回CV总目录

编辑于 2018-01-02

文章被以下专栏收录