深度学习从入门到放弃之CV-video segmentation综述

西红柿牛腩

过河卒子能当車

1、Problem

2、metrics 、datasets和challenge

3、two main approaches

4、DAVIS-2017 challenge

5、 video segmentation参考文献

1、Problem

计算机视觉领域中，Image和目标有关的经典任务有三种：classification, detection 和segmentation。其中classification实现“是什么”，detection 和segmentation都可以实现定位，前者是依照边界框形式，而后者是像素级的分割。

Classical computer vision tasks (image from Stanford’s cs231n course slides)

Video实现目标检测任务有：Visual tracking，action classification, action (temporal) Recognition, video semantic segmentation，person ReID，Pose estimation等。

video object segmentation和Visual tracking有相似之处。video object segmentation需要解决的是半监督问题，只给出视频第一帧的正确分割掩膜，然后在之后的每一连续帧中像素级分割标注的目标，实际就是像素级的目标追踪问题；而Visual tracking解决的是只给出视频第一帧的定位边界框，在后续每一连续帧中同样用边界框的形式标注物体。两者关系类似于Segmentation和Detection的关系。

Visual tracking一直是相关滤波的天下，CNN一直很难占领；video object segmentation自 DAVIS-2016,主流算法就是基于CNN的OSVOS和MaskTrack。而且classification/detection/ segmentation/Visual tracking论文满天飞，detection领域有RGB，Kaiming He等不断填坑，与大神竞争实在是很难。但是，Video Object Segmentation领域才开始，DAVIS Challenge on Video Object Segmentation 才举办两年，算法实时性/精度有限，很多荒地等待开垦。

基于图片的语义分割经典算法包括FCN,SegNet、Dilated Convolutions、DeepLab (v1 & v2& v3)、RefineNet、PSPNet、Large Kernel Matters等。但是，视频目标分割任务和图片的语义分割有两个基本区别：视频目标分割任务分割的是非语义的目标，并且视频目标分割添加了一个时序模块，它的任务是在视频的每一连续帧中寻找目标的对应像素。直接使用经典的语义分割算法难以达到视频处理的性能，这也是为什么基于时序的MaskTrack算法优于基于视频独立帧独立处理的OSVOS算法。

Video Segmentation问题中，又可以划分两个子类别Unsupervised 和Semi-supervised，如上图所示：

Unsupervised ：任务是查找和分割视频中的主要目标，因为没有监督，算法自行决定主分割是什么。

Semi-supervised：只给出视频第一帧的正确分割掩膜，然后在之后的每一连续帧中像素级分割标注的目标，实际就是像素级的目标追踪问题。Semi-supervised又可以细分为单目标分割和多目标分割。

2、metrics 、datasets和challenge

metrics

分割的准确率主要有两个标准：

区域相似度（Region Similarity）：区域相似度是掩膜 M 和真值 G 之间的 Intersection over Union 函数

轮廓精确度（Contour Accuracy）：将掩膜看成一系列闭合轮廓的集合，并计算基于轮廓的 F 度量，即准确率和召回率的函数。即轮廓精确度是对基于轮廓的准确率和召回率的 F 度量。

直观上，区域相似度度量标注错误像素的数量，而轮廓精确度度量分割边界的准确率。

datasets和challenge

1、DAVIS-2016和DAVIS-2017，链接 http://davischallenge.org/code.html

2、DAVIS挑战赛官网链接 http://davischallenge.org/

3、GyGO: E-commerce Video Object Segmentation by Visualead，电商视频目标分割数据集，链接 https://github.com/ilchemla/gygo-dataset

3、two main approaches

DAVIS-2016出现的算法OSVOS（One Shot Video Object Segmentation，OSVOS）和MaskTrack，成为DAVIS-2017的主流算法。OSVOS 独立地分割视频的每一帧，而 MaskTrack 还需要考虑视频中的时序信息。OSVOS和MaskTrack 算法相关论文和笔记可以参考第五部分的目录。

4、DAVIS-2017 challenge

在准确性方面，2017年DAVIS的表现有了显着的飞跃。作为参考：2016年最先进的OSVOS在2017年的挑战中获得了46％的区域相似度得分，而今年的获胜者取得了令人印象深刻的67.9分！在DAVIS-2017 22个参赛队伍中，排名前9位的成绩如下：

从上述表格，可以看到如下趋势：

1、MaskTrack 和OSVOS占主流，前三名使用MaskTrack ,后六名使用OSVOS，MaskTrack 已经完胜OSVOS。

2、另外一种数据增强方式Lucid Data Dreaming走上舞台。前九名6个参赛队伍在使用，包括冠军和亚军。

3、VGG16和ResNet各占4名，ResNet走上前台。

4、很多参赛队在其解决方案中使用语义分割或目标检测（Faster -RCNN）网络。

5、video segmentation参考文献

特别参考Eddie Smolyansky撰写的博客：

The Basics of Video Object Segmentation

A Meta-analysis of DAVIS-2017 Video Object Segmentation Challenge

1、Problem

2、metrics 、datasets和challenge

3、two main approaches

4、DAVIS-2017 challenge

5、video segmentation参考文献

文章被以下专栏收录

深度学习从入门到放弃