深度学习从入门到放弃之CV-video segmentation综述
目录
1、Problem
2、metrics 、datasets和challenge
3、two main approaches
4、DAVIS-2017 challenge
5、 video segmentation参考文献
1、Problem
计算机视觉领域中,Image和目标有关的经典任务有三种:classification, detection 和segmentation。其中classification实现“是什么”,detection 和segmentation都可以实现定位,前者是依照边界框形式,而后者是像素级的分割。
Video实现目标检测任务有:Visual tracking,action classification, action (temporal) Recognition, video semantic segmentation,person ReID,Pose estimation等。
video object segmentation和Visual tracking有相似之处。video object segmentation需要解决的是半监督问题,只给出视频第一帧的正确分割掩膜,然后在之后的每一连续帧中像素级分割标注的目标,实际就是像素级的目标追踪问题;而Visual tracking解决的是只给出视频第一帧的定位边界框,在后续每一连续帧中同样用边界框的形式标注物体。两者关系类似于Segmentation和Detection的关系。
Visual tracking一直是相关滤波的天下,CNN一直很难占领;video object segmentation自 DAVIS-2016,主流算法就是基于CNN的OSVOS和MaskTrack。而且classification/detection/ segmentation/Visual tracking论文满天飞,detection领域有RGB,Kaiming He等不断填坑,与大神竞争实在是很难。但是,Video Object Segmentation领域才开始,DAVIS Challenge on Video Object Segmentation 才举办两年,算法实时性/精度有限,很多荒地等待开垦。
基于图片的语义分割经典算法包括FCN,SegNet、Dilated Convolutions、DeepLab (v1 & v2& v3)、RefineNet、PSPNet、Large Kernel Matters等。但是,视频目标分割任务和图片的语义分割有两个基本区别:视频目标分割任务分割的是非语义的目标,并且视频目标分割添加了一个时序模块,它的任务是在视频的每一连续帧中寻找目标的对应像素。直接使用经典的语义分割算法难以达到视频处理的性能,这也是为什么基于时序的MaskTrack算法优于基于视频独立帧独立处理的OSVOS算法。
Video Segmentation问题中,又可以划分两个子类别Unsupervised 和Semi-supervised,如上图所示:
Unsupervised :任务是查找和分割视频中的主要目标,因为没有监督,算法自行决定主分割是什么。
Semi-supervised:只给出视频第一帧的正确分割掩膜,然后在之后的每一连续帧中像素级分割标注的目标,实际就是像素级的目标追踪问题。Semi-supervised又可以细分为单目标分割和多目标分割。
2、metrics 、datasets和challenge
metrics
分割的准确率主要有两个标准:
区域相似度(Region Similarity):区域相似度是掩膜 M 和真值 G 之间的 Intersection over Union 函数
轮廓精确度(Contour Accuracy):将掩膜看成一系列闭合轮廓的集合,并计算基于轮廓的 F 度量,即准确率和召回率的函数。即轮廓精确度是对基于轮廓的准确率和召回率的 F 度量。
直观上,区域相似度度量标注错误像素的数量,而轮廓精确度度量分割边界的准确率。
datasets和challenge
1、DAVIS-2016和DAVIS-2017,链接 http://davischallenge.org/code.html
2、DAVIS挑战赛官网链接 http://davischallenge.org/
3、GyGO: E-commerce Video Object Segmentation by Visualead,电商视频目标分割数据集,链接 https://github.com/ilchemla/gygo-dataset
3、two main approaches
DAVIS-2016出现的算法OSVOS(One Shot Video Object Segmentation,OSVOS)和MaskTrack,成为DAVIS-2017的主流算法。OSVOS 独立地分割视频的每一帧,而 MaskTrack 还需要考虑视频中的时序信息。OSVOS和MaskTrack 算法相关论文和笔记可以参考第五部分的目录。
4、DAVIS-2017 challenge
在准确性方面,2017年DAVIS的表现有了显着的飞跃。作为参考:2016年最先进的OSVOS在2017年的挑战中获得了46%的区域相似度得分,而今年的获胜者取得了令人印象深刻的67.9分!在DAVIS-2017 22个参赛队伍中,排名前9位的成绩如下:
从上述表格,可以看到如下趋势:
1、MaskTrack 和OSVOS占主流,前三名使用MaskTrack ,后六名使用OSVOS,MaskTrack 已经完胜OSVOS。
2、另外一种数据增强方式Lucid Data Dreaming走上舞台。前九名6个参赛队伍在使用,包括冠军和亚军。
3、VGG16和ResNet各占4名,ResNet走上前台。
4、很多参赛队在其解决方案中使用语义分割或目标检测(Faster -RCNN)网络。
5、video segmentation参考文献
特别参考Eddie Smolyansky撰写的博客:
The Basics of Video Object Segmentation
A Meta-analysis of DAVIS-2017 Video Object Segmentation Challenge
相关论文:
2016----A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation
2016----Clockwork Convnets for Video Semantic Segmentation
2016----MaskTrack ----Learning Video Object Segmentation from Static Images
2017----DAVIS-Challenge-1st----Video Object Segmentation with Re-identification
2017----DAVIS-Challenge-2nd----Lucid Data Dreaming for Multiple Object Tracking
2017----DAVIS-Challenge-3rd----Instance Re-Identification Flow for Video Object Segmentation
2017----DAVIS-Challenge-4th----Multiple-Instance Video Segmentation with Sequence-Specific Object Proposals
2017----DAVIS-Challenge-5th Online Adaptation of Convolutional Neural Networks for the 2017 DAVIS Challenge on Video Object Segmentation
2017----DAVIS-Challenge-6th ----Learning to Segment Instances in Videos with Spatial Propagation Network
2017----DAVIS-Challenge-7th----Some Promising Ideas about Multi-instance Video Segmentation
2017----DAVIS-Challenge-8th----One-Shot Video Object Segmentation with Iterative Online Fine-Tuning
2017----DAVIS-Challenge-9th----Video Object Segmentation using Tracked Object Proposals
2017----ICCV2017----SegFlow_Joint Learning for Video Object Segmentation and Optical Flow
2017----OSVOS----One-Shot Video Object Segmentation
2017----Surveillance Video Parsing with Single Frame Supervision
2017----The 2017 DAVIS Challenge on Video Object Segmentation
2017----Video Propagation Networks