【Video Object Segmentation】One-Shot Video Object Segmentation阅读笔记

论文标题:One-Shot Video Object Segmentation

源代码:www.vision.ee.ethz.ch/˜cvlsegmentation/osvos/

motivation

计算机视觉领域中,Image和目标有关的经典任务有三种:分类、检测和分割。其中分类是实现“是什么”,检测和分割都可以实现定位,前者是依照边界框形式,而后者是像素级的分割。

Video实现目标检测任务有:Visual tracking,action classification, action (temporal) Recognition, video semantic segmentation等。

video object segmentation需要解决的是半监督问题,只给出视频第一帧的正确分割掩码,然后在之后的每一连续帧中分割标注的目标,而Visual tracking解决的是只给出视频第一帧的定位边界框,在后续每一连续帧中同样用边界框的形式标注物体。

基于图片的语义分割经典算法包括FCN,SegNet、Dilated Convolutions、DeepLab (v1 & v2& v3)、RefineNet、PSPNet、Large Kernel Matters等。但是,视频目标分割任务和图片的语义分割有两个基本区别:视频目标分割任务分割的是非语义的目标,并且视频目标分割添加了一个时序模块,它的任务是在视频的每一连续帧中寻找目标的对应像素。

video semantic segmentation自从DAVIS Challenge on Video Object Segmentation 走进CVPR2016/CVPR2017,主流算法是OSVOS和MaskTrack ,本论文是OSVOS算法的开山之作。

论文有以下贡献: 1、给定单一标注图像情况下,采用FCN实现特定目标实体分割。 2、论文使用OSVOS独立处理视频的每个帧,取得时序连续性。 3、OSVOS算法在精度和速度取得平衡,处理一帧DAVIS (480×854 pixels) 图像用时102ms。

Architecture

Overview of OSVOS



论文没有详细介绍使用的模型详细架构和参数设置,而是介绍如上图所示的框图:首先在ImageNet实现预训练的基于VGG 的CNN模型,之后在DAVIS训练集训练该CNN模型。最后通过在单一帧图像的特定目标进行微调,实现对特定目标的聚焦。

为了处理这两个二进制类别(前景和背景)之间的不平衡,论文采用《Holistically-nested edge detection》改进版的损失函数。

Contour snapping



为了提高模型的精度,论文采用如图2所示的框架进行轮廓捕捉。如图所示1分支表示前景分支,评估前景像素的位置。分支2表显示检测的轮廓分支,使得模型可以离线训练。两个模型的分支使用相同的模型,但是使用不同的损失函数。

Experiment

论文使用的数据集是DAVIS2016,包含50个高清标注的图像。

DAVIS2016有两个度量分割准确率的主要标准:

区域相似度(Region Similarity):区域相似度是掩码 M 和真值 G 之间的 Intersection over Union 函数

轮廓精确度(Contour Accuracy):将掩码看成一系列闭合轮廓的集合,并计算基于轮廓的 F 度量,即准确率和召回率的函数。

直观上,区域相似度度量标注错误像素的数量,而轮廓精确度度量分割边界的准确率。

模型没有介绍详细的架构,也就没有调试参数的过程,只有各种实验数据的对比。

值得一提的是,论文的模型和VOT Challenge 2015 MDNet模型对比,效果显著。(论文发布arxiv时间是2016.12,VOT Challenge 2016已经结束 )

Conclusion

1、Deep CNN一般需要很大的数据集去训练模型,但是好在可以使用ImageNet预训练好的模型。论文的OSVOS模型其实没有考虑Video的时序信息,简单直接当做连续帧的图像。Visual tracking领域的VOT Challenge也是处理视频跟踪,但是2017年依然是相关滤波器的天下,其实一直琢磨,为什么不可以当做独立的帧,用SSD/Faster R-CNN去检测?而现在video object segmentation精细到像素级的分割,相比Visual tracking,前者有更广泛的应用,实现难度也更大。


2、Object detection领域有RGB,Kaiming He等不断填坑,与大神竞争实在是很难。但是,Video Object Segmentation领域才开始,DAVIS Challenge on Video Object Segmentation 才举办两年,算法实时性/精度有限,很多荒地等待开垦,这是个好消息啊同志们!


返回CV-video semantic segmentation综述

返回CV总目录

编辑于 2017-12-22

文章被以下专栏收录