【CV-Video Segmentation】MaskTrack 阅读笔记

论文标题:Learning Video Object Segmentation from Static Images

motivation

之前介绍在DAVIS 2016/2017主要有两种算法OSVOS和MaskTrack ,本篇论文主要讲MaskTrack算法。OSVOS主要是把视频中的每一个图像都当做独立的图片进行处理,没有考虑时序信息。MaskTrack考虑时序信息,依然是把每一帧当做静态图像。 论文实现video segmentation关键方法是结合在线和离线策略。

Architecture



论文提出引导式实体分割的思路:视频序列中,对一个新的帧像素级分割时,引入上一帧已经完成像素级标注的图片。论文的整体模型是基于DeepLabv2架构。如上图所示,整个架构的输入是4通道(RGB3通道+前一帧掩码图像),使用第一帧的真实标注初始化该流程,主要通过Learning to segment instances offline+online两种策略实现。

Learning to segment instances offline

offline主要完成的是模型离线训练,基于两个结论:

1、粗糙的掩码图像提供的定位信息,已经满足网络的训练。即使是visual tracking提供的矩形边界框,也可以引导完成实体分割。

2、网络不需要视频训练数据,在单帧实体分割标注情况下轻松实现同步训练样本。网络可以使用很多独立的图片数据集,避免使用视频分割基准进行训练。通过将每一张静态图像的真实标注转换(仿射变换和非刚性变形等),人工合成前一帧的掩膜通道输入。 使用offline方式,模型不需要所有视频的像素标注,可以使用外部标注数据集ECSSD、MSRA10K、PASCAL-S,提供了11 282训练数据集。

Learning to segment instances online

论文借鉴visual tracking思想,使用online提高video segmentation性能。 The idea is to use, at test time, the segment annotation of the first video frame as additional training data。Using augmented versions of this single frame annotation, we proceed to fine-tune the model to become more specialized for the specific object instance at hand。 在线训练就是使用第一帧的真实标注的图像作为训练数据,并且对第一帧做数据增强,微调特定目标分割的模型。

Variants

论文考虑各种变换模型,既可以处理不同类型的标注数据集,也可以在系统中集成运动信息,提高目标分割质量。

论文中谈到的Box annotation(MaskTrackBox),在用矩形框标注的第一帧图像作为监督,使用第二个CNN模型训练矩形边界框作为输入的掩码。在下一帧使用标准的MaskTrack模型。

在MaskTrack算法之外,论文考虑采用光流作为附加信息的来源来指导视频分割。光流通过EpicFlow 和卷积边界计算。光流场取代RGB三通道图像,和MaskTrack并行输入到模型,且不需要重新训练。虽然模型在RGB训练,但是光流场大致看起来像一个灰色的物体,仍然可以捕获有用的物体形状信息,使用RGB模型可以避免CNN在具有分段标注的视频数据集训练。

论文通过求平均值的方式融合两个模型的得分(RGB+ optical flow和MaskTrack+Flow),论文命名为MaskTrack+Flow,光流为MaskTrack +RGB提供互补信息,改善模型的性能。

Experiment

Datasets

论文在三个数据集评估:DAVIS ,YoutubeObjects, and SegTrack-v2。评价指标采用mIOU。网络模型基于DeepLabv2,第一个卷积层扩展的mask通道滤波器使用高斯分布初始化。网络训练20k次迭代。 离线训练采用SGD优化,minibatch=10, learning rate of 0.001,momentum =0.9,decay=0.0005,整个网络

Add-ons 论文尝试在MaskTrack添加一些tricks提高模型性能:使用光流方法,从74.8%提高到78.4,使用CRF的方法,在DAVIS可以提高到80% mIoU。仅使用offline(去掉online),性能降低约5% mIOU。其他tricks参见论文。

Conclusion

论文虽然考虑video的时序信息,但是训练的数据集采用独立的image,降低对标注的video依赖。在MaskTrack+Flow+CRF情况下模型取得最好的技术指标。模型不但可以处理video segmentation,还可以实现bounding box标注,充分体现模型的适应能力。


返回CV-video segmentation综述

返回CV总目录

编辑于 2017-12-28

文章被以下专栏收录