【CV-Video Segmentation】Lucid Data Dreaming for Multiple Object Tracking阅读笔记

论文标题:Lucid Data Dreaming for Multiple Object Tracking

motivation

论文第一句话这样写的:

In the last years the field of object tracking in videos has transitioned from bounding box to pixel-level tracking

基于bounding box的visual tracking算法,大多基于CF相关滤波,对高等数学的要求很高,而从Object Segmentation到Video Object Segmentation,CNN框架一目了然,各种tricks很容易理解,而且像素级分割比 bounding box定位更准确。

DAVIS-2017比赛中,前三名都使用 MaskTrack 算法,标志MaskTrack 完胜OSVOS。本论文基于MaskTrack,在DAVIS-2017取得亚军,最重要的思想是:传统CNN训练需要的大规模训练数据集(1k~10k)是不必要的,论文使用“lucid dreaming”,另一种数据增强的方式,对第一帧标注图像各种扩展,使用较少的训练数据集(1~100)可以取得更好的结果。DAVIS-2017前9名参赛队伍,有4个参赛的使用Lucid Data Dreaming,包括冠军队和本论文的亚军。

在论文的experiment中显示,不使用ImageNet会降低模型的性能仅2个百分点。论文的思想应该是是不使用更多的video标注数据集,仅使用每个视频第一帧的标注图通过“lucid dreaming”产生的数据集进行微调。“lucid dreaming”其实就是Data augmentation 。

本论文算法适用于单目标跟踪和多目标跟踪。使用“lucid dreaming”数据生成策略和有效利用光流,仅使用~100帧标注训练数据,可以实现高质量跟踪结果。

论文有以下贡献:

1、提出“lucid data dreaming”,自动化方法生产训练数据集,在单目标和多目标像素级跟中取得良好效果。

2、论文广泛分析各种因素是否对最终结果有贡献。

3、论文证明使用较少标注的video数据集训练 object tracking是可行的。

论文的目标是:

“change the mindset regarding how many training samples and general “objectness” knowledge is required to approach this problem”

Architecture

论文把像素级object tracking看做基于外表和运动指示信号的掩码(mask,掩码,图像的二进制前景/背景标签)提纯任务。Mt = f (It,Ft,Mt-1),其中Mt表示当前的mask评估,Mt-1表示前一帧mask评估,It表示当前图像,Ft表示当前帧的光流。目标运动时,倾向于空间和时间的平稳性,帧和帧之间改变较弱,mask Mt-1可以看做是粗略评估mask Mt。融合It和光流能够利用视频的股友信息,使模型能够很好地分割静态和移动目标。

模型的策略是基于MaskTrack ,使用VGG16:DeepLabV2 架构,每一段视频单独训练。如下图所示单目标tracking和多目标tracking框架图:


单目标tracking时,对比实验数据发现two-stream和One stream架构性能相近,并且One stream可以轻松添加额外输入通道,提供目标附加的语义信息。所以单目标track输入通道为:[3(rgb)+ 1(optical flow)+1(previous segmentation)]。

多目标tracking同样采用One stream,输入通道是[3(rgb)+N input channels(N object masks)+1(optical flow)+1(semantic segmentation)]。

论文从从DAVIS-2017数据集和每个视频的第一帧标注数据生成“in-domain”训练数据。对于每个视频的微调,模型从从单个带标注的帧合成2500个增强,这些增强帧代表了可能的未来视频帧。

论文中使用的极端增强方式是:剪切前景物体、绘制背景、扰乱前景和背景、重组场景。

Experiment

在DAVIS-2016数据集,放弃ImageNet进行预训练只会降低2%〜5%的效果,所以仅仅使用第一帧标注作为训练数据实际上可以达到竞品的效果。

论文 实验过程包含Single Object Tracking Results和Multiple Object Tracking Results。

Single Object Tracking Results

数据集选择DAVIS16 , YouTubeObjects , SegTrackv2 评价度量选择mean intersection-over-union overlap (mIoU), 每一段视频,模型耗时约3.5h,包括数据产生,每个数据集训练,每段视频微调和每个数据集CRF参数网络搜索。测试阶段,LucidTracker耗时~5s/帧,包括基于FlowNet2.0的光流计算(~0.5秒)和CRF 后处理(~2s).

Multiple Object Tracking Results

数据集选择DAVIS17,评价指标轮廓精确度(Contour Accuracy)和区域相似度(Region Similarity),时序稳定度Temporal stability,论文没有给出多目标tracking的时间参数。

Conclusion

1、论文提出的lucid dreaming算法是原创,DAVIS-2017前9名有4个参赛队使用,包括冠军队。本文的模型基于VGG16:DeepLabV2 架构,在DAVIS17 test-dev set处于榜首位置,最终的test-challenge set惜败基于ResNet架构,获得亚军。

2、视频tracking中MaskTrack 全面完胜OSVOS,预示把视频帧当做完全独立帧这种想法没有包含时序信息,性能较差。

3、论文如果基于ResNet:DeepLabV3,性能应该会上一个台阶吧。

4、lucid dreaming是否可以用在image领域?如果可以的花image就不需要规模巨大的数据集了。



返回CV-video segmentation综述

返回CV总目录

发布于 2017-12-28

文章被以下专栏收录