【CV-Video Segmentation】Video Object Segmentation with Re-identification阅读笔记

论文标题:Video Object Segmentation with Re-identification

motivation

传统的视频分割方法依赖于生成掩膜的时间连续性,但是无法处理目标丢失或目较大的位移等情况。论文为了克服这些问题,提出视频对象分割与重新识别( Video Object Segmentation with Re-identification,VSReID),包括掩码生成模块和ReID模块(Person re-identification,ReID,既给定一个监控行人图像,跨设备检索行人的图像,由于不同摄像设备之间存在差异,行人外观易受穿着、尺度、遮挡、姿态和视角等影响,行人再识别是一个既具研究价值同时又极富挑战性的课题。)。前者通过 flow warping生成初始化概率图,后者自适应匹配检索丢失的目标实体。通过通过两个模块的迭代应用,本文的模型在DAVIS-2017取得冠军,验证了算法的性能。

Architecture

The mask propagation module

论文的掩膜生成模块采用主流的MaskTrack +Lucid Data Dreaming,有两个分支RGB Brach和Flow Branch,RGB Brach输入bounding box和引导概率图,Flow Branch输入引导概率图和光流,两个通道生成的segmentation mask通过求平均值得到最终预测的视频分割帧。引导概率图通过相邻帧的flow warping预测,光流通过训练以合并时间信息,bounding box通过Faster R-CNN生成。

论文中的MaskTrack有以下改进:

1、base net采用ResNet,而之前MaskTrack采用VGG16.

2、模型不是将整个图像输入到掩膜生成模块,而是通过Faster RCNN生成与对象边界框对应的大小归一化的裁剪图片,从而提高对小目标的跟踪性能。

3、为了提高预测分辨率,模型降低CNN的stride,用dilated convolutions替代传统convolutions,(个人感觉更像使用Deeplab V3模型)

4、每个分支单独训练, two streams 联合微调进一步改善模型的性能。

object reidentification module

The mask propagation module仅能处理短期的时序信息,为了应对视频动态场景中的大姿态变化和频繁遮挡,论文使用ReID模块检索丢失的目标实体,使系统具有更好的鲁棒性。

具体而言,当丢失的实体被重新识别为高置信度,它们被赋予更高的优先权,在掩膜生成过程中优先恢复。对于每个从新检索实体,论文把当前帧作为起点,在相邻帧使用掩膜生成模块双向生成概率图。通过更新的概率图,VS-ReID的掩膜生成模块和ReID模块迭代应用到整个视频序列,直到不能找到高置信度的实体。最终,每帧的实体分割结果通过合并所有实体的概率图实现。

论文直接采用Faster R-CNN检测候选bounding boxes、与已知实体比较,使用论文《Joint detection and identification feature learning for person search》‘Identification Net’校验是否应该被恢复,重新训练模型。恢复的实体前前向和后向传导到视频帧中。

Experiment

模型的两个分支单独训练。RGB分支在MS-COCO和PASCAL VOC预训练。预训练阶段,使用随机变形 groundtruth mask作为引导概率图。随后网络模型在DAVIS数据集微调。flow branch 初始化参数使用RGB branch的参数,并在DAVIS 训练集微调。最终,两个分支在DAVIS训练和验证数据集联合微调。

Detection 和re-identification网络在Image预训练,re-identification直接使用原论文《Joint detection and identification feature learning for person search》的网络模型。

DAVIS-2016主要是单目标视频分割,DAVIS-2016主要是多目标分割,包含150 段视频序列,其中train set包括60段, val set、test-dev set 和 test challenge set均包括30段视频。评价度量延续采用轮廓精确度(Contour Accuracy)和区域相似度(Region Similarity)。

Ablation study of each module in VS-ReID中,full image to bbox提升global-mean3.8%,证明边界框克服剧烈变化,有助于捕获边界细节。 two-stream提升global-mean 0.7%,ReID提升global-mean 6.8%,这是效果最显著的tricks。论文采用的多尺度测试,multi-scale testing提高global-mean 0.9。

Conclusion

1、本人一开始为亚军的论文Lucid Data Dreaming for Multiple Object Tracking叫屈,明明自己先提出Lucid Data Dreaming,一路领先,反而在 test challenge set败退。看完本篇只有6页的论文,虽然过程不太详细,但是Faster R-CNN+ReID,单独拿出来都是大腕,完整训练本文整个模型不容易。

2、图像处理中很多算法是相同的。Mask R-CNN把object detection,instance segmentation,human pose estimation全部贯穿起来,视频处理的video Segmentation,ReID,Action Recognition,Visual tracking这些就不能结合?

3、可以想象本论文算法的实时性降低,有很大的改善空间。


返回CV-video segmentation综述

返回CV总目录

编辑于 2018-01-02

文章被以下专栏收录