跳出思维的盒子，谈一谈交互式视频目标分割中标注帧的选取

计算机视觉｜研究员｜工程师

本文是对CVPR 2021论文《Learning to Recommend Frame for Interactive Video Object Segmentation in the Wild》的解读，该论文由湖南大学、群核科技（酷家乐）、美团、上海科技大学共同合作完成。本文提出了一种适用于自然场景下的交互式视频目标分割框架，其中用户可以在推荐的视频帧提供额外标注来帮助提高分割质量。

前言

视频目标分割任务的目的是在视频序列中分割特定的目标。然而，收集一个细粒度、像素级标注的数据集成本是十分高昂。例如，标注DAVIS^[1]数据集每个视频帧中的一个物体就需要100秒。

为了减少人工标注的成本，Caelles等人^[2]提出了一种交互式视频目标分割任务，该任务希望在提供少量的人工监督信号来实现令人满意的分割结果。具体地，给定一个视频序列，用户首先选取能够最好表达待分割目标的其中一帧视频图像，并以涂鸦的方式标注该目标。随后，分割算法基于用户提供的初始涂鸦标注给出视频每帧的分割结果，用户通过在某一视频帧上绘制涂鸦来标记出算法分割错误的区域来提升算法的分割结果。

现有的框架选取其中最差的视频帧来纠正分割结果，然而，用户很难从分割结果中准确地找出分割质量最差的一帧；况且，具有最差质量评价指标的视频帧，并不一定是对整体视频分割质量提升最有帮助的帧（见题图）。