魔鬼在细节中:人体姿态估计中无偏的数据处理方法

魔鬼在细节中:人体姿态估计中无偏的数据处理方法

The Devil is in the Details: Delving into Unbiased Data Processing for Human Pose Estimation

所有计算机视觉的任务都需要和数据处理打交道,但在关键点检测问题上,数据处理显得尤为重要。据我们所了解,在关键点检测任务上,数据处理尚未被系统的学习,因此我们在这篇文章中关注人体关键点检测问题的数据处理,认为它是算法的一个极其重要的组成部分。

在我们系统地分析这个问题的时候发现现有的所有的state-of-the-art(据我们所知)在这个环节上都会存在两个方面的问题:一个是在测试过程中,如果使用flip ensemble时,由翻转图像得到的结果和原图得到的结果并不对齐。另外一个是使用的编码解码(encoding-decoding)方法存在较大的统计误差。这两个问题耦合在一起,产生的影响包括:估计的结果不准确、复现指标困难、有较大可能使得实验的结果结论不可靠。

在对上述两个问题的量化分析基础上,我们提出用于人体姿态估计的无偏的数据处理方法(UDP)。UDP 包含两个主要的思想:一个是在数据处理的时候,使用单位长度去度量图像的大小,而非像素的多少,以解决第一个问题。另外,引入一种在理想情况下无统计误差的编码解码方法。

我们的方法不仅在训练和推理过程产生的计算增量非常少,并且适用于所有top-down的方法。在COCO test-dev 测试集合上,我们的方法在SimpleBaseline-ResNet50-256x192上的提升有1.5AP,在HRNet-W32-256x192上的提升有1.7AP的提升。HRNet-W48-384x288 模型在 COCO test-dev 集合上得分是76.5AP,比HRNet原模型提升了1个点,是目前公开结果中同等条件下性能表现最好的。

详细的推理过程可参考文章,文章已挂arxiv,代码将会在Github个人主页上更新,希望这个工作能对大家深入了解pose相关的数据处理,复现现有工作指标或者继续深入研究这个问题时有帮助。

发布于 2019-11-19

文章被以下专栏收录