PTGAN：针对行人重识别的生成对抗网络 | PaperDaily #36

PaperWeekly

本期推荐的论文笔记来自 PaperWeekly 社区用户 @LUOHAO。本文提出了一种针对于行人重识别的生成对抗网络 PTGAN，使用 GAN 将一个数据集的行人迁移到另外一个数据集。

如果你对本文工作感兴趣，点击底部的阅读原文即可查看原论文。

关于作者：罗浩，浙江大学博士研究生，研究方向为计算机视觉和深度学习，现为旷视科技（Face++）的 research intern。

■ 论文 | Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

■ 链接 | https://www.paperweekly.site/papers/1557

■ 作者 | Longhui Wei / Shiliang Zhang / Wen Gao / Qi Tian

摘要

本文提出了一种针对于 ReID 的生成对抗网络 PTGAN，可以实现不同 ReID 数据集的行人图片迁移，在保证行人本体前景不变的情况下，将背景转换成期望的数据集 style。另外本文还提出一个大型的 ReID 数据集 MSMT17，这个数据集包括多个时间段多个场景，包括室内和室外场景，是一个非常有挑战的数据集。

论文用 PTGAN 来缩小不同数据集间的 domain gap，并在新提出的 MSMT17 这个大数据集和其他一些公开的小数据集上做了实验。

MSMT17 数据集

MSMT17 是一个大型的 ReID 数据集，现在的一些公开数据集的准确度已经被刷得很高，这个数据集的提出进一步延续了 ReID 的发展。不过数据集目前还有公开，等待论文接收后数据集可以公开。

MSMT17 数据集有以下几个特性：

数据采集时长约为 180 小时
总共有 15 个相机，其中 12 个室外相机，3 个室内相机
行人框由 Faster RCNN 机标完成
最后总共有 4101 个行人的 126441 个 bounding boxes

△ MSMT17 数据集和已有 ReID 数据集的对比

△ MSMT17 数据集的图片和其他数据集的直观对比

PTGAN

Person Transfer GAN（PTGAN）是作者提出的一个针对于 ReID 问题的 GAN。这个 GAN 最大的特点就是在尽可能保证行人前景不变的前提下实现背景 domain 的迁移。

首先 PTGAN 网络的损失函数包括两部分：

其中 LStyle 代表生成的风格损失，或者说 domain 损失，就是生成的图像是否像新的数据集风格。LID 代表生成图像的 ID 损失，就是生成的图像是否和原始图像是同一个人。λ1 是平衡两个损失的权重。下面的关键就是看这两个损失怎么定义。

首先 PTGAN 的基础是 CycleGAN，所以 loss 也和正常的 CycleGAN 的 loss 差不多。首先第一部分是 LStyle，这个就是标准的 CycleGAN 的判别 loss。

以上几部分都是正常的 CycleGAN 的损失，保证生成的图片和期望的数据集的 domain 是一样的。

论文的另外一个改进的地方就是 LID。为了保证图片迁移过程中前景不变，先用 PSPNet 对图片进行了一个前景分割，得到一个 mask 区域。

传统的 CycleGAN 并不是用于 ReID 任务，因此也不需要保证前景物体的 ID 信息不变，这样的结果就是前景可能模糊之类的质量很差，更糟糕的现象是行人的外观可能改变，比如衣服颜色发生了改变，这是 ReID 任务非常不希望见到的。为了解决这个问题，论文提出 LID 损失，用 PSPNet 提取的前景，这个前景就是一个 mask，最后 ID 损失为：