AI | 盘点旷视14篇CVPR 2019论文，都有哪些亮点？

普及运筹学|优化理论，及其在人工智能|数据科学|供应链的应用

编者按

回顾 CVPR 2018 ，旷视科技有 8 篇论文被收录，如高效的移动端卷积神经网络 ShuffleNet、语义分割的判别特征网络 DFN、优化解决人群密集遮挡问题的 RepLose、通过角点定位和区域分割优化场景文本检测的一种新型场景文本检测器、率先提出的可复原扭曲的文档图像等等。今年，旷视科技在 CVPR 2019 上共有 14 篇论文被接收。今天小编与大家一起学习一下这14 篇论文。

文章作者：AI科技大本营
责任编辑：晋杰
文章发表于微信公众号【运筹OR帷幄】：AI | 盘点旷视14篇CVPR 2019论文，都有哪些亮点？
欢迎原链接转发，转载请私信@运筹OR帷幄获取信息，盗版必究。
敬请关注和扩散本专栏及同名公众号，会邀请全球知名学者发布运筹学、人工智能中优化理论等相关干货、知乎Live及行业动态：『运筹OR帷幄』大数据人工智能时代的运筹学

行人重识别

1、《Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification》：提出了局部可见感知模型——VPM。

论文摘要：

论文中考虑了行人重新识别 (re-ID) 的一个现实问题，即局部行人重识别问题。在局部行人重识别场景下，需要探索数据库图像中包含整体人物的比例大小。如果直接将局部行人图像与整体行人图像进行比较，则极端空间错位问题将显著地损害特征表征学习的判别能力。针对这个问题，本文提出了一个局部可见感知模型 (VPM)，通过自监督学习感知可见区域内的特征，来解决局部行人重识别问题。该模型利用可见感知的特性，能够提取区域特征并比较两张图像的共享区域 (共享区域在两张图像上都是可见区域)，从而局部行人重识别问题上取得更好的表现。总的来说，VPM 有两大优势：一方面，与学习全局特征的模型相比，VPM 模型通过学习图像区域特征，能够更好地提取一些细粒度特征信息。另一方面，利用可见感知特征，VPM 能够估计两个图像之间的共享区域，从而抑制空间错位问题。通过大量的实验结果验证，VPM 模型能够显著地改善特征表征的学习能力，并且在局部和整体行人重识别场景中，均可获得与当前最先进方法相当的性能。

图像 3D 纹理生成

2、《Re-Identification Supervised 3D Texture Generation》：在研究欠缺领域——图像 3D 纹理生成领域中，提出一种端到端的学习策略。

论文摘要：

近年来，对单张图像中人体 3D 姿态和形状估计的研究得到了广泛关注。然而，在图像 3D 纹理生成领域的研究却相当的欠缺。针对这个问题，本文提出一种端到端的学习策略，利用行人重识别的监督信息，来解决图像中人体纹理生成问题。该方法的核心思想是，利用输入的图像渲染图像中行人纹理，并将行人重识别网络作为一种感知标准，来最大化渲染图像和输入原图像之间的相似性。本文在行人图像上进行了大量的实验，结果表明所提出的方法能够从单张图像输入中生成纹理，其质量明显优于其他方法所生成的纹理。此外，本文将此应用扩展到其他方面，并探索所生成纹理的可使用性。

3D 点云

3、《Modeling Local Geometric Structure of 3D Point Clouds using Geo-CNN》：提出 Geo-CNN 模型，将深度卷积神经网络应用于 3D 点云数据局部区域中点的几何结构建模。

论文摘要：

得益于深度卷积神经网络 (CNN) 的近期的应用和发展，许多研究人员将其直接用于 3D 点云的数据建模。一些研究已证明，卷积结构对于点云数据的局部结构建模是非常有效的，因此研究者将其用于层级特征中的局部点集建模的研究。然而，对于局部区域中点的几何结构建模研究的关注却相当有限。为了解决这个问题，本文提出一种 Geo-CNN 模型，将一个名为 GeoConv 的通用卷积式操作应用于区域中的每个点及其局部邻域。当提取区域中心点与其相邻点之间的边缘特征时，该模型能够捕获点之间的局部几何关系。具体来说，首先将边缘特征的提取过程分解为三个正交基础，接着基于边缘向量和基础向量之间的角度，聚合所提取的特征，通过层级特征的提取，能够使得网络特征提取过程中保留欧式空间点的几何结构。作为一种通用而高效的卷积操作，GeoConv 能够轻松地将 3D 点云分析过程集成到多个应用中，而以 GeoConv 为结构的 Geo-CNN 模型在 ModelNet40 和 KITTI 数据集的点云数据建模任务上都实现了当前最先进的性能。

场景文字检测

4、《Shape Robust Text Detection with Progressive Scale Expansion Network 》：提出 PSENet 模型，一种新颖的渐进式尺度可拓展网络，针对场景文字检测中任意形状文本问题。此研究后续会开源，大家可以继续关注。

论文摘要：

得益于深度卷积神经网络的发展，场景文本检测领域近来取得了快速发展。然而，对于其在工业界是的实际应用而言，仍存在两大挑战：一方面，大多数现有的方法都需要采用四边形的边界框，这种边界框在定位任意形状的文字时的性能很差，精确度很低。另一方面，对于场景中两个彼此接近、互相干扰的文本，现有技术可能会产生误检，结果会包含两个实例。传统的方法采用分段式的技术可以缓解四边形边界框的性能问题，但通常无法解决误检问题。因此，为了解决上述两个问题，本文提出了一种新颖的渐进式尺度可扩展网络 (PSENet)，它可以精确鲁棒地检测场景中任意形状的文本实例。具体地说，PSENet 模型能够为每个文本实例生成不同比例的核 (kernel)，并将最小比例的 kernel 逐步扩展生成完整形状比例的 kernel，以适应不同大小的文本实例。此外，由于最小尺度的 kernel 之间存在较大的几何边距，因此 PASNet 能够有效地分割场景中一些紧密的文本实例，从而更容易地使用分段方法来检测任意形状的文本实例。大量的实验结果表明，PSENet 模型在 CTW1500，Total-Text，ICDAR 2015 和 ICDAR 2017 MLT等数据集上都能实现非常有效、鲁棒的检测性能。值得注意的是，在包含长曲线的 CTW1500 数据集上，PSENet 模型在 27 FPS 的速度下能够实现74.3％的F-measure，而最高的F-measure 可达82.2％，超过当前最先进的方法 6.6%。

全景分割

5、《An End-to-end Network for Panoptic Segmentation》：在全景分割研究领域中，旷视提出了一种新颖的端到端的全景分割模型。

论文摘要：

全景分割，是需要为图像中每个像素分配类别标签的同时，分割每个目标实例的一种分割任务。这是一个具有挑战性的研究领域，传统的方法使用两个独立的模型但二者之间不共享目标特征，这将导致模型实现的效率很低。此外，传统方法通过一种启发式方法来合成两种模型的结果，在合并过程期间无法利用足够的特征上下文信息，这就导致模型难以确定每个目标实例之间的重叠关系。为了解决这些问题，本文提出了一种新颖的端到端全景分割模型，能够有效地、高效地预测单个网络中每个目标实例及其分割结果。此外，还引入了一种新颖的空间排序模块来处理所预测的实例之间的重叠关系问题。大量的实验结果表明，所提出的方法能够在 COCO Panoptic 基准上取得了非常有前景的结果。

时空动作检测

6、《TACNet: Transition-Aware Context Network for Spatio-Temporal Action Detection》：旷视在时空动作检测研究领域针对时间维度问题提出了网络——TACNet（上下文转换感知网络），改善时空动作检测性能。

论文摘要：

当前，时空动作检测领域最先进的方法已经取得了令人印象深刻的结果，但对于时间维度的检测结果仍然不能令人满意，其主要原因在于模型会将一些类似于真实行为的模糊状态识别为目标行为，即使是当前性能最佳的网络也是如此。因此，为了解决这个问题，本文将这些模糊状态样本定义为“转换状态 (transitional states)”，并提出一种上下文转换感知网络 (TACNet) 来识别这种转换状态。TACNet 网络主要包括两个关键部分，即时间上下文检测器和转换感知分类器。其中，时间上下文检测器可以通过构造一个循环检测器来提取具有恒定时间复杂度的长期上下文信息，而转换感知分类器则是通过同时对行动和转换状态进行分类来进一步识别转换状态。因此，TACNet 模型可以显著地改善时空动作检测的性能，并在 UCF101-24 和 J-HMDB 数据集实现非常有效的检测性能。其中， TACNe 在 JHMDB 数据集上取得了非常有竞争力的表现，并在 frame-mAP 和 video-mAP 两个指标上明显优于 UCF101-24 数据集中最先进的方法。

图像超分辨率

7、《Zoom in with Meta-SR: A Magnification-Arbitrary Network for Super-Resolution》：近年来，图像超分辨率研究已经取得了很大的成功，但在这篇论文中，旷视将研究重点放在其一个被忽视的方向：任意缩放因子的超分辨率研究。论文中对此问题提出了一个新方法—— Meta-SR（任意放大网络）

论文摘要：

得益于深度卷积神经网络 (DCNNs) 的发展，近期图像超分辨率领域的研究取得了巨大的成功。然而，对于任意缩放因子的超分辨率研究一直以来都是被忽视的一个方向。先前的研究中，大多数都是将不同缩放因子的超分辨率视为独立任务，且只考虑几种整数因子的情况，为每个因子训练特定的模型，这严重影响了整体模型的效率。因此，为了解决这个问题，本文提出了一种称为 Meta-SR 的新方法。具体来说，首先通过单一模型来求解任意缩放因子 (包括非整数比例因子) 的超分辨率情况。接着，在 Meta-SR 中，使用 Meta-upscale 模块替代传统方法中的 upscale 模块。对于任意缩放因子，Meta-upscale 模块通过将缩放因子作为输入来动态地预测每个 upscale 滤波器的权重，并使用这些权重来生成其他任意大小的高分辨率图像 (HR)。而对于任意的低分辨率图像，Meta-SR 可以通过单个模型，以任意缩放因子进行连续地放大。最后，对于所提出的方法，在一些广泛使用的基准数据集上进行性能评估，结果展示了 Meta-Upscale 的有效性和优越性。

目标检测

8、《Bounding Box Regression with Uncertainty for Accurate Object Detection》：对目标检测中不确定性边界框问题，在这篇论文中提出了一中新的边界框回归损失算法，提高了各种检测体系的目标定位精度。

该研究相关的代码和模型已开源，地址：
https://github.com/yihui-he/KL-Loss

论文摘要：

诸如 MS-COCO 在内大规模目标检测数据集，都旨在尽可能清楚地定义目标真实的边界框标注。然而，事实上在标注边界框时经常会产生歧义。因此，为了解决这个问题，本文提出了一种新的边界框回归损失 (bounding box regression loss) 算法，用于学习边界框变换和局部方差。这种损失算法提高了各种检测体系的目标定位精度，且几乎不需要额外的计算成本。此外，该算法的另一大优势在于它能够学习目标的定位方差，这允许模型在非最大抑制 (NMS) 计算阶段合并相邻的边界框，以便进一步改善了定位的性能。在 MS-COCO 数据集上，该损失算法能够将 Faster R-CNN (VGG-16) 的平均精度 AP 从23.6％提高到29.1％。更重要的是，对于 Mask R-CNN (ResNet-50-FPN)，该算法将 AP 和 AP 90 分别提高了1.8％和6.2％，这明显优于当前最先进的边界框细化 (bounding box refinement) 方法。

语义分割

9、《DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation》：今年唉语义分割研究方向，旷视提出一种非常有效的 CNN 架构——DFANet，一种在有限资源下，用于实时语义分割的深度特征聚合算法。

论文摘要：

本文提出一种在有限资源条件下的语义分割模型 DFANet，这是一种非常有效的 CNN 架构。DFANet 从单个轻量级骨干网络开始，分别通过子网和子级联的方式聚合判别性特征。基于多尺度特征的传播，DFANet 网络在获得足够感受野的同时下，大大减少了模型的参数量，提高了模型的学习能力，并在分割速度和分割性能之间取得了很好的平衡。通过在 Cityscapes 和 CamVid 数据集上的大量实验评估，验证了 DFANet 网络的优越性能：相比于最先进的实时语义分割方法，DFANet 网络的分割速度快了3倍，而只使用七分之一的 FLOP，同时保持相当的分割准确性。具体来说，在一块NVIDIA Titan X卡上，对于1024×1024输入，DFANet 在 Cityscapes 测试数据集上实现了71％的平均 IOU (Mean IOU)，分割速度为170FPS，而仅有3.4 GFLOP。同时，当使用较小的骨干模型时，它能够取得67％的平均IOU (Mean IOU)，250 FPS 的分割速度和2.1 GFLOP。

多标签图像识别

10、《Multi-Label Image Recognition with graph convolutional Networks》：为了构建图像中同时出现的不同目标标签的依赖关系模型，来提高模型的识别性能，在这篇论文中提出了一种基于图卷积网络模型——GCN。

论文摘要：

多标签的图像识别任务，旨在预测图像中所有存在的目标标签。由于图像中的目标通常是同时出现的，因此理想状态下，我们希望对不同目标标签的依赖性进行建模以便提高模型的识别性能。为了捕获和利用这种重要的依赖关系，本文提出了一种基于图卷积网络的模型 (GCN)。该模型能够在目标标签之间构建有向图，其中每个节点 (标签) 由词嵌入 (word embedding) 表示，而 GCN 网络用于将该标签图映射到一组相互依赖的目标分类器。这些分类器使用另一个子网络提取的图像描述器，实现整个网络的端到端训练。此外，通过设计不同类型的相关矩阵并将它们集成到图卷积网络中训练，来深入研究图构建问题。通过在两个多标签图像识别数据集基准的试验评估，结果表明所提出的方法明显优于当前最先进的方法。此外，可视化分析结果表明图卷积网络模型所学习的分类器能够保持有意义的语义结构信息。

关于提高 GIF 视觉质量

11、《GIF2Video: Color Dequantization and Temporal Interpolation of GIF images》：GIF 图像中视觉伪像问题如何解决？这篇论文中提出一种 GIF2Video 方法，通过颜色去量化 CNN 模型和时序插值算法 SuperSlomo 网络，来提高自然条件下 GIF 视觉质量。

论文摘要：

GIF 是一种高度可移植的图形格式，在网络上无处不在。尽管 GIF 图像的尺寸小，但它们通常包含一些视觉伪像，如平面颜色区域，伪轮廓，颜色便移和点状图案。本文提出一种 GIF2Video 方法，这是第一种基于学习来提高自然条件下 GIF 视觉质量的方法。具体来说，该方法通过恢复 GIF 创建时三个步骤中丢失的信息来实现 GIF 的恢复任务：即帧采样，颜色量化和颜色抖动。首先，提出了一种用于颜色去量化的新型 CNN 架构，它是一种多步骤的颜色校正组合架构，并设计一种综合的损失函数用于衡量大量化误差。接着，采用 SuperSlomo 网络对 GIF 帧进行时间插值。最后，在 GIF-Faces 和 GIF-Moments 两个大型数据集上进行实验评估，结果表明所提出的方法能够显著地提高 GIF 图像的视觉质量，并优于基准和当前最先进的方法。

点云数据分析

12、《GeoNet: Deep Geodesic Networks for Point Cloud Analysis》：旷视在这篇论文中提出了 GeoNet 模型，这是第一个用于模拟点云数据表面结构的深度学习方法。

论文摘要：

基于表面的测量拓扑理论为目标的语义分析和几何建模研究提供了强有力的线索。但是，对于点云数据而言，这种关联信息往往会丢失。因此，本文提出一种 GeoNet 模型，这是第一个用于模拟点云数据表面结构的深度学习方法。此外，为了证明模型所学习的信息表示的适用性，本文进一步提出了一种融合方案，用于将 GeoNet 网络与其他基线或骨干网络 (如 PU-Net 和 PointNet ++) 结合使用，用于点云数据的 down-stream 分析。大量的实验结果表明，所提出的方法能够在多个代表性的任务 (这些任务受益于底层的表面拓扑信息的理解) 上改进当前最先进方法的性能，包括点上采样，正常估计，网格重建和非刚性形状分类等。

室外场景深度估计

13、《DeepLiDAR: Deep Surface Normal Guided Depth Prediction for Outdoor Scene from Sparse LiDAR Data and Single Color Image》：这篇论文提出的深度学习架构——DeepLiDAR 主要应用与单色图像和稀疏深度图像的室外场景深度估计，实现端到端的图像密集深度估计。

论文摘要：

本文提出一种深度学习架构，用于为单色图像和稀疏深度图像中室外场景生成精确的密集深度估计。受室内场景深度估计方法的启发，所提出的网络将曲面法线估计作为一种中间表示，实现端到端的图像密集深度估计。具体来说，通过改进的编解码器结构，网络能够有效地融合密集的单色图像和稀疏 LiDAR 数据的深度。为了解决室外场景的特定挑战，该网络还预测了一个置信掩模 (confidence mask)，用于处理由于遮挡而出现在前景边界附近的混合 LiDAR 数据信号，并将单色图像和曲面法线的估计结果与所学习的注意力映射图相结合，以便提高深度估计的精度，这对于远距离的区域而言尤其重要。通过大量的实验评估，结果表明所提出的模型能够改进了 KITTI 数据集深度估计任务上最先进方法的性能。此外，通过消融研究进一步分析模型每个组件对最终估计性能的影响，结果表明模型具有良好的泛化能力和应用前景，能够推广到稀疏度更高的室外或室内场景。

紧凑、有效的深度学习模型

14、《C3AE: Exploring the Limits of Compact Model for Age Estimation》： 全年旷视的论文中提出了 ShuffleNets 网络，一种可应用与移动端的轻量级模型，但是在减少参数数量的情况下，模型的表达能力肯定会受削弱影响。因此，在今年旷视的这篇论文中提出了这个紧凑而有效的深度学习模型——C3AE，一种基于级联上下文信息的模型用于年龄估计问题。

论文摘要：

年龄估计是计算机视觉中一个经典的学习问题。诸如 AlexNet，VggNet，GoogLeNet 和 ResNet 等更大更深的 CNN 模型已经能够取得很好的性能。然而，这些模型无法应用于嵌入式/移动设备。最近所提出的 MobileNets 和 ShuffleNets 网络主要是通过减少参数的数量来实现轻量级模型，以便应用于移动端设备。然而，由于采用了深度可分的卷积，这些模型的表达能力被严重削弱。因此，针对这些问题，本文研究紧凑模型在小尺度图像方面的局限性，并提出一种基于级联上下文信息的年龄估计模型 C3AE，这是一种极其紧凑而有效深度学习模型。与 MobileNets/ShuffleNets 和 VggNet 等模型相比，C3AE 模型仅具有1/9和1/2000参数，同时实现了与其相当的性能。特别是，通过级联模型能够只使用两点表征的信息来重新定义年龄估计问题。此外，为了充分利用人脸上下文信息，本文还提出了多分支的 CNN 网络来聚合多尺度上下文信息。C3AE 模型在三个年龄估计数据集上取得了远超当前最先进方法的性能表现，并证明这种紧凑模型的优越性。

往期相关：