CVPR 2020 | 神经网络识别:如何用两种颜色构建图像

今天介绍的是澳洲国立大学在CVPR 2020上发表的新工作《Learning to Structure an Image with Few Colors》。不同于日常见到的sRGB颜色空间 (3x8比特),本文探讨了在受限颜色空间下 (极少比特),如何尽量保留图片中关键结构,使得生成图像仍可被网络识别:只用2种颜色,即可在CIFAR10达到82.1%的准确率。此外,本文率先研究了面向网络的图片压缩:不同于面向人类的图片压缩,面向网络的图片压缩注重压缩后图片在预训练神经网络上的准确率。

论文题目:Learning to Structure an Image with Few Colors

论文地址:pdf, cvpr virtual conference

作者:Yunzhong Hou, Liang Zheng, Stephen Gould

代码:github

图片中的颜色和结构

颜色和结构是构建一张图片的两个重要部分。一般情况下,图片中的结构信息可以通过广泛颜色空间(24-bit)中的不同颜色来表示。但是,当颜色空间受到极大限制的时候(e.g., 1-bit),图片中的结构信息也会相应的受损,造成大量原有结构的消失(没有明确的色彩差异,导致结构/边界的损失)。面对颜色和结构的同时受损,原始图片上预训练的神经网络很难继续分辨这些受限颜色空间中的图像。

传统的颜色量化(color quantization)工作,研究如何在受限颜色空间内,生成对于人类视觉最相似图片。这套工作一般对图片中的颜色进行聚类,然后选择聚类中心作为量化之后的颜色。由于传统方法只关注像素的rgb值,不关注语义信息,他们的颜色量化结果并不能被网络很好的识别。可以看到,在颜色空间不断缩小时,神经网络渐渐不再关注狗的头和身体,导致识别失败。

上:传统方法颜色量化的结果;下:量化结果在预训练神经网络的分类器相应(class activation map, CAM)。绿色:正确识别;红色:识别失败。

目标

出于对颜色和结构互相影响的兴趣,在本文中,我们研究如何在受限颜色空间中,识别和保留重要结构,使得神经网络可以正确识别压缩后的图片。不同于之前的面向人类的图像压缩,本文讨论面向网络的图像压缩:系统关注点是神经网络识别准确率,而非人类观看。

我们通过原始图像预训练的神经网络的识别准确率来评估面向网络的图像压缩效果。

左:不同方法颜色量化结果;右:评估方式。左侧每列分别为原图,1-bit量化结果(三种传统方法MedianCut+Dither, MedianCut, OCTree, 文章提出的ColorCNN方法)。

方法:ColorCNN

为了提高神经网络在颜色量化图像上的性能,我们提出了一套ColorCNN方法,可以端到端(end-to-end)的学习如何进行颜色量化。如上图,文章提出的ColorCNN有效保留了神经网络在猫的条纹和前爪的激活值,进而保证了压缩图像的正确识别。

ColorCNN的输入和输出

为了进行颜色量化,ColorCNN输出一张颜色序号图(color index map)和一个颜色盘(color palette)。颜色序号图和颜色盘原生支持PNG压缩。在解码时只需进行查表替代即可。

系统概览

ColorCNN方法主要包含以下几个部分:

  1. 自编码器(auto-encoder)构成的基网络:寻找重要的结构,并进行保留,使得压缩结果在预训练网络上有相似的相应;
  2. 训练过程中的近似:argmax生成颜色序号图,以及解码时的查表均不可导,需要近似;
  3. 利用预训练网络的识别loss(cross-entropy)端到端监督ColorCNN。

如何训练ColorCNN

训练/测试网络流程图对比。红色:不可导;绿色:可导近似。

为了去除网络中的不可导部分(argmax生成颜色序号图、解码时的查表),在训练过程中,我们将它们都进行了替代。

ColorCNN训练/测试输出对比

可以看到,由于在解码时使用weighted average代替查表,训练时ColorCNN会输出更多颜色。

在训练过程中,我们还引入了一个鼓励ColorCNN选择尽量多的颜色的约束(预训练网络的分类loss并不能直接指导如何选择颜色、选择多少颜色),

此外,对于颜色量化任务,在预训练网络计算分类loss前,我们在解码图像上引入颜色抖动作为数据增强。

实验结果

  • 可视化

ColorCNN有效识别(上图d)并保留(上图c)了图片中的重要结构:e.g., 飞机机翼、汽车风挡和轮胎、小鸟肚子而脸颊。

  • 量化结果

文中提出方法在较小颜色空间中明显超过传统方法:在1-bit颜色空间内,提出的ColorCNN可以在CIFAR10达到82.1%准确率。

  • 应用

通过PNG压缩,文中提出的ColorCNN颜色量化可直接用于低比特图像压缩。


感谢观看!

如果你有兴趣,欢迎查看我之前的工作!

https://zhuanlan.zhihu.com/p/96999382zhuanlan.zhihu.com图标

编辑于 06-14

文章被以下专栏收录