首发于译智社

图像质量评价之结构相似性SSIM(上)

本文总结归纳自这篇论文:

概述

这篇文章主要介绍对图像质量进行打分评价的一个很经典的指数——结构相似性(structual similarity, SSIM)

具体一点儿来说,图像在各种情况下都有可能失真,比如经过传输、压缩和缩放等等。图片变换之后,我们自然很想知道失真图像(distorted image)的质量如何,也就是要对它进行图像质量评价(image quality assessment)。注意这种评价应用很广泛,比如可以用作神经网络中的损失函数来度量生成图片的质量。所以了解这个指数是很有用滴~

总体来讲,本文提出了一种符合人类直觉的图像质量评价标准,叫做SSIM。SSIM的全称为structural similarity,也就是”结构相似性“的意思。从名字上我们不难发现,这种指标是在致力于向人类的真实感知看齐。


主观 VS 客观

那么现在问题来了,图像质量究竟要怎么评呢?大体来说,评价标准分为两类:客观(objective)评价标准和主观(subjective)评价标准。其中:

  • 客观评价标准中会设计一个可见性误差(visibility of error)函数,这个函数会以某种标准计算参考图像(reference image)(也就是未失真的原始图像)和失真图像之间的差距,最后用计算出的值作为指标来衡量失真图像的质量。这些指标通常是根据人类视觉系统(human visual system, HVS)的特点设计的。
  • 主观评价标准就不一样了,它并非输入图片后自动化地输出一个数值,而是以人的感觉为标准,说白了就是让人(称为观察者)看看。例如找一些志愿者评分,然后取均值。

简而言之,客观的评价标准就是计算一个数字,主观评价就是看人的感受,相信读者应该不难理解~

这一部分的讲解我参考了下面这个链接中的说明:

客观评价标准的应用

客观评价标准在很多方面有应用:

  1. 动态监控(monitor)和调整图片质量:比如,网络上用于传输视频的服务器可以通过监控传送质量来控制和分配视频流的资源。
  2. 优化(optimize)图像处理系统(image processing system)中的算法和参数:例如,在一个视觉通信系统中,可以用一个量来协助寻找编码解码算法的最优解等。
  3. 作为一个通用的评价标准衡量图片质量:大家可以通过使用公认的同一个量来比较各自的方法优劣。

客观评价标准的分类

根据评价失真图片的时候是否需要参考原始图片,客观评价标准可分为下面三类(分类名称是我自己随便翻译的不一定通用,大家懂意思就好):

  1. 全参考(full reference):评价时可以知道完全获取的整张原始图片。
  2. 无参考(no reference):评价图片是完全不知道原始图片是怎样的。
  3. 部分参考(reduced reference):评价是只能获取到原始图片的部分特征(feature),比如直方图之类的统计信息。

这篇文章提出的SSIM是基于全参考的。

常见的客观评价标准

常见的评价量主要有:

  1. MSE:MSE是mean square error的缩写,也就是均方误差。这是最简单粗暴的一个量。它首先计算失真图片与原图每在个像素上差的平方,然后取均值。
  2. PSNR:这个量全称为峰值信噪比(peak signal-to-noise ration),这个量很容易计算(粗略地说是对图像上的最大值和MSE进行比较),而且有明确的物理意义,优化也方便,在很多地方都使用。

最终评价:你说了算!

俗话说,”实践是检验真理滴唯一标准“,我们最终还是要看人对图片的感知的,客观评价标准有时候很不靠谱。

举个栗子,假设我们使用MSE来度量图片质量(也就是取图片与原图每个像素上差的平方,然后计算均值),那么我们直觉上会认为这个数字越小越好。同样的MSE应该代表差不多的失真程度。但真的是这样么?我们来看下面这张图,图中(a)是原图,其余的图片都是有失真的,它们的图片质量在人类看来相差非常大,但是它们的MSE是一样的!

所以,要想设计一个好的评价标准并不容易,我们认为人类具有很强的识别结构的能力,因此我们应该尽量设计一个能体现结构上的相似程度的量,这正是我们的SSIM的目标!

SSIM是基于局部图案亮度对比度进行计算的,具体的讲解会在下一篇文章中介绍。

发布于 2018-10-06 10:38