高兴说 显示行业 进阶篇 之 (三)

高兴说 显示行业 进阶篇 之 (三)

主要内容:显示信息是如何产生并经历怎样的流程才能最终到达显示屏上呢?显示信息的信息链上各个环节之间的联系与制约有哪些?什么是色深?数字电影如何传输到电影院?人类最强的观影体验是哪种设备?什么是Y-OCTA?什么是TDDI?什么是T-CON?为什么三星的手机的屏占比最大?哪个小公司曾经垄断全世界的显示接口?HDR高动态的标准之战,三星和杜比谁能赢?机械电视是怎么回事?DP与HDMI谁会笑到最后?DDI公司的未来在哪里?苹果的各种虚假宣传。


作者:高兴

中泰证券研究所国际销售

曾任职于美银美林、中信证券、银河证券、大宇证券

毕业于纽约大学、香港科技大学,高丽大学

可以听说读写中文、英文和韩文,日文只能读不会听说写

央视NEWS频道 New Money栏目 嘉宾




进阶篇(三)的附录列表:


· 附录01:数字与模拟

· 附录02:机械电视

· 附录03:CMOS与CCD

· 附录04:折射

· 附录05:抖色

· 附录06:白点

· 附录07:Gamma伽马

· 附录08:sRGB

· 附录09:LUT

· 附录10:电视信号传输

· 附录11:HDR

· 附录12:显示接口(外部与内部)




大家好,不知不觉已经是2018年1月末了。

我们的进阶篇也终于进入了最后一篇了,在上一篇我们探讨了显示的光以及光的控制部分,还解释了为什么iPhone X会让有些人感到头晕,本篇会对整个显示信息从产生到展示的信息链进行探讨,从而加深我们对显示的理解。

从下一篇开始我们就会聊具体的技术与产业链,在这里祝大家2018年一切顺利,健康快乐,新年新气象!


(接上篇)

3. 视觉信息从被记录到传输到人的眼睛里需要经过一整条信息链

光的信息在传到人眼之前,要经过一系列的环节,主要包括记录/生成、存储、传输与再现。这是一个从光开始,以光结束的链条。


整个显示信息链条上的各个环节,环环相扣,正如我们在进阶篇之一中所说,环节之间需要遵守一定的事先约定好的协议,尤其是相邻的环节之间。每个环节的单独的创新都必须考虑到与其他环节的兼容,没有任何一个环节可以独立的进行革命性的创新,这也是为什么4K、8K、HDR、广色域这些都需要包括从内容厂商到终端厂商在内的整个行业坐在一起讨论才能定制出标准。

这些环节中,固定资产投资越大的环节越难以产生变革。比如内容厂商可以相对简单地升级到更好的摄像设备与编辑设备来生产颜色更丰富信息量更大的视频内容,但是面板厂商却很难立刻生产出能够展现出相应级别图像质量的面板,除非投入巨大的财力物力与机会成本去研发新的技术,去建设新的生产线。如果没有三星和LG几年前的决断,可能我们要在很晚以后才能看到从LCD到OLED的转换。


这个逻辑,在电影产业上体现的特别明显。因为电影院的固定资产投资特别大,所以哪怕是在摄制、剪辑等领域有任何可以立竿见影改变观众体验的技术革新也都难以立刻实行,因为遍布世界各地的电影院无法及时跟进更新播放设备。如果贸然采用新技术,势必会使可上映的屏幕数受到限制,从而对电影的票房产生负面影响。

反过来,尽管从电影院播放终端的角度讲,比起黑白电影,播放彩色电影并不会带来任何成本上的增加,但是因为彩色胶片的生产成本非常高昂,而廉价生产彩色胶片的技术需要大量的固定资产投资与技术革新,所以直到上世纪70年代,电影还大多都是黑白的。


同样的道理,从另外一个角度来说,就是每一个环节的发展进化都要考虑到对其他领域的过去和现在的兼容问题

比如,尽管现在的LCD也好OLED也好并不需要一种叫“伽马校正”的信息处理环节(后面介绍),但是因为CRT时代制定的业界标准使得绝大部分的图片与视频内容都是被伽马编码过的,所以导致LCD和OLED反而要模拟落后的CRT的特性来适应现有的内容,因为没有办法改变所有的世界上已经存在的照片和视频的格式。

再比如,在早期,尽管所有人都知道胶片越大所能够承载的信息也就越多,但是因为胶片是非常昂贵的,所以电影胶片的主流宽度一直被限制在35mm,后来虽然胶片变得便宜了,但是电影业界仍然不能更改这个标准,因为广大的电影院里的播放机仍然只兼容35mm的胶片。

因此,IMAX只能在特定的电影院播放,是因为IMAX使用70mm的胶片(而且横着拍),如果电影院没有专用的IMAX播放设备就无法播放。70mm的胶片所能传递的信息量是巨大的(约12K清晰度),巨大到目前仍然无法采用数字的方式来即时录制(介质写入速度不够快),所以IMAX仍然是目前人类最强的人类电影观览体验,而且未来还有很大的提升空间,虽然数字电影发展十分迅速,但是在中短期,传统化学方式能够提供的信息的量还是数字方式难以匹敌的。



尽管如此,因为数字化能够带来的方便性与低成本等种种好处,整个产业还是都在向数字化发展,目前电影院都开始数字化了,更新换代的进度非常快,连IMAX也在积极推广清晰度相对较低的数字IMAX(约2.9K分辨率)。而最近三星开始在电影院投入LED屏幕了,这其实是数字化时代实现的电影、电视、显示器三者的大一统。

因为下边很多知识会涉及到数字与模拟,如果您对它们的概念不是很清楚,强烈推荐您先跳到本篇的 附录1 部分,补充相关知识以后再继续阅读。

Welcome back,下面让我们对信息链条上的每一个环节都进行更深入的了解吧。


· 记录/生成

照片、视频等“来自于自然界的信息”首先要被记录下来。

而文字、游戏以及CG等这些人造显示信息,则需要先被“生成”出来,才能进入后面的环节。

首先,我们如何才能记录自然界的光的信息呢?

人是用什么来获取光的信息的呢?我们在基础篇讲过的。

眼睛。

世界很大,人很小,人眼是如何收集庞大的世界的光学信息的呢?

眼睛看东西的时候是这样的。


可以看出,人眼是通过晶状体将物体发出的光重新投射到人的视网膜上的,因为晶状体的特殊结构,光在通过晶状体以后会改变行进轨迹,而且因为视网膜与晶状体之间的距离很短,所以使得最终落在人眼视网膜上的物体的形象不仅仅是倒立的,还是缩小的,也就是说眼睛的结构使得视网膜接收到的光的信息比实际世界到要更密集,用我们现在经常说的话来说,就是像素PPI(Pixels per Inch)更高。至于倒立成像,其实并不是问题,我们的大脑的视觉系统只要执行一个“上下翻转”命令就可以了。

什么?你问我为什么光在通过晶状体以后会改变行进轨迹?

请移步阅读 附录4 关于折射的介绍。



好的,欢迎回来,光被人眼的晶状体折射以后就会射向视网膜,这时光的电磁力量就会对视网膜细胞造成影响,使得视网膜细胞获得能量并释放出相应的电能量作为信号给大脑。

后面的事情,我在基础篇都给大家讲过了,光越明亮,能量就越大,信号就越强,不同的波长的光会刺激不同的细胞,造成颜色感,而大脑就会记录这些信号,并按照我们在进阶篇之一中所说的栅格化的方式来复原出一整幅画面。

那么我们可不可以制造一个类似于眼睛的东西?

可以,而且已经造出来了,还起了一个名字叫照相机。

可以看到,照相机的结构和人眼基本是一样的。镜片就是晶状体,成像的胶片/CCD/CMOS(本篇后面有介绍)就是视网膜,读取成像信息的显像液或者芯片就相当于人的大脑。


其实,利用透镜或者小孔可以成像的现象,我们人类很早就发现了,但是相当长的时间里,人类并不具有可控的把可见光的电磁波性质记录或者转换的能力的。后来人们发现光可以促使物质发生化学反应:因为电磁波是能量,而能量就是影响力,影响力产生的影响则可以被观测。

于是,聪明的wuli人类就让光来影响一些化学物质,比如胶片上的卤化银。被光“刺激”以后卤化银会分解出银颗粒,然后银颗粒的多少就对应了光的量的多少,实现了信息的记录。

这种方式的记录与存储实际上是合并到了一起的,记录的介质,就是存储的介质,记录的过程就是存储的过程。但是这种记录是一次性的,由于胶片的成本很高,不利于大面积推广、内容的复制与传输。 后来,人们发现另一些物质,可以接受光的能量,并转换成相应的电能量(光电效应)。与之相反,还有一些物质可以接受电能量,然后再转换成光能量(见进阶篇(二))。这样我们就可以用第一种物质来将光的信息记录下来,然后再以电的形式发送出去,在接收端用相反的结构,再转化为光的信息。

例子就是机械电视(见附录2)的拍摄与收视。

但是在初期,这种方法记录的信息并不能被存储,需要被马上转化为电磁波发送出去。实际上,直到20世纪50年代磁带被发明之前,人类都是只能“用胶片来记录”,以至于不是非常重要的事件的话,是没有“资格”有影像流传下来的,所以早期的电视节目都是“实况直播”

而所谓“用胶片来记录”,其实是在现场另外放置一台胶片电影摄像机来拍摄,或者用一台胶片摄像机来拍摄一台播放节目的电视的画面。

胶片摄像机/照相机在每瞬间记录的是一个二维平面的信息,而当时的人类也不具备能够用光电的形式来快速的记录、读取这个二维平面信息再转化为电信息再发送出去的能力。机械电视利用基础原理:栅格化+扫描,将零维的点在时间与空间上连接与排列,形成一个“伪二维信息”,或者说是人眼可以接受的“类二维信息”。


所以,后来随着技术的进步,像胶片一样可以同时记录一整幅二维画面的技术产生了,这就是:CCDCMOS Sensor。

经常研究摄像头模组的朋友可能会对这两个单词很熟悉,这两种都是用来记录光的信息的电子装置,他们的成像也是和胶片非常相似的。只不过负责记录光的信息的工作的材料由卤化银分子替换为了半导体材料的器件,每个器件就是一个像素。这些半导体材料对光非常敏感,可以记录微弱的光线射入,敏感程度可以达到胶片的几十倍以上甚至更多。

如果您想更深入的了解CCD和CMOS,强烈推荐先学习附录3详细介绍再继续向下阅读。


CCD和CMOS可以接受从透镜那里射入的光,

在每个像素的位置

将光子的能量转化为相应的电荷

作为对该点接受到的光的信息的记录。

之后,就可以被清零然后再次开始记录了,相对于传统胶片,这种方式实现了记录与存储的分离,从而节约了成本。

但是,

这种电荷信息不能直接储存,

需要先被量化才能转换成数字信息存储起来。(

当然,如果并不是以数字的方式存储而是要以模拟的方式存储信息的话,就不需要经过ADC了,而可以直接进入模拟存储环节了。)

首先用一种叫做Charge Amplifier电荷放大器的装置把电荷放大转化为电压,然后再通过一种叫做模拟数字转换器Analog Digital Converter(ADC)的装置,这种装置可以把模拟的信息量化以后转化为一定精度的数字信息。

如果是3位精度的话,

就意味着入射光的强度,从最暗到最亮一共可以细分为23 = 8档,而

8位精度的话,28 = 256档,比格雷还要多出206档,如果是10位精度,就意味着可以细分为1024档,相比之下格雷真是逊爆了。

位数越多,就能够越仔细的区分光强度的微小不同。(可以参考附录1



请看下图,随着颜色位数的提高,图像会越来越细腻。

在记录环节,不要说10位,12位、14位甚至16位都不是什么难事,但是

现在主流的储存/显示方式是用8位记录每种颜色,三种颜色加起来一共24位(再加上用来定义透明度的8位,有时也被称作32位),每位有256级,三种颜色相乘,一共16,777,216(28x3)种颜色。

这就是所谓的8位色深了,

这个标准一般被称作True Color,苹果则通俗的称其为Millions
of Colors。

不过最后苹果被好多消费者告了,因为其实苹果早年打着Millions of Colors旗号销售的很多电脑的屏幕都不是真正的24位,而是成本更低的18位,即每种颜色只有6位,一共26x3 = 262,144种颜色,才26万色,怎么就四舍五入到Million还带个s的呢?

其实,苹果这样“宣称“也不是完全没有依据的,因为它是靠“抖色”的方式来实现对24位色的模拟。

首先我并不是针对苹果,因为大多数显示厂家都在使用抖色技术,不仅仅是从6位抖到8位,还有很多从8位抖到10位。

其次,抖色并不一定是坏事,同等情况下,抖要比不抖强。

只是大家对苹果的期待值太高了,结果没想到这么风流倜傥一表人才的苹果也和小屌丝一样要从6位“抖”到8位。


那么,什么是抖色呢?请看附录5


说完了需要进行记录的“自然信息”,我们再说说我们手工生成的“人造显示信息”吧。

文字、CG、游戏画面等等信息都是没有实体的,在数字空间里凭空创造出来的信息,这些信息都可以被显示出来,以光的形式传达到人的眼睛。


虽然可能我们平时感觉电脑可以显示的信息有很多样,但是其实归根结底无外乎两大种类。

· 文字

· 图像(这里主要指计算机CG、游戏等数字图像)

但是,请注意,无论是文字还是数字图像,被不被显示,与其自身存在的意义是不相关的

比如文字是否被看到与其本身存在的意义不具有必然的联系,文字本身就是一种不依赖于某一种特定人类感官的概念,是一种信息。

虽然这种信息最广泛的传递途径还是以光的方式传达到人眼,别的传递途径也是存在的,比如被读出来,以声音的形式传递到人耳。

所以文字信息本身,和其被以光的形式所展示出来的视觉信息,是两种信息,虽然后者是建立在前者的基础上的,还是应该把两者区别对待。

图像也是一样的,并不一定是通过视觉来展示,也有可能是被打印/雕刻出来然后以触摸的方式传递。

好比一朵花的存在本身,是一个信息,但是这个信息和我们眼睛收到的这朵花的视觉信息,是两个信息。

第二个信息是来自于第一个信息,对于我们人类来说,则是通过第二个信息来逆推第一个信息。

绕着么大圈说这么多的目的是:我们在这里说的“人造显示信息”的生成,并不是指生成“文字”与“图像”这些信息本身,而是生成以这些信息为基础的“视觉信息”。

这些信息在被生成的时候,还是以各自的形态被生成,字母还是字母,汉字还是汉字,三角形还是三角形,立方体还是立方体。这些都不是我们要生成的“显示信息”,这些都只是“一朵花”
们 。

我们要生成是,是当阳光照在这些花上反射出来的光的信息。

所以,每次要显示文字或者图像的时候,计算机会“让一束想象的光照在这些文字或图像上”,然后这些文字和图像“反射”出来的光会生成一个可视的场景,然后计算机会为这个场景“拍摄一个照片”,这个照片就是所谓“人造显示信息”了。

具体情况是,在计算机内部存储有所有的文字的“视觉信息”,也保存了所有的几何图形在各种“材质、光照”条件下的“视觉信息”,当需要被显示的时候,就会根据具体的画面需求,综合调用这些视觉信息,有点像活字印刷的感觉,生成一幅幅图片。而这些数字图片就好像前面说的记录“自然视觉信息”的照片一样,成为了视觉信息链的第一个环节。

好的,记录部分讲完了,下面让我们进入到信息的存储部分吧。


· 存储


视觉信息的量实在是太大了,对我们的大脑会造成很大的挑战,所以我们人类“选择”不在大脑里存储我们看到的所有视觉场面。虽然的确有一些人在幼年时期是具有所谓“映像记忆Eidetic Memory”的能力的,但是这种能力随着年龄的增长都会消失,目前还没有发现成年人类个体真正具有这种忠实地存储视觉信息的能力。

所以人类非常需要借助技术的力量来保存视觉信息,在大脑以外的“介质”上储存这些信息,留作以后使用。

但是,前面说过,除了传统胶片以外,在电视被发明的初期,人类是没有能够存储视频信号的方法的。画面在被拍摄的同时就要被发送出去。

但是,在那时胶片是非常贵的,只有一些重要的节目才会用胶片来存储,而大部分的节目就只能够播放一次就再也看不到了,直到1951年磁带被发明以后,人类才开始能够大量的保存影像信息。

然而,人类对信息的存储行为却是历史非常悠久的,甚至可以说没有信息存储就没有人类的今天。存储和显示一样是信息社会的基础。其本质是要将信息的状态保持下来,以便将来能够被再次读取。

从原始人的结绳,在沙地上、岩洞的壁顶上的绘画到各种书籍,乃至于现代的固态硬盘,都是信息存储的方式。

原始人的结绳记事

这些方式都有一个特点就是要做记号

存储信息就是要做记号,用记号来保存状态。

但是用来作为记号的东西却可以多种多样,比如结绳就是用绳结来做记号,画画是用颜料来做记号,写字是用文字来做记号,固态硬盘是用晶体管来做记号。

截止现在,人类主要采用了以下几大类记号。

· 物理记号

包括绳结、纸上的油墨、穿孔卡上的孔、黑胶唱片上的沟渠以及各类光盘上的小孔等

· 磁性记号

包括磁带、磁芯、磁盘、硬盘等上面的磁性物质。

· 电压&电荷记号

包括旧式阴极管内存以及DRAM、闪存、固态硬盘、IC卡等里的晶体管。


目前我们生存的时代仍然是这三类记号共存的时代,这些方式都能够存储显示信息,目前来看:

代表着物理方式的光盘,在传播信息上仍然有着一定的便利性,但是其优势随着互联网的发展已经在逐渐消失,未来很可能会被淘汰。

而以磁盘、磁带为代表的磁性方式因为优越的性价比仍然是大规模信息存储的首选。

利用晶体管来存储信息的放着则仍然是一种高性能高成本的选项,适合需要非常高性能的场景。


然而,与很多人的认识相反,

存储的方式并不能决定

记号是模拟还是数字的。

比如很多人认为黑胶就一定是模拟,CD就一定是数字的,其实不是这样的。

至少从理论上来说,黑胶唱片也可以存储数字记号,同样的,CD甚至晶体管里面也是可以存储模拟记号。

这完全取决于我们人类如何解读这些记号。

比如结绳记事,两个结可以理解为模拟记录的某种长度,或者是数字2,也可以理解为二进制的11也就是十进制的3。所以这些记号是数字还是模拟其实完全取决于人类的“一念之差”。


这是因为数字只是我们人类头脑里的概念而已。就连计算机的0和1也无非是我们给低电压和高电压两种状态赋予的概念而已,并不是自然界真的有0和1。

所以,只要储存者和读取者之间有一种约定好的方式,能够从存储介质中重新获取相应的信息就可以达到存储的目的

这种约定好的方式包含着很多方面,其中最主要的是

颜色定义

信息结构

颜色定义方面,在存储每一个子像素信息的时候,首先,使用的记录设备会有很多不同,同样的场景,记录下来的数值都可能不同。其次,用来显示的显示器也会有差异,使用的环境也会有各种不同,所以,同样的数值,最后显示出来的效果又会千差万别。所以,为了保证内容制作与展示的效果的一致性,整个业界需要有一个统一的颜色标准。

而目前最有名也是最常用的标准就是sRGB了。

这是目前市面上大多数的显示器以及大多数的照相机/摄像机所采用的标准。它是由微软和惠普在1996年制定的。这个标准通过定义一个标准的内容展示环境(显示器的R、G、B三原色、环境光白点(见附录6)以及Gamma Correction伽马校正(见附录7)等参数),并通过操作系统和硬件的支持,使得内容厂商根据此标准制作出来的内容能够在计算机和互联网上得到更准确更一致的展现。(具体关于sRGB的介绍,请看附录8。)

在RGB三色模式下,一旦R、G、B的定义确定了(其实也就是定了R、G、B的最大值),设备(照相机/摄像机/显示器等)的色域Gamut也就确定了。只要这个色域在照相/摄像机的记录功能的物理能力范围内,在存储的时候,按照sRGB的定义做出调整再写入的话,就能够保证图像在大多数显示器上得到正常的展现。


当R、G、B同时都为最大值的时候就是最亮的白色,最小值就是在完全没有这种颜色的时候,把这个值定义为0。当R、G、B同时都为0的时候就是黑色。其他落入最低与最高之间的数值则按照Sensor记录的信号强度的相应的比例以线性的方式记录。

如果我们采用模拟方式存储的话,就会按照比例来记录不同强度的记号,类似黑胶唱片的沟的深浅,或者磁带的磁性物质的磁场的大小。

如果我们采用数字方式来存储的话,则需要首先指定精度,然后再根据精度来分出的等级来储存Sensor记录下来的数据。

如果对数据不加改变,按照线性关系存储,这种方式就叫做RAW方式。大部分单反或者现在比较高端的手机都可以这样记录文件,优点是特别方便后期加工,然而,因为存储的文件体积过大,目前并不常用。

另一方面,如今使用最广泛的照片储存颜色标准是sRGB或者Adobe
RGB 1998。如果按照这两种方式之一来存储颜色数据的话,则需要对线性的数据进行Gamma
Correction
附录7指数变换。
大多数的手机、照相机、摄像机在将记录下来的信息存储的过程之中都会对数据进行指数变换。电脑等可以直接生成视觉信息的设备在存储的时候也会遵循这种标准。


Adobe RGB 1998标准是1998年Adobe公司主导定制的标准,主要是为了解决sRGB标准无法覆盖在印刷领域占据主流的CMYK模式的色域的问题。除了这两个标准以外,在电视领域还有标清的ITU-R Recommendation BT.601、高清的BT.709、超清的BT.2020以及支持高动态对比度HDR(附录11)的BT.2100,在电影领域比较常用的是DCI-P3等标准,这些标准都有自己的颜色定义。



信息结构方面,在存储的时候,还需要按照一定的格式对信息进行组织整理,方便电脑程序以及各种设备对信息进行读取与编辑。

因为无论是现在主流的闪存、硬盘、光盘还是过去的磁带,都是以一维的形式存储与读取数据的。各种设备对这些晶体管的写入与读取都是按照顺序一个一个进行的,硬盘、光盘以及磁带也都是如此,零维的信息在时间/空间上的连续形成了一维的信息流。

但是我们要存储的信息却是二维的,甚至还会有一个时间维度,所以就需要对一维的信息进行有格式的切分,进而增加维度。比如标记出一行的开始与结束,一帧的开始与结束等等。

这种格式和标记的方式可以有很多种。目前人类把一段相对独立的数据成为“文件”,我们一般也会把照片、视频等等存成各种各样的文件。文件有各种格式,不同的格式对信息的组织整理的方式都不一样。

比如上面说的RAW文件,就是一种把Sensor记录的信息不经任何处理,直接存储下来的格式,基于一种叫TIFF的格式。

而我们平时最常用的照片文件的格式一般是JPG/JPEG,此外还有BMP、GIF和PNG等常用格式。

而视频文件格式则主要由MP4、AVI、MKV、蓝光DVD等等。

这些格式除了对信息进行整理以外,还要对信息进行各种压缩,主要是为了在尽可能多的保存更多的视觉信息的前提下,减少信息存储和传输所占用的资源。但是哪怕是现在的技术水平,“高保真”地储存/传输视觉信息仍然是成本非常高昂的。

所谓压缩,就是要减少信息所占用的存储空间与传输成本。好比出行前发现行李太多,行李箱装不下了。有两种选择,一种是把行李整齐摆放然后用力去“压”,试图减少行李的体积,然后塞进行李箱。另一种是把一些不太重的东西拿出来,只装入必须的东西。

信息压缩也是分为有损压缩与无损压缩。


无损主要靠统计学的方法来减少信息冗余,有损则主要利用人类视觉的特性,在尽量不减少人类的感受的前提下,减少信息的量。

因为压缩这个话题是一个和数学与关联非常紧密的话题,我数学又特别差,所以在这里我就不细说了。。。简单讲讲


无损压缩

信息冗余就是多余的信息,比如说AAABBB这段信息就存在冗余的信息,因为可以用更短的3A3B甚至3AB来表示。又比如我们规定AAABBB=1,那么AAABBB就可以被表示为1,前提是这个规定,要么要附在这个文件里,要么就是在打开文件的软件里存在。把经常出现的词语用更短的方式来表示,也是一种压缩。

或者也可以采用代号/密码的形式,用一套更简洁的代号来替代复杂的信息,然后在解压缩端再通过逆向解码的形式还原信息。如果信息能够被一套更简洁的代码来替代,说明这个信息是存在着信息冗余的。

在图像领域比较常用的无损压缩方式主要有Abraham Lempel和Jacob Ziv发明的LZ77和LZ78算法及这两种算法的各种变形。GIF文件和PNG文件就是基于这这两种算法。

另外,对于视频信息来说,因为还存在一个连续时间的维度,所以可以通过比较不同的帧的差异,只记录每一帧和前后帧的不同的地方,而不用把每一帧的信息都全部保留。

其实无损压缩对于视觉信息来说是有一定的局限的,压缩到了一定程度以后,边际效应比较明显,很难再继续提高压缩比例了。压缩/解压缩所需的时间成本和计算成本可能会高于节省下来的存储或传输成本。

有损压缩

我们之前其实是介绍过几种,比如Bayer排列(利用人类对绿色更敏感)、YCbCr4:2:0(利用人类对明暗信息更敏感),或者干脆就是减少信息的量(降低色深、分辨率等)。

因为人类视觉的容错性很大,并不一定需要对场景的100%还原,所以有损压缩是非常适合视觉信息的。

我们常用的JPEG文件以及各种视频文件甚至电视节目都是采用了形形色色的有损压缩方式。目前联合国旗下设的ITU-T(国际电信联盟远程通信标准化组织)和ISO国际标准化组织,以及包括IEC国际电工委员会和SMPTE电影电视工程师协会等行业组织都在积极的定制各种视觉信息压缩标准。包括H.264等目前最常用的互联网视频压缩方式都是这些组织参与制定的。

各种不同的文件格式可以采用不同的数据格式和压缩方法(文件格式和压缩方式有关联但是没有一定的必然性),内容制作的过程中要选择合适的格式,一般在制作完成之前会选择信息损失最少的格式,而在完成以后需要存储或者传输的时候,需要在压缩速度、压缩数据大小以及质量损失这三者之间进行折衷,选择一个最符合需求的格式。

比如对于需要在网络上传播的视频来说,数据大小要比质量损失更重要,所以会选择压缩率比较大的类似于H.264甚至H.265这样标准。但是如果是要求比较高的家庭视听间就会采用蓝光DVD这样的质量损失较小但是数据量较大的格式。数字电影院因为对于视觉质量要求非常高,所以会采用JPEG文件的后续版本JPEG2000来存储每一帧的信息,好像电影胶片一样,然后像快速播放幻灯片一样来逐帧展示。非数字IMAX则完全不采用压缩,直接使用信息量巨大的70mm胶片来播放。



· 传输

视觉信息的制作的地点往往和观看的地点是不同的。那么制作好的信息就需要被传递到另外的地点。这个过程就是信息的传输。

信息的传输可以采用两种方式:

1. 物理传输

2. 电磁波传输

在电视发明之前,物理传输占据了主流。尤其是胶片时代,往往需要对胶片进行复制,或者冲洗成照片,再通过物理的方式传播。每当电影上映的时候,发行公司会将大量的电影拷贝物理递送到电影院放映,即使到了今天数字电影大规模普及的年代,物理传输仍然是电影传播的主要方式,只不过之前是寄送胶片拷贝,现在是寄送硬盘。数字电影院收到硬盘以后会拷贝到自己的播放服务器里,统一播放。在上映期结束以后,电影院需把硬盘再寄回给发行公司。这样做的原因主要是考虑到数据传输的效率以及“数据安全”的原因。

进入到数字时代,视觉信息的传播途径和其他信息一样是以互联网途径为主。图片信息还好,但是视频信息的数据量往往非常大,而人类目前的网络带宽还是力不从心,所以传输视频信息所花费的时间成本可以说是所有信息种类中最大的。

但是电视为什么可以没有延迟的传播高画质的图像呢?这是因为首先电视传播的带宽其实很高,其次电视内容的压缩很好,第三电视采用了流媒体的形式。(请看附录10对于电视信息传播的简单介绍。)


什么是流媒体呢?

就是像水流一样,一边播放一边传输,不需要等到整个文件都传输完了才播放的意思。传统的电视、广播其实都是流媒体,而图书、DVD这些都是非流媒体。

因为这部分其实是通信的领域,我们并不会过于深入到技术细节。。

视频信息经过前面讲过的压缩方式压缩以后,会再被以适合流媒体传输的格式组织起来(比如MP4,WebM等等),然后再通过一种发送与接收方都采用的协议(比如RTMP、HLS等等)一个“小部分”一个“小部分”的传递给最终观看的终端。也可以先传递给一个中央服务器,再由这个服务器来分配信息给多个观看终端。一个观看终端收到信息以后,会对每一个小部分进行即时的解码然后播放。而为了使得终端用户能够更迅速的获得内容,我们可以布置多个服务器,减少终端与服务器之间的物理距离,优化终端与服务器之间的网络路线。这就是网宿科技以及各种云公司在做的CDN了。

内容信息被接收到以后,是不能直接被显示屏显示的,还需要经过一定的处理与加工才可以。让我们一起进入到下一个环节。



· 展示

电脑、蓝光DVD播放器以及电视里面的信号接收装置,这些都是属于播放设备,他们可以把视觉内容信息转换为显示器可以听懂的语言并发送给显示器。

而显示器内部也有一些自己的处理芯片,在接到这些信息以后,还会再做一些自己的处理,最后再发送到一个一个的像素,转化为人眼可以接受的光的信息。

首先,这些播放装置在接收到这些信息以后,为了能将信息重新还原成光的信息,会对信息做出各种逆向操作,包括但不限于记录存储过程之中发生的视频编码、颜色空间转换、压缩等等工作。

所有的这些工作可以由一个专门的芯片负责,也可以由个人电脑或者手机这样的通用的装置进行处理。


以个人电脑为例,我们知道,电脑中主要负责处理计算的是中央处理器CPU,而图形处理器GPU则主要负责关于图形有关的计算。CPU和GPU之间经由一个叫北桥的芯片连接,北桥同时也负责连接CPU和系统内存。GPU则有自己的内存——显存,GPU和显存之间直接连接,各种关于图形的计算都可以在显存里完成。

请注意,GPU不等于显示卡,应该说GPU是显卡的一部分。最早的显卡是没有GPU的,那个时候所有的计算都由CPU来负责。显卡值负责从CPU接收要显示的信息,并储存在一个叫Framebuffer帧缓冲的内存芯片里,然后另外一个叫RAMDAC随机数模转换器的芯片一直在读取这个Framebuffer,每次读取以后就把信息转换为显示器可以听得懂的信号语言,发送给显示器。后来随着计算机的发展,显示的任务越来越重,就在显卡上增加了单独的图形处理芯片GPU和显示专用的内存——显存。


那么,一段视频被传送到电脑里以后,如果我们双击这段视频,会发生什么呢?


· 首先,操作系统会根据文件类型,识别到这是一个视频文件,然后会调用一个播放软件来对这个文件进行解读。这个看图软件首先会读取这个文件,然后对从类型、编码、压缩、颜色空间等等方面对图像进行分析,最后决定以一个合适的方式将这些信息转化为显示器可以读懂的信息。

· 然后,这些操作意图会被传送给操作系统。操作系统有着专门处理各种业务的“办公窗口”,这些窗口叫做应用程序编程接口API。播放软件会把自己的意图传送给显示相关的API。

· API在接受到播放软件的申请以后,会把这些申请再发送到显卡。显卡也有自己的“办公窗口”,这个窗口叫做驱动程序。API会把软件的意图整理并转化成驱动程序可以听懂的语言再发出去。

· 驱动程序则会最终把这些指令转化为显卡可以听懂的机器语言发给显卡。

· 显卡最终接收到这些指令以后按照指令执行,把视频内容解读出来以后,转化为显示器可以听懂的信息,发送给显示器。



智能手机其实和电脑差不多,只不过现在的智能手机的芯片都是采用System on Chip,即整套系统放在一个芯片上,CPU、GPU、调制解调器、音频芯片以及这些芯片所要用的各种驱动都放在一块芯片上。甚至对视频的编码解码的功能也是放在芯片里面的。其他的播放设备大多是专用的播放设备,有专门的芯片来处理上述所有的流程,比如数字电视都会有一块单独的芯片来承担视频处理的任务,这块芯片也就相当于是一个可以输出内容的主机。

信息从主机出发顺着线进入到了显示器里面以后,和信息的最终目的——通过像素变化的形式转化为人眼可以识别的光的信息——之间还隔着几个过程。我们之前讲过,现代显示器的像素的变化是靠TFT来操纵的,具体说是TFT上面的一个一个的像素的电压的值(或者是On状态的时间,但是为了简化问题,我们这里先只讨论改变电压的情况),但是信息不是一下子以二维的形式传送到TFT的所有像素上的,而是以扫描的方式按照一定的时间节奏一个一个的传输的,具体的扫描方式我们在进阶篇(二)中有过介绍。负责扫描的些芯片就叫做Display Driver IC(DDI),有负责横向的,也有负责纵向的,负责横向工作的叫做Gate IC,负责纵向工作的叫做Source IC(也叫Column IC)。另外还需要有一个负责分配任务给它们的芯片,叫做Timing
Controller,简称T-CON
。有的显示器或者电视里面还有一些对各种信号进行进一步加工处理的芯片(比如Gamma调整芯片、FRC芯片、LUT芯片等)以及对电源和背光进行管理的专用芯片。这些芯片可以分别存在,也可以把被统一到一个芯片里。在显示器和电视这种大型设备里一般都是分别存在的,而且还需要有几个以上的Gate IC或者Source IC才能控制大面积的TFT。而手机等移动设备为了减少体积,一般都会把功能集成到一个芯片里。


下图是三星电视的主DDI芯片。

下图是三星手机的单独DDI芯片。


下图是iPad的DDI

下图是OLED的DDI

请注意,OLED的DDI和LCD的还不一样,尤其是大屏电视的OLED DDI。因为LTPS材质的不均一,屏幕越大,信号到达TFT各个角落的时间的差异就越大,那么画面就会出现意想不到的撕裂的现象。所以先进的OLED DDI里面可以储存一张自己驱动的TFT的不均一性的照片,然后根据具体的不均一性的情况来对信号进行调整。

显卡和显示器之间的信息通路/接口也有很多种,不同的通路的传输能力也不同。无论采用哪种方式,在主机一侧都需要有一个负责发送信号的Transmitter,而在显示器端则需要有一个负责接收信号的Receiver。另外,信息在进入到显示器内部以后还要经过一些处理步骤,不同的步骤之间也有不同的接口标准。从过去到现在有着形形色色种种的各种标准存在,如果您想仔细了解,务必请阅读附录12”(下面很多术语与缩写都在这里有解释)

下图是一个典型的DVI/RGB接口的显示器的信息传输路线与使用的相关接口。

一般情况下,T-CON是显示器里面最复杂的芯片,也可以看做是显示器的“CPU"。它主要负责分析从主机传来的信号,并拆解、转化为Source/Gate
IC可以理解的信号,再分配给Source/Gate去执行,T-CON具有这种功能是因为T-CON具有Source/Gate没有的控制时间节奏的能力,所以叫Timing Controller。越来越高的分辨率、刷新率和色深都对T-CON的处理能力以及前后各种接口的信息传输能力提出了挑战。

举个例子,比如苹果在刚刚推出iMac
Retina的时候,很自豪的宣布iMac的屏幕支持5K(5120
x 2880)的分辨率,并且运行在60hz的刷新率。5120
x 2880 x 3(RGB) x 8bit x 60hz = 21.23 Gbit/s,这已经超出了当时的DisplayPort
1.2标准所能支持的17.28 Gbit/s的能力范围了,业内都十分好奇苹果到底是怎样实现了这一个超越时代的产品的呢?首先苹果需要超频显卡的eDP输出是肯定的了。但是当时也没有能够处理这么大数据量的T-CON,难道苹果是同时采用了两块T-CON?但是这样做有风险,有可能在某些情况下工作不良,出现只有一半屏幕的问题,比如最新的iPhone X因为上面的刘海就必须要用两块DDI来分别驱动屏幕的两侧,结果(虽然概率很低)就有可能出现下面这样的问题。


那么,如果苹果没有采用两块T-CON的话,是怎么实现的呢?后来人们通过拆分iMac才发现,他们是采用了谱瑞专门为苹果定制的特殊的DP665芯片,可以实现接近于DP1.3标准的近40Gbit/s的处理能力。当然苹果在发布会上说这是自己发明的,他们甚至说Oxide TFT都是自己发明的,根本不提任何供应商的名字。



相比T-CON来说,Source/Gate相对简单一些,主要是要执行T-CON的指令。

根据我们之前讲述的扫描方式,Gate
IC因为只提供两种状态(On/Off)就可以了,所以功能相对更简单。而Source IC根据屏幕色深的不同,要精确地提供很多不同级别的电压,比如8位色深就要提供28 = 256级,10位色深则要提供 210 = 1024级,这对与芯片的复杂程度要求很高。所以比起Source来说,Gate IC很容易做的很小,甚至于现在可以把Gate IC直接做到TFT里面,这种技术叫做GIP(Gate In Panel)或者GIA(Gate In Array,或者Gate On Array)。

根据下图,屏幕的边框的厚度其实主要就是GIP(图中GIP+GLK)与框胶(SEAL)的厚度的和,外加一些切割的精度与安全边际。目前,采用LTPS TFT的手机可以把GIP控制的很小,最终可以做到600μm甚至更低。


另一方面,Source IC还很难实现这种方式,所以我们可以看到全面屏手机的屏幕的两边的边框可以做的很窄,但是上下边,尤其是下边的边框很难做到那么窄,其中一个原因就是因为Source IC的存在。当然技术是不停的发展的,现在全面屏或者超薄的无边框电视的出现就是因为有很多新的技术可以把Source IC的大小减少,或者藏匿起来。虽然无法像Gate那样做到Panel里面去,但是我们可以通过各种封装手段来减少Source占据的面积。一开始最简单的是像Gate一样,就是把芯片通过ACF(Anisotropic Conductive Film 异方性导电胶膜)粘在面板的基板的玻璃上,这种叫COG(Chip On Glass),但是这样太占地方,所以后来人们又采取了TCP(Tape Carrier Package)COF(Chip On Film)的方式(COF相当于是TCP的升级版),就是把芯片装在膜上,这样就可以通过把膜弯曲到显示屏的下面来节省芯片所占的位置。最新的方式是把芯片装到柔性Plastic基板上,叫做COP(Chip on Plastic),这种方式不仅可以最大的发挥柔性屏的优点,而且还能节省更多的空间,节省更多的成本,实现更全面的屏幕。


在遥远的未来,随着TFT本身半导体密度的增加,有可能实现把DDI整体直接做成TFT的一部分,而不是使用单独的芯片来完成这个任务,当然,因为TFT的物理材质比不上一般IC的单晶硅优秀,所以计算能力上肯定有巨大的差距,但是随着IGZO等优秀的新型材料的不断产生,甚至未来可能会出现单晶硅TFT,那么进一步发展在TFT里面加入更多的IC功能,最终实现以屏幕为中心的计算也是非常有可能的。

然而,在那之前,可能更现实的是在DDI中集合更多的IC功能,或者反过来说把DDI功能集合到其他IC中去。目前来说,DDI与触屏控制之间的融合趋势很明显,所以很多触屏芯片公司和DDI公司都在试图通过收购并购来进入对方的领域实现整合。比如触屏芯片与指纹识别芯片厂商Synaptics在2016年收购了DDI厂商Renesas。这种综合了各种功能的DDI叫做TDDI(Touch and Display Driver IC,或者是Touch and Display Driver Integration)

但是融合不会仅仅停留在在芯片层面,目前三星自己的Y-OCTA(Youm On-Cell Touch AMOLED,Youm是三星的柔性OLED显示屏的品牌名)技术,其实就是把触摸屏直接做进了柔性OLED里,具体是在OLED上面涂一层薄膜封装(TFE, Thin Film Encapsulation)用的有机物,然后在有机物的上面用铝网膜打印出触摸控膜。这样可以让屏幕更薄而且透光(开口率)更好,而且节省更多的成本。而且Y-OCTA因为是柔性屏,所以天生可以采用COP技术,实现更窄的下边框。苹果iPhone X没有采取这个技术,主要是因为苹果觉得自己和日本写真印刷合作研制的OLED触摸的体验更好。



Anyway,把触屏与OLED合在一起的趋势还是十分确定的,这就对很多触屏公司造成了目前韩国很多之前主营触屏的公司都经营困难,它们或者在转型,或者试图进入TDDI领域,然而未来TDDI在这种以TFT为计算载体的大融合的浪潮面前也是很难独立存在的。当然,这个趋势并不是马上就会到来,还需要很多年的技术发展,而且因为这属于IC厂商与显示屏厂商之前的结合,不是谁都能做的,目前在世界上具有这个能力的厂商只有三星和鸿海。



我们的显示行业进阶篇终于讲完了,我预计会休息一段时间,再开始写具体的技术与行业分析。今后会以短篇的形式为主,像这种几万字的作品实在是太费时间了。。。


十分感谢大家的阅读!


附录1:

模拟&数字


迄今为止,人类做记号(存储信息)的形式主要有以下两种

· 模拟 Analog

· 数字 Digital


什么是模拟?什么是数字?

比如说我们用一个尺子来量手机的长度,这个尺子是手机吗?不是。但是尺子上的横线却可以代表,可以“模拟”出手机的长度,有了这个标记,哪怕是没有手机,我也能知道手机的长度是多少,这就是模拟。

再比如说气温,气温是空气分子热运动的程度的表现。虽然我看不见空气的分子,但是同样受到气温影响的水银的热运动却是可以看见的,气温越高,水银的分子的热运动越剧烈,水银的体积就越大就会导致刻度上升。所以,水银温度计可以“模拟”地告诉我们现在空气分子的热运动情况,这也是模拟。



可以看出,模拟方式的特点是,模拟的标记信息与被模拟的信息有着直接的联系,非常直观。

在记录光的信息的时候,胶片上的银粒子可以“模拟”接受到的光子的数量,CMOS/CCD的每个像素产生的电荷的量就是“模拟了”接受到的光子的数量,也就是光的明暗。

很明显,这种记号是跟随着被记录的信息的改变而改变的。

如何存储这种记号呢?

比如说我们测量了一个房间的气温,应该如何存储这个信息呢?

我们可以现在温度计的标尺上标记出一个点,然后按照这个标记在纸画出一条长度相当于从零点到标记的一条线,然后保存这张纸。

这是在用“模拟”的形式来存储气温的信息。

或者我们也可以观察温度计标尺上的数字标记,数一数,然后将这个数字保存下来。

这就是“数字”的记号了。(不是严格意义上的,后面解释)

当我们需要测定很多房间的气温或者测定同一房间的气温很多次的时候,很明显数字的方式要比模拟的方式更方便,更易于整理、计算、统计、分析与比较。

比如,模拟方式是很难求出过去一千天的平均气温的。

而用数字的方式就会很容易。


但是,数字的方式也有很多问题。

比如,这些温度数值要精确到小数点后第几位?如果精确到小数点后10000位的话,是不是模拟的方式会更节省存储空间?

因为在使用模拟方式的时候,我们不需要知道一个准确的数字,我们只要知道这个模拟的记号可以被用来代表原来的信息就可以了。


数字信息有一个精度的问题,而模拟信息却在理论上不存在精度的问题,数字信息的精确度越高,就越能准确的反应原始的信息。

数字信息带来的便利与效率提升是建立在一定的成本收益比上的。

另外,假设我们要测量的气温是随着时间的推移在持续变化的,我们应该如何记录这种信息呢?

这种情况,比起原来的单一温度信息又多了一个时间的维度,所以单纯的一条线已经不足以记录这个信息了,我们可以画无数条线,或者,可以采用一个X/Y两轴的平面来记录,Y轴代表当前温度的标记点与零点之间的距离,X轴代表时间。

假设我们有一支笔,可以随着时间的前进,在Y方向上连续地标记气温在温度计标尺上的位置。

那么我们就可以得到类似于下面这种的平滑的曲线。


这是在用“模拟”的形式来存储气温及其随着时间变化的信息。


那如果我们采取记录温度数值的方式呢?

我们需要先观察温度计标尺上的数字标记,然后记录这个数字,在这个过程之中也许温度已经发生变化了,然后我们需要再去观察一次,然后再去记录,然后再去。。。

这种观察与记录的行为,我们叫做“采样Sampling”

如果我们采样不是很频繁的话,并不能catch到每一瞬间的温度的变化,可能记录出来的图形是这样的:


很明显,虽然大致的趋势是正确的,但是缺少了很多细节信息。


如果,我们再勤奋一些,更加频繁的去采样,可能能做到下面这种程度:


虽然相对于第二个图,这第三个图与第一个图已经很接近了,但是还是没能保存全部的信息。


所以,这种数字的方式的另一个问题是,对这种随着时间变化的信息来说,除非我们能做到“即时Realtime”地采样,否则总是会丢掉一些信息。

但是采样采的越频繁,就越能获得更完整的信息。


综合以上两点,数字信息比起模拟信息具有更多的便利性与可用价值,但是不能100%的记录与存储原始的信息。然而,只要适当地提高“精度”与“采样率”,还是可以在可接受的成本内,到达人类可以接受的“还原度”的。


在实际生活中,因为我们人类的技术能力所限,其实我们获取的“模拟”信息并不能达到理论上的“还原度”,精度以及采样率并不一定好于数字方式,而且模拟的方式特别容易受到外界以及设备自身的干扰,产生杂音,而数字方式的杂音本来就少,还可以通过数学的方式来消除杂音,另外数字方式的优势实际上要比理论上的更大。

比如胶片虽然是模拟的,但是胶片的方式一是像素的精度受到卤化银分子的大小、数量以及对光的强度与波长的敏感程度的限制,实际上并无法记录全部信息;二是在摄录视频的时候,还会受到每帧的成像时间以及每秒帧数的限制,也无法实现真正的记录存储时间维度上的全部信息。


实际上现在在使用的严格意义上的数字方式与上述方式略有不同,因为数字方式是在人类发明与使用计算机之后才得到大规模使用的,所以狭义上的“数字方式”是指在计算机系统里使用的0/1二进制方式。


现代计算机是由晶体管组成的,每个晶体管只能理解0与1两种输入(电压的高与低),也只能输出0与1两种答案(电压的高与低),所以并不能直接记录“35度”或“16度”这种信息。但是如果我们把多只晶体管组合在一起的话,就可以使用二进制的方式来记录这样的信息了。比如35度就是100011,用6个晶体管可以记录,16度是10000,用5个晶体管就可以记录,而250度则是11111010,需要8个晶体管。

使用的晶体管的数量,叫做“位数Bit”,比如上面的35度这个数字需要6位才能记录,而16度就只需要5位就可以记录了,而250度则需要8位。

如果需要更加精确一些呢,比如250.125度,二进制是11111010.001,至少需要11位,如果要是零下250.125度呢?还得增加一位来传递正负信息,那就需要12位了。

很显然位数越多,能够储存的数字信息的位数就越多,也能够更精确。(虽然大多数情况下会使用科学计数法来表示数字,但是基本原理是一样的,我们这里不会仔细讨论)。

最后,与很多人的认识相反,

存储的方式并不能决定

记号是模拟还是数字的。

比如很多人认为黑胶就一定是模拟,CD就一定是数字的,其实不是这样的。

至少从理论上来说,黑胶唱片也可以存储数字记号,同样的,CD甚至晶体管里面也是可以存储模拟记号。

这完全取决于我们人类如何解读这些记号。

比如结绳记事,两个结可以理解为模拟记录的某种长度,或者是数字2,也可以理解为二进制的11也就是十进制的3。所以这些记号是数字还是模拟其实完全取决于人类的“一念之差”。


这是因为数字只是我们人类头脑里的概念而已。

就连计算机的0和1也无非是我们给低电压和高电压两种状态赋予的概念而已,并不是自然界真的有0和1。


这个世界本身是“模拟的”还是“数字的"目前还没有定论。

随着量子力学的发展,原来很多认为是连续的东西被发现是有最小单位的,比如电有电子,光有光子,甚至有可能整个世界包括时间空间等等的一切都是有一个可以测量可以“数”的最小单位的,只是我们还没有能力进入那样的微观世界去测量,那么很可能我们整个世界都是数字的,模拟只不过是不精确的表现而已。

好像黑客帝国Matrix这样。


哪里有药可以吃?





附录2:

机械电视


下图就是电视的最初形态,“机械电视”的摄像与收视的原理图。



如下图,在一个圆盘上钻出很多小孔,每个小孔占据圆周的一行,如果我们快速的旋转这个圆盘,小孔会接次通过上方中央的黑框的部分,形成对这个框的逐行扫描,每个孔本身会对自身所在的行进行横向扫描,孔的变换形成了纵向扫描。如果我们把被摄物体和这个系统放在一个小黑屋里,然后我们在孔的后面放置一个黑盒子,黑盒子里放置一个光源,黑盒子的开口正对着这个圆盘的上方中央的黑框部分的话,光就会按照扫描的顺序依次通过小孔照到被摄物体上。然后我们在被摄物体的附近放置一些物质,这些物质接收到被摄物体反射的光以后,会转换出相应的电信号通过电线发射出去。

在接收端我们可以放置相反的物质,这些物质接受到电磁信号以后,会发出相应的光,在这些物质的前面,我们放置一个一模一样的圆盘。光可以通过这个圆盘上的小孔射出来,进到人的眼睛里,如果我们快速的旋转这个圆盘,因为人眼的视觉残留效应,我们就可以再现被摄物体的形象了。


像这种用一个一个的小孔来扫描的方式,每个孔只是一个点,只能记录一个“零维”的信息。是在横向的快速连续的扫描使得这些点点连成了线,形成了一维的信息,然后在纵向通过小孔位置的不断下移,使得这些线又构成了面,这样信息就成为了一个二维的画面。

换句话说,这种“点扫描”的方式,利用人眼的视觉残留效应与时间这个额外的维度,使得每一瞬间都只是“零维”的信息可以实现对二维画面的记录与传达。

这种方式在“重现”一个二维的光的信息的时候,虽然没有什么大问题,但是在记录的时候,因为点和点的信息之间是有时间差的,所以并不能够真实的记录某一瞬间的信息,只能是一个近似的记录,近似度取决于扫描的速度。


很明显,这种方式并不能完美地替代传统的胶片。




附录3:

CMOS Sensor(Complementary Metal–Oxide–Semiconductor Sensor) CCD(Charge-Coupled Device)



CMOS Sensor(简称CMOS)和CCD分别长成下面的样子。

CMOS


CCD

可以看到,他们长得很像,这是正常的,因为从本质上来说,他们两者都是MOS的阵列。主要差别在于使用的MOS不同,以及对信息的读取的方式的不同。

那么到底什么是MOS呢?

MOS(Metal-Oxide-Semiconductor)是一种FET(场效应管),全名叫MOSFET(Metal-Oxide-Semiconductor
Field-Effect Transistor)。

什么是FET呢?

简单的说,FET场效应管(Field-Effect
Transistor)
是一种半导体电子元件,是一种晶体管,是一种开关,是一种利用电场来控制电流的通断的开关

也就是说可以根据一个输入的值(1/0)来决定电流的通断(1/0)的开关,这就相当于做了一个if...then...的逻辑判断,而很多这种FET组合在一起就可以做出更多的更复杂的判断了。这种本领使得FET构成了包括电脑、手机在内的我们现在信息世界的基础,而MOS(FET)是最常见的一种FET,它的特点是,用一层绝缘的材料将输入部分(电压)与输出部分(电流)分开,这样只要改变电压就可以控制电流。另外,我们在股票市场里经常提到的一个主题——功率半导体器件IGBT其实也是一种FET。控制显示器每个像素的开关的TFT也是由一个个的MOS组成的。

MOS它大概长的是这样的,看看就可以了不需要懂。


CMOS大概是这样的结构,看看就可以了不需要懂。

CMOS则是MOS中最常见的一种,包括CPU在内的很多芯片都是以CMOS为基础的,它通过基本MOS单位的组合实现了一个否定的逻辑判断的能力。其特点是结果为输入的反转,输入高电压,输出低电压,输入低电压,输出高电压。

CCD也是用一种MOS做的,大概是长成下面这个样子,也是看看就可以了不需要懂。



CCD并不是一种常见的MOS装置,其主要的应用就是照相机成像。虽然前几年还有CCD和CMOS哪个更好的争论,随着这几年的技术发展,基本上CMOS技术已经占据了绝对优势了,而在可见的未来,CMOS技术的发展前景也要远远好于CCD。所以CCD基本已经被淘汰的边缘了。被淘汰的主要原因是CMOS更省电、读取更快、容易制造、成本低,之前CCD所拥有的噪点少、颜色深、感光度高等优势随着CMOS技术的发展都一个一个的消失了,现在只有某些专业的领域仍然还在使用着CCD,并且也面临着即将被CMOS取代的威胁。

除了在构造上区别以外,CCD与CMOS Sensor最大的区别就是信息读取方式的不同。下面这个图很形象的把CCD的数据读取方式展示出来了。


在像素上面增加电压,可以把像素里面的电荷一个一个的逼到和它相邻的像素里面去。


最外侧的那一行最开始是空的,先接受和它相邻那一行的像素的电荷,再一个一个的把电荷传送出去,一个一个的转换成电压,然后最终再经过模拟数字转换,形成数字信息。这其实也是一种扫描的过程。


而CMOS则与此不同,正如上图右边所展示的一样,每个像素都会有一个元件来把电荷先转换为电压,使得CMOS的整体读取效率非常高。这种读取的方式每次读取一行,该行的每个像素会被汇总到各自所在列的进行汇总,最后再统一输出成数字信号。这种结构与我们在进阶篇(二)中讲解过的Active Matrix十分相似,所以也叫做APS(Active
Pixel Sensor),CMOS Sensor是APS的一种。

可以看出CMOS的像素比CCD的元件多很多,这些多的元件是不感光的,所以实际上CMOS能够感 光的面积是小于同体积的CCD的。不过,没关系,这个问题已经被很好地解决了,方法就是把不感光的元件全部都放在感光元件的后面,而不是并排。这种方式叫做Backside Illumination,这种CMOS叫BI CMOS。另一种解决方案是在每个Pixel上面再覆盖上一个小透镜,把光集中在感光元件上。

CCD/CMOS也和胶片一样,面积越大像素越多能够记录的信息也就越多。可以看到iPhone的成像面积其实要远远小于各种照相机。


目前数码相机最大的就是大画幅了。再大的就只有传统的胶片机了。请注意全画幅(36x24mm)是比中画幅要小的,因为所谓的全画幅对应的是胶卷的135胶卷(35mm),而中画幅的尺寸有很多种,定义是大于全画幅小于大画幅,其中70mm宽的画幅还在被IMAX使用。大画幅一般是指4x5英寸以上的画幅。下面就是一款大画幅的数码相机。



而如果在手机之间互相比较的话,大概是这样。可以看到iPhone的成像面积也要远远小于各种手机。

我没找到一个最新的图,但是现在三星最新旗舰Note 8已经升级到了1/2.3",而iPhone系列还是没什么变化,iPhone X说是变大了一点,但是官方却一直对其大小讳莫如深,所以我估计也不会大多少。

这些1/3"啊,1/2.3"啊,4/3"啊,这些都是指的是对角线的长度,单位是英寸。但是要注意的是,这些数字实际上并不是真正的成像区域的对角线的长度。因为CMOS/CCD的命名还延续着以前的CRT摄像机的命名方式。CRT摄像机是一种利用阴极射线管来进行摄像的装备,相当于以前的老电视反过来当做摄像机用。其具体原理我放在本篇最后作为附录了。


我们只需要知道这种成像设备的真正成像的面积的对角线只有其整体对角线的三分之二,所以比如说常见的4/3"单反,其实际成像面积的对角线只有4/3 x 2/3 = 8/9 ≈ 0.87英寸。所以比如苹果的1/3实际上是1/3 x 2/3 = 2/9 ≈ 0.22英寸。当然,这样计算并不完全准确,是因为正常的顺序是先有了实际成像面积的对角线长度以后再乘以3/2,然后得到一个小数值,再将这个数值约等为一个分子分母都是整数的分数,然后用这个分数来命名画幅的大小。所以苹果的1/3很可能只是一个约数。但是这样做实在是很不方便,而且四舍五入的太多,难以区分不同的产品,所以现在的很多厂家虽然还是会乘以3/2,但是已经不再试图去四舍五入求整数了,比如1/1.5"这样的大小。

但是,无论CCD/CMOS有多大,都只是一个二维的平面,好像我们的视网膜一样,但是我们生存的这个世界却是一个三维的空间。我们的大脑收到的光的信息其实是缺少了一个维度的信息的,好在我们人类长了两只眼睛,通过两只眼睛得到的信息的差异,我们可以用软件方式计算出平行于我们视线的维度的信息,也就是距离感,从而形成了三维的世界观。然而,照相机却只有一个眼睛,无法形成立体的图像,所以我们会说有的人上相有的人不上相,其实就是因为缺少了一个维度的信息而已,而那一个维度很可能就是决定一个人的美丑的维度。现在一些相机或者手机试图利用并列的镜头模仿人类的眼睛,可以计算并记录三维的信息,再通过3D显示技术或者VR技术再现,从而给人类一种身临其境的感觉。


作为电子胶片,CCD和CMOS接受到光子以后会在每个像素的位置形成相应的电荷作为对该点接受到的光的信息的记录。

但是这个信息需要被量化才能转换成数字信息存储起来。

这个时候就先用一种叫做Charge Amplifier的装置把电荷转化为电压,然后再通过一种叫做模拟数字转换器Analog Digital Converter的装置,这种装置可以把模拟的信息量化以后转化为一定精度的数字信息。

但是我们要记录的不只是一种颜色的光,而是与显示器一样的,R/G/B三种颜色的光。

那么,就像显示器有R/G/B子像素一样,CCD/CMOS也可以利用不同的子像素来记录不同的波长的光的信息,或者通过在子像素上覆盖滤光片Color Filter,或者是分别使用三种对不同波长敏感的物质。

但是无论哪种方式,目前的CCD或者CMOS都没有使用简单的R/G/B并列排列方式,而是普遍采用我们在基础篇中介绍过的Bayer排列。


另外一种方式是直接采用三块成像装置,比如三块CCD或者三块CMOS,各自负责一种颜色,先用棱镜把入射光分成三束,再分别射向不同的CCD/CMOS,形成三种颜色的信息。


很显然这种方式比第一种的成本要高,优点在于同样CCD大小的前提下,首先像素数量要远高于单块CCD(这不是废话吗?),不仅仅如此,颜色纯度和图像的锐利程度也要远远高于Bayer排列的单CCD结构。

这是因为光在通过滤光片的时候会损失很多能量,其次Bayer排列的有一个问题就是每一个像素作为二维平面上的一个点,其实并不能记录该位置所有的信息,只是记录了这个像素对应的R/G/B中之一的信息而已。

而3 CCD结构因为有3块CCD,所以每一个像素位置都能记录下来全部的R/G/B信息。

目前大部分的照相机的CCD/CMOS标称的像素值实际上是将每一个颜色点算作一个像素,但是这个点并不能算作一个完整的信息点,这其实是一种“虚标”行为,起码这种标称方式与显示行业的像素标称方式是不对应的。

比如下面这个原始图像。

如果采用Bayer方式记录的话,会分别得到三个图像,红色、绿色与蓝色。


每个像素都只有三种颜色的一种,互相之间并不重合。


所以如果直接将上面三张图片合在一起的话,会得到这样一幅图像。


这和上面的原图差的还是挺远的吧,是不是很像马赛克一样?我们需要为每一个像素补充缺失的其他两个颜色信息,这个过程就叫去马赛克Demosaicing也叫Debayering。

但是如何才能补全缺失的颜色信息呢,答案是“猜”。但是不是瞎猜,而是根据周围的其他像素的颜色信息来猜,请看下图。

因为每个像素都只有一个颜色而缺少另外两种颜色,可以采用周边其他像素的颜色信息作为参考,再通过一定的算法来计算出本身应该有的大概的R/G/B值再插回这个像素,这个就是所谓的插值计算Interpolation了。

经过这样的计算以后,每个点都具有R/G/B三个值了,最终再把图像整合在一起,就是下面这样。


注意,和原图比,这种重建的图形的边缘明显不够锐利,较为模糊,是因为锐利的边缘处本来是颜色变化较为剧烈的地方,但是如果采用差值计算的话,因为必须参考像素周边其他像素的颜色值,无法表现出这种剧烈突然的颜色变化,所以会比原图更模糊一点。

想要图像变得更加锐利可以采用上面说的3 CCD方式,也可以再增加像素的数量与密度,或者采用其他的创新的方式记录,比如有一种叫Foveon X3的技术,是美国Foveon公司首先研制,后来被日本Sigma收购的一项技术。这种技术与彩色胶片的成像方式非常相似,每一个像素都在纵向分为三层,各自分别对不同波长的光敏感。


这种方式的优点是不需要Demosaicing,因为每一个像素都同时具有记录R/G/B信息的能力,一个像素就可以顶上Bayer方式的3个像素。

如果不明就里的人在比较Sigma的标称像素和佳能/尼康等竞品的像素的时候,Sigma就会很吃亏。而做生意的当然不愿意吃亏,所以Sigma把自己的产品的标称都是实际像素数量直接乘以三的。

这种方式也有缺点,就是三色不一定能很好的分开,红色到达最底层的时候有一定衰减,所以红色部分会显得不那么锐利。

但是,无论哪种方式,正如我们在进阶篇(一)中说的,仅仅靠R/G/B三色是无法覆盖人眼可识别的色域上所有的颜色的。那么,各位想一想,用这种方式得到的信息在一开始就已经是被过滤过的,不完全的信息了,对吧?那么在后期显示阶段,无论我们如何努力去试图恢复当时那一瞬间的真实颜色,其实都是不可能的,仅仅是减少信息的进一步的损失而已。

只有在摄像/照相阶段尽可能的保留更多的信息,后期显示阶段的技术创新才有意义。

有人试图通过增加原色的数量来提高信息的还原度,比如这个犹他大学的新技术,就利用不同波长的光的折射角度的不同来识别25种颜色的光,那就是二十五原色!

当然如果真的利用二十五原色的话,整个产业的成本都会大幅提高。

所以,我个人觉得比起上面这种方式,反而是最大限度的在记录阶段模拟人类L/M/S视锥细胞的特性来记录信息,然后最终将相同的信息再次传给人眼才是更有效率、更准确的方式。

而现在的CCD或CMOS其实就是按照这个思路在发展的,各个像素并不是单纯的记录R/G/B波长的信息,而是记录长/中/短波长信息,也就是L/M/S信息。比如下面尼康D700相机光谱反应图,其实就和人眼的反应比较像了。




附录4:


折射



我们可以把一束光想象成一辆汽车,假设一辆汽车在公路上好好行驶着,突然进入泥泞的路面,如果是垂直进入还好,方向不会改变,但是如果是从侧面斜着进入的话,前面两个轮子进入泥泞路面的时间点就会不一样,最靠近泥泞路面一侧的车轮会先进入泥泞路面然后受到更大的阻力,导致前进速度放缓,而另一侧的车轮还是在公路上行驶,所以速度并不会放缓,两侧车轮的速度差会造成汽车向靠近泥泞路面一侧转向,两个路面的阻力差越大,汽车转向就越明显,

这就是“折射”。

其实,这个知识并不是完全没有用的,因为今后各位要想理解偏光片,是一定要懂得折射的原理的,尤其是OLED的偏光与LCD的偏光的区别在哪里,以后我们会洗洗睡,不,细细说,该死的拼音。





附录5:

抖色


抖色就是Dithering,是一种利用人的视觉特性,利用低精度色谱模拟更高精度色谱的方法,可以分为空间抖和时间抖。

空间抖Spatial Dithering是一种历史悠久的技术,在印刷以及打印领域广为使用,也叫Halftone半色调。比如下面这个图


左边的图像虽然只是用黑白两种颜色印刷的,但是却能够模拟右边图像的多级灰度的效果,如果我们把左边的图的里面的小点点再精细化的话,可以得到更相似的视觉效果。

再比如这张图

本来只有红蓝两种颜色,却可以通过图案的反复表现出更多的颜色。这也是大多数打印机的颜色的原理。

市面上一般的打印机都是4色(CMYK)的,通过下面这样抖,可以表现出非常丰富的色彩。


因此,我们可以说,空间抖可以在减小成本的同时增强图像的最终显示效果。

所以说,如果我有一个每种颜色6位的屏幕,意味着每种颜色都有64级不同的灰度(深浅),如果我的电脑输出了一个相当于62.25级的绿色,为了表现这个颜色,我的电脑需要在相邻的4个像素中,用3个表现第62级的绿色,1个表现第63级的绿色,从而给我的大脑以“类似于”看到了4个62.25级的感觉。

在打印领域这样做没什么问题,是因为墨水是半透明的是可以垂直叠加的,这样做并不影响解析度。然而,显示器的像素之间却不能垂直叠加,所以

这样能虽然够提高颜色的表现力,却会牺牲整体图像的解析度和锐利度,因为像素为了表现新的颜色,而抛弃了自己原有的颜色信息。


比如下面这个例子:

原图的猫咪很可爱,但是如果我们只有256种颜色怎么办?

直接用256种颜色表现上图,结果就是这样

如果我们采用抖色的话,同样是256种颜色,结果就会好很多,请看下图。

但是,结果虽然好了很多,比起原图,清晰度和锐利程度都下降了很多。

所以,为了在电脑屏幕上,更好的解决这个问题,人们通过增加一个时间维度,利用人眼的视觉残留效应,来实现在同一像素上不同颜色的叠加,这就是时间抖

Temporal Dithering,

也叫Frame Rate Control(FRC)。


还是上面这个例子,如果我有一个每种颜色6位的屏幕,意味着每种颜色都有64级不同的灰度(深浅),如果我的电脑输出了一个相当于62.25级的绿色,为了表现这个颜色,我可以

采用不停地快速闪动第62级绿色和63级绿色的方法,其中62级占75%的时间,63级占25%的时间,这样人眼就会以为看到了第62.25级的绿色了,从而实现了更高的颜色精度。这就是时间抖。

FRC极大的改善了抖色的效果,使得低价的显示器也能够显示出更丰富的色彩。这种技术这么好,为什么苹果还会被告呢?

这是因为,首先,无论颜色切换的多么快,这种技术不可避免的导致屏幕会“闪”,少数人会对这种“闪”非常的敏感,感到头晕,大多数人虽然感觉不到,但是如果面对这种屏幕时间长了,也可能会感到十分疲劳。

其次,这是因为FRC技术初期在颜色表现方面并不是那么完美的,后来的改进版Hi-FRC才真正“解决”了问题。

上面的表格里,第一种是原生8位屏幕,可以大概表现出16.77百万色,而第三种就是早期的FRC抖色,只能表现出16.2百万色,少了50多万色,第二种则是进化版的HiFRC,可以表现出和原生一样的16.77百万色。

理论上来说,只要我调好闪动的时间比例,就应该能够模拟出来无限精度的颜色啊。

就好像哪怕我只有0度的水和100度的水,只要调整好比例,理论上我也能混合出0度到100度之间任何温度的水。

为什么6位FRC就只能模拟出16.2百万色而不是16.77百万色呢?

其实,答案很简单,请看下图。


6位的0级对应8位的0级,1级对应4级,以此类推,最后63级对应的是8位的252级。

在这里,0级就相当于是0度的冰水,63/252级就相当于是100度的热水,在两者之间所有的颜色,都可以通过改变混合(闪动)的比例来模拟。

但是,253~255级却没有办法被模拟出来,因为在6位显示屏上,63级已经是最高的信号强度了,没有办法再向上模拟了,如下图所示,




所以最后,普通的6位抖8位,只能表现出256 - 3 = 253种灰度,那么R/G/B三种颜色,一共就能表现出来2533=16,194,277种颜色,比正统16,777,216色少了快60万色。

那么Hi-FRC是如何解决这个问题的呢?

答案就是先抖到9位,然后再缩回到8位。

如果6位抖到9位的话,6位的63级对应的是9位的504级,那么9位的0~504级都可以用6位的0~63级的闪动来表现。

那么,我们再把8位的0~255级对应到9位的0~504级应该不是太难,除了504没法被255整除以外。

如果每两个9位的级别都可以对应一个8位的级别的话,504个9位级别只能对应504 / 2
= 252个8位级,所以有一些8位级别就不能对应两个9位级了,设这个值为X


504 - X = (255 - X) x 2

X = 6

也就是说有6个8位级别不能对应两个9位级,只能对应1个,具体是哪一个,应该是每家厂商根据具体产品决定。

请看下面的例子:

8位的255对应的是9位的504,which其实是由6位的63抖上来的。

以此类推,8位的254对应的是9位的502,which其实是由6位的63和62抖上来的。

8位的251和252分别对应9位的497和498,他们之间只相差1个9位级。

所以,6位+Hi-FRC虽然能够实现16,777,216色,但是和正统的8位的颜色不是完全一样的,是有偏差的。

一部分厂商在Hi-FRC芯片里也加入了空间抖的算法,综合利用时间和空间来试图提供更好的颜色效果。


那么,显示器厂商抖色的主要原因是什么?

省钱呗。

嗯,当然也可以说是提高性价比。


因为现在低端显示器中使用最多的是液晶的TN屏(具体以后介绍),这种屏的优点是价格便宜,反应速度快。

但是这种屏的液晶分子的特性是,如果采用8位或更大的色深的话,会造成反应速度变慢,屏幕会出现拖影的现象,而且对控制芯片的精细度的要求也更高,数据量的增加导致对接口的要求也更高,造成综合成本大幅提高。

但是,对于普通用户来说,如果不把两台显示器摆在一起对比,可能并不能看出是原生8位还是6位抖的8位。

尤其是现在Hi-FRC技术越来越好,抖色和原生的差距也越来越小了。、

所以在对于用户来说,抖色的TN屏的性价比是非常高的,厂商也喜欢。

包括现在很多高端游戏显示器也都是采用TN屏,因为TN屏的反应速度快,再用8位抖10位来满足用户对颜色的需求。

除了抖色以外,还有些显示器厂商经常说说8位色深16,777,216种颜色已经可以满足人眼能够识别的所有颜色数量了,我只能说:呸!

我们在进阶篇(二)中也讲过,这种说法是明显的混淆概念,因为颜色的数量和颜色的广度是完全不同的两个概念。比如说,16,777,216如果都是各种不同的从浅到深的蓝色,能够覆盖我们人眼能够识别的所有的颜色的数量吗,绿色和红色呢?

增加位数是可以增加颜色的渐变的精细度,但是并不能扩大颜色的范围,颜色的范围只能靠提高R\G\B的最大值来改善。

附录6:

白点


所谓白点就是对白色的定义。

我们之前说过,人类对于白色的定义就是物体反射所有日光的时候所表现的颜色,但是其实这种白色的感觉是局限于在日光非常充足,各种波长的光比较均匀分布的时候的一种感觉。当处于室内照明或者早晚的时候,往往原来在正午时分表现出白色的物体,会因为入射光的变化而显出不同的颜色,但是我们人类的大脑仍然会通过一个内部的逻辑和经验判断,潜意识地认为该物体仍然是白色的。但是,如果用照相机去拍摄,实际记录下来的这个物体的颜色却不会是我们一般意义所认为的白色,而是该物体所反射出来的光的真实波长。然后显示器也会忠实的把当时的颜色再现出来,当我们再次观看这张照片的时候,尤其是在一个非常不同的环境光下,我们就会认为照片的颜色很奇怪。

比如下面这张照片:

当时的灯光应该是偏黄的,所以所有的白色物体都会显得发黄,但是在现场的人们却不会特别在意,因为人类的大脑会根据逻辑与经验去做自动转换。然而,目前的照相机是还不具有这个自动转换的“智能”功能的,导致拍摄出来的照片,在正常的环境光下去看的时候,显得非常发黄。所以这个时候我们可以手动的去调整,人为地去指定某一个颜色为白色,其实也就是重新定义了这个颜色的R、G、B比例,然后可以根据相应的比例再去修改整个图片的所有颜色,这样就可以调整出像右图这样看起来更自然的图片了。

这种调整就叫做“白平衡”。

关于白点,国际上也有很多相关的标准,其中最常用的是D65和D50。

D65代表的是一个正常的西欧/北欧的晴天的正午的阳光下的光照环境,近似于6500开氏温度时的黑体辐射体的颜色。

D50则代表的是早晚的的阳光的光照环境,同时也接近于家庭收看电视的客厅的光照环境,近似于5000开氏温度时的黑体辐射体的颜色。

什么开始温度、黑体辐射体这些不知道也无所谓,但是很多显示器会提供色温的调节功能,其中的选项就会有6500K、5000K这些,一般选择6500K是比较合适的。


附录7:

伽马校正 Gamma Correction

首先,我得说,网上关于伽马错误的资料实在是太多了,应该说绝大多数都是错的,只有很少的是正确的,导致我各种困惑不解。


所以如果你们对Gamma感兴趣,我建议你们千万不要去网上搜,都是错误信息!还是看我写的吧。

那么,伽马校正到底是什么?


这要从CRT的技术特性开始讲起。

如上图所示,CRT显示器是靠电压来驱动一个能够发射电子束的电子枪来击打荧光屏上的三种荧光粉,使其发出RGB三种颜色的光,通过调节电压的方向可以改变电子束击打在屏幕上的位置,实现扫描,并根据输入信号的大小来调节电压的大小从而改变荧光粉发出光的明暗。

但是,电压的大小与荧光粉发出光的明暗之间并不是一个简单的线型关系。在大部分区间,两者之间是一个幂函数关系。

如果输出亮度是Y,出入电压是X的话:

Y = Xn

n就是决定X和Y之间关系的指数。

在X很小的一个比较小的区间里,两者之间又是一个线性关系。

此时:

Y = aX

a是在这个区间决定两者之间关系的系数。

在一个显示器被制作出来以后,n和a的大小就已经被确定了。当时各个CRT厂商的技术其实差不多,做出来的产品可能略有差别,但是大部分都差不多。

如果我们只是单纯考虑两者之间的指数关系的话,n一般是在2.5左右。

如果还是把两者之间的关系看做指数,但是针对小区间的线性关系做出一定修正的话,可以粗略的认为n是在2.2左右。

这个2.2就是大多数CRT显示器的伽马值。

我知道有很多很多资料都只说这个值应该是2.5,很不幸,很多资料都是不准确的。

注意,

这两个数字并不是从理论上计算出来的,而是从实际统计市面上的产品的特性并总结出来的。

那么,因为照相机的CMOS/CCD的输出电压与输入的光子数之间是一个线性的关系,


如果把照相机输出的信息直接输出给显示器的话,最终输出的结果就会是这样的:


很明显,正常记录的信号,在CRT上输出的时候,会变得非常暗(输出低)。

比如正常如果是线性关系的话,50%亮度的入射光在显示屏上也应该按照50%的亮度被输出,但是因为这个指数关系,50%2.2 = 21.8%,实际上在CRT显示器上只会按照21.8%来被输出,比应有的强度要低一半还多!

如下图,正常的照片会显得非常灰暗。


那么,怎么解决这个问题呢?

当然,我们可以想办法改良CRT显示器,让它能够线性输出,这需要在全球所有的CRT设备里面加入一个补偿电路,肯定是很费钱费力啊。或者我们在节目制作的摄像机上增加一个电路,让它能够中和CRT电视的效果怎么样呢?

因为当时可不像现在这样人人都可以拍摄视频制作节目,那个时候全世界就没有多少摄像机,内容制作者屈指可数,所以当然是改变摄像机的设计更make sense啊。

所以在CCD/CMOS记录完信息,需要保存或者直接传输电视信号之前,我们可以先对信号做一个与显示器伽马完全相反的逆指数计算,Y = X1/2.2然后再保存或者输出,这样在显示器上不就能够正确的显示了吗?

好像这样,

比如下面这个照片:




经过在储存阶段针对CRT伽马校正的补偿以后,图像终于可以正常显示了!

Wait!我们还有一个因素没有考虑,那就是环境光。

我们在基础篇讲过,环境光的明暗也会影响人度色彩的判断。比如粉色不过是显得发白的红色,棕色是暗淡的橙色,灰色是暗淡的白色而已。

而我们对明暗的判断是相对的。

上面那个圆和下面的圆的颜色是一样的,是环境光让我们觉得上面的是棕色,下面的是橙色而已。再比如这个图:


乍一看A和B的颜色不一样,但是其实那也是环境光带给我们的一种“错觉”(特殊的颜色概念)而已。

那么,我们知道,节目的拍摄和制作一般都是在比较明亮的地方,比如白天的室外,或者是灯光明亮的室内摄影棚,所以在这种环境光下制作的节目,如果在家庭环境或者办公室观看会怎么样呢?

尤其是家庭环境,主要观看电视的时间是在晚上,很多家庭都会关灯或者开一个小灯看电视,导致电视成为整个客厅最亮的光源。这个时候,因为环境光过暗,电视上的颜色会比拍摄的时候看起来更明亮,棕色可能会看成橙色,灰色可能会变成白色。

所以,为了让观众能有更好的观看体验,节目在制作的时候不应该完全补偿CRT的伽马特性,而是保留一点点,这个数值,经过试验(假定拍摄时的环境光是D65,而观看的时候的环境光是D50),算出来最终Gamma是1.125的时候,视觉效果最好。

那么最终的Y = Xn x 2.2 = 1.125

可以解出来

n= 1/1.956 ≈ 0.51

那就意味着在储存视觉信息的时候,应该对信息做一个Y = X0.51的补偿。

也就是说CCD/CMOS记录的信息都要经过这个Y = X0.51的数学变换再存储或者传送,才能保证在显示器上得到正确的显示效果。

好像下面这样。


很多材料都在讲什么人眼视觉感受都是非线性的云云,对于暗部的信号更敏感,所以如果用一个0.51的指数去补偿输入信号的话,可以去补偿人眼的这种特性,还能节省带宽什么的。

这些说法要么就是错的,要么就是和Gamma的关系很小,要么只是Gamma偶然的副产品而已,真正的在对视觉信息进行编码的时候需要做伽马调整的唯二的理由就是要补偿CRT的电子枪的特性与环境光的不同。

不服来辩!


然而,Gamma Correction确实有一个很好的副作用,就是能够更好的利3对应214/28 = 26 = 64个14位的数据。

好,另外一方面,我们人类从远古以来就害怕黑夜。尤其是晚上太可怕了,各种野兽和妖魔鬼怪。所以我们为了生存就特别注意在晚上观察黑暗的四周,提防危险,时刻准备战斗(逃跑)。具体可以看基础篇关于视杆细胞的部分。

所以,人类对于暗光的层次的分辨能力要远远强于对亮光的层次的分辨能力,请看下图。


同样是从黑到白分成十个等级,第一行的层次感是不是要远高于第二行?同样是十个数据,第一行给我们提供了更多的信息。


所以,同等带宽/存储空间的前提下,尽量存储更多的暗部的信息可以给人带来更多的信息量。


在将CCD/CMOS记录的14位信息存储为8位信息的时候,如果先将14位信息进行伽马转换,首先因为下面这样的函数模样,所以Y值在X值的相对高值区间会更加“拥挤”,在Y值的相对低值区间反而会非常“宽松”。




那么,因为有精度限制,所以四舍五入之后,在X值的相对高值区间的很多Y值会出现重复数字的情况,从而形成了重复数据,即亮部变得不太层次分明,而在暗部区域的数字,因为比较宽松,相对距离较大,所以重复数字会非常少,层次仍然十分分明。如果再将14位数据转化为8位的数据的话,这个现象会更加明显,最后实现了在同等带宽/存储空间的前提下,存储/传输了更多的暗部的信息的效果。

这才是所谓的节省带宽提高数据质量以及适应视觉感受特性的真相,四舍五入!!!!


后来,以LCD为代表的的平面显示器开始逐渐取代CRT,这些显示器大部分的输出亮度与输入信号之间是成类似线性的关系的。嗯,其实不是完美的线性,但是也不是CRT那种幂函数的关系。(主要是蓝色偏弱)

再加上照相机CCD/CMOS也是线性的,电脑的CG处理也是线性的,那么,是不是就不用做Gamma Correction了?

是的。。。如果不上网、不看电影、不看电视、不看照片也可以的话。

因为CRT作为主流电视机技术和电脑显示器技术已经存在太多年了,导致大部分的图像、视频以及互联网上的内容,甚至操作系统、浏览器等软件都在制作的时候考虑到CRT的Gamma特性,做出了上面所述的反向补偿。

那么,如果平板显示器不做任何Gamma Correction的话,就意味着在显示过去和现有的内容的时候,会出现显示不正常,画面过于明亮的效果。为了保证兼容性,平板显示器厂家只好在显示器内部加入相应的电路,去模拟过去CRT显示器的Gamma效果。简直是历史逆行,没办法啊,内容为王。。。


LCD模仿CRT的Gamma特性有两种方式,一种是简单的模拟方式,做一个专用的符合幂函数关系的模拟电路,针对所有输入的信号都进行一次Gamma转换。这样做简单直接,但是缺点是不能调整Gamma值,不能适应某些情况对颜色的细微调整的需求,最重要的是只适用于VGA接口输入的模拟信号。

另一种更好的方式是采用一种叫LUT(Look Up Table)的方式。

什么是LUT呢?简单的说就像是一个小抄本一样。针对任意一个在范围内的输入,都会有一个已经计算好的答案。不需要每次都用公式再计算一次,这样可以大大减少计算负担并加快输出速度。

LUT还有一个好处是,可以在芯片里存储多个LUT,这样根据需求不同,可以迅速的随时切换。

关于LUT,更具体的信息可以看下面的附录9

所以,对于Gamma,我们可以这样总结一个公式:

Viewing Gamma = Camera Gamma x Display Gamma
=
Camera Gamma x CRT Gamma x LUT Gamma

代入上面的数据的话

1.125 = 1/1.956 x 2.2 x 1


另外,很多人说因为苹果电脑有很多印刷行业客户,而印刷打印产业的实际展示环境的背景光是在非常明亮的环境,所以要使用更高的伽马值来展现更明亮的画面,为了保证脑画面与打印输出的画面的一致性,苹果采用了1.8的伽马值。

这种说法是一半正确一般错误的。实际情况是2009年以前的Mac的最终Display
Gamma是用的是1.571左右instead of 2.2。苹果的显示器的物理Gamma其实和PC的一样都是2.2,并不是什么特制的产品.但是苹果通过在系统和显卡上增加LUT,实现了最终Display Gamma 1.571的输出。最终的Viewing Gamma的结果还是要取决于Camera
Gamma,也就是内容的Gamma。

现在因为sRGB和Adobe RGB 1998等主流标准都是采用2.2的Gamma值,所以苹果也把自己的LUT取消,直接采用2.2了。

附录8

sRGB


在个人电脑普及与互联网爆发之前,家庭中最主要的内容输出工具是电视,而当时的电视绝大多数都是老式的CRT阴极射线管电视,平板电视还处于实验阶段。而电视产业为了保证内容制作与输出的效果一致性,

通过行业标准定义了标准的视听

环境、

设备与制作环境、

设备

。其中最重要的标准就是1982年制定的ITU-R
Recommendation BT.601(简称BT.601或Rec.601)和1990年制定的BT.709,

当时

绝多大数的主流电视厂商和内容厂商都遵循这两个标准来生产产品。这两个标准先后规定了标清电视和高清电视的规范,其中就包括了对RGB三原色、伽马校正(附录6)以及对白点的定义。

定义三原色就是相当于定义了设备的色域,而定义白点,就是定义了观看环境,而定义了伽马校正也是为了让节目制作人都意识到CRT电视的显示特性。

后来电脑开始慢慢普及,互联网用户迅速增加。电脑逐渐成为了工作环境和家庭环境的主要内容输出工具,互联网则成为了主要信息传输渠道之一。然而那个时候的电脑显示器也是以建立在CRT技术之上,与电视没有什么区别,生产电视的厂家也是生产显示器的厂家。

互联网上的信息越来越多,使用电脑制作的内容也越来越多。然而适用于家庭电视的BT.601和709标准其实并不太适合电脑显示器,主要问题在于观看环境,而环境光对人类的颜色判断也是起着非常重要的作用的。

电视的观看环境是晚上的家庭客厅为主,环境光较为昏暗,而当时电脑则主要是在半天的办公室或者家庭,至于用途也是,相对于娱乐来说,办公或者生产占据着主流。

那么在这种背景下,电脑业界急需一个适合自己的颜色标准。所以作为当时操作系统主流厂商微软和整机的的主流厂商惠普就联手制定了一个新的标准,这就是sRGB

sRGB并不是为了改变显示器产业而定的,相反,这个标准是为了帮助内容制作产业适应当时显示器产业的现状,同时使得图像数据能够通过互联网传输以后在显示器上得到很好的再现效果,而制定的。尤其是考虑到当时现有的各种内容以及已经在使用中的显示器,微软和惠普不想,也不认为自己有能力给整个社会带来过多的新增投资的负担。所以他们采用了当时主流的BT.709作为基础标准,再根据电脑显示器和使用环境的特点,作出一些微小的修改,使其更符合电脑显示器的使用环境,这就是sRGB标准了。

有了微软的操作系统的支持,sRGB很快就成为了计算机和互联网上传递视觉信息的最普遍的标准。除了在绘图、印刷以及一些领域以外,大部分的内容都是基于这个标准生产制作的。这个标准也成为了包括LCD在内的绝大多数显示器的最基本的颜色显示能力的标准。

如果不采用默认的sRGB格式,就需要针对内容和显示器各自分别采用一个Color Profile/LUT(见附录9)来进行调整,两个LUT之间以能表现绝对颜色的CIE XYZ色域来做中介进行转换。这种方式非常繁琐,一般只有专业领域才会采用。



附录9

LUT(Look Up Table)


什么是LUT呢?简单的说就像是一个九九口诀,或者小抄本一样。针对任意一个在范围内的输入,都会有一个已经计算好的答案。不需要每次都用公式再计算一次,这样可以大大减少计算负担并加快输出速度。

只不过显示器中的LUT不是九九口诀那样的通用口诀,而是针对特定产品的特性来定制出的专门的口诀,可以精确的微调显示的颜色效果。

其实LUT在整个显示产业的各个(涉及到输入与输出的)环节都有存在且有必要存在。因为信息在经过某一个环节的时候,因为各种硬件软件的细微差异,信息总会或多或少的被改变,从而渐渐失去和初始信息的一致性。

比如:

所以为了改善输出图像的质量,很多厂家会根据自家的产品的硬件特性在输入与输出之间加入一个LUT,这个LUT要经过各种试验检测,使其能“完美”匹配产品特性。

比如照相机也会有一个LUT,用来精细调整信息的记录并“完美”地转化成sRGB标准的图像。甚至电视、电脑操作系统甚至显示卡也都会有一个自己的LUT,虽然在很多时候这些LUT是默认不开启的。但是显示器里内置的LUT却是非常重要的,对画质的影响非常大。

显示器在收到信号以后,在内部会对信息作出各种转换。而且我们之前说过,显示器的输入与输出之间其实不是完美的线性关系,会因为材料以及硬件的特性存在各种不规则的区间。那么,与其采用简单的数学计算转换,一个经过实验检验的,针对特定产品的的LUT可以最大限度的改善颜色准确性。

另外,在做Gamma Correction以及Dithering抖色的时候,LUT也可以大幅提高效率和结果的质量,比如像下面这样:


为了达到这个效果,显示器中的LUT的精度一定要大于输入与输出的信息的精度。这是因为要做指数计算,如果使用同样的精度去做变换的话,有四舍五入的问题,在转换的过程之中会产生很多重复的数据,从而导致了信息的丢失与不准确。

但是如果我们先通过一个LUT把数据的精度放大,再在更高的精度下进行计算的话,就不会丢失信息了,然后最后再通过一个LUT,精确的把结果转回原来的精度,可以大幅提高颜色的准确性。

一个现实里面可以存储很多LUT,用来应对各种不同的需求,实际上现在的显示器上的各种调节按钮里面,除了亮度功能是直接物理调整背光的明暗以外,其他的基本上都是靠LUT实现的。

高端的显示器里面一般还会有一种叫3D LUT的高级LUT。传统LUT一般是R/G/B三种颜色各自有自己的LUT,如果是8位的话,每种颜色其实只有256个对应关系,那么3种颜色就是256 x 3 = 768个对应关系。

但是3D LUT实际上是为R/G/B的每一种组合都赋予一个对应的转换关系。

那么如果是8位的话就是16,777,216个对应关系,如果考虑到转换过程中需要更高的精度的话,比如说14位,那么,就需要4,398,046,511,104组对应关系。如果是16位呢。。。

这样做的好处是颜色的调整会更加准确,可以最大限度保证输入输入的一致性,并发挥显示器的最大潜力。


附录10


电视信号传输


免责声明:这部分的内容大多是通信领域的知识,本文的目的是通俗的给大家讲解复杂的知识,同时本人能力有限,所以肯定会有很多讲得不严谨甚至是错误的地方,还请包涵。


电视其实和互联网视频没有本质上的区别。只不过电视有自己的传播渠道(无线/有线)和传播协议。无线电视以空气为载体传送电磁波信号,有线电视以线缆为载体传送电磁波信号。


现在的互联网视频都是流媒体,需要我们的互联网带宽够,速度够,才能流畅观看。电视信号也是一样,只不过是,互联网带宽是用户自己的,而电视带宽是大家公用的。

什么叫带宽呢,用通俗的话说,就是信号的变化范围,也就是信息量。比如一个1080P的视频,每行1920个像素,1080行,每秒60帧的话,那就是每秒需要传送1920 x 1080 x 60 = 124,416,000个像素值,无论是采用数字还是模拟,总之就是有这么多值需要传送。

我们人类选择用电磁波的振动来传递信息。电磁波像水波一样的振动,这个振动是有一个周期的,每个周期向上一次,向下一次。如果我们用向上的幅度和向下的幅度的大小来“模拟”像素的值的话,每个周期可以传递两个信息。那么124,416,000个像素值理论上需要62,208,000个周期。我们还知道电磁波是有波长的,也就是波的大小,波越大,动作越慢,这个波振动的频率就越低,波越小,动作越快,这个波振动的频率就越快,两者之间是一个反比的关系。很显然,频率越高的波在单位时间内能够传递的信息的量越多。

上面的图里的波的上下波动的幅度都是一样的,但是我们要传输的每个像素点的数据可能都不同,所以我们实际上发出的波可能是这样的。

可以看出,因为是模拟的信号,所以信号是连续的,所以CRT电视的电子枪的扫描也是连续的,所谓像素不过是屏幕后面一个个的小格子的物理区分而已。所以,模拟时代的CRT电视的像素是没有意义的(当然在拍摄的时候还是有意义的),只有“像线”的意义,这也是为什么我们现在说电视的分辨率,还只是习惯说720,1080这些横线的数量的数字的原因。

如果把一个周期定义为一个赫兹(hz)的话,那么这个信息需要至少62,208,000赫兹的波才能够被传递,也就是62.208兆赫(mhz)。所以我们可以用一个频率在62.208兆赫的电磁波来传递这个视觉信息。

有两个问题,首先这个频率比较低,也就是能量很低,走不远,而且波长太大,需要很大的天线才能接收。

其次,我们不能只有一套节目吧?如果我们想传递多套电视节目呢?

这就需要使用所谓“载波”的技术了。

波有一个性质很好玩,就是两个不同的波可以混在一起。比如两个完全一样的波混在一起,那么这个波上下振动的幅度就是原来的两倍了对吧。在任何一个时点上,这个波的幅度就是等于两个波的幅度的和。那么,如果我们把一个快速振动的,上下幅度均匀一致不变的波和一个振动较慢的,但是上下幅度一直在变化的波混在一起会怎么样?



如上图所示,会成为一个在微观上保留快速振动的波的频率,但是上下的幅度是两者上下幅度的和的新的混合波。这个新的波保留了振动较慢的波所承载的幅度信息(虽然略有变化),同时振动的幅度却快了很多。

如果我们把这个新的波发送出去的话,因为频率高,能量大,可以走很远,而且不需要很大的天线就可以接受。而且我们可以把每一套电视节目制作成一个62.208兆赫的波,然后将其与不同的高频率等幅的波(载波)相结合。比如第一套节目和600兆赫的波结合成一个波,第二套节目和800兆赫的波结合成一个波。这样的话我们就可以同时传输几套不同的节目了。当然在模拟电视时代并不需要上面说的那么大的带宽,大概每个频道有个6~8mhz就可以了。

其实,上面的只是一个简单的容易理解的说法,实际上的情况要更复杂。如果我们把62.208mhz的波和600mhz的波相结合,其实会产生出来4个波,一个是原来的62.208mhz的波,一个是600mhz的波,还会有两个边频带(Sideband),一个是662.208mhz(600 + 62.208),一个是537.792mhz(600 -
62.208)。其实62.208mhz和600mhz的波没有任何改变,月亮还是那个月亮,篱笆还是那个篱笆,但是这两个新的sideband却是同时包含着两个“旧波”信息的新波。所以,除了62.208mhz这个频率太低以外,理论上只要发送其他三个波之中的任意两个波,我们就可以获得所有我们需要的信息了。(能力有限,这里就不再深入讲解了。)

但是频率不同的sideband之间同时在空中传播也会产生干扰,甚至再生成新的sideband,不过每个sideband的幅度都只是原来的一半。有干扰不可怕,我们电视的作用就是根据“一定的标准”接收信息,排除干扰,再把信息解读出来。而且为了减少干扰,我们会在节目的信号的频率之间留有充分的余地。

电视信息的传播也是有着标准的,模拟电视时代主要有NTSC、PAL和SECAM三种,北美和日韩以NTSC为主,中国和欧非以PAL为主,前独联体国家和法语国家以SECAM为主。这几个标准之间本质上的区别不是很大,但是因为细节上的不同,还是不能互相兼容的。

进入到数字时代,各国也都把自己的电视标准升级成了数字标准。其中还可以分为地面传输、有线传输、卫星传输以及手持传输等。最普惠的地面传输标准主要有ATSC、DVB-T、ISDB-T以及DTMB等。其中DTMB是我们中国自己的标准。

相对于模拟时代,在数字时代,我们不再用波的幅度来传递信息,而是用幅度的高低或者频率的快慢来表达0和1,然后在通过一种叫频分多址的技术实现对带宽更有效的利用,在有限的饿带宽内可以传递更多的频道,以及更好的画质。

频分多址这个技术我们不需要理解,只要知道这是把一个信号拆分成很多频率重叠的小信号,这些小信号虽然重叠,但是重叠的很巧妙,可以被电视接收并区分,从而实现了对带宽的更有效的利用。

附录11

HDR(High
Dynamic Range)高动态范围成像

首先,我先引用英伟达Nvidia对HDR的总结。

HDR就是:亮的地方贼亮,暗的地方贼暗,细节还贼多。

比如这张图片:


一天不同时刻的光的亮度是非常不同的,比如正午直射阳光是非常明亮刺眼的,而半夜的郊外又是非常黑暗的。在不同的光照条件下,人类可以调整眼睛来适应不同的光照环境,去获取更多的信息。在过于明亮的环境下,我们会试图减小眼睛张开的程度,并调整瞳孔的“光圈”,或者也可以快速眨眼睛看,减少入射光,否则我们的视锥/视杆细胞会因为信号饱和而失去分辨实物的能力。在过于黑暗的环境下,我们又会张大眼睛,增加瞳孔的光圈,或者长时间盯着仔细看,试图增加入射光,同时,我们会开动更多的视杆细胞,来捕捉更多的光子。

为了更准确的测量不同的亮度,我们需要一个度量单位:把一只普通蜡烛的烛光均匀分布在1平方米的面积上的时候的亮度定义为1 cd/m2(坎德拉每平方米),也叫1尼特(nit),那么:自然界的各种不同光照环境的亮度如下(单位cd/m2)。



然而,同一个场景里往往会同时出现很多不同亮度的部分,比如下面这个图片。



我们把这个场景的最大亮度与最小亮度的跨度称作动态范围。这个场景里的最大亮度和最小亮度的比就叫做(静态)对比度


正常的人眼不经过任何调整就可以识别约的对比度可以(四舍五入)达到10000:1左右。



如果一个场景既有非常明亮的物体,也有非常黑暗的物体,亮度跨度很大,我们就称之为“高动态范围 High Dynamic Range(HDR)”场景

然而,具体对于多大的跨度才算高动态,目前还没有一个标准的定义,一般情况下但是只要比传统的照相机/显示器可以拍摄/显示的动态范围高就可以认为是高动态。

在高动态场景下,我们人类无法同时采用两种模式来获取全部信息,instead我们会不停的在两种模式中切换与调整,当看到明亮物体的时候调整到明亮状态,当看到黑暗物体的时候,调整到黑暗状态。这两种模式的切换是无需经过我们的大脑的主动决策的人体自然的条件反射。通过这种调整,人眼最多可以识别对比度高达340亿倍的动态范围(也有人说可以达到大概1万亿倍!)。


Anyway,这种场景的亮度的跨度已经超越了标准的照相机和显示器的能力范围,传统的照相机是无法像人类一样通过自身的调整来记录这这种场景的。而显示器对于HDR场景就更吃力了,一般的LCD只能够表现出700:1左右的对比度,好一点的也不过达到3000:1或者4000:1而已,远远达不到人眼的识别能力。


那么 ,所谓HDR技术就是

A. 能够生成/记录高动态范围的图像的技术


以及


B. 让显示器能够显示这种高动态范围图像的技术。


但是,这两种技术所要求的动态范围却非常不同。

生产/记录需要能够达到人眼调整以后的水准,这样才能记录下一个场景的全部信息。但是显示却只需要达到人眼不经过调整的水平就可以了,因为人类在看显示器的时候并不需要也不应该应该调整自己的瞳孔,而是应该“一目了然”。

很显然生成/记录的信息的动态范围要远远高于显示的动态范围,在这种情况下肯定会有信息损失,所以HDR技术的第三层就是:

C. 尽可能的在还原内容制作者的意图的同时,把生成/记录的高HDR信息转化成显示器用的低HDR信息

让我们一个一个的看。

A. 生成/记录

用计算机生成高动态范围的图像其实很容易,要想实现“亮的地方贼亮,暗的地方贼暗,细节还贼多”,只要人工的去设定图像上的最亮的点和最暗的点的值就可以了。但是一定要采用更高位数的色深才可以,否则现在普遍使用的8位色深,每种颜色的最大值255只比最小值1大255倍(假设不同级之间是线性关系),那么RGB都是最大值的时候,才比RGB其中之一为1其他两个值为0的最小值的亮度大765倍。而且只有位数更高才能做到在亮的部分和暗的部分都能保证足够的细节过渡,否则就糊成一片,根本看不清了。

比如下图这样

正确的图像应该是这样的

这也是为什么在提到HDR的时候都要同时提到10bit、12bit色深或者更高,采用10bit色深其实也只不过可以达到3000:1左右的对比度(again假设不同级别之间是线性关系),12bit的话理论上可以做到12000:1。

所以,为了突破这种限制,现在HDR内容制作一般都会直接采用科学计数法的方式来处理数字(所谓“浮点”),这样可以比整数形式的“位数”储存更大范围更精细的数字,从而实现更高的对比度与细节。


记录方面


照相机和人眼很相像,在黑暗的场景,可以增大光圈(睁大眼睛)或者增加曝光时间(长时间看)来获取更多的暗部信息,在明亮的场景,可以缩小光圈(眯眼睛)或者减少曝光时间(快速眨眼睛看)。

这里我们需要用一点中学的物理知识。


对于一个特定物体来说,最终这个物体的光学信息能够有多少进入到人眼/照相机里,取决于以下几个因素。

1. 从这个物体发出的光的量

2. 这个物体到人眼/镜头的距离

3. 眼皮/快门开放的时间

4. 瞳孔/镜头的光圈

5. 人眼/镜头的焦距(一般情况下,物体的物距要远远大于焦距,所以焦距≈像距)

在前三者为固定值的情况下,后两个因素可以起到决定性的作用。其中:

光圈就像人的瞳孔一样,是一个大小可以变化的洞,可以遮挡光线的进入。洞越大,能进入的光就越多。一般用这个洞的直径来衡量光圈的大小,洞的直径和光的量成正比。

而焦距则是对光的折射能力的大小的表现。焦距越长,成的像越大,焦距越短,成的像就越小。

但是视网膜/Sensor的面积大小是固定的,所以不考虑像超出视网膜/Sensor面积的情况下,同样量的光入射,成的像越大,则单位面积的光的信息越少,像越小,则单位面积的光的信息越大。所以焦距和单位面积的光的量成反比。

所以,我们常常用焦比(光圈值)f这个值来衡量光圈的大小,其定义为

其中f是焦距,而D是光圈直径。N和Sensor接收的光的量成反比。


上面的公式可以变形为D = f/N,也就是说光圈 = 焦距/焦比。f值一定的情况下,N越大,D越小。一般情况下,业界都喜欢把光圈用“f/N”的形式来表示,“f/”后面的数字越大,光圈就越小,单位时间内,Sensor能接收到的光的量就越少。

因为圆面积公式是S=π(D/2)2,那么,S=π(f/2N)2,所以事实上在焦距不变的情况下,进入的光的量与光圈D的平方成正比,与焦比N的平方成反比。

在上面的5个因素里,如果只维持前两个因素不变,第三个因素“时间”也可以改变的话,很明显,眼皮/快门开放的时间越长,进入的光就越多,这还是一个简单的线性正比例的关系。

那么,入射光的量与N的平方成反比,与t成正比,也就是说N2/t可以决定入射光的量。

那么理论上不同的N2和t的组合有可能会得到相同的入射光的量。

比如:


所以人类定义了一个叫曝光值(Exposure Value,EV)的概念来描述光圈和曝光时间的关系。(写了这么多就是为了介绍EV而已。。。删了又觉得可惜)


之所以用log的关系,而不用简单的N2/t的原因我也不清楚,好像是因为这样方便摄影师计算,因为实际上这样的话相当于2EV = N2/t,每一个整数的EV值的入射光的量(N2/t)都是(EV-1)的入射光的量的2倍。每一个单位的EV叫做一个Stop。每增加一个Stop,就意味着光的量增加一倍,每减少一个EV就意味着光的量 减少了50%。每差一个stop,对比度就要差1倍。

在照相/摄影领域计算场景的动态范围的时候,经常使用EV的stop差,instead of 以cd/m2为单位的亮度差值。

在一定条件下(感光度ISO = 100, 校准常数K = 12.5,这两个参数不需要懂),EV与前面说的cd/m2之间是可以转换的。



一般的照相机只能记录12个或者更少的stops差,相当于4000:1的对比度,一些高级单反可以做到13~14个stops差,相当于8000~16000的对比度。


照相机的CCD/CMOS本身是对光非常敏感的,可以捕捉到非常微小的量的光子,当然也可以记录非常大量的光子。只是,照相机不能根据自己的“主观意识“来任性地选择观看明亮还是黑暗的部分,因为照相机的任务是记录整个场景的所有信息。而且,照相机每次只能拍摄一张静态的画面,要么就是“明亮模式”,结果黑暗的部分看不清,要么就是“黑暗模式”,结果明亮的部分太亮也看不清。

比较明显的例子就是夜景照片的拍摄,很多时候要么就是前景漆黑一片,要么就是背景过于明亮。如果前景是人物的话,其实还好解决,我们可以选择用另外的照明专门给人脸打光,或者就是用闪光灯慢闪,以背景的亮度为基准拍摄,在最后瞬间用闪光灯给人脸增加亮度。

但如果是下面这个场景呢?


前景是非常明亮的建筑,背景是昏暗的建筑与天空。人眼在看到这个场景的时候,会不停的根据视线的焦点来改变模式,从而获取更全面的场景信息。但是照相机就很难做到,上面是在四种不同的曝光模式下得到的四种不同的照片,都不太令人满意,要么就是缺少前景的细节信息,要么就是缺少背景的细节信息。

那么,其实,我们可以把四张照片合在一起,采用每一张细节表现最好的部分,去掉模糊掉的部分,这样就能得到一张能够同时表现出所有细节的“完美照片”了。

目前很多照相机/手机都有这种功能,一般这种自动合成的功能叫做AEB(Automatic Exposure Bracketing)。

B. 显示

有了HDR的内容,要想展示出来却不太容易。目前很多电视/显示器号称自己支持HDR,其实仅仅是可以接受HDR的信号,但是却无法展现出真正的HDR画面。

然而事实上,现在并没有一个单独的HDR显示标准,目前的HDR的标准都是作为一个更大的整体标准的一部分存在的,包括电视领域的ITU-R Recommendation BT.2100以及UHD Alliance的Ultra HD Premium标准。这些标准在要求HDR的同时还规定了分辨率、色深、色域等等。

根据我们前面的分析与业界的标准,从硬件原理上讲,显示器至少要能够具备以下几个条件才能发挥HDR内容的威力。

1. 亮度


既然是高动态范围,亮度的范围肯定要给足,根据UHD
Premium标准,显示器的亮度特性要达到以下要求才能算是HDR。

最低的最大亮度值达到1000cd/m2,最大的黑度值(屏幕能够表现的仅次于关闭状态的最暗的亮度)不超过0.05cd/m2。相当于20000:1的对比度,对应LCD显示技术。


或者

或者最低的最大亮度值达到540cd/m2,最大的黑度值(屏幕能够表现的仅次于关闭状态的最暗的亮度)不超过0.0005cd/m2。相当于1,080,000:1的对比度,对应OLED等自发光显示技术。

之所以分成两种标准,是因为主流的LCD与OLED显示技术的特性不同造成的。

LCD的背光不可能完全被关闭,液晶也不能完全阻挡光的通过,所以LCD的黑度没有办法达到很低,但是LCD的背光的亮度很高,所以还是可以实现高对比度的动态范围的。但是,因为普通的LCD的色域不够,而HDR往往不是一个单独的功能,而是与4K/广色域等功能绑在一起的,所以目前来看,只有量子点LCD电视/显示器才能够实现并搭载HDR功能。

OLED的最高亮度虽然无法做到像LCD那样高,但是因为是像素自体发光,可以做到对单个子像素亮度的精细控制,所以可以把黑度做的非常低,所以计算下来,对比度反而远远高于LCD,动态范围也要大得多。

其实增加亮度的范围也是可以增加颜色的,因为亮度也是颜色的一部分。在基础篇我们看过下面这个图

通过增加亮度的范围,可以在Z轴上增加色域。

2.至少支持10bit色深,内部芯片支持更高位的LUT以及浮点格式的编码。

原因前面都讲过。

3. 支持HDR解码标准(后面介绍)

C.尽可能将记录/生成的HDR信息转化为显示的HDR信息


上面说过,记录/生成的原始HDR的信息的动态范围是远远大于显示器可以显示的HDR范围的,这虽然也有显示器的能力的问题,但是更主要的原因是显示器不需要过于高的动态范围,因为截至目前,我们还是希望能够不需要调整瞳孔,一目了然的看清屏幕上的所有细节,如果过于真实的反映原始的动态范围,会造成观看者需要频繁的调整眼球,令人疲劳无法集中精力并即时获取信息。

但是,从记录/生成的角度来说,又需要把现场的所有信息尽可能的保存下来,不得不采用非常高的动态范围。

那么,记录/生成和显示之间,需要某种机制,使得两者能连接在一起,尽可能的将记录/生成阶段保存的高HDR信息转换成显示器能力范围内的HDR信息,同时尽可能保存人类需要的细节信息。更重要的是,要使得内容制作人想表现的色彩能够在显示器上得到更忠实的再现。

我们在前几个附录里讲过,在HDR技术之前,我们采用sRGB标准(附录7)来保证内容制作与再现的一致性。因为CRT显示器的物理原因,输入的电信号与输出的光信息之间存在一个非线性(幂函数)关系,这个关系会造成画面昏暗,所以sRGB采用Gamma Correction(附录6)的方式在内容制作的时候对信息进行预先反向纠正(编码)。(如果您没有读前面关于sRGB、Gamma的附录,下面的内容可能会比较难以理解)

后来发现,这种方式竟然还有一种“有损压缩”的副作用,在将信息从高位深转向低位深的时候,(因为四舍五入)可以减少人眼不敏感的高亮部分的信息,保留更多的暗部信息。再后来LCD取代了CRT,虽然LCD本身不具有CRT的非线性函数特性,但是为了与现有内容兼容,仍然采用了LUT的方式来模拟CRT的这种特性。

HDR技术和上面的过程非常相似。HDR也需要制定标准来保证制作的内容在终端播放的时候能够得到准确的再现。但是因为HDR内容是全新制作的内容,所以理论上HDR显示器已经不再需要模仿CRT的传递函数,但是这种指数型函数的副作用(“有损压缩”)却对HDR非常重要,尤其是在把高HDR的信息传送到HDR范围相对较低显示器上的时候,这种函数可以减少人眼不敏感的高亮信息,保留更多的暗部信息,从而有效的增加画面整体的细节信息,这种过程也叫做Tone Mapping。

上面看过的这个照片其实就是经过了Tone Mapping处理的,因为实际上原来中央部分的灯光要比现在要亮很多,只是考虑到我们一般的电脑或手机无法在那个亮度的区间展示出细节,所以把该区间的亮度降低,保留了细节。

在内容制作阶段把光的信息转换(编码)成电的信息的函数叫做Optical-Electro
Transfer Function(OETF)
。反过来在显示阶段,把电的信息再转化(解码)为光的信息的函数叫Electro-Optical Transfer Function(EOTF)。而把整个过程放在一起来看,从最初的的场景的光的信息到最后的显示器发出的光的信息,是一个从光到光的变化过程,这个过程中信息所经历的转换函数就叫做Optical-Optical Transfer Function(OOTF)。

所以其实sRGB的Gamma Correction只不过是OOTF的一个特例而已,编码函数Y = X0.51相当于就是一个OETF,而CRT自身的Gamma函数Y = X2.2则是EOTF,系统整体的Y = X0.51 x 2.2 ≈ 1.125相当于是OOTF。

HDR的标准目前有两种,他们都被包含到ITU-R
Recommendation BT.2100标准里,成为了国际标准。

一种是由BBC和NHK提出的HLG
(Hybrid Log-Gamma)
,主要是用于广播电视领域,其主要目的是保证广播电视节目的制作既能进入到HDR时代也能和现现有的显示设备兼容。因为是面向普通大众的广播电视领域,不能说标准升级了就可以让没钱换电视的人看不了电视吧?所以比起为新的HDR电视提供最好的显示效果来说,与现有的各种新旧电视的兼容性才是最重要的。所以该标准采用了相对较简单的指数型OETF的形式来进行编码,只不过这个OETF与传统的sRGB的Gamma不同,更加适合HDR的内容而已。如果接收信号的电视不支持HDR的话会自动把HDR相关信息忽略掉,还可以按照以前的方式继续收看,只不过画面颜色没有那么好看而已。另外,HLG并没有规定电视一定要有多高的亮度或暗度,而采用相对值来表示亮度,这样实际上展现的动态范围会取决于电视的物理能力。这是一个普惠型的标准,不收取任何的专利费。目前除了BBC和NHK以外,Youtube也采用这个标准。HLG标准信号的最高输入亮度是4000cd/m2,电视输出的最高亮度是1000cd/m2。

另一种标准是杜比Dolby提出的PQ(Perceptual quantization),主要用于电影、网络流媒体的视听,其主要目的是真实的还原视觉场景并为观看者提供最优秀的视觉效果。所以这个标准的重心在于如何能够按照内容制作者的意图,在符合标准的HDR电视上展现出准确的图像。所以,比起简单的指数函数,PQ的EOTF更加符合人的视觉特性,而且PQ会在显示信息中附上一个元信息metadata。这个metadata中就包含了内容制作者的意图(亮度、色域、动态范围、白点、EOTF等等)。符合HDR标准的电视可以解读这个metadata,再结合自身的情况,尽最大可能的再现内容制作者的意图。另外,PQ采用绝对值来表达亮度,保证(符合标准的)不同的电视输出同样的亮度。PQ其实只是一个基础标准,目前业界有几种不同的建立在PQ基础上的商用标准。其中主流的有杜比公司的Dolby Vision和HDR10/HDR10+。

HDR10在由美国Consumer Technology Association(CTA,就是举办CES的组织)提出的标准。这个标准基本上就是一个基础版的PQ,得到了大部分主流硬件和内容厂商的支持,这也是大部分的HDR内容都会支持的最基本的标准,包括微软最新的Xbox和索尼的PS4也都支持它。该标准要求使用10bit色深,ITU-R Recommendation BT.2020的色域,采用静态Static Metadata。输入信号的最高亮度是4000cd/m2,显示输出的最高亮度是1000cd/m2。

Dolby Vision由杜比公司开发,目前得到了几乎除了三星以外的所有硬件厂商和内容厂商以及流媒体平台的支持。该标准要求使用4K的分辨率,ITU-R Recommendation BT.2020的色域,12位的色深。输入信号的最高亮度是10000cd/m2,显示输出的最高亮度是4000cd/m2。Dolby Vision最大的特点是拥有HDR10所没有的动态Dynamic metadata,它的metadata不是简单的针对一个内容而制作的,而是针对每一个场景都有一个metadata,这样可以做到精细的调控不同场景的动态范围。如果只有一个metadata的话,电视/显示器只能根据最亮的那个场景来调整自己,但是这种调整并不一定适合这个内容的所有场景。所以Dolby Vision的显示效果要远远好于一般的PQ标准。但是Dolby Vision是收费的,每台电视大概不到3美元。收钱以后,杜比除了提供授权以外,还会提供很多技术支持大礼包,其实比较适合图像算法实力不够强的一些中国厂商,但是对于一些对自己的画面处理算法技术很有自信的公司来说,全盘接受杜比的大礼包会丧失自己的特色,这也是为什么索尼很晚才推出支持Dolby Vision的产品。


HDR10+是由三星和亚马逊开发的。该标准主要就是要挑战Dolby
Vision,因为三星不想让自己的电视受制于杜比而且还要给杜比专利费。现在已经得到了松下、飞利浦、二十世纪福克斯和华纳兄弟等硬件内容厂商的支持。该标准在HDR10基础上升级,对标Dolby Vision,增加了针对不同场景的动态Dynamic Metadata。如果使用这个标准,厂商无需支付授权费给杜比,但是世界上没有免费的午餐,加入HDR10+阵营的厂商之间需要共享相关技术。

在显示领域经常发生各种格式大战,这次厂商们也都在站队,目前来看Dolby Vision占据了人数的优势。不过Dolby Vision和HDR10+并不是互斥的两个标准,如果厂商愿意,可以同时支援两种标准。



我个人觉得杜比会最终赢得胜利,有以下几个理由:

1. 杜比与电影业界的渊源甚远,基本上所有电影厂商都支持影院版的Dolby Vision,所以杜比很可能会占据上游内容优势从而取得更大的优势。

2. 从下游讲,其他电视厂商不愿意受制于自己最大的竞争对手之一的三星。

3. 虽然Dolby Vision收费HDR10+免费,但是要和三星共享技术的可能不是很多硬件厂商愿意接受的条件。

4. 杜比的这种交钥匙型的标准非常适合广大的中国厂商,不用自己闭门造车调教画面。

5. 杜比的品牌在中国还是比较好卖的。

6. 索尼加入了杜比阵营,中国消费者对索尼大法有莫名的信仰,在中国这个市场成功就可以算是巨大的成功了。


附录12

显示接口分为连接主机和显示器的外部显示接口,以及连接显示器内部各种元件的内部显示接口。

外部显示接口


接口作为连接显示信息生成/播放设备与显示器之间的信息传递的通路,随着显示技术的发展也在不断发展着,迄今为止产生了很多不同的接口。


在初期,因为产业链整体缺乏统一的标准,接口市场群雄割据,标准不统一、互不兼容。哪怕是同样的播放设备和显示器,因为使用的接口不同,显示效果也可能会有差异。或者仅仅因为接口不同,造成本可以一起工作的设备之间无法连接。这无疑会对用户造成混乱、体验破坏以及资源浪费,非常不利于行业整体的发展。好在厂商们已经充分的认识到了这个问题,现在的发展趋势是越来越倾向于采用统一的兼容的接口的。

需要注意,一个接口的物理标准和通讯协议是两回事,虽然两者之间往往是有一定关联的,但这种关联不是必然的。同样的物理标准也可以采用不同的通讯协议,这就好比是人与人之间打电话,可以用中文交流也可以用英文交流一样。

一个现实的例子就是网线,对于大多数人来说网线可能只是用来连接网络的。但是其实如果网线还可以用给设备供电,如果采用HDBaseT协议甚至还能传送高清影音。

下面就让我们对主要的接口进行简单介绍。

模拟信号:复合信号Composite Video


首先,前面我们讲过,从机械电视开始的模拟电视主要通过无线电来发送信号,这个信号是一个一维的信号。因为最开始的电视是黑白的,所以其实只含有一个明暗信息。后来彩色电视出现以后,为了让黑白电视还能继续收看,还是保留了这个明暗信息,同时在信号里混入入了只有彩色电视才能识别的颜色信息,这样黑白和彩色的电视可以从同样的信号里各取所需。这种视频信号就叫做复合信号Composite Video

早期的接口也都采取了这种设计。

· F型连接头 F Connector:

· Belling-Lee 接口:

这两种接口在旧的电视上很常见,采用同轴线材,主要用于连接无线天线、有线电视、卫星电视信号等。传输的信号基本上和无线电视的无线电信号是一样的模拟信号。


· RCA端子 RCA Connector:

这种接口的名字来自Radio
Corporation of America,一开始用来传输音频信号的。因为设计简单,成本低,后来用途越来越多,也逐渐开始被用来传输模拟复合视频信号的。很多早期的影音设备包括录像机、摄像机以及家用游戏机等都采用了这种接口。

模拟信号:分量信号Component Video

但是,因为明暗信息与颜色信息毕竟是两个信息,将这两个信息混合在一起传送,其实是有相互干扰的。无线电视信号里的两个信号的频率差是经过计算以后巧妙安排的,在可能的范围内把干扰控制在最小的程度。但是,干扰毕竟还是存在的,随着家庭娱乐需求的增加,人们对画质的要求越来越高,把这两种信号分开传送的方式就自然而然的出现了,这就是分量信号Component Video

把明暗信息和颜色信息分开还有一个好处,人眼对于明暗更敏感,对颜色less敏感,所以将两者分开,可以单独对颜色进行有损压缩,这样减少整体的存储和传输成本的同时,基本不太损害人类的视觉体验。


· S端子 S-Video



S-Video其实就是Separate Video,在家庭影音设备种很常见。这种接口把明暗和颜色分到两条线来传输,可以实现更好的画质。


· 色差端子 YPBPR

这种接口在S端子的基础上进一步的对颜色信号进行分拆,使用三条线RCA线,实现了更好传输质量。线的数量的增加使得传输信息的带宽也得到了大幅提高,甚至可以传输高清HD的画面。

三条线中,Y线代表明暗,是RGB三种颜色的和,Y = 0.2126 R + 0.7152 G + 0.0722 B。PB线负责传输蓝色与明暗之差(B-Y),PR线负责传输红色与明暗之差(R-Y)。

这种方式和我们之前介绍过的YCBCR基本相同,只不过YCBCR更多的是指数字方式,YPBPR用来指模拟方式。也可以用YUV来统称所有类似的方式。


· VGA端子 VGA Connector

这种接口也叫D-subminiature(D-sub),其实是D-sub的一种DE-15。这种接口是在个人电脑上得到大量使用的接口,由IBM在1987年推出VGA显示标准的时候采用并推广。VGA标准本身包含显卡、显示器以及显卡和显示器之间的接口。当时IBM可是非常牛x,IBM说啥大家就都跟着搞啥。


前面几种标准都是为了电视或者家庭影音环境所开开发的,实际上并不适合个人计算机。因为此前的视频内容的主要展示终端是电视屏幕,所以整个产业都是围绕着电视机来转的。考虑到信号最后要以明暗/颜色(因为要兼容黑白电视)的格式被传送出去,所以摄像机/照相机、编辑设备以及存储设备产生的内容格式都是符合这种标准的。

但是计算机不一样,计算机没有这种历史负担。当时主流的CRT电视/显示器的核心的电子枪本身就是采用RGB信号的,收到明暗/颜色信号以后还要再转化为RGB信息。为什么不直接输出R、G、B信号呢?

此外,其实在电视信号里,除了明暗和颜色以外,还有同步Sync信号,用于告诉电视/显示器现在的信号位于屏幕的哪一个位置,哪一行哪一列。这个Sync信号在复合信号里被和明暗/颜色混合在一起,在分量信号里被混合在明暗信号里。VGA端子把这个Sync信号也分离出来,分成一个横向同步和一个纵向同步,这样进一步的减少了信号之间的干扰,同时也增大了明暗信号的传输速率。


VGA端子输出模拟信号,但其实在VGA之前的计算机用的显示接口大部分都是数字的,这是因为计算机本身是数字的。但是,因为当时的主流显示技术CRT本身是模拟的,所以VGA之前的接口都要求在显示器端有数字模拟转换DAC装置,这对显示器厂商是一个负担,IBM把这个功能标准化以后集成DAC在电脑主机上可以强迫显示器厂商跟进,同时可以降低整个行业的升级成本。

所以,VGA是非常适合当时个人计算机对显示的需求的,它也为个人电脑的大发展做出了很大的贡献,而且随着用户需求的提高而一直在得到更新和改进。然而,虽然VGA标准本身没有任何带宽上的限制,理论上也可以传送高清甚至4K画面,但是因为模拟信号不抗干扰,随着分辨率和色深的提高,数据量越大的,画质就越差,不能承担传输更好画面的任务。

同时,以液晶显示器LCD为代表的的平面显示器开始兴起。这种显示器内部采用的是数字的方式来处理信号(只有最后发送到每个像素的电压信号是模拟的),所以实际上对液晶显示器来说,还要再把RAMDAC从数字转换来的模拟信号再重新转化为数字信号,然后最终再转化为模拟信号发送给像素,这种多次反复的转化对画质的影响很大,使得液晶显示器无法发挥自己的潜力。

所以,业界急需一种新的数字信号的标准,显示接口再次回到了数字时代。


数字信号


· DVI Digital Visual Interface

虽然业界对于数字接口有着非常迫切的需求,但是当时世界上还存在着大量的CRT显示器,显卡公司们是不敢贸然提供只支持数字信号的接口来放弃现有的用户的,所以新的数字接口必须能够同时兼容VGA模拟信号。当时很多公司和组织都在积极的发表新的标准。典型的例子有National
Semiconductor(NS)的OpenLDI(Open LVDS Display Interface)标准和VESA(Video
Electronics Standards Association)的Plug & Display标准。

National Semiconductor(现在已经被德州仪器收购)在1992年以一种叫做LVDS(Low-Voltage Differential Signaling)的技术为基础为苹果电脑开发了一种新的技术,采用两条线来传输数字信息,传输快、带宽高、用线少、结构简单、成本低廉,能够在液晶显示器内部的控制芯片和面板之间提供更高的通信速度,实现更高的分辨率与更大的色域。NS把这种技术命名为Flat Panel Display Link(FPD-Link)并免费开放,很快这种技术就成为了屏幕显示器内部的通用通信标准,同时也成为连接笔记本电脑主机与显示器的通用标准,一直到现在仍然被大量采用,刚刚才出现一点被替代的迹象。另外在汽车信息娱乐Infotainment系统上,作为连接屏幕与处理器的接口,FPD-Link的后续版本至今仍然被大量采用。

所以很自然地,NS希望把这种技术也推广到显示器与电脑主机之间连接的接口上。但是LVDS的问题是不太适合较长距离的信号传送,需要时间对技术进一步改进。

另一方面,在1987年IBM推出VGA标准以后,很多第三方兼容显卡的生产公司组成了一个行业联盟,叫做VESA(Video Electronics Standards Association)。牵头的是当时还很厉害的NEC(日本電気株式会社)。这个组织成功的推动了很多基于VGA标准的改进与升级,并制定了很多影响深远的行业标准,包括显示器后面螺丝的间距、显示器与显卡之间的简单信息交换方式以及后来发展迅速的DP接口等。在初期,VESA的创始成员公司都是像ATI这样的显卡公司,那个时候的显卡公司可没有现在NVidia这样牛x,无数个小公司各立山头,没有什么大的市场影响力。但是后来越来越多的电脑整机公司也加入VESA,希望把VESA做成在显示领域能够代表电脑硬件厂商共同利益、起到协调作用并规范行业标准的一个组织。

在个人电脑初期阶段,各种外设的接口标准也十分不统一,电脑业界一直有一个梦,希望使用一个统一的接口连接所有的鼠标、键盘、音箱、打印机等等外设。于是在1994年Intel、IBM、Compaq、DEC、微软、NEC和Nortel一起制定了USB标准。这个VESA也有一个梦,就是要把显示器作为桌面电脑的核心,主机与显示器靠一条线连接,然后其他所有外接设备都通过USB等接口连接到显示器上,再通过这显示器与主机的连线与主机通讯。这也就意味着,这条显示器与主机的连线需要能够传输数字信号,好像下图一样。



VESA的这种想法其实是可以理解的,当时的电脑主机很大,放到桌面上不方便,各种外设连接到主机上其实很麻烦,桌面也不整洁,如果都连接到显示器上,其实更方便插拔等操作,其实是很make sense的。于是1994年VESA发布了Enhanced Video Connector接口,这个接口虽然还是传送兼容VGA的模拟视频信号,但是同时也可以为各种外设传送数字信号。

然并卵,这个标准,没有取得成功,这是因为当时大家的点不在那里啊,大家迫切需要的是一个可以更快更好的传输数字信号的接口标准,不是一个什么都能接入的接口。因为这种需求的存在,很多公司都在研发相关技术。有一家1995年才成立的叫做Silicon Image(现在已经被Lattice Semiconductor收购)的初创公司提出了一个技术解决方案,叫做TMDS(Transition-Minimized Differential
Signaling)
这个技术和LVDS在物理层面上有些相像,但是在通信协议上则完全不同,它采用了IBM的8b/10b的编码方式,可以减少信息的错误的产生并支持更长的线缆长度,包括USB3.0在内的很多后来的高速接口都采用了这种编码方式。

1997年,Silicon Image把这个技术商用化,命名为PanelLink并开始销售,因为实际效果很好,在市场上颇受欢迎。

于是VESA马上找到了Silicon Image谈,你太小,没能量,搞不起来,交给我来搞,做成行业标准,肯定搞大.于是VESA拿到授权,并立刻推出了自己的基于TMDS技术的标准Plug and Display

Plug and Display的外形还是沿用类似Enhanced Video Connector的设计,但是不再只传送模拟视频信号了,而是具有了传播数字视频信号的功能。而且它不忘初心,还是具有连接各种外设的功能。其实这样会造成整个接口物理造价很高。另外,本来TMDS是支持两条通路Dual Link来高速传输数据的,因为其中一条被Plug and Display用来传送各种外设的数据,导致显示的带宽被牺牲了一半,所以能够传输的最高画质被大幅打折,所以市场不是很欢迎。

这时,之前一直没有发声的Intel站出来“主持公道”了。英特尔一边肯定Silicion Image的技术的先进性,同时“高瞻远瞩”的指明了发展方向,另一方面召集了包括HP、富士、IBM和NEC等主机厂商小伙伴,成立了一个新的组织叫Digital Display Working Group(DDWG)DDWG在1998年公开宣布支持Silicon
Image的技术,并将其做出一定改进以后,命名为Digital Visual Interface并开始推广。


一方面,Image Silicon的技术本来就好,但是VESA等公司一直抓不到市场痛点,没有物尽其用。Intel则一针见血地指出市场的根本需求:兼容VGA信号的高速可靠的数字接口。

其次,Silicon Image这个小公司自己无法主导大局方向,前途有风险,又急需把研究成果变现,非常需要一个大腿

第三,Intel当时市场地位很高,如日中天,有号召力。

第四,对于Intel来说,比起VESA那帮人,Silicon Image这个小公司听话好控制。实际上,经过私下安排,Silicon Image把技术免费拿出来给DDWG使用,但是保留专利权,从而向购买自己生产的DVI芯片的显卡/显示器厂商收取专利费。而且,他们还让Intel白菜价入股自己,这样Intel表面上没有从DVI标准上赚钱,实际上却从Silicon Image的收入中获取股东分红。然后安排Silicon
Image在下一年(1999年)在纳斯达克上市,开盘当天股价翻了两倍多,英特尔赚了十几倍都不止。。。

整件事情各种一气呵成,各种恰到好处。


看到英特尔这么顺风顺水,很多人都很眼红。1999年Compact又联合VESA紧急推出了简化版的Plug & Display,叫做DFP(Digital Flat Panel),只保留了显示功能,但是仍然抓不到关键点,还是Single Link,带宽还是只有一半!当时VESA已经看清形势非常不利,在发布DFP的时候说:“可能整机厂的梦和我们的不太一样吧,他们希望所有的接口能统一在主机上而不是显示器上。关于DVI,我们对与DDWG合作定义未来数字接口感兴趣。”相同时期,NS和德州仪器联手也终于成功的把FPD-Link改进并发布了OpenLDI规格,但是这时已经为时太晚,大局已定。


DVI也不辱使命,成功的为电脑进入数字时代、HD时代保驾护航,直到现在仍然是在电脑上比较常见的主流接口之一。

但是DVI的缺点也有很多:

1. 子标准太多,互相之间的兼容性不好。

2. 没有严格的产品认证,好多不符合标准的产品充斥市场。

3. 这个标准只考虑到了个人电脑的需求,只能传输视频信号,不支持音频音频,也不支持类似于YUV这样的亮度/颜色信号,无法满足电影/电视业界以及家庭影音的视听需求。

4. 接口实在是长得太大了

5. Intel跨越行业组织,又自己吃独食,不厚道,小伙伴都不愿意和它玩了,导致DVI标准一直得不到任何更新,停止在1.0版,DDWG也很快就解散了。此事使业内更加深刻的认识到公开公平的行业共同组织与开源免费标准的重要性。



· HDMI High-Definition Multimedia Interface

DVI给计算机显示器带来的巨大提升使得电视、DVD播放器等产商迅速跟进,推出了采用DVI的产品,但是没有高清的视频内容。这是因为,视频信号实现数字化传输,就意味着内容可以被完美复制。所以,包括好莱坞在内的上游内容公司非常担心版权保护的问题,如果没有一个完善的保护机制,他们是不愿意制作高清的视频内容的。

因此,Intel引入了对HDCP(High-Bandwidth Digital Content
Protection)机制。HDCP是英特尔主导的版权保护系统,可以防止内容被非法录制,播放端和显示端都必须支持这个标准才能够播放有版权的内容。这个机制立刻得到了包括福克斯、环球、华纳、迪士尼在内的上游内容厂商的积极支持,同时美国各大有线电视公司也都纷纷发来贺电表示拥护。

然而,DVI标准本身因为上面所说的各种缺点,不是特别适合家庭影音环境,市场急需一种能够满足家庭影音需求的接口。

2002年,日立、松下、索尼、东芝、飞利浦、汤姆逊等家电巨头迅速找到Silicon Image,要求共同开发一款以DVI为基础的更适合家庭影音的标准。这个标准就是HDMI。HDMI和DVI同样也采用TMDS技术作为底层,并保证对DVI标准的兼容。在此基础上,HDMI解决了DVI接口的各种缺点。


1. 接口物理上比DVI小得多,使其更适合家庭环境的美观需求。而且有各种大小,适合不同的需求。

2. 设计上充分的预留了未来带宽提升的发展空间。

3. 完全去掉了对模拟信号的支持。

4. 加入了对电影电视内容常用的YUV类型色彩空间的支持(YCbCr 4:4:4和YCbCr 4:2:2)。

5. 加入了对包括杜比和DTS在内的高保真HD音频信号的支持。

6. 加入了CEC(Consumer Electronics
Control)功能,用户可以用一个遥控器来控制所有支持CEC并通过HDMI连接在一起的家电,比如功放、蓝光DVD机和电视。

7. 加入了ARC(Audio Return Channel),此功能可以让电视把声音再传给音响。因为正常的顺序是,音频和视频内容从蓝光DVD出发到音响再到电视,音响负责声音,电视负责影像,这是一条单向的通道。但是如果只是看电视节目,想用音响来听声音的话,需要再用一条线把电视和音响连接起来。然而,这样首先很麻烦,或者电视很可能没有音频输出功能,或者音响的音频输入通道已经被占用,此时ARC可以用一条HDMI实现从电视到音响的反向音频数据传输解决这个问题。

8. 加入了HEC(HDMI Ethernet Channel),此功能可以让HDMI拥有网线的功能。

9. HDMI加强了对兼容产品的认证测试,使得产品质量得到保证。

10. 诺基亚、三星、索尼、东芝又和Silicon Image一起开发了一个叫Mobile High-Definition Link(MHL)的标准,这个标准可以让手机也能输出HDMI信号到支持这个标准的电视/显示器上。


这么多的优点使得HDMI各种蓬勃发展,迅速得到普及。整个电影电视产业以及家电产业都对其给予大力支持,截止2013年初HDMI10周年之时,HDMI
Licensing, LLC公布说全世界已经有30亿个支持HDMI的产品。


这个HDMI
Licensing, LLC
是HDMI创立成员们用来共同发展HDMI标准的组织,同时也是用来收钱的工具,每个要生产HDMI设备的公司都要交钱。每年10,000美元年会费,同时每个产品还收0.15美元,如果印上HDMI标志就只收0.05美元,如果支持HDCP就只收0.04美元。每年产品产量少于10000台的只收5,000美元年会费加上每个产品1美元的专利费。这种就是躺着赚钱咯,虽然一共可能没有多少钱。


但是,这个毕竟是一个封闭的组织,历史证明,所有封闭的标准的下场都不太好,尤其是当一个开放的竞争对手出现以后。电脑硬件业界在DVI“失败”以后并没有放弃,2006年VESA又发布了新的Displayport标准,得到了很多硬件厂商的支持,对HDMI造成了威胁。所以2011年,HDMI Forum HDMI论坛成立了,所有的关于HDMI标准的制定和更新都由这个论坛来决定,任何公司只要交年费就可以成为会员,参与到HDMI标准的发展中。

目前HDMI的最新版是2.1版,最高可实现每秒48G的传输速率、16位色深、BT.2020色域、10K@120Hz、动态HDR。


· DisplayPort(DP)

DVI标准以后,很多小伙伴都不和Intel玩了,但是Intel“不忘初心”,再次联合Silicon Image要推出一款新的接口叫UDI(United Display
Interface),其实还是基于之前的技术,基本上是旧瓶装旧酒,貌似唯一的优点就是成本比DVI低,但是功能和潜力也都下降,市场并不是很买账。于是Intel又拉上了三星、LG以及苹果和NVidia一起支持UDI标准,但是其实大家都不是很上心,很快就没有下文了。

上面说过,电脑整机厂商一直都有一个梦:希望使用一个统一的接口来连接所有的设备”。而依靠HDMI和DVI并不能实现这个梦。因为要想统一:


· 首先需要行业内的主流公司都参与进来。

· 其次需要统一的通信方式。

DVI和HDMI都是基于TMDS技术,都要支付专利费给Silicon Image,而且都是由业内少数公司主导的标准,没有整个业界的共识,没有VESA这样的行业组织的认证。而且TMDS技术是以帧为单位传输,没有完全脱离传统模拟视频传输的思维模式。要想把显示接口与其他设备的接口统一,必须要让显示接口也和其他接口一样,完全以“普通数据”的方式传输信息。因为其他外设基本上已经被USB标准统一了,一旦显示信息也数据化的话,只要把USB接口和显示接口从物理上统一,理论上就可以实现所有外设接口的大一统了。

幸好的是,之前惜败于DVI的LVDS技术并没有完全死亡,DELL在2003年开始基于LVDS技术研发一种叫DisplayPort的协议,并于2005年把这个协议提交给VESA,2006年VESA正式发布了DP标准。这个时候的VESA已经不再是显卡公司的组织了,包括戴尔、苹果这样的电脑整机厂商都加入了。DP不需要TMDS或者LVDS那样特殊的逻辑协议,工作方式就像网线一样,把信息打包成一个一个小的数据包传送。这样的好处是可以像网线一样同时传输很多不同的数据,不仅可以同时传输多组低频信号,而且可以和其他设备的数据混在一起传输。这个标准很快就得到了业界的积极响应,

DP从设计初期开始,综合到考虑到过去各种标准的问题、对现有显示器的兼容以及未来扩展升级的需求等方面。而且不仅仅从外在为“一个接口所有设备”的宏伟事业做准备,还同时包含了取代现有笔记本电脑内部的FPD-Link(也是LVDS技术)连接的标准,使得信息从显卡出来以后可以以同样的形式,一条直线到达T-CON,中间无需再经过协议的转换。而且DP线的传输效率要远远大于FPD-Link线,20条FPD-Link线才能做的事情,4条DP线就可以完成。采用DP线可以让显示器和笔记本变得更加轻薄。目前很多笔记本和高端的显示器都开始在内部连接上采用DP技术,但是大部分的中低端产品还是更喜欢传统FPD-Link的简单与低成本的优势。然而,随着显示器分辨率、色深以听从及刷新率的提高,FPD-Link会越来越力不从心,预计越来越多的产品采用DP标准。


除了上述的优点以外,DP的其他优点还包括:

1. DP是免费的,除了一个很低的入门会员费以外,不收取任何专利费。

2. DP显卡兼容现有的HDMI和DVI接口的显示器,只需要简单的转接头。(但是反过来不行)

3. DP得到了行业的普遍支持,其标准可以得到持续的更新。

4. DP传输的是纯数据,所以无论是无线还是光纤都可以用来获得更远的传输距离。

5. DP可以用来从显示器获得数据,比如触摸屏的反馈信息。

6. DP也支持版权保护的HDCP。

目前最新版的DP是1.4版,最高支持每秒25.92G的传输速率、10位色深、BT.2020色域、8@60Hz、动态HDR。从数据上看起来不如HDMI最新版,这是因为HDMI最新版是2017年11月发布的,DP1.4版则是2016年3月发布的。目前DP正在准备新的标准,预计可以达到每秒64.8G的速率。


现在DP的扩张的速度非常快,最新的电脑整机和显卡基本上都支持DP或者只支持DP了,但是还是没法渗透进入家庭影音领域。这是因为HDMI的创立者和支持者们都是家电影业的厂商为主,客观上来说,家庭影音以视听为主,没有很多的数据需求,而从目前来看HDMI在这方面毫不逊色于DP,何况HDMI还有ARC等更适合家电的细节优点。既然如此,大家也就没有什么动力来接受新的标准。

我认为相当一段时间内两者会共存,最终的结果要看电脑、家电与移动设备之间和熔合的情况。我预计,最后随着家电产品的电脑化,以及移动产品的家电化,很有可能DP标准会取得最终的胜利。虽然未来总是不确定的,但是有一件事是可以确定的,那就是Silicon
Image的股价,随着DP的发展,他们的股价就一路向下,再也不回到当时跟着Intel呼风唤雨的好时节了,最后被然后被Lattice
Semiconductor收购,不过创始人早就退休当天使投资人了,不要太幸福



· Thunderbolt/USB-C


因为DP与生俱来的可扩展性,很多电脑整机厂商从战略的角度非常积极的拥抱它。苹果在2008年开发了Mini DP标准,并迅速代替DVI接口,投入到自己的所有产品线里,尤其是笔记本产品。因为Mini DP接口可以让笔记本做的更轻薄,很快其的笔记本公司都开始跟进。

但是苹果采用Mini DP可不是仅仅把电脑外形变小这么简单,苹果是要实践“一个标准所有设备”的梦想。很快,Intel主导,苹果协助的Thunderbolt接口标准被发布了,这个接口采用了Mini DP的物理外形结构,但是实际上是合并了DP与PCI Express(Peripheral Component
Interconnect Express)
两个接口与一身的。PCI Express接口是可以直接连到CPU的电脑内部的核心接口,显卡就是通过这个接口和CPU对话的。这样的整合实际上是把显示接口与其他外设都直接与电脑内部最核心的接口相连接。这个接口可以连接支持Thunderbolt标准的各种外设,包括但不限于外部存储、声卡、网卡甚至外接显示卡。

后来随着USB标准进入第三代,最新的USB-C的外形标准也被发布了。USB标准本身的速度越来越快,也成了除显示器以外所有电脑外设的标准接口。为什么不能把显示接口也和USB接口合并呢?当然可以!


从2014年开始,DP、MHL、Thunderbolt、HDMI与USB-C兼容的协议陆续被发布,也就是说可以用USB-C外形的接口来传输DP、MHL、Thunderbolt和HDMI信息了。其中DP、MHL和Thunderbolt的兼容协议很容易也很快的就被实现,这是因为MHL本身就是USB接口,而DP和PCI Express都是纯数据接口,他们和USB3.0以上版本用的SuperSpeed技术的方式非常相似。HDMI的兼容协议来的相对较晚,但是现在也可以实现了。2015年末,Intel发布了新的Thunderbolt 3标准,这个标准采用了USB-C的物理外形,可以传送PCI Express信号、DP信号、USB信号。



随着移动设备的蓬勃发展,越来越多的终端采用USB-C接口,最后很有可能会导致家电厂商不得不接受这个“物理外形”的标准,从而起码在“模样上”实现各种接口的大一统。

· DSI Display Serial Interface

上面说的都是电脑系统里的主机与显示器之间的接口,而在手机等移动设备上,现在最常用的则是MIPI联盟(Mobile Industry Processor Interface Alliance)发布的DSI协议与M-PHY/D-PHY/C-PHY接口。

MIPI联盟是在2003年由ARM、英特尔、诺基亚、三星、意法半导体和德州仪器共同创立的一个全球的开放组织,其主要目的就是发展移动生态环境的接口标准。经过十几年的发展,目前在全球已经有250多个会员公司,而且随着移动生态的发展,MIPI制定的标准已经进入到了人工智能、物联网、虚拟与增强现实、汽车、照相机、工业电子与医疗设施等等领域。

MIPI将接口的物理标准与其传输协议分开定义。目前MIPI规定了三种物理标准,分别是M-PHY、D-PHY和C-PHY。其中M-PHY传统上是用在当做芯片与芯片之间的高速数据传输,而D-PHY则被用来连接摄像头与主芯片组以及显示屏与主芯片组。后来MIPI又在D-PHY的基础了,发布了同样用途的C-PHY标准,可以算是对D-PHY标准的升级。



而在连接显示屏与主芯片组的时候使用的传输协议就是Display Serial Interface(DSI),这个协议具有高速、低耗能以及低干扰的特点,能够在性能和节电两种模式中切换,非常适合在移动设备上使用,所以在很多手机、可穿戴设备、物联网、虚拟现实以及车载智能系统上得到了应用。DSI一代只支持D-PHY物理接口,但是DSI-2代就可以同时支持D-PHY与C-PHY了。DSI-2可以提供更高的分辨率的同时比一代更抗干扰。

MIPI后来又引入了UniPro的概念,这是一个长期的具有战略意义的概念,建立在M-PHY的物理标准上,核心思想是把所有的移动设备的组件,比如照相机、显示屏、存储设备等等,看作是连接在一个网路上的终端,大家在一个网络里交换数据,虽然各自有各自不同的功能,但是都可以通过UniPro这个共同的协议来互相沟通。这样移动设备未来就可以像搭积木一样,把不同的组件直接组合在一起就可以使用了。因为DSI协议也是和DP一样是把显示信息打包成小的数据包来传播的纯数据协议,所以完全可以融入到这个框架里。我们可以让显示屏通过DSI-2和UniPro沟通,再通过UniPro与GPU/CPU沟通。


UniPro架构不一定会马上取代现有的专用接口的形式,因为很多中低端产品的显示屏不具有那么高的传输速度的要求,没有必要做的十分复杂。但是随着人们对移动设备的显示效果的要求越来越高,现有的D-PHY/C-PHY标准不一定能够支持那么大量那么高速的数据传输,届时就不得不采用以M-PHY为基础的UniPro架构了。事实上,现在摄像头的像素越来越高,单张照片容量非常大以及快速连拍需求、4K视频拍摄需求等,数据量非常巨大,不得不采用CSI-3协议结合UniPro通过通过M-PHY标准传输数据。另一方面,将照片等数据快速存储到闪存芯片里所需的UFS协议也是建立在UniPro协议之上的,所以把DSI也建在UniPro之上也很可能成为一种趋势。



显示器内部的接口标准们


Receiver在从主机接收到信息以后,会把信息发送给T-CON处理,T-CON再把任务分拆以后发送给Gate IC与Source IC。Receiver与T-CON之间也有一个信息的通道,T-CON与Gate/Source之间也会有一个信息的通道。这些信息的通道都有着各自的通信方式与标准。

在Receiver和T-CON之间使用最多的标准是我们上面提到过的LVDS(包括FPD-Link等),所以Receiver和T-CON之间还需要一个能够把输入的信号转化为LVDS信号的LVDS转换芯片(含Transmitter),然后在T-CON处还需要一个能够接收LVDS信号的LVDS Receiver。因为LVDS标准已经落后,无法满足现在的高分辨率高色深高刷新率“三高”时代的数据传输速率的要求。所以市场上出现了很多新的标准,主要有eDP、iDP和V-by-One HS等

这些新的标准比起传统LVDS的优势在于单线的传输速率快,传输协议更优秀,所以同样的传输带宽只需要很少的线就可以完成,在物理上大幅减少电线占据的空间。

eDP标准,作为DP标准的延伸,主要被用来连接笔记本电脑主机部分的显卡和位于显示器部分的T-CON。eDP因为可以从显示卡输出到T-CON,中间不用再经过一个单独的Receiver和LVDS信号转换芯片,又同时因为传输速率大幅快于LVDS,可以减少使用的连接线的数量,所以可以大幅节省笔记本电脑中宝贵的空间。比如下面就是一个典型的笔记本电脑显示器的数据走向图。


iDP由意法半导体和LG Display共同开发,并经VESA认证发布,主要被用于数字电视内部的图形处理器与T-CON之间的信息传输。

V-by-One HS则是由Thine半导体开发的一个标准,单线的传输速率是最快的而且可以配套自家的T-CON到Driver的连接标准。


在T-CON与Gate/Source之间的信息传输以前也是以LVDS为主,现在比较流行的则是LVDS的升级版,主要是mini-LVDS(by德州仪器)和RSDS(Reduced
Swing Differential Signaling by国家半导体)。这两种规格现在也渐渐落后了,取而代之的是Advanced PPmL(Point to Point
mini LVDS)以及V-by-One HS的配套标准CalDriCon。所以在T-CON处需要有一个输出mini-LVDS/RSDS/CalDriCon/Advanced
PPmL信号的Transmitter,而在Source/Gate
IC那里则需要有相应的Receiver。


除了上述标准之外,各家DDI公司和面板公司也会采用很多自己专门的标准,比如LG就有EPI(Embedded Panel Interface)和CEDS(Clock Embedded Differential Singaling),台湾谱瑞则有自己的SIPI(Scalable Intra Panel Interface)。这些标准除了传输速度更快以外,都能较好的配合自家的产品把DDI做得更小。


上面说的都是显示器或者电视的情况,手机则稍微有点不同。手机因为各种芯片的功能更加集中,CPU/GPU以等全部相当于电脑主机的芯片都集中在了应用处理器AP(Application
Processor),而DDI也是一个芯片集合了所有的功能。所以信息从AP出来以后以后会直接通过MIPI DSI接口进入DDI,而DDI直接就可以控制TFT了,不需要那么多的接口。

编辑于 2018-02-06

文章被以下专栏收录