首发于理性派HiFi
HiFi真的就不好听吗?“好听”和高保真的关系。

HiFi真的就不好听吗?“好听”和高保真的关系。

视频版讲解:

https://www.bilibili.com/video/av68503660/www.bilibili.com

其实这个问题我早在年初的视频中就曾提到。

而本篇文章作一个系统性的总结。当然,本文只讨论电声器件而不是功放/耳放/播放器。

先说音箱。

这是Sean Olive博士在2004年所做的一个我认为可以用伟大来形容的实验。当然,本实验更多所讨论的是HiFi音箱而不是多媒体音箱。并且只讨论音箱本身对人主观听感的音箱,房间环境和摆位等是相对理想的。

我们先从失真说起。

有一种谣传,那就是“失真越低越真实,但是不好听;失真高但是好听”。

粉色曲线为主观感知失真评分,分数越高代表失真越小;紫色曲线代表主观偏好评分,分数越高代表越好听。

其实我觉得我已经不需要再搬运任何统计学计算的结果,单单从这两个曲线的走势就很容易看出失真和主观评分之间的关系。即失真的分数越低,失真越高,主观评分越低。(主观偏好评分即老烧所说的好不好听,下文不在赘述)

但,事情并没有这么简单。

Sean Olive博士发现人在对音箱的主观失真打分时,存在光环效应(Halo Effect)。在去除掉光环效应的影响后,有如下结论:

1. On average, the speakers with the highest preference ratings had lower percentages of measured distortion.
2. The correlations with subjective distortion ratings are not very high, on average less than r = -0.50. None were statistically significant.
3. The percentage of 3rd harmonic distortion shows slightly better correlation with the subjective distortion ratings than 2ndharmonic (r = -.56 versus -0.4).

  1. 平均而言,主观评分最高的音箱拥有较低的测量失真。
  2. 测量失真和主观听感失真的相关性并不是非常强,平均而言,不到r=-0.5,不具有统计学意义。
  3. 3阶谐波失真相比于2阶谐波失真和主观听感失真具有更好的相关性。

关于平衡度的实验

平衡度更通常的说法是三频均衡,但是为了更深入的探究,Sean Olive博士把20~20kHz分为了更多的频段,以探究平衡度对于人耳听音的主观偏好的影响。

Fig. 7 shows the mean spectral ratings and 95% confidence intervals in each frequency band for each of the 13 loudspeakers. First, the negative ratings in frequency bands 1 and 2 indicate that listeners felt all 13 loudspeakers had insufficient extreme lower and upper bass, some more than others. In band 2 (centered on 64 Hz) there was a wider variance in scores indicating speakers differed more in this range. Many loudspeakers were judged to have too much energy in bands 5 (2.9 kHz) and 6 (10.1 kHz). The largest variance in ratings among loudspeakers occurred in band 6, suggesting the perceived treble balance or brightness varied widely among the 13 loudspeakers.

图7示出了13个扬声器的每个频带的平均平衡度主观评分和95%置信区间。首先,第1和第2频段的负面评价表明,听众觉得所有13个扬声器都没有足够的超低频和低音。在频带2(以64Hz为中心)中,分数的差异更大,这表明扬声器在这个范围内的差异更大。许多扬声器被认为在第5频段(2.9kHz)和第6频段(10.1kHz)能量过多。扬声器之间的主观评分最大的差异出现在第6频段,这表明在13个扬声器中感知高音平衡度或亮度差异很大。

An interesting trend is that the lowest variance in spectral ratings occurred with band 3 (227 Hz), and to a lesser extent, band 4. One possible explanation for this is that listeners may use this band as an anchoring or reference point for judging the balance of the loudspeaker. This seems logical since the harmonic fundamentals of many instruments, including voice, fall within this range.

一个有趣的趋势是,平衡度评分的最低方差出现在频段3(227Hz),较小的方差上出现在频段4。对此,一种可能的解释是,听音者可以将该频带用作判断扬声器平衡度的锚点或参考点。这似乎是合乎逻辑的,因为包括声音在内的许多乐器的基频都在这个范围内。

这里我补充一下,以我80多年的专业调音经验,这个假设是合理的。因为C大调的DO是261.63Hz,人们通常会以C大调为平衡度/三频均衡的参考点而不是1kHz。1kHz只是测量的参考点,不是人主观听感的。Sean Olive的耳机预测算法也不是以1kHz为参考点。所以说,怎么看频响曲线真的是一门学问。

Finally, there appears to be a relatively strong relationship between the spectral rating and preference. Keeping in mind that the loudspeakers L1-L13 are labeled in descending order of preference, Fig. 8 plots the spectral ratings of the five most preferred loudspeakers and Fig. 9 the bottom 8. The more preferred speakers tend to have spectral ratings that on average fall close to 0 (ideal balance). For more clarity, the spectral ratings are plotted in separate graphs for each individual speaker in appendix 3.

最后,平衡度评分和主观偏好评分之间似乎有一个相对较强的关系。记住,扬声器l1-l13是按优先顺序降序标记的,图8描绘了五个最优先扬声器的频谱额定值,图9描绘了排名后8个。更受欢迎的音箱倾向于拥有平均接近0(理想平衡)的平衡度评分。为了更清楚地说明问题,在附录3中,将每个扬声器的平衡度分数绘制成单独的图表。

主观平衡度和主观偏好评分之间的关系

The relationship between the loudspeakers’ preference and spectral ratings was examined in a more quantitative manner. The Pearson correlation coefficient was calculated for loudspeaker’s preference and spectral ratings. This was done separately for each of the 6 spectral bands, and by calculating the absolute mean deviation across all 6 bands. A third correlation was calculated based on the difference in ratings or range between band 1 and 6 and band 1 and 5. This metric is related to the perceived the spectral slope or tilt over two different bandwidths. The results are shown in table 4.
The table tells us that the ratings in the lowest band (band 1) produced the highest correlation (r = 0.82) than any other single band followed by band 2 (0.74). Bass is clearly an important attribute underlying preference.

用更加量化的方式研究了扬声器的主观偏好评分和主观平衡度之间的关系。计算了扬声器的主观偏好评分和主观平衡度评分的皮尔逊相关系数。这是对6个频段中的每一个分别进行的,通过计算所有6个频段的绝对平均偏差。第三个相关性是根据1级和6级以及1级和5级之间的评级或范围差异计算出来的。此度量与感知到的两个不同带宽上的平衡度斜率或倾斜有关。结果见表4。

The table tells us that the ratings in the lowest band (band 1) produced the highest correlation (r = 0.82) than any other single band followed by band 2 (0.74). Bass is clearly an important attribute underlying preference.

这张表告诉我们,最低频段(频段1)的评分产生的相关性最高(r=0.82),高于任何其他单一频段,其次是频段2(r=0.74)。低音显然是一个和主观评分相关的重要的潜在属性。

Excessive midrange or treble is a negative attribute related to preference indicated by the negative (albeit smaller values) correlation between preference and bands 5 (-0.65) and band 6 (-0.52) The absolute mean spectral deviation also highly correlated with preference (-0.76) indicating that perceived spectral balance across all bands is potentially a good predictor of preference.

过多的中音或高音会对主观偏好评分带来负面影响,这是由于偏好与频段5(-0.65)和频段6(-0.52)之间的负相关(尽管值较小)。全频段平均平衡度的偏差的绝对值也与主观评分(r=-0.76)高度相关,这表明所有频段的感知平衡度可能是主观偏好评分的一个很好的预测因子。

Finally, we can say that negative correlations between preference and the spectral tilt over bands 1- 6 (-0.67) and bands 1-5 (-0.77) show in a different way that the perceived spectral balance is an important underlying factor related to loudspeaker preference. Preferred speakers tend to have little or no perceived spectral tilts across their bandwidth.

最后,我们可以说主观评分与频段1-6(-0.67)和频段1-5(-0.77)的平衡度倾斜之间的负相关以不同的方式表明感知平衡度平衡是与扬声器主观偏好相关的一个重要的潜在因素。首选的扬声器在其带宽上几乎没有或没有感知到的平衡度倾斜。

At this point, we cannot assume that the loudspeaker’s “perceived” spectral balance necessarily correlates with its measured response. Those loudspeakers perceived to be “ideal” or “flat” may in fact have measured frequency responses that are far from flat. It is also possible that listeners simply gave better spectral ratings to the speakers they preferred, a bias known as the “halo effect”, discussed later in section 4.11. We will address these two open issues later by analyzing listener comments in section 4.14, and examining the relationship between perceived and measured frequency responses of the loudspeakers in section 5.2.

此时,我们不能假设扬声器的“感知”平衡度必然与其测量的频响相关。那些被认为是“理想”或“平坦”的扬声器实际上可能已经测量出了远离平坦的频率响应。也有可能听众只是给他们喜欢的扬声器打出了更好的感知平衡度分数,这种偏见被称为“光环效应”,在第4.11节后面讨论。稍后,我们将通过分析第4.14节中的听众评论,并在第5.2节中检查扬声器的感知频率响应和测量频率响应之间的关系,来解决这两个悬而未决的问题。

关于光环效应,我后续会单独写一篇文章进行详细解释。

继续前行——感知平衡度与频响曲线的关系

为了探究人耳听觉主观的感知平衡度和客观频响曲线之间的关系,Sean Olive博士又进行了一系列实验和研究。

实验结果。

1. The loudspeakers with the highest preference ratings tend to have the flattest and smoothest frequency responses maintained uniformly on- axis as well as off-axis. There is a monotonic decrease in preference rating as the frequency response measurements become less smooth, less flat and extended both on-axis and off-axis.

2. The spectral ratings tend to visually reflect the shape and slope of the listening widow rather than the sound power. This indicates that the listening window may better represent what listeners perceive in this listening room than sound power.

3. The speakers with the flattest sound power (example L4) tended to be rated as too bright and have lower preference ratings.

4. Speaker L10 has an unusually constant directivity and flat sound power (at the expensive of its on-axis response). Listeners did not like the colorations and unusual spatial artifacts this caused.

  1. 具有最高主观偏好评分的扬声器往往在轴向和离轴方向上具有最平坦和最平滑的频率响应。当频率响应在轴向和离轴方向上变得不光滑、不平坦时,主观偏好评分单调下降。

2. 主观感知平衡度倾向于从听觉窗口所反映的频响的形状和坡度,而不是总声能。这表明,与总声能相比,听觉窗口更能反映听众在这个听音室中的感受。

3. 总声能最平坦的扬声器(例如l4)往往被评为太亮,偏好评分较低。

4. L10扬声器具有异常恒定的指向性和平坦的总声能。听众不喜欢这种声染色和不寻常的空间印象。

第一点和第二点都很好理解,我来简单的解释一下第三点和第四点。第三点即现在非常普遍的一种违反心理声学原理的误区,其典型代表就是我曾经测评过的苹果HomePod。虽然苹果Homepod在13kHz以后就没有那么激进,但1k~10kHz的错误算法和调音确实导致高频音色存在问题。

鬼斧神工119:苹果HomePod智能音箱深度测评zhuanlan.zhihu.com图标

关于第四点,异常恒定的指向型的典型代表即360度全向性扬声器。(这部分也许有争议,以后有时间详细解释)(注:苹果HomePod并不是全指向性扬声器,不同角度的扬声器会发出不同的声音)实验证明,这类音箱的人耳主观听感并不会很好,或者说会有不同寻常的感觉。(但是测实验的part II的预测分数及相关结论并不适用,不过后续的实验以及Sound Reproduction有关于全指向性扬声器的结论)

关于音色与主观评分的关系

对实验结果进行更详细的PCA统计学分析可以得到如下结果:

  1. Factor Space 1 – Attributes with high positive correlation (r=1) include bass qualities such as great bass, warm, balanced and smooth. Their close proximity to each other implies they are closely related. Variables with strong negative correlation (r= -1) to these adjectives are thin and lacks-no bass.
  2. Factor Space 2- Adjectives with positive correlations are related to mid-range colorations (mid peak, megaphone, colored, and all mids). Variables with high negative correlation are more related to colorations specific to treble (bright, too much high treble, spectral tilt up and spitty).
  3. Location of Colorations – The positions of colorations in the circle seem to be related to the frequency range they fall into (bass, mid, treble). Most mid-range colorations occupy the top left half quadrant, treble-related ones on the bottom left half quadrant, and bass-related ones near the bottom and top right quadrants.
  4. Orthogonal variables that have little correlation with others include; “distorted”, “image not focused” and “ragged response”. These fall closer to the origins of the circle.

第一类影响因子:具有高正相关(r=1)的属性。包括低音品质,如很棒的低音、温暖、平衡和平滑。它们之间的亲密关系意味着它们是密切相关的。与这些形容词有强负相关(r=-1)的变量很薄,没有低音。

第二类影响因子:具有与中频音染正相关的形容词(中频凸起、扩音器、音染和全是中频)。高负相关的变量更多的是与高音音染相关的形容词(明亮,太多的高音,平衡度倾斜和齿音)。

第三类影响因子:音染的位置-圆圈中音染的位置似乎与它们所处的频率范围(低音、中音、高音)有关。大多数中音音染占据左上半象限,左下半象限与高音相关,右下半象限与低音相关。

第四类影响因子:与其他变量相关性很小的正交变量包括:“失真”、“声像不集中”和“粗糙响应”。它们离圆的原点更近了。

这里我一定要补充一点。从以上所描述的几类影响因子中,我们不难发现人耳听觉对不同频段的敏感程度是不同的。相关性最强的是低频而不是等响曲线所描绘的3k~4kHz。事实上,我再次以我80多年的专业调音经验可以负责任的说,人耳对于音乐信号最敏感的频段绝对不是3k~4kHz,关于等响曲线我之前有过一篇简单的介绍文章。


最终的结果

音箱的主观偏好评分与主观平衡度评分之间有很强的相关性(r=-0.76)。听众更喜欢那些被认为是三频均衡的扬声器。人耳感知到的频谱平衡度与扬声器的听觉窗口曲线(r=0.95)密切相关,这证明了直达声在音色感知中的重要性。

具有最高主观偏好评分的扬声器往往在轴向和离轴方向上具有最平坦和最平滑的频率响应。而轴向和离轴频响平坦和光滑意味着声音在通过音箱时不会有音染,这样的声音在客观上是高保真的。轴向和离轴频响不平坦,意味着音频信号在经过扬声器时,不同阶次的谐波不会以相同的比例变化,即导致音乐信号的谐波组成发生变化,即产生了音染。实验证明这种情况下的音箱的主观评分单调下降,说明人们不喜欢不保真的声音。

对于耳机而言,之前我已经写过一篇详细的文章介绍Sean Olive博士通过模糊数学的聚类方法分析不同人群对于耳机主观偏好的群体细分。

鬼斧神工119:基于耳机听音偏好的听众细分zhuanlan.zhihu.com图标

实现发现大约有64%的人更喜欢哈曼曲线。而我之前讲过哈曼曲线并不是一个绝对意义上的高保真曲线。

但是,在我和Sean Olive博士本人的交谈中,Sean Olive博士认为这样的声音依旧属于自然中性的声音,这种偏差只是略微的。这一点也和我开篇所写的,我在今年年初的视频中所表述的一直,对于耳机而言,真实的声音和好听的声音有偏差,但这种偏差较小,或者说在一个较小的范围内。

我一般不提我个人的调音经验,因为这很容易被人说成是主观臆断,况且正如我之前所说,关于HiFi相关的种种争论,早就有详尽的实验论证。站在巨人的肩膀上才能看的更远。

总结

对于音箱而言

  1. 人们的主观听感偏好更倾向于主观上三频均衡的音箱。
  2. 客观真实的声音需要完美和绝对平直的频响曲线。而对于人的主观偏好,也就是很多人所谓的“好听”,同样需要最平坦和最平滑的频率响应,并且不仅在轴向上,在离轴的听觉窗口上也是如此。
  3. 真实和好听可能略有差别,但这个差别不会很大,当频率响应在轴向和离轴方向上变得不光滑、不平坦时,偏好等级单调下降。频响曲线较差的音箱,一定不会很好听。
  4. 平均而言,主观偏好评分最高的音箱拥有较低的测量非线性失真。但主观失真和客观测试非线性失真的关系并不是特别强。其主要原因是非线性失真本身并不是影响人耳主观的唯一变量,线性失真——频率响应同样会造成人耳可闻感知失真。并且,由于电声器件的物理原理,扬声器的非线性失真和频响曲线通常是相关的,一款频响表现很好的扬声器,非线性失真通常也较小。当然,这也与功率和灵敏度有关,这一点以后我会详细讲解。

对于耳机而言,大部分(64%)的听音者喜欢接近自然真实的声音,或者说和高保真偏差较小的声音。少部分听音者喜欢相对标准的中高频和更多的低频或更少的低频。

当然,以上实验均建立在盲听、关闭脑放的基础上。

其实关于高保真和好听这个问题, 除了上述实验来论证,还有一个更基本也更容易理解的逻辑问题。高保真所说的还原真实的声音通常指的是还原录音师和混音师所制作的音源的声音。平直的频响就是对音源不加任何修饰。真实的乐器或人声有可能确实不是很好听,但这个调音环节通常在录音和混音时就已经完成,例如修音。当专辑发售时,至少录音师和混音师已经把声音调到他们认为的最好,只要混音师的专业能力是在线的,那么忠实的还原专辑本身的声音,就应该很好听。这在逻辑上也是自洽的,除非录音师想报复社会。而如果一个音箱的频响有缺陷,不标准,则会把“好听的声音”劣化,因为通常能够发售的专辑录音都是混音师认为最好的不能再改动的声音,一旦有所改动,声音就会变差。如果声音还可以被调的更好,为什么不在录音的时候就调的更好呢?


除非录音制作过程中所使用的监听扬声器与最终回放时候的相似,否则录音作品的艺术性将遭到破坏。


关于音箱的实验,很难想象这已经是一个15年前的实验了。Sean Olive博士进行了一系列实验,研究和解释了几乎所有人类关于音箱主观评价的问题。本篇文章所介绍的内容只是其中的很小一部分,如果有时间,我打算把Sean Olive博士关于音箱的一系列实验进行详细讲解。

真相是铁证如山的。但十五年过去了,一切都没有改变。

不过,很多事情也没有改变。

合金装备系列、红警、魔兽、黑客帝国等十几年前的经典给人的感觉也没有改变。

最后,祝大家中秋节快乐吧!

编辑于 04-02

文章被以下专栏收录