首发于理性派HiFi
如何评价人耳对于HiFi器材听音能力的好坏?

如何评价人耳对于HiFi器材听音能力的好坏?

本文可能引起部分“老烧”和“kol”不适,请酌情阅读。

简易听力测试请在以下视频进行:

【理性派HiFi】双11耳机退烧指南_哔哩哔哩 (゜-゜)つロ 干杯~-bilibiliwww.bilibili.com图标你的耳朵究竟如何?测试你的听音能力!HiFi耳机劝退指南~_哔哩哔哩 (゜-゜)つロ 干杯~-bilibiliwww.bilibili.com图标

“我相信我的耳朵”,“和数据相比,我更相信我的耳朵,毕竟耳机是我来听”,“不好意思,烧友比一般消费者难搞得多”,“我只相信我的耳朵,我听着爽比什么都重要”,“耳机是给人听的,好听才是好耳机”。

在主观主义出现后的大约二十年间,还没有出现任何一个没有被质疑过的音频参数。
——Douglas Self

而我想在前辈的金言下接一句,没有出现任何一个没有被质疑过的音频参数,却从来没有人质疑过自己的听力。

一些人可以怀疑现有声学和心理声学理论,怀疑国际音频工程协会,怀疑多位声学行业专家,怀疑专业调音师,怀疑一切,但从来不会怀疑自己的耳朵,事实真的是这样吗?

专业用数据说话

FL统计量是基于扬声器效果(音箱主观评分的平方和)除以误差方差(残差平方和)的比率。这个指标可以反映听音者对于不同音箱之间的区分能力,以及他们重复评价的能力。作者使用这一指标选择在各种听音训练任务和日常对音频产品评价表现最好的听音者。

FL is the ratio of the loudspeaker effect (mean sum of squares for loudspeaker ratings) divided by the error variance (mean sum of squares of the residual). This metric accounts for the listeners' ability to discriminate between loudspeakers as well as their ability to repeat their ratings, expressed in the denominator. In the current study, listener performance is based on the magnitude of the loudspeaker F statistic FL. The author uses this metric for selecting the best listeners based on their performance in various training tasks [5] and day-to-day performance in preference testing of audio products.
Only 16 of the 268 listeners (6%) achieved a 0 error variance, all occurring in the three-way loudspeaker test.

在本文中的268个听音者中,只有16人能够达到零误差方差。当误差方差为0时,FL取固定常数。

基于每个独立的听音者对不同音箱主观评分的ANOVA变异数分析。并按照群体划分总结。不难发现,绝大多数人主观评价的可信度都很低。普通人表现出较大的不确定性,并且不像训练有素的试听者那样能够明确地对不同声音打出不同的分数。这是可以通过F统计量测算的,高数值代表听音者可以在重复的同样的声音打出相同的分数,而对于不同水平的产品能够非常清楚地分辨,果断打出不同的分数。Bech等人的研究也证实了这一点。

事实上对于人耳对声音评价能力的实验和研究可能比如何预测耳机和音箱音质的研究还要多。早在上个世纪80年代,加拿大国家研究委员会就曾做过类似的实验。实验中有些人,能够在前后多次盲听试听中,给相同的音箱打出高度一致的分数,而对不同的音箱打出不同的具有区分度的分数。但是也有很多人,即便对于完全相同的音箱前后试听相同音乐也会打出离散性较高的分数。这类测试的检测结果并不是考验人对声音的记忆能力,而是人对于某款产品评价的离散性以及对不同产品差异的评价能力。不过如果一个人对声音的听觉记忆能力较差,那么也会在很大程度上影响日常对HiFi器材评价的可信度,因为很多时候切换器材的巨大时间间隔足以造成听觉记忆丧失。

老烧的逻辑悖论。有人认为这个测试是在测听觉记忆,但事实并非如此。测的是人而评价的可靠性和可信度。如果一个人必须有相同产品的听觉记忆才能评价,那么这个人就永远无法评价一款新的耳机,因为他从来没听过这款耳机。

而Sean Olive博士的实验则更为令人震惊。因为对于学生群体,经常会出现即便是同一个人对于完全相同的声音前后却有着截然不同的评价,而音质明显不同的声音,却有着相似或模棱两可的评分。甚至不同的声音在每组听音测试中会有反复颠倒的情况。而这样的评价可信度不足4%,仅为训练有素的听音者的27分之一。即便是知名的职业音频评论家,评价的可信度也很低。

对于后来的MUSHRA(多激励隐藏参考因子)听力测试方法,同样可以在多组测试中随机的出现相同耳机的虚拟耳机/双耳录音或者特定的EQ。这种隐藏因子在每组听力测试中是随机的,即在每组听力测试中可能出现也可能不出现,即便出现具体序号也是未知的。可以通过这种方法,分析听音者对完全相同的声音的主观评价分数的离散性。如果离散性过高,则说明听音者根本没有评价声音好坏的能力,而他们所谓的耳机好与坏可能完全就是在瞎蒙。

如果校招做过华为面试的人应该都了解类似的测试。即在性格测试中反复随机出现相同的问题,如果你答错了,就说明你在说谎。

如果完全相同的声音却给出了差异较大的分数,平时口口声声所说的差异很大的声音却给出了相似的分数,这说明什么?

如果一个人对于没有任何区别的声音都能“听”出区别,那么这些人能“听”出任何器材之间的区别也就不足为奇了。

很多大烧老烧,有所谓听音经验的人,甚至是音频测评人,其实真正分辨声音好坏的能力和普通人没有什么区别,甚至还不如一些普通人。而我个人认为,对耳机和音箱的声场(空间印象)没有足够的听辩认识和区分也是主观评价能力低的表现之一。

有悖常理的是:音频评论家的意见受到格外的尊重。为什么这些人被放在如此被信任的位置上?他们所进行的听音测试违反了最基本的消除偏见的原则。他们没有资格认证,没有业绩证明,甚至不能提供一张听力图表来告诉大家他们的听力是否受损。他们拥有强大的文字能力,能够把他们认为自己所听到的,绘声绘色地描述出来。而更加糟糕的是,正如我们后面将要讨论的,大多数音频评论家不能提供有效的测量方法,因此读者可能会形成错误的印象。
——Floyd Toole博士


不服跑个分

老烧测谎仪,专治各种不服。

其实复现上述实验并不困难。软件会随机选取几组音频文件,每组的音频文件顺序是随机的,在多组听力测试中会有一些完全相同声音的音轨。也会有很多不同声音的音轨。而我给这个测试项目起了个响当当的名字,叫做“老烧测谎仪”。

鉴于老烧都是一耳朵区别,所以每个音频文件只有20秒左右的试听时间。并且无法立即切换到下一个音频文件,例如从A音轨切换到B音轨有10秒的冷却时间,模拟真实耳机对比试听中摘下和佩戴耳机所需要的时间间隔(但这其实仍然比Floyd Toole的实验简单,加拿大国家研究委员会的实验分为上下午进行,时间间隔跨度大的多)。每组只有一次试听机会,且完成后无法回到上一组。

还是因为老烧都是一耳朵区别,所以预先设置在库中的不同的音轨之间必须要比较明显的评分差异,每个音轨给出完全相同或高度相似的评分,则会影响最终的F统计量,这和之前Sean Olive博士与Floyd Toole博士的计算方法是一致的。

每一组听力测试中会采用相同的音乐曲目,区别仅在于不同的音轨之间具有不同的特征EQ或其他不同程度的特征因素。

听音者对于前后随机出现的完全相同的声音的评分具有较高的离散性,即完全相同的声音也可以“听”出区别。并且与其他完全相同的隐藏因子对比,会出现各组测试中对比评分完全相反的情况,则说明听音者对于声音的好坏没有足够的评价能力并且评价本身的可信度很低。

最终的测试结果会以目前训练有素的听音者为100%进行归一化处理。并对测试结果进行评级:

S级 达到95%及以上 说明听音者对于声音的主观评价具有很高的可信度

A级 60%~94% 说明听音者对于声音的主观评价具有较高的可信度

B级 30%~59% 说明听音者对于声音的主观评价的可信度一般

C级 20%~29% 说明听音者对于声音的主观评价的可信度较低

D级 10%~19% 说明听音者对于声音的主观评价的可信度很低

E级 9%及以下 说明听音者对于声音的主观评价的可信度非常低,和瞎蒙没有太大区别

注意:可信度仅代表听音者对于声音评价的可靠程度,而不代表对于声音是否还原的评价能力(即声音和标准声音的关系)。但如果听音者的主观评价不具有可信度,则其一定对声音的还原能力没有评价能力。以上对评价结果百分比范围的解释尚属于测试阶段。

为了防止反复刷分作弊,每人每天只能进行一次此项测试,并且一个月只能进行4次。最终评分取4次听力测试的平均值。

为了防止作弊,听力测试必须在规定倒计时内完成,整个测试无法暂停。倒计时停止时没有答完视为0分。

测试现以视频方式呈现:

【理性派HiFi】双11耳机退烧指南_哔哩哔哩 (゜-゜)つロ 干杯~-bilibiliwww.bilibili.com图标


当一个人没有足够可靠的主观评价能力,那么他对HiFi器材的评价又是如何得来的呢?当一个人没有办法通过听觉分辨声音的好坏,那么他在说一款产品“好听”时究竟“听”到了什么?

《朱子语类》:“因说自欺欺人曰:欺人亦是自欺,此又是自欺之甚者。”

关于日常试听中的非听觉因素造成的偏见

HiFi圈普遍认为,人们能够排除产品品牌、价格和外观等影响,专注于对声音的评价。但事实并非如此。

Do you see any signs of future vitality in high-end audio?
Vitality? Don't make me laugh. Audio as a hobby is dying, largely by its own hand. As far as the real world is concerned, high-end audio lost its credibility during the 1980s, when it flatly refused to submit to the kind of basic honesty controls (double-blind testing, for example) that had legitimized every other serious scientific endeavor since Pascal. [This refusal] is a source of endless derisive amusement among rational people and of perpetual embarrassment for me, because I am associated by so many people with the mess my disciples made of spreading my gospel. For the record: I never, ever claimed that measurements don't matter. What I said (and very often, at that) was, they don't always tell the whole story. Not quite the same thing.

活力?别逗了。音频作为一种爱好正在消亡,这很大程度上是因为音频本身。就现实世界而言,Hi-End音箱已经失去了上个世纪80年代的声誉,因为它断然拒绝使用基本的公正的控制措施(例如双盲听测试)。而这种拒绝成为了理性的人无休无止的讥讽和嘲笑的源头这也是我感到无限尴尬的源头,因为是我的拥趸者造成了这样混乱的局面,而我本人难辞其咎。郑重声明:我从来没有说过测量结果不重要。我说的是(而且经常是这样说),他们并不总是讲述整个故事。不完全一样。

Stereophile杂志创始人兼CEO J.Gordon Holt在2007年接受采访时如是说。J.Gordon Holt于2009年病逝。而这更像是对主观主义者的临终遗言。

业界对于声学产品的评价,通常采取主客观相结合的方式。主客观评价是相辅相成的,并不是割裂的。主观评价也不是主观主义。但这却给了一些别有用心的人可乘之机。例如大肆宣称人可以听出超出人耳听觉极限几个数量级的微小声音变化。再例如只要有人看到主客观评价里的客观数据就会不假思索的抨击只看数据。

鬼斧神工119:如何评价一套HiFi系统,如何进行主观评价?zhuanlan.zhihu.com图标鬼斧神工119:科普:HiFi中的声场由哪些因素决定?该如何选购器材能获得更好的声场?zhuanlan.zhihu.com图标
就我个人而言,我的评测从来没有以预测算法为依据,但这种经过严谨实验验证并发表在AES上的理论却因此遭到了疯狂的攻击。一些非理性的行为想要去证明自己有多么正确,想要通过吹嘘自己的耳朵多么可靠或者多么值得信赖来证明当代声学和心理声学体系是错误的。让我感到这是一种对整个音频行业的亵渎。也是我写这篇文章的原因所在。

回到这部分话题本身,对于日常的试听和听音,除了听觉以外还有哪些因素在影响我们?

品牌/外观对HiFi器材主观评价结果的影响。

发烧友通常认为自己能够排除品牌和外观的影响,但事实恰恰相反。

Floyd Toole博士的实验证明,老烧相比于完全没有HiFi发烧经验的路人,评价能力更差,更容易受到品牌和外观影响。没有经验的听音者在盲听和非盲听测试中打出了高度相似的分数,反而经验丰富的听音者打出的分数差异较大。这是因为没有HiFi发烧经验的人不了解相关品牌,不了解故事,不懂情怀,也不知道各位意见领袖对各款产品的评价,所以更容易从声音角度去评价一款音频产品的好坏。而“听音经验”丰富的老烧,因为他们会先入为主,联想起论坛的评价和故事认为某款产品就应该是什么样的表现,所以他们对于HiFi产品评价比完全没有听音经验的小白更容易受到干扰也就不足为奇了。

与此同时,Rumsey等人也有类似的实验。

而在现实世界中,很多时候,有路人或者初烧听了几个播放器,感觉没什么差别,会自嘲或者被老烧嘲讽是木耳,老烧会形象的说出这几款播放器的差别。然而事实可能截然不同,也许这几个播放器在声音是确实没什么区别,而老烧只不过是通过品牌、型号和价格“听”出了区别。

他人言论/意见领袖对HiFi器材主观评价结果的影响。

Floyd Toole博士的实验发现,一组试听者的打分有时会趋同。这是由于听音测试过程中,试听者之间可能通过肢体语言、微妙的表情等方式相互交流,大家的意见可能会因此与人群中被认为是最“懂行”的人靠拢。

这个人群中被认为最“懂行”的人就是现在的意见领袖,而即便在加拿大国家研究委员会这样非常专业的试听场合依然有可能会出现这类情况,就更别说更加复杂的现实世界和互联网高度发达的今天。一个人对于HiFi器材主观评价结果很可能受到各种言论和意见领袖的影响,从而向那个最“懂行”的人靠拢。

相反,如果你讨厌一个人,比如说我。那么你很有可能会下意识的认为我所推荐的耳机是不好听的。

而最终的结果就像这位答主所说:

听惯了上万的耳机再听几百块钱的耳机会有什么感受?www.zhihu.com图标
国内这个圈子乌烟瘴气,总结来说就两个字:恶臭。从耳塞播放器到耳机解码耳放,产品实力不重要,重要的是出点钱让贴吧或者kol写点评测,再差的也能给你写成s级。这个圈子对新烧和小白非常不友好,第一波基本是当了韭菜被割了,有的人可能会被割两三次。

价格对HiFi器材主观评价结果的影响。

一些耳机曾经价格很高,评价非常好,但一旦价格降下来,评价也降下来了。

多组权威实验证实耳机音质只与价格有微弱关系,但是以价论声几乎是常态,至少人们认为高价格的耳机“素质”更好,但事实并非如此。一些人通过凭空创造各种不存在的概念和抨击其他产品以证明高价格的耳机“贵有贵的道理”,低价格的耳机就是不如高价格的耳机,足以证明价格对HiFi器材主观评价结果的影响。

器材的所有者对主观评价结果的影响。

如果耳机是你花钱买的,那么就会自然而然的觉得耳机还不错。如果耳机是别人的,那么评价会相对公正一些。

心理暗示/信仰的力量

人类行为的一个显著但令人沮丧的特点是,我们在某些事情上能够显示出“心理控制事实”的支配地位。在医学界,信仰的力量可以缓解症状,甚至可以影响治疗。在品酒时,一个著名的标签或者高昂的价格会使人们更偏向于这些产品。而在音频领域中,有许多类似的例子,听音者在声音中听到了和声音特性不相符的声音,或者完全不存在的声音。如果一个人相信声音有差异,那么就有可能听出声音的差异。即便冲击耳膜的声波没有差异,但大脑的感知过程判断存在差异。双盲听测试表明没有差异,但一些人会认为是测试数据错误了,而不是声音真的没有变化,这就是信仰的力量。一些音频测评人提出了这些想法,以及拥有这些神秘力量的产品,从而进化出了一群人所描述的“基于信仰的声音”。——《声音的重现》第三版


如果一个人既没有对声音主观评价的能力,相比于普通人又更容易受到非听觉因素偏见的影响,结果可想而知。

But the audio industry is a business, and marketing, not science, is the dominant influence.
——Floyd Toole博士

到底什么是发烧?HiFi器材到底该服务于人们的听觉,还是优越感与虚荣感?这是一个值得思考的哲学问题。


盲听的重要性

如果你知道你听的是哪款产品(不论通过听觉、视觉还是触觉),就会不假思索地给出分数。

Sean Olive博士的实验发现,视觉足以影响我们对音频产品的评分。

不同的音乐类型也会对评分产生影响。而在非盲听测试中,得分却没有变化。这说明听音者又一次根据视觉进行了判断,即便声音发生了改变,他们主观上也会抗拒这种改变。而这种效应的影响并非可以忽略不计。

在主观测试中,知道扬声器的身份会影响最终的评分。这是因为:

  • 可能会因为产品的价格、大小或声誉这些假设的品质而改变评分;
  • 试听者对产品的主观偏见如此强大,以至于可以忽略原本很容易听出来的扬声器位置改变问题以及不同音乐类型的关系。(不同音乐类型会影响评分,但这种影响会发生在每一款产品上,所以大多时候并不会影响相对关系)

如果听音者事先知道要听的这组产品是哪些,就算是盲听,他们也会在心理猜测现在听到的是哪款产品。这样的测试就失去了公平。所以应该加入一些对产品完全不了解的人进行测试。

与此同时。科学的耳机听音测试是很难进行的,因为在控制听音测试时会受到讨厌的变量和人们固有的偏见的挑战。它们包括视觉和触觉的偏差、漏泄效应、听者之间的一致性以及切换不同耳机之间的时间间隔过大而导致的听觉记忆丧失。这对入耳式(即)耳机尤其具有挑战性,因为在500赫兹以下的低音性能需要良好的密封环境。

即便是对于盲听测试而言,头戴式耳机(尤其是封闭式头戴耳机)的听音结果一方面会受到不同人佩戴的泄露差异影响,更重要的是,实际耳机的听音测试中,听音者可以通过耳机的重量和耳罩的触感识别出正在试听的耳机型号,进而造成先入为主的判断。

Blind test or double blind test is a powerful weapon against audiophiles. And Sean Olive "How to listen" too.
——Andrey


听觉适应

人类能够在许多方面适应我们周围的环节,例如温度、亮度、气味、颜色、声音等。例如我们的视觉系统可以自适应色温、白平衡和亮度等,这种自适应是很多高端相机的P档都无法达到的。

我们能够接受音质的严重损失,例如手机通信中大量的线性和非线性失真。就算再挑剔的发烧友,也不会到了无法忍受通话质量而不使用手机的地步。

我们的听觉系统也能够对不那么好的声音进行“频谱补偿”,Watkins的研究证明了这种频谱补偿在一定范围内是起作用的,但是超出了一定范围就会失效。

听觉适应会进一步弱化了听觉在我们日常对HiFi器材评价中的地位。因为一方面我们能够通过听觉适应接受并补偿不那么好的声音,另一方面又会受到不可忽视的非听觉因素偏见的影响,结果可想而知。以我个人的工作经验,专业的训练和经验可以帮助人们在一定程度上克服听觉适应,从而可以在调音过程中没有对比参照的情况下准确实时把握当前的声音。这是我的切身体会,我在刚工作时练习调音,觉得已经调好了,但过了半个小时再听,才发现问题所在。这种对于听觉适应的克服可以提高准确评价声音的能力,但也会导致无法适应大多数情况下的声音,进而使自己在严肃听音时变得更苛刻。


试听中的控制变量原则

听音位的选择。

鬼斧神工119:房间对音箱声音的影响(入门篇)。也许是对所有“老烧”的会心一击。zhuanlan.zhihu.com图标

耳机前后佩戴的一致性。

鬼斧神工119:耳机佩戴对声音的影响zhuanlan.zhihu.com图标

更多此部分内容与心理声学相关内容详见:

鬼斧神工119:心理声学概述,客观与主观,两个世界的桥梁zhuanlan.zhihu.com图标


真.听力对主观评价结果的影响

很多人认为行业人士例如音乐制作人、录音师等,即便随着年龄增加听力出现生理衰退,但依然可以保持灵敏的判断力。但事实并非如此。Floyd Toole博士进行了相关实验。实验对象是音乐制作人、混音师等听力受损高危行业。即便这些人都是专业人士,但一部分人的听觉同样出现了较高的离散性。

令人惊讶的是,高频听力并不会影响判断的稳定性,反而是1kHz及以下的听力损失才会影响判断。通常,高频听力衰减并不会影响低频听力,但低频听力衰减的人通常高频听力也会发生衰减。

听力下降是年龄增长的自然结果,多年的不良用耳习惯也会损伤我们的耳朵。随着年龄的增长,人们对音质的判断能力也会逐渐下降。这并不是我们失去对音乐细节的鉴定能力,而是说判断会变得不那么稳定,这样的判断可能不适合给别人做参考。

真.老烧警告。

合理用耳,保护自己的听力。


希望

我不太清楚Sean Olive博士的研究最终会不会成为行业标准。但至少他的前辈Floyd Toole博士毕生的研究成果已经被列为美国国家标准。在那个混乱的年代,在受到无数非理性的主观主义者的讥讽与嘲笑,正义终究战胜了邪恶。

由中华人民共和国文化和旅游部提出的,中国传媒大学、北京第七九七音响股份有限公司等相关单位起草的,由全国剧场标准化技术委员会归口的《演出用专业音响设备音质主观评价方法》已经与今年6月1日正式实施。《声音质量主观评价用节目源标准样品》也由国家质量监督检验检疫总局和国家标准化管理委员会批准颁布。这代表着祖国的声学领域,科学向玄学发起了全面反击。剧场类的标准已经来了,我相信消费类的不会远。

马克思主义哲学的基本观点为中国共产党提供了世界是物质性的,物质决定意识的认识世界、改造世界的世界观、方法论。与马克思主义世界观的观点相对立的是坚持意识决定物质的唯心主义观点,唯心主义的一个重要标志是宣扬有神论,宣传超自然的力量。马克思主义的形成就是马克思恩格斯同包括唯心主义观点在内的诸多非科学观点进行批判和斗争的过程。因此,物质第一性的根本立场决定了共产党员必须与意识第一性的唯心主义划清界限。
从国家标准中我们也能看出可重复性判断的重要性

从国家标准中我们也能看出可重复性判断的重要性。

就像恶意注册商标的公司万万没想到,敬汉卿是up主的真名一样;玄学魔法师们可能也没想到,祖国是有相关国家标准的。


写在最后。我们再看一下文章开篇的一些言论,但如果这些人听力的可信度只有3%~4%,如果一个人在短时间内对于完全相同的声音也会产生离散性较高的评分,如果一个声称一耳朵区别的人在多组测试中打出模棱两可前后颠倒的分数,那么对于“我只相信自己的耳朵”这样的言论或者“反对者都是没有听音经验臆测烧友的”这样的说辞就很值得被怀疑了。

耳机跑分我们见得多了,是时候给各位老烧和大湿的“金耳朵”跑个分了。

Believing is a sort of religion, knowledge is a science.
I never argue with religion believers.
Sean Olive and Floyd Toole have proven for decades that spec can be correlated with human hearing. One example of those proves is Sean Olive's target curves for headphones. Uncertainty in subjective evaluation of sound just audiophiles' point. And audiophile is a kind of mental disease.

某位大佬如是说。起初我觉得大佬只是在开玩笑,不过。。。

幻聽是出現於聽覺器官的虛幻的知覺,是精神病人常見症状之—。尤其多見於精神分裂症。經過大量的臨床資料觀察。精神分裂症病人的幻聽有以下特點; 多出現於疾病早期,也可在疾病的症状發展期出現。緩慢發病的精神分裂症,早期可出現少量的、較單調的幻聽,隨病程和病情發展、幻聽量逐漸增多、幻聽內容逐漸豐富。開始時,病人可能對憑空而來的聲音半信半疑,但隨著幻聽量的增多和內容的豐富,形象的逼真,他對幻聽喪失了自我認識能力(精神病學中叫做喪失了自知力)。疾病嚴重的階段,患者對幻聽的內容堅信不移,以致幻聽支配著病人的情感、意志和行為。

。。。

编辑于 03-09

文章被以下专栏收录