首发于理性派HiFi

什么是主客观评价?详解如何评价耳机/音箱。

早在一年前我就写过如何进行主观评价,但是我写的确实不怎么亲民,因为当时专门做主观评价和调音,写起来就停不下来。

鬼斧神工119:如何评价一套HiFi系统,如何进行主观评价?zhuanlan.zhihu.com图标

这篇文章更多的是详细解释一下主观评价与客观评价的基本原则和原理。


主观评价

此部分主观评价指纯粹的主观评价,而不测试任何数据。

主观评价有两个最基础但是也最重要的原则。

原则一:主观评价只是对不同音质/声场与风格等人类能够感知到的声音差异给出不同的评级。前提是这种差异是人类能够主观感知到的,而不是用主观评价去评价超出人类听觉极限的微小差异。

鬼斧神工119:人耳的听觉极限zhuanlan.zhihu.com图标

原则二:个体的主观评价只能代表个体自身的观点。不能代表产品本身的表现或者其他人的观点。如果想只通过主观评价判定一款产品的表现,需要多人进行盲听评价,并取盲听打分的平均值。

这是主观评价最重要的原则和属性。每个人对于声音的感知和偏好都是有所不同的。这与每个人的年龄、性别、听音经验和听力损失程度等都有一定的关系。Floyd Toole博士的实验证明对于音箱系统而言,而所播放的音乐也有一定的关系(但是Sean Olive博士的实验发现对于耳机而言,音乐与耳机评分之间无明显关系)。一个人对声音的评价只能代表他自己的观点,如果别人对同一个耳机或音箱有不同的观点,任何人都无法仅凭主观感受去反驳他人的观点。

虽然已经有明确的心理声学实验证明,对于音箱而言,大多数人喜欢自然均衡的声音,我的主观评价也多以参考听音系统或类似系统的声音作为参考基准。但不可否认的是,喜欢自然均衡高保真的声音本身也是一种偏好。总是会有人喜欢不自然、不均衡、失真的声音。而对于耳机而言,虽然Sean Olive博士的实验证明约有64%的人更偏向于哈曼曲线,但是由于每个人的耳朵耳道、人头等因素不同,实际上即便同一个耳机,戴在不同的人上,人听到的声音也是有所不同的(音箱这种情况会小很多)。

所以对于一款产品的纯主观评价,只有多人盲听评价的平均值,才能代表这款产品的实际表现以及预测他人对这款产品表现的评价。

一个人的主观评价本身,既无法反映一个产品的真实效果,也无法代表他人的意见,只能代表这个人自己的意见。

这也就是为什么我过去的测评中,没有数据纯粹主观评价的产品基本上都有橙色特殊标注的原因。并且严谨起见,即便我采用的并非是纯粹的主观评价而是主客观评价,我也在开头就强调仅代表我个人观点。

主观评价的两种主流评分标准

目前主流的主观评价方法有MUSHRA和量表法两种。这两种主观评价方法在业内都有广泛的应用,但我个人更倾向于MUSHRA评分方法。原因如下:

MUSHRA评分通常只针对产品进行综合评价,并设立隐藏参考因子。综合评分意味着你可以依据你自己的偏好对产品进行总体的打分,对于一款表现并不是很完美的产品,你可以根据你自身着重在意的方面对产品的总分打分。例如,如果你很在意低音的表现,假如一款耳机有着很好的低音表现,但即便这款耳机的中频和高频表现很一般,你也会给这个耳机一个比较好的评价。

鬼斧神工119:MUSHRA听力测试,可能是一个让所有“老烧”闻风丧胆的听力测试。zhuanlan.zhihu.com图标

反观量表法,通常每一部分的分数通常是固定的。如果还是上一段中描述的这款耳机,那么你只能在低音环节给它打高分,而其他环节分数都偏低,则势必这款耳机由于量表中加权系数的影响,分数会较低。而对于量表中的系数,到底高音、低音、中音、清晰度、明亮度等各自的权重该占多少,虽然之前也有人进行相关研究,但尚没有明确的心理声学实验证明或公认的权威标准。业内,量表法通常用于AB对比试听或独立评价,但我个人认为这种方法是不合理的。原因也有解释,因为我认为很多量表对于各个听音项目的权重设计是不合理的。例如,Sean Olive博士的实验证明三频均衡/主观平衡度是最重要的潜在评分权重,而很多量表里均衡度只是一个占比很小的评分项。

不过,不论是MUSHRA还是量表法,更多还是适用于产品研发和心理声学实验,并不一定广泛适用于消费者。因为有些人觉得只要吉他声音好听就可以,所以他就选择一款吉他表现好的音箱而不去在意其他地方的瑕疵,对于他自己来说,这款音箱就是最好的,但是对于其他消费者而言,则有很大概率没有那么喜欢这款音箱。

主观评价听音者数量的选择问题

上文提到,想要通过纯粹的主观评价反应一款音箱/耳机的表现,需要多个听音员进行主观评价。那么到底需要多少人呢?目前业内并没有明确的规定,不过通常认为20~30个由训练有素的听音者和未经训练的听音者组成评价小组即可。而也有研究认为需要至少30个以上的听音者才能足够反应一款产品的实际表现。

不过,可以肯定的是,大量实验,包括Bech以及Sean Olive的实验结果均表明,训练有素的听音者组成的评价小组具有更高的评价可信度,可以使用较少数量的训练有素的听音者代替较多数量的未经训练的听音者。

鬼斧神工119:训练有素的听音者与未经训练的听音者之间的区别zhuanlan.zhihu.com图标

而这种由训练有素的听音者的主观评价,有时也称专家级主观评价。有些类似于音乐鉴赏中的专业评委。

专家级主观评价的重要原则

  1. 避免情境效应

情境效应的大致意思为,一组对比试听中,对其中一部分产品的评分可能受到该组产品中最好的产品或最差的产品的影响。专家级主观评价应该以参考听音系统或参考因子作为参考或辅助参考,避免情境效应。(这也是我认为MUSHRA评价更合理的原因)

鬼斧神工119:什么是情境效应(Context Effects)——Sean Olive博士音箱实验系列(一)zhuanlan.zhihu.com图标

2. 避免光环效应

光环效应的大致意思是,听音者只因为声音中的一部分表现突出,就认为其他部分的声音表现也不错,从而对声音给出过高的评价。专家级的主观评价应该全面综合的对声音进行评价,使得结果更具有普适性。

3. 评分的可重复性

国家相关标准中,对专业听音员的要求是对相同的声音,给出75%以上的可重复评分。

而根据Bech等人以及哈曼国际的研究,需要F统计量高于一定数值。

鬼斧神工119:如何评价人耳对于HiFi器材听音能力的好坏?zhuanlan.zhihu.com图标

主观评价的局限性

严格的专家级主观评价与受控双盲听实验是很难进行的,需要大量的时间精力和资源。并且主观评价结果本身也有一定的未知性,尤其是对于互联网平台而言。我们无法确切的得知主观评价结果是否真实,甚至是主观评价专家本身的能力水平是否真实。比如说我自己,拥有2000+小时的全职专业主观听音经验,拥有参考听音系统的听音经验,可以保持超过24小时的听觉记忆判断正在调试的声学产品是否有可闻差异以及差异的大致范围。即便这些都有不止一家供应商和客户可以作证,但口说毕竟无凭,除非我把我每一天的工作全都录制,但这本身是不可能的。我也可以说我分别获得两个公司内部的听力认证,但是反对者也可以声称这些认证都是伪造的,或者说是利益相关的。而对于更加复杂的现实世界而言,滥竽充数或者对主观评价毫无了解的评论家数不胜数。

有悖常理的是:音频评论家的意见受到格外的尊重。为什么这些人被放在如此被信任的位置上?他们所进行的听音测试违反了最基本的消除偏见的原则。他们没有资格认证,没有业绩证明,甚至不能提供一张听力图表来告诉大家他们的听力是否受损。他们拥有强大的文字能力,能够把他们认为自己所听到的,绘声绘色地描述出来。而更加糟糕的是,正如我们后面将要讨论的,大多数音频评论家不能提供有效的测量方法,因此读者可能会形成错误的印象。
——Floyd Toole博士
鬼斧神工119:如何评价人耳对于HiFi器材听音能力的好坏?zhuanlan.zhihu.com图标

相比之下,客观测试则具有更高的可信度和可重复性,即便有疑问也可以通过相同的测试环节和条件复现测试结果,从而证明测试结果的可靠性。


客观评价

此部分客观评价指纯粹的客观评价,而不进行任何主观试听。

客观测试结果是耳机和音箱的固有属性,并不以人的意志为转移。

客观评价同样也有两个最基础的原则。

原则一:必须使用能够反映产品性能的测试设备。

例如,测试耳机必须使用符合IEC711等标准的人工耳,而不能使用非压力场麦克风或不符合声学测试规范的耦合器。例如,如果用主播常用的3DIO等测试耳机,其测试结果没有任何意义。再例如,必须使用测量麦克风测试音箱,而如果使用手机自带的麦克风等,其测试结果或录制结果也没有太多参考价值。(云试听,尤其是音箱的云试听参考意义更小)

原则二:对于没有经过心理声学验证的测试指标或没有相应的心理声学模型研究,则不能使用测试数据直接反应人的主观评价。

例如,频响曲线不论是对于音箱还是耳机,均已被大量心理声学实验证实为可以有效描述声音的测试指标,所以可以通过对频响曲线的测试与分析,在一定程度上判断耳机或音箱产品的实际表现。

鬼斧神工119:虚拟耳机实验以及这个实验带给我们的启发。zhuanlan.zhihu.com图标鬼斧神工119:HiFi真的就不好听吗?“好听”和高保真的关系。zhuanlan.zhihu.com图标

对于一些其他的客观测试指标,例如THD、IMD等。Alex博士的研究表明,电声器件的失真感知与失真的产生方式相关,即便是相同数值的失真,也有可能有不同的主观评价,不过前提依旧要遵循主观评价的原则一。通常,在THD等指标相近时,且这种失真是可闻时,不能仅通过THD或谐波失真组成判断实际听感。除非两款产品的THD数量级相差较大。

鬼斧神工119:音箱的非线性失真与音质之间的关系zhuanlan.zhihu.com图标

而对于一些已经经过心理声学实验验证的,不会对人耳主观听觉造成影响或在一定范围内不会对人耳主观听觉造成影响的测试数据,则不能用于描绘声音的主观感受。

鬼斧神工119:耳机的瀑布图真的有意义吗?关于耳机的瀑布图,你需要知道的。zhuanlan.zhihu.com图标

例如,虽然一些评论家与主观主义者暗指瞬态细节的不完美之处,并声称他们可以听出这些时域效果。事实上,已经有明确的心理声学实验证明,对于200Hz以上的频率,人们听到的是频响曲线中的高Q值峰谷,而不是时域衰减中的振铃。这一点同样可以通过耳机系统的最小相位特性以及群时延的可听性等方面科学解释。例如最小相位系统的对数谱的实部和虚部互为希尔伯特变换。因此,可以通过幅频特性推出最小相位系统的相频特性,反之亦然。

对于低频而言,尤其是音箱,我们确实可以听出不同音箱的瞬态差异或是时域表现差异。并且这种差异有时很明显。但是目前没有任何一个客观测试数据可以完全描述一款音箱的实际低音表现。例如,我们并不能说一款低频截止频率40Hz的音箱的低音表现一定比另一款截至频率为50Hz的音箱低频表现好。或是通过阻抗曲线或THD取消简单的判断低频音质的好坏。


客观评价的局限性

目前没有任何一个客观测试指标或一组客观测试指标能够完全描绘声音的主观感受。而且对于经验不足的人来说,很容易错误解读数据从而得出错误的评价。我个人认为错误解读数据的危害甚至大于主观玄学。

心理声学模型与基于客观数据的主观听感预测算法

基于客观测试数据的主观音质/听感预测算法是一种心理声学模型,通常指经过严格科学的受控双盲听实验对一系列音箱/耳机产品给出主观评分,再对潜在的可能影响主观评分的客观测试数据进行统计学分析。并最终得出预测模型。例如Sean Olive博士的耳机主观音质预测评分方法:

而重要的不是这个模型能给耳机算出的分数,而是这个模型中的各个系数是如何得来的以及为什么只使用频响曲线而不使用其他参数。

如何通过频响曲线看耳机的音质好坏?www.zhihu.com图标

这种预测算法的各个项目的权重系数,必须是通过大量盲听主观评分的结果确定的。而不是想当然随便设一个权重,或者觉得哪个重要就把哪个权重弄得高一些。没有经过心理声学实验,没有验证权重以及预测分数是否真的符合人的主观听感的预测模型及分数实际上是没有什么意义的。

亦或是对已经超出人耳听觉极限的失真进行评分。。。

其实这个问题,业内人士基本都明白,但很多对心理声学不太了解的人可能并不是很清楚。看似专业,实际上。。。不过在这里,我也不想说太多,毕竟RTINGS的老板我是认识的。。。

Sean Olive博士的实验则显示RTINGS这种模型的正确率并不高。。。

即便是经过科学严格验证过的预测模型,也存在其局限性。

首先,预测分数与盲听分数并不是一一对应的,而是在一定范围内浮动的。

这反映了两个问题。一是这种模型的预测分数并不一定等于耳机的实际听感。第二点则是,这反而说明了频响曲线并不是影响人耳主观评价的唯一因素(其实这从头戴式耳机的虚拟耳机中也可以看出)。如果频响曲线是唯一因素,或者很多人所谓的唯曲线论,那么虚拟耳机的相关系数应该是1,并且可能发现一种模型,是的上图中预测分数与盲听主观评分均位于同一条直线上,但实际上并不是,预测分数和实际主观评分是在一定范围内浮动的。

此外,主观评分是多个听音者盲听评分的平均分,预测分数则表示多个听音者盲听可能对耳机打出分数的平均分,并不一定代表每一个人各自的分数,只是一种统计学上的趋势。

所以我并不是经常使用这个预测模型,即便使用,我通常也会标注仅供参考或进行特别说明。

至于到底如何通过数据和预测模型描述人的主观听感,我将单独再写一篇更详细的文章。


主客观评价

即同时适用主观和客观评价一款产品。这是业内最广泛也是我个人认为最高效最有说服力的评价方法。因为这种方法相比于纯粹的主观评价或纯粹的客观评价有多个优点:

优点一:同时使用主观评价和客观评价是的最终的评价结果有更高的可靠性。

即便是主观评价能力再强的人(F统计量100%),也不能保证测试设备的一致性,而且人的主观评价和人的状态有很大关系,当一个人疲劳时,则很容易给出错误评价。同样,测试设备也不可能保证100%的准确,实际中有可能出现测试麦克风故障、DSP软件烧写失败等情况,如果一个人有足够可靠的主观评价能力,则可以在很大程度上避免测试系统或调试系统的故障对最终评价结果的影响。所以说,主客观评价相当于一种双重确认机制,其结果有更高的可靠性。

优点二:主客观评价的评价结果相比于客观数据更接近于人的主观感受

这里只举一个简单的例子,即耳机频响曲线中的高频峰谷问题。有些时候高频的峰谷实际试听中是听不到的。这一现象背后的原因主要有两个。一是人工耳毕竟不是人耳,高频的峰谷有可能实际佩戴中并不存在,或实际存在也并不明显,或者出现漂移的情况。第二个原因则是即便这些峰谷存在,也有可能因为心理声学的掩蔽效应以及频响峰谷与附近频响曲线的相对关系等因素,导致实际试听时并不明显。而这一问题我早在一年多以前的第一篇测评中就有详细介绍并反复强调多次。

鬼斧神工119:200元以下耳塞耳机对比测评zhuanlan.zhihu.com图标

这也是我个人认为Sean Olive的耳机预测分数中,预测分数与实际主观评分依旧存在差异的其中一个原因,这一点我在今年年初的几篇回答和文章中也有详细论述。

优点三:对于有经验的人而言,主客观评价可以大幅度提升评价效率。

通常,主客观评价中,不需要对产品进行详细的完全测试,只需要对其主要参数进行测试,其他部分使用主观评价进行辅助判断。例如,如果想通过纯粹的客观评价去判断一款音箱的声音表现,那么通常只测一条频响曲线是不够的(除非轴向频响曲线存在较为严重的缺陷)。

想要仅通过客观测试描述一款音箱的音质和声场表现,需要多种不同方向的频响曲线、指向性系数(其实也是频响在空间中分布的一种体现)、稳态曲线、THD、HOA、CTA、Beamwidth、灵敏度等数据。

并需要计算房间内的IACC、LF和LEV等物理量。

双耳互相关传递函数IACC计算公式
早期侧向声能比计算公式
鬼斧神工119:科普:HiFi中的声场由哪些因素决定?该如何选购器材能获得更好的声场?zhuanlan.zhihu.com图标鬼斧神工119:详解感知声源宽度与舞台宽度zhuanlan.zhihu.com图标

但如果采用主客观评价方法,则可以仅通过轴向曲线和房间稳态曲线以及THD曲线对音箱的音质和声场给出评价。并且可以通过主观修正实际听感与客观数据的差异。例如上述测试数据中的音箱,即便频响曲线在1kHz左右并不平滑,但实际上主观听起来没有明显的问题。实际上这款音箱的分频点过渡表现不错。不过超高频的打击乐器音质较差,则与频响曲线相符,这里则可以以客观评价为准。

对于无关紧要的一些数据,以及已经经过心理声学验证的不会对人的主观评价产生显著影响的测试指标,因为有主观评价的参与,可以不进行测试。过多的测试不会对声音造成显著影响或无法通过数值直接判断其对主观评价影响的数据,对于不了解主客观评价与相关心理声学只是的人而言反而会混淆视听,为了防止出现这种混乱,我一直坚持只测试最重要的数据。

主客观评价集合了主观评价和客观评价的优势,一方面具有客观评价的稳定性、可重复性、普适性与客观属性;另一方面也具有主观评价的人类听觉心理声学特性,其结果相对于纯粹的客观评价或心理声学预测模型,更符合真实的使用感受。

主客观评价的局限性

主客观评价对于评论者的专业技能要求很高,评论者必须同时拥有足够的主观评价能力与对客观数据的解读能力。评价结果必须是同时对主观评价和客观评价综合考虑,需要大量的专业听音经验和心理声学知识判断到底在哪些情况下以主观为准,哪些情况下以客观为准,哪些情况下同时考虑主观评价结果和客观评价结果。故此种评价方法仅适用于产品研发或专业评价,普通消费者很难掌握。

不过,声音既是客观的,也是主观的。其客观属性在于声音只是一种振动形式,可以被精确测量和仿真,其主观熟悉在于最终接受声音信号的是人,人的大脑主观上会对声音进行再处理。所以我认为同时具有主观属性和客观属性的主客观评价是现阶段最能反映一款音箱/耳机实际表现的评价方式,也是我过去一直采用的评价方法。


最后我想解释一下这一年中我被骂的最惨的,鬼斧神工只会看数据、唯曲线论等。

如果测评中没有任何主观评价,即纯客观评价可以说是只看数据。如果没有任何主观评价且只看频响曲线可以说是唯曲线论。

但实际上,我过去对于音箱和耳机的测评基本上都采用了主客观评价方法。而且事实上,以这篇40款500元以内的入耳式耳机测评为例。客观数据部分仅占所有测评环节的约35%,而主观评价则占65%,并且我过去的耳机和音箱的测评中,主观评价部分均占有较大篇幅,但仍然有很多人会说我只看数据。

鬼斧神工119:40款500元内耳塞耳机终极对比测评(第二季)zhuanlan.zhihu.com图标

根据我过去一年多的观察,目前相当一部分人对于耳机和音箱等器材的评价,很多时候均属于两个极端。要么属于没有任何客观测试且不进行严格的盲听测试,仅凭一人的主观感受去判定一款产品,这一类人群很可能会陷入玄学领域;要么属于完全没有主观评价,仅凭客观数据且使用错误的解读方法,从而对产品做出错误的判断,这一类人群很可能会陷入云烧。

对于主客观评价而言,只相信主观评价的人很容易把注意力集中到客观数据中,从而指责唯数据论,简单的测试结果不足以反应声音等,而忽略掉主客观评价中的主观评价;而只相信客观数据的人也很容易把注意力全部集中在客观数据中,却没有足够的能力解读且忽略掉或完全不了解人类听觉的心理声学特性以及测试设备与实际试听之间的差别,给出错误的评价。

而对于我个人而言,我觉得我被集中攻击的矛盾点依旧在于客观测试数据。因为这些数据确实能将一些滥竽充数的产品打回原形。因为不论是科学实验还是我个人的工作经验,如果两款产品的数据在相对合理的范围内,那么有可能或者说经常会发生其中一款产品的数据相对另一款较差但听起来更好(前提符合主观评价的原则一)。但是当一款产品的数据较差,并不合理时,则有很大概率人在盲听下或专家级的主观评价中表现并不好,而就目前的市场而言,尤其是耳机市场,有相当数量的产品属于大家吹得很玄或者所谓的公认的好产品,但实际表现并不好。而尤其是花了大价钱买这些产品的人,自然很难接受这个现实。

其实这篇文章应该在一年前这个专栏最开始的时候写,但是无所谓啦,毕竟这个专栏既不是测评也不是科普,就是交个朋友~

编辑于 2019-12-07

文章被以下专栏收录