我们真的能听到21kHz的声音吗?

我们真的能听到21kHz的声音吗?

这个问题真的不能简单用「能」或者「不能」来回答。

昨天,我在微信的朋友圈里看到一个大家都在转发的小测试:打开一看,原来是我的好基友的公司做的产品「吉他大师」的推广。我先要好好夸一下他们,几个年轻有为的创业者做出了很多全世界音乐爱好者喜欢用的软件,并且还在前年Apple的WWDC活动前热场视频中亮相。他们从最核心的代码到外观的设计全都靠自己的力量完成,真的很不容易,也很棒。

好了,夸完了。下面进入吐槽模式。

我对于他们这个其实真正目的是marketing的「测试」有三句评语:

1. 槽点颇多。
2. 不太科学。
3. 需要我来「雅正」一下。

所以,我一边吐槽,一边讲科学,一边雅正一下吧。

首先,看到朋友圈里的朋友们纷纷晾晒着「我可以听到21kHz的声音,无损压缩才能对得起我的耳朵」,简直无力吐槽。拜托,你们都二十几三十几了,真以为自己能听到21kHz的单音吗?我们通常认为的「人能听到20Hz到20kHz声音」的说法,其实是一个非常笼统的并且是很不准确的说法。事实上,根据德国的声学前辈的研究,20岁以下的人能听到的是16Hz到16kHz的单音,其上限随着年龄的增长,遵循大约每10年衰减1kHz的规律。所以,30岁的人能听到16kHz就已经很了不起了。

然后,我们来看看这个「测试」的方法。用三个播放按钮进行盲测,被试者需要回答按下哪一个按钮时能听到声音。先不说这个测试用的音频在播放前会产生一个微弱的电流声,这个电流声无意中提醒了被试者「这里有声音」——就算没有这个电流声,这个方法也是不可采信的。听觉是一个十分细致的心理过程,熟悉「等响度曲线」的人都知道,我们对于能量相同、频率不同的声波的敏感度是不同的,基本上是越靠近1kHz就越敏感,反之则越不敏感。因此,对于超过了16kHz的高频,我们的认知是非常模糊的,甚至根本无法判断其音色。事实上,我们在实验中使用的正弦波单音,在自然界是根本不会独立存在的。所以,用单音做听音实验测试被试者对不同频率的听力上限,需要做双向测试:只有当被试者既能判断这个声音「存在」,又能判断这个声音「不存在」,才能认为他真的能听到这个声音。在实际操作中,我们会让被试者做两组测试:在第一组测试中,当被试者听到声音响起时,要按一个按钮。在第二组测试中,当被试者听到声音消失时,要按一个按钮。当被试者在某个频率的两组测试中,比如在18kHz的两组测试中都能准确地给出「声音开始了」和「声音结束了」的判断时,我们才能从科研的角度判定这个被试者真的能听到18kHz的单音。

当然,也许有技术党会吐另外一个槽:我们的手机、我们的手机的声卡、我们的耳机,真的能把21kHz的单音播放出来?这个我本人也是非常怀疑的。然而这个并不是我本文的重点。

在这里,还要补充一个概念:单音和自然声音的区别。重复一下上面的话:在自然环境中,实验中使用的正弦波声音是不可能单独存在的。我们在日常生活中听到的任何一个声音都是若干个振动源共同作用的结果;我们之所以能将一个乐队传来的声音分解成其中的不同乐器,这要归功于我们大脑对于传入听觉器官的复杂波形进行的类似于傅里叶变换的拆解式分析过程。这个过程到目前还没有人说得清到底是什么样的。之所以说它类似于傅里叶变换,有两个原因:首先它在功能上和傅里叶变换的原理是一样的:将叠加在一起的波形重新拆开成单独的波形或者波形组合(大脑更倾向于后者,因为我们总是将「和声」分解成单个乐器而不是单个正弦波,因为正弦波音色对我们没有任何意义);其次,它与傅里叶变换又有本质不同的地方:傅里叶变换处理的是离散(数字)信号,而我们大脑处理的是连续(模拟)信号。

于是,可以就上述补充概念对这个「测试」的结论部分进行「雅正」了。假设,好基友公司的测试真的使用了「声音开始」和「声音结束」两组实验来判定被试者的听音能力,并且十分科学、准确地判定了被试者的单音听力上限是21kHz,我们依然不能从这个实验结果得出「被试者适合听无损压缩格式音乐」的结论。为什么呢?因为——单音的听力和从复杂音乐中分辨出高频部分的能力并没有显著的相关性。换句话说,你能不能听到21kHz的单音,和你能不能分辨两组音乐材料中是否有21kHz成分,并没有什么关系。事实上,有一些日本、美国的学者早年间在实验室环境中已经做过实验,证实了人类可以分辨有或没有超过21kHz频率成分的音乐片段。这种分辨能力与音乐片段本身的属性有相关性,却与被试者的年龄没有相关性。

总结一下上面的观点:1、单音的听力必须双向测试才能下结论。2、单音频率听力上限和音乐回放格式的听辨能力没有关系。

但是,如果「吉他大师」真的想要知道他的用户是否能听到21kHz的音乐元素,是否配得上无损压缩的音乐格式,应该怎么做呢?至少可以做以下几件事:

  1. 请被试对象来实验室里,给他们一个安静、统一的听音环境。

  2. 使用专业的设备(确定能播放得出来21kHz声音的回放链条)。

  3. ​不使用单音。而是使用「有21kHz以上部分频率的音乐素材」和同样的「没有21kHz以上部分频率的音乐素材」。

最后,我还想补充一点,就是关于我们能听到的声音的频率。

首先,举两个例子:当一盒1kg的牛奶被喝掉100g的时候,我们能明显感觉到,这盒牛奶变轻了。然而,当我们到健身房举哑铃的时候,却可能根本分辨不出10kg的哑铃与10.1kg的哑铃有什么区别。同样是100g,为什么在前述情况中能感知,在后面的情况中就无法感知呢?再有,当洗澡的时候,水温在30度和35度之间变化时,我们能明显感知其区别。然而如果水温是90度和95度,我们就无法感觉其区别了。同样是5度,为什么有这样的区别?

这两个例子说的都是同一个话题:我们对自然界物理量的感受并不是线性的。至少对于声音频率的感知——换句话说,从音乐的角度来看,对于音高的感知,是符合对数规律的。也就是说,音高讲的是倍数关系,而不是数值关系。400Hz的音比200Hz的音高了一个「八度」,而比2000Hz高「八度」的音却不是2200Hz,而是4000Hz。同样的道理,当我们观察靠近听力下限频率的钢琴上的最左边的键盘区域时,最低音是大约27.5Hz,比它高八度的音是55Hz,相差了27.5Hz。这个频率上的差别在高音区根本不算什么:钢琴最高的两个八度之间相差了几乎有2000Hz。我们对频率的认知不是线性的——越是高频的声音,差别就越小。事实上,超出4000Hz的音(比钢琴最右边的键还要高的音)就已经失去了音乐性(强调一下,这里指的是「根音」,而不是其上的泛音),无法使用到旋律中去。也就是说,我们谈论的音频回放中的所谓16kHz或者21kHz的音,都是乐器的泛音而已。泛音的区别带来的是音色的区别,而不是音高的区别。也许这就是为什么我们能分辨有损和无损压缩格式的音频,却无法分辨16kHz和21kHz单音区别的原因所在。

编辑于 2016-01-20

文章被以下专栏收录