音色:从定义、测量到认知

2019-06-15 07:33
中国音乐学 2019年3期
关键词:基音乐音谐音

一、音色的定义

通行的基本乐理将音高(pitch)、音强(loudness)、音长(duration)与音色(timbre)归为音的四要素。前三者皆可以量化描述,无论是以音乐的主观表达还是以物理的客观表达,都有明确的计量单位。如音高可主观表达为音符名称、客观表达为振动频率,音强主观表达为力度、客观表达为声压级,音长主观表达为时值、客观表达为分、秒、毫秒等。惟有音色这一属性,却无法量化描述,其主观表达只能采用各种形容词,客观表达则无法实现(见图1)。

图1 音之四要素的主客观表达

描述音色的主观术语一般由成对的反义词构成,大都建立在联觉(通感)的基础上,也没有形成统一的标准。如最简单仅由3对术语构成(Pratt,1976),复杂的则有35个术语(H.Staffeldt,1974)甚至55个术语(A.Gabrielsson,1985)构成。①参见韩宝强《音的历程——现代音乐声学导论》,人民音乐出版社,2016年,第46页。这些术语有采用视听联觉:明亮—暗淡、清晰—模糊、丰满—空洞;有采用听触联觉:圆润—尖锐、温暖—冰冷、柔和—坚硬;甚至涉及味觉:甜美—粗涩……此外,还有大量更为抽象的形容词表达,如紧张—松弛、厚实—单薄等等。对音色的主观描述,从来就充满了个性的体验,如李斯特形容汉塞尔特(Adolf Henselt)的演奏,称之为“天鹅绒似的声音”,还有如形容德彪西钢琴作品为:“底下是黄色的沙,中间是蓝色的水,上面是向下滴落的白色水珠……”。①韩业江:《德彪西钢琴音乐的艺术风格》,《艺术教育》2008年第3期,第82页。在某种程度上,描述音色或对音色分类就如同葡萄酒的主观评价,就算有松散的行业标准,也充斥着大量对于外行人来说离奇古怪的形容词。葡萄酒品鉴的术语有多达几十至上百条,如果说其中的肥腻(fat)、松散(Flabby)、多肉(Meaty)等还能勉强理解,但是至于风骚(Slutty)、毛茸茸(Wooly)等就有点匪夷所思。②红酒爱好者必知的35条品鉴术语,http://www.360doc.com/content/15/0729/10/17132703_488098215.shtml,2019年2月14日。古往今来,音乐理论家们为描述音色特征、定义音色概念留下了大量著述,其繁杂冗长以致被诟病:“音色就是心理声学家进行分类时的多功能垃圾箱,任何无法用音高、音量标识的属性就被置于这其中。”③McAdams,Stephen,and Albert Bregman(1979).“Hearing Musical Streams”.Computer Music Journal 3,no.4 (December):26-43,60.甚至被激进地抵制:“音色这个没有任何科学含量的名词,应该将其从听觉科学的术语中删除。”④Martin,K.D.(1999).Sound-Source Recognition:A Theory and Computational Model.PhD thesis,Massachusetts Institute of Technology.

然而,我们并无法将其从艺术与科学的术语中将其删除,尽管语焉不详,但却被心照不宣地普遍使用。中文“音色”一词,字面理解为“音的色彩、色调”。“色”由光起,是视觉神经将所接收的光波信息传递至大脑,大脑视觉中枢对信息分析后而得出的主观判断,即为色觉。色觉由可见光波的波长/频率所决定,其波长范围大致在400~760nm、频率范围大致为4.2×1014~7.8×1014Hz之间,光波的波长由长至短、频率由低至高,大致对应于红橙黄绿青蓝紫七种色彩。如波长在770~622nm时,我们感知到红色,波长为455~350nm时,则感知为紫色。声波同样具有波长/频率属性,人类可听域内声波的波长/频率范围大致在0.017~17m/20~20kHz之间。正是由于光与声都有波长与频率的特征,因此借用视觉感官的术语描述声音,似乎是合理的。但是必须要明确的是,光波的波长/频率决定了视觉感知到的颜色,声波的波长频率决定的是听觉感知的音高。音乐理论中所使用的“音色”,与声波的波长频率并无直接关系。

(一)含混的中英文对应

从音色这一概念的所指来看,大致可对应于三个英文单词:Tone Color,Tone Quality和Timbre,严格的学术性翻译应该为音色、音质与音品,但实际上中英文的对译并不相符,现列举如下:1.Tone Color直译为“音色”,然而在英文文献中,Tone Color并不是一个正式的学术用语,常作为Timbre的非正式替代语,在《新格罗夫音乐与音乐家辞典》(2001第二版)与牛津音乐在线(Oxford Music Online)中都并没有独立词条。1970年,荷兰声学家普劳姆(R.Polmp)提议,启用Tone Color描述两个复合音在发声的稳态持续阶段时的感知区别,但是这个提议并没有被广泛接受。⑤R.Plomp and G.Smoorenburg.Timbre as a Multidimensional Attribute of Complex Tones,in Frequency Analysis and Periodicity Detection in Hearing.Eds.Leiden:Sijthoff,1970.Rossing,Thomas D.Science of sound,3rd edition,San Francisco:Addison Wesley,p135.2.Tone quality直译为“音质”,用来形容声音的品质,在多数情况下,其默认含义等同于汉语中的“音色”。但是在音频技术领域,“音质”一词则实际上包含有更广泛的含义,涵盖了声音的音量、音准、混响时间乃至真实度等若干维度的属性。3.我们最普遍使用的“音色”一词,实质上对应的是Timbre,这个词可以被译为“音质、音品与音色”,由于音质、音色两个汉译已经直接对应于tone quality和tone color,那么Timbre一词按其本义,则应该译为音品。韩宝强即持此观点,但认为“避免给众人带来麻烦,继续沿用‘音色’也依然可行,但需要阐明该词的意义”。⑥韩宝强:《音的历程——现代音乐声学导论》,第46页。需要注意的是,国内文献述及音色的英文术语时,经常将Timbre与Timber混用,误以为re与er后缀乃是英式美式之别。但是实际上“音色、音品”对应的英文只能是Timbre而不是Timber(木材)。

从学术的严谨性来看,将timbre译为音色还有可能引发一个问题:在音频技术领域,也使用色彩给各种噪声命名,如白色噪声(White Noise)、粉色噪声(Pink Noise)、棕色噪声(Brown Noise)等,然而这里的白、粉、棕仅仅是指构成该噪声的频率的声波成分与相应色彩的光波频率成分在结构上相似,是光学术语的借用,与人耳主观感知到的“音色”并无任何关联。如此一来,“音色”这个术语与“白色(粉色/棕色)噪声”等术语并存,会产生概念理解的偏差与主客观角度的混淆。

(二)模糊的中文定义

中文对音色的定义,首先影响最广泛的是李重光《音乐理论基础》(1962)年所定义:“音色则由于发音体的性质、形状及其泛音的多少等而不同。”①李重光:《音乐理论基础》,人民音乐出版社,1962年,第1页。后在《基本乐理通用教材》(2004)中再予补充:“由于音色的不同,我们才能区分各种不同的乐器和人声。”②李重光:《基本乐理通用教材》,高等教育出版社,2004年,第1页。其次为童忠良2001年的定义:“音色,指音的色彩,它是由发音体振动的方式、形状、成分及发音体的品质等因素来决定的。”③童忠良:《基本乐理教程》,上海音乐出版社,2001年,第2页。二者的核心内容并无本质区别,国内出版的绝大多数音乐理论教材基本沿用了以上二者的定义。只有韩宝强2003年提出的音色定义采取了不同的技术路线:“音色,乐音的品质特征,能够将音高、音强和音长都相同的两个音区别开来的一种声音属性。”④韩宝强:《音的历程——现代音乐声学导论》,第54页。从定义的逻辑学原则来看,李重光定义缺少被定义项(DS)“音色”的定义项(DP),即“DS就是DP”——该定义只阐述了影响音色的若干因素,而未指明什么是“音色”。童忠良定义弥补了定义项(Dp)的缺失,但是使用“音的色彩”作为定义项,又违反了“定义四规则”之二和之四:“定义项中不得直接或间接地包含被定义项”(之二)——“音色”实际上就是“音的色彩”之简称,这种陈述并无实际意义;“定义项必须清楚明确,不得以比喻代定义”(之四)——“音的色彩”是听视联觉的比喻。韩宝强定义从逻辑学的角度来看最为完善,有明确的被定义项“音色”及定义项“乐音的品质特征”,但是也有违反“定义四规则”之三:“给正概念下定义不得使用负概念或否定语句。”⑤张建礼、何文模、陈素:《实用逻辑学》,重庆大学出版社,1998年,第21—22页。——采用否定式语句“非‘音高、音强和音长’的品质特征”。此外,如果将“音色”的所指限定为“乐音的品质特征”,多少也存在着定义项外延小于被定义项外延的问题——因为噪音也有音色。

在外文文献中,音色的定义也变化多端。美国声学学会之定义(ANSI,1960)为:音色是听觉感知的属性,使听者来判别两个具有同样呈现方式、同等音量与音高的声音,将其区别开来。⑥Timbre is that attribute of auditory sensation in terms of which a listener can judge two sounds similarly presented and having the same loudness and pitch as dissimilar.American National Standards Institute,USA standard acoustic terminology,S1.1,1960.《新企鹅音乐词典》定义(The New Penguin Dictionary of Music,1991):在分析层面,乐器音色的区别是由于声音中的谐音列不同。⑦On analysis,the difference between tonecolors of instruments are found to correspond with differences in the harmonics represented in the sound (see HARMONIC SERIES).A.Jacobs,Penguin Dictionary of Music,Penguin Books LTD.Middlesex,England,1991.《哥伦比亚百科全书第六版》(Columbia Encyclopedia,6thed.)定义:声音的质量由泛音所决定,泛音数量及相对强度导致了乐器的音色特性。⑧(Sound) Quality is determined by the overtones,the distinctive timbre of any instrument being the result of the number and relative prominence of the overtones it produces.“tone.” The Columbia Encyclopedia,6th ed...Encyclopedia.com.24 Jan.2019.(https://www.encyclopedia.com〉.《大不列颠百科全书》(Encyclopædia Britannica,2018)定义:由声波所引起的听觉感知的质量。音色依赖于波形,随着其呈现出的泛音或谐音数量、频率及相关的强度而产生变化。①The timbre of a sound depends on its wave form,which varies with the number of overtones,or harmonics,that are present,their frequencies,and their relative intensities.Encyclopædia Britannica,01 Feb,2018.https://www.britannica.com/science/timbre.这些定义可分为两类:美国声学学会定义主要采用排除法来限定音色的属性,在音乐科技领域内被使用和引用最多,而中文韩宝强定义亦源于此。以《新企鹅音乐词典》为代表的定义主要强调谐音或泛音的不同来描述音色的特征,则在各类音乐词典、百科词典以及基本音乐理论教材中被普遍采用,以上所列举的中文定义在国内的使用亦是如此。这些定义中存在着一个共同点,都是基于对“音高”(pitch)、谐音(harmonics)或泛音(overtones)所展开的陈述,那么就存在着一个现实问题:我们可以明显地区分出关门声与打鼓声的区别,假设这两个声音都具备同样的音强与音长,但是二者并没有音高,也没有谐音列与泛音列的分布,我们是如何分辨出二者的区别?难道这二者没有音色属性吗?因此,以上所有的定义,在面临声源为噪音时,就显现出定义的缺陷。此外,任何一个声音都是在时间中展开,其特征都是动态变化的,即在声音的建立、持续与衰减的每个阶段,其频率成分都有很大的不同,其中以建立阶段的起振瞬时(attack transient)最为重要,即使该阶段在整个声音呈现过程中所占的时间微不足道,但是如果把一个音的起振瞬时的音头部分切掉,那么人耳对音色的判断都会产生很大程度的混淆,这个结果已经被证实。②Kenneth W.Berger,Some Factors in the Recognition of Timbre,The Journal of the Acoustical Society of America 1964 36∶10,1888—1891.因此,仅将音色感知的区别限定于谐音或泛音区段,也是不全面的。

本文将就以上各种定义中,对影响音色感知的客观参数展开调查与验证。音色感知机理目前有两种学说,一是“谐音列说”,二是“起始状态说”,③韩宝强:《音的历程——现代音乐声学导论》,第48—50页。但是后者在客观测量方面实际上存在着很大程度的偶然性与随机性,不具备典型的可操作性,本文并不在此展开。

二、影响音色感知的客观参数验证

(一)实验与验证

笔者设计以下四个实验,分别验证谐音列、振幅包络、基音能量、长时平均谱能量对音色的影响。

实验Ⅰ.谐音列对音色的影响

图2 古琴C2谐音列的变化

样本说明:古琴C2音(64.6Hz,C2-21c),中等力度拨弦,波形从峰值至结尾(稳态阶段)共0.9秒长度;频谱1取自波形前1/3段区域,频谱2取自波形后1/3段区域。

分析说明:可以看出,二者频谱结构大致类似,但是也有明显区别:频谱1中包含25个以上谐音,频谱2的谐音数量为18个;频谱1与频谱2共有谐音的强度也不同。下图以前5个谐音在时间上的变化为例,可以明显看出,在0.2s以前,5个谐音的强度排序是充满变化的,0.2s~0.3s才逐渐形成稳定状态,即使大致呈现稳定,第2谐音的强度在0.3s之后还有明显的波动。(见图3)。

图3 古琴C2前5个谐音的强度变化

结论:这个实验简单而有效地描述了同一个音在时间过程中谐音列的变化情况。依据《新企鹅音乐词典》定义,“音色的区别是由于声音中的谐音列不同”,然而在古琴单音的持续过程中,由于振幅的衰减而使得谐音数量与谐音的强度在时间进程中产生了变化,但是这种变化并不能引起听觉感知为音色的区别。究其根源,在单音呈现过程中的谐音是持续渐变的,这种连续性的变化反而赋予古琴音色的统一感。因此,在弹拨与打击类乐器音响呈现过程中,谐音列都随时间流逝而变化,因此如果脱离时间坐标,谐音列无法被认定。

我们知道,在一件乐器上不同力度的演奏,同一个音高会产生不同的音色;而同一力度演奏同一音高,在不同的触弦位置或同音异弦演奏,都将导致音色的不同,也就是谐音列的分布会产生或细微或显著的变化。那么我们就知道,即使承认谐音列是影响乐器音色感知的首要因素,我们却无法给一件特定的乐器定义出谐音列结构。

实验Ⅱ.振幅包络对音色的影响

样本说明:三个纯音,分别为f1=200Hz,f2=400Hz、初相位ωt+φ=0○;f2’=400Hz,初相位ωt+φ=180○,即f2和f2’的相角差为180○(见图4)。

图4 200Hz(f1)与400Hz两个不同相位(f2.f2’)的纯音

实验过程:将纯音f1+f2合成为复合音F1,将纯音f1+f2’合成为复合音F2。观察F1与F2的包络,并聆听二者的音色差异。振幅包络见图5。

图5 复合音F1与F2包络图

结论:《大不列颠百科全书》定义“音色依赖于波形”。F1与F2两个复合音的波形包络有明显差异,但是听觉感知却没有任何不同,这是因为听觉对振动的相位差异并不敏感。在这种情况下我们可以认为:波形包络的不同并不能决定音色差异。

实验Ⅲ.基音能量对音色的影响

样本说明:以110Hz为基音,叠加其15个整数倍频率即220Hz、330Hz、440Hz……1760Hz(见图6)。

图6 110Hz~1760Hz构成16个谐音的复合音A2

实验过程:(1)顺序播放16个纯音,聆听最终的合成音A2,辨别其音高与音色(见图6a)。(2)在频谱中删除110Hz,聆听最终的合成音A2’(见图6b),辨别其音高与音色。

图6a.(最低频率为110Hz)

图6b.(最低频率为220Hz)

结论:(1)110Hz整数倍的16个纯音,合成为一个音色丰满的复合音A2。在复合音中,人耳很难分辨出其中任何一个单独纯音,由此证实听觉对谐音列的匹配模型具有先天的“预制”性,并以110Hz的音高A2为整个谐音列设定识别标签。(2)这种先天本能,使得人耳始终以谐音列中的最大公约数110Hz为谐音列设定整体标签,即使这个频率不存在,人耳仍然会“虚拟”出110Hz的频率,并将整个谐音列感知为A2,只是这时听上去音色相对单薄。

拓展:利用人耳的这个本能,我们可以设计一套连续变化的谐音列,让人耳虚拟出一个无限持续攀升的音调(无界音高.aup)。

实验Ⅳ.长时平均谱对音色感知的影响

实验目的:验证在特定时间内的频谱总能量相同,是否音色感知即相同(吉他正逆.aup)。

样本说明:第一轨共包括三种音色片断,0~5.4s为人声(气鸣),5.4~15.7s为吉他拨奏(弦鸣),15.7~18.5s为敲击吉他音箱(体鸣);第二轨与第一轨材料相同,但是采取逆向时序(见图7)。

图7 三种不同音色的正、逆波形

实验过程:设置第二轨为第一轨的逆向(Reverse),分别获取第一轨与第二轨的长时平均谱(long-term average spectrum),见图7a、图7b。

图7a

图7b

实验结果:第一、二轨的长时平均频谱在40Hz以上完全相同(40Hz以下的频谱能量由本底噪声引起,对于听觉感知而言并无意义),但是听觉感知第二轨的音响与第一轨音响截然不同:原敲击吉他音箱的打击声变成了类似定音鼓滚奏的隆隆声,原吉他拨奏的清脆声变成了类似大提琴的擦奏声,而原来的人声部分已完全无法辨认。

结论:根据频谱决定音色之理论,频谱相同的两个音响,其音色应该没有区别。但是将样本反向播放,与原有样本的主观感知产生了根本性的变化。由此可知,即使是音高、音强与音长完全相同的两个音,其音色也会发生剧烈的改变,而长时平均频谱并无法体现这种差异。因此再次证明,脱离了时间坐标来讨论频谱成分是无意义的。

那么我们再回到对音色的定义上。在前文所引用的定义之外,将时间坐标纳入到定义中只有《新格罗夫音乐与音乐家词典》(The New Grove Dictionary of Music & Musicians,3rded.):音色用以描述声音整体的音质;单簧管与双簧管用同等音量演奏同一音符时即产生不同的音色。比起音高或音量,音色是一个复杂得多的属性,前二者都可以使用二维的量值表示(用高低表示音高,用大小表示音量);音色的感知是若干因素的综合,在计算机音乐中投入了大量的工作来创建和拓展多维度的音色空间。声音的频谱,尤其是起振瞬时的频谱中,其各分音在振幅的增长方式对音色起到了最重要的影响。①Oxford Music Online,Timbre,https://doi.org/10.1093/gmo/9781561592630.article.27973,2019-2-17.但是,这种冗长繁琐的叙述又不太像一个定义。由此看出,对音色进行定义,只要涉及主观层面就会遇到难以逾越的各种问题。那么将重点集中于客观层面,揭示影响音色感知各个维度的客观参数,可能更具有可操性。

(二)音色测量与评价的维度构成

将影响音色感知的因素归因于泛音列始于亥姆霍兹,在其《论音的感觉》一书中,他认为音质(tone quality)②亥姆霍兹的德文原著使用Klängfarbe一词,译者Ellis坚持将其译为tone quality。现有英文文献多将其译为timbre。的不同主要是由于分音的强度和数量不同(Helmholtz,1885)③Helmholtz,H.(1885).On the Sensations of Tone as a Physiological Basis for the Theory of Music (from 1877 trans.by A.J.Ellis of 4th German ed.,republ.1954 by Dover,New York).。弗来彻则认为:音色主要依赖于泛音结构,但是如果强度和频率的改变也会导致音色改变(Fletcher,1934)④Fletcher,H.(1934).Loud ness,pitch and the timbre of musical tones and their relation to the intensity,the frequency and the overtone structure.Journal of the Acoustical Society of Ameri ca.6.59-69.10.1121/1.1915704.。西肖尔认为,音色主要依赖于谐音的数量、谐音在整个频谱中的位置、每个谐音的相对强度。由此音色可以被定义为:一个声音的特征,主要依赖于它的谐音结构(Seashore,1938)①Carl E.Seashore,Psychology of Music,McGraw - Hill Book Company,Inc.; 1st edition (1938),p96.。斯考腾认为将音色定义为泛音的结构或是频谱的包络是不够的,提出定义音色的5个参数:1.乐音与噪音的属性(由频率成分中谐音与非谐音的比例决定—笔者注)。2.频谱包络(各分音的数量及相对强度—笔者注)。3.开始、持续与衰减的时间包络。4.频谱包络中共振峰的偏移和基音频率的波动程度。5.声音起始阶段的状态(Schouten,1968)②Schouten,J.F.(1968).The perception of timbre.In The 6th international congress on acoustics,Tokyo,Japan,August 21-28,1968 (pp.35-44).Tokyo.。在此基础上,埃里克森为音色设计了一个将主观感知与物理现象相关的列表(Erickson,1975,见表1)。

表1 音色主观感知与物理现象的关联③ Erickson,Robert (1975).Sound Structure in Music.Berkeley and Los Angeles:University of California Press.p68.

这个列表无疑对音色的测量指明了与主观感知相关联的多个维度,但是实际上这种测量也是难以完成的。罗辛将音色测量的维度进一步简化,他认为音色与音强、音长相关性很小,与频率和包络有一定相关,而与频谱有很强相关性(Rossing,2002,见表2)。

表2 客观物理项与主观感知项的相关性④ Rossing,Thomas D.,Moore,Richard.& Wheeler,Paul.2002,The Science of Sound,3rd edition,San Francisco:Addison Wesley,p95.

按照这个列表所列出影响音色感知各因素的权重程度,音色的测量工作具备了一定的可操作性。然而,这个列表遗漏了一个较为重要的维度——空间。因为任何声音都是在空间中传播的,那么声源相对于听者的空间位置、声场的混响时间及空间的频率响应等,都将对音色感知产生一定的影响,因此笔者在上表的基础上,加入声场参数项,并按照与音色感知相关程度的顺序绘制图示(见图8)。

图8 与音色感知相关的物理项

图8将影响音色的6个维度项(灰色框)按照相关程度从左至右排序,其中每项又分为若干子项,同样按照相关程度,以中轴线为准由近至远排序。每个维度项的量值都可以通过声学测量手段获得,将各个量值按照相关性的权重进行不同层级的分析,并对分析结果进行整合,就能在客观层面上对音色进行较为全面的诠释。

三、主观感知层面的音色初级分类

(一)音色的感知

围绕着音色的定义与测量,音乐家、物理学家、心理学家们已经展开了一个多世纪的讨论,这个过程本身就值得深思:我们为什么对音色的表述如此执着甚至纠结?音色的感知与认知,在人类进化的历程中扮演着什么角色?

在生命的初期,人类最先发展的感觉器官就是听觉,胎儿在孕中期(4~6个月)开始就已经具备了听觉功能,在接下来的半年时间内,胎儿与母体之外的世界进行交流,其唯一的通道就是听觉。人类演化出对音色极其敏锐的感知能力,在生存过程中无时无刻不运用这种能力来探索、体验物质世界。“身未到、声先至”,“听音辨器物、闻声知虚实”,辨识音色是对感知对象的初步认知,在我们的日常生活中扮演着重要角色。在语言交流中,音色承载的信息甚至有可能超越于语义本身——所谓“言外之意”,往往是由音色的微妙变化所暗示。在音乐技能的训练过程中,除了精准与速度的训练,表演者还要掌握每个音的最佳音色,方能产生出审美价值。在音乐现场,我们能够聆听出一根生锈的琴弦、一枚漏气的哨口、一面破裂的铜锣等在音色上的变化,我们还可以分辨出不同乐器、同类乐器的不同个体、同一个体采用不同演奏方式产生的同一音高、这个音所处的不同演奏环境等等微妙的差别……这一切都源于对音色的识别。那么,我们为什么要进化出如此复杂的音色识别能力?

音色识别关系到我们的生存。人类从感知至认知是一个归纳推理的逻辑过程,我们倾向于用集合定义的方式将具有相似属性的事物进行分类认知,如同我们用味觉来为食物的味道进行酸甜苦辣咸的初级分类一样,我们也用听觉为物体的属性进行初级分类,这些分类为生存提供检索的标签。例如,苦味源于未熟的果实中的生物碱,过量摄入可能导致中毒甚至丧命,让我们对其敬而远之;甜味则联系于成熟果实中的糖分,意味着碳水化合物与能量,让我们对其趋之若鹜。在听觉感知中,我们对物体首先进行音高感的初级分类:如果一个振动体的各分段(分区)振动的周期(频率)形成整数比例,听觉系统瞬间将其简化为一个基音音高的感知,并将其贴上一个分类标签:具备明确音高的振动体,即乐音;若各振动模式无法构成简单整数比例,听觉系统将其贴上另一个分类标签:不具备明确音高的振动体,即噪音。而一个振动体的起振状态、持续时间及各分段(分区)振动频率的整体组合结果,直接反映了振动体的结构、密度、弹性以及物理尺寸等属性。音色就是听觉中枢试图把握振动体物理属性过程中的主观感知,这些感知的积累,形成认知事物的听觉标签。例如,当听到一个熟悉的音色时,我们立刻将其标签置入已有的听觉标签库中检索,如果吻合于现有听觉标签,那么就将其联系于对应的视觉、触觉、嗅觉等感官记忆库,从而获知该对象的物理属性,这是认知强化的过程;当听到一个似曾相识的音色,再通过视觉等感官的进一步综合感知,扩充该听觉标签所代表的物理属性,这是认知拓展的过程;而听到一个全新的音色时,我们则对听觉标签及其对应物进行新建,这是认知重建的过程。

音色的差异与变化反映了感知对象的性状。在生活中,如挑选西瓜时若听到“梆梆”的敲击声是生瓜(结构紧密、声阻抗小而产生较多高频分音),“噗噗”声则是熟瓜(孔隙增大、声阻抗增加而导致高频分音减少)。在音乐中,《礼记·乐记》所述的“钟声铿、石声磬、丝声哀、竹声滥、鼓鼙之声讙”①《礼记·乐记》,十三经注疏本,中华书局,1980年。,正是将物理性状与音色对应的归纳认知。有古琴名为“焦尾”者,据传是蔡邕“闻火烈之声,知其良木,因请而裁为琴,果有美音”②《后汉书》卷六十《蔡邕列传》,中华书局,2000年。,也正是音色与物理性状对应的演绎认知。在动物界,啄木鸟是辨识音色的专家,它可以根据敲击树干的音色来判断蛀虫的位置;澳大利亚棕榈凤头鹦鹉则将这种行为演化为求偶仪式,它会挑选一段共鸣性能好的树干,用石头或树枝敲击来为它的歌声伴奏。③Robert Heinsohn,Christina N.Zdenek,et al.Tool-assisted rhythmic drumming in palm cockatoos shares key elements of human instrumental music,Science Advances,28 Jun 2017:Vol.3,no.6,e1602399.(http://new-play.tudou.com/v/519968908.html)进化使得我们对于嗓音的音色异常敏感,仅聆听非语义的嗓音,就可以判断出一个人的健康状况。如感冒会带来所谓的齉鼻儿声(缺少鼻腔共鸣的共振峰),声带炎症或闭合不严会导致嗓音嘶哑(嗓音含有噪波成分)等。一个有经验的母亲能够从婴儿的啼哭中分辨出饥饿、尿床还是意图唤起注意等。普遍来说,我们偏爱音色低沉的男性与音色纤细的女性,这也有进化选择的证据:低沉的男性嗓音意味着宽厚的声带,暗示着高大健壮的身体与较高的睾丸酮水平,由此增加了安全感与信任度;而女性的音色纤细意味着身形娇小与较高的雌性激素水平,这具有柔顺与生殖的优势。

我们偏爱乐音而排斥噪音,这是人类听觉选择的普遍性倾向。首先从物理与生理层面看,乐音是由于振动体的各部分振动周期/频率构成简单整数比(1∶2∶3∶4∶5∶6等),而这种周期性的频率吻合对听觉中枢的分析而言是一种简洁与规则,大脑可以用一个具体的音高(基音)来为一个复合音设定标签,符合人类对客观世界进行模型匹配认知的本能;反观噪音,其包含的各个频率无法形成周期性的吻合,导致我们难以用一个具体的音高为其设定标签,为认知匹配带来了一定的困难。其次从心理层面看,乐音的感知始于母亲的嗓音。相比于自然界的声音,母亲嗓音是完全呈谐音列结构的声音,在我们还处于胎儿的时期这种声音就伴随着我们的成长,而出生后的婴儿对嗓音信息的存储、分析、辨别等能力则有着关乎于生存的意义,因为它意味着温暖、食物与安全。这种认知的建立,可以与动物行为学所称“印刻效应”(Imprinting Effect)④动物界中存在的指印随行为现象:一些刚孵化的幼鸟和刚生下来的哺乳动物会跟随着它们所见到的第一个移动的物体,通常是它们的母亲。相比,是听觉层面上的“印刻”。人类的嗓音是最典型的复合音,其中包含有丰富的谐音列,对于音高、音色的辨别在很大程度上就是对谐音列的匹配性感知过程,笔者将这个印刻称为“预制谐音列”。⑤付晓东:《和谐与协和的探索》,人民音乐出版社,2013年,第131—132页。母亲嗓音留下的谐音列印痕如此深刻,当面对一个复合音的频率成分为谐音列时,我们通过其基音的音高为其设立标签,即使缺失基音,我们仍然可以通过上方谐音就推断出基音的音高(见实验III例2)——这个过程让大脑的模型匹配认知得到简化与肯定,因此产生愉悦;而一个复合音的频率成分如果不构成简单整数比,我们就无法总结或推断出基音音高,这种过程让大脑的模型匹配认知无法得以顺利完成,因此产生烦扰——对可推断结果的确定把握、对不可知结果的迷惑不安——这可能就是人类偏爱乐音的原因。

(二)乐音—噪音的四分法

1.对乐音—噪音分类的借鉴

基于以上讨论,音色的感知在很大程度上就是大脑对复合振动体的频率成分进行谐音列的匹配认知结果,因此它和音高的感知是同时发生、相辅相成的。如果要对音色进行可量化的初级分类,在很大程度上就是从乐音(有音高)至噪音(无音高)这两个端点间各个过渡阶段的界定。

韩宝强在缪天瑞基本乐理所定义的“乐音性噪音”基础上,对乐音和噪音定义为:“能够给听觉以明确高度的音,叫做‘乐音’;没有明确音区归属感的音,叫做‘乐音性噪音’;即没有明确音高,也没有音区归属感的音,叫做‘噪音’。”通过对小提琴频谱、中音锣频谱和白噪声频谱为例,分别对乐音、乐音性噪音和噪音进行了阐述,并总结为:“如果泛音之间频率比为整数关系、总体强度自基音递减且呈开放排列,则可视为乐音;如果泛音之间频率比不是整数关系,但泛音呈开放排列,听起来可能会没有确定的音高,但会有一定的音区归属感;如果泛音之间频率比既不是整数关系,泛音也不呈开放排列,则听起来既没有明确的音高,也没有音区归属感,这才是真正意义上的噪音。”①韩宝强:《音的历程——现代音乐声学导论》,第93页。

这个定义在物理层面上总结了乐音与噪音频谱结构的不同,并结合了听觉感知的“音区归属感”,将 “乐音性噪音”作为“噪音”的过渡分类而形成三分法,无疑更为科学而全面。但是,如果以“音区归属感”作为噪音类的子集分类标准,那么乐音类别就缺少相应的子类,如此既无法准确体现过渡集合,也在分类逻辑结构上显得不平衡。因此,结合于实际听觉对音高主观感知,笔者建议为乐音增加“音高明确度”为其子集分类标准,由此将乐音类分为音高明确的“乐音”与有音高感的“噪音性乐音”,从而形成完整的乐音——噪音的基本音色四分法(见图9)。

那么如何“噪音性乐音”定义呢?笔者参考韩宝强定义,作出如下阐述:主观层面上,听觉能够辨别大致音高,但是具有一定程度的粗糙感、音高较为模糊的音叫做“噪音性乐音”。客观层面上,各泛音之间频率比既有整数关系也有非整数关系,整体呈谐音列结构但其中含有非谐音成分,则可视为“噪音性乐音”。

2.噪音性乐音的实例分析

以下举弦鸣、体鸣与膜鸣三类乐器中产生噪音性乐音的样本为例,中外乐器各举一例进行说明。

钢琴的最低音区A0~D1六个音②所谓6个音并不是绝对的,在不同的钢琴上其数量会有增减,也与击键的速度相关。虽然能够听辨出其音高,但是甚不明确。这主要是由于这几根琴弦较粗的直径而产生出很大刚性,因而导致其在振动形式上介于棒振动与弦振动之间,而棒振动的各分段振动无法与整段振动产生整数比的谐音列。因此,钢琴低音弦振动的频谱成分中虽然有谐音列结构,但其中混杂着大量非谐音的频率成分,再加上基音的能量非常微弱,从而为听觉感知其音高(A0)带来了很大程度的困难(见图10)。

图10 钢琴A0频谱

从频谱中可以看出,虽然有谐音列存在(如五线谱所示),但是其中夹杂着大量的非谐音成分(五线谱未列入的峰值成分),且基音频率(27.69Hz)的能量非常微弱,导致音高感(A0)不甚明确,音色粗糙。

京胡的琴弦在振动时除了产生谐音列之外,还会包含大量的非谐音频率,这是由于京胡的有效弦长较短而导致琴弦刚性增大,同时使用硬弓擦弦还会产生大量的摩擦噪声。此外,其蛇皮、琴筒与琴杆的复共鸣组合还会使其将非谐音成分进行有效扩散,因而产生该乐器特有的“刺啦”性噪声,这也是京胡特有的音响效果(见图11)。

图11 京胡E6频谱

频谱中有E6的谐音列存在(如五线谱所示),但是非谐音成分(五线谱未列入部分)的能量明显且分布广泛,导致听觉虽然能感知其音高(E6),但是音色极其粗糙。

碰铃的振动体为板体,而此类振动体难以产生谐音列。经过加工的碰铃,其基音附近的频率能量较强,上方非谐音频率能量较弱,因而具有一定的音高感(见图12)。

图12 碰铃D7/#D7频谱

碰铃具有两个较为明显的频率成分,大致为D7与#D7,这是导致听觉感知到音高的来源,但是由于这两个频率成分同时存在,音高感会在这两个音之间游移而产生“晃动”。此外在6000Hz以上还有若干能量相对较弱的非谐音频率成分,由于其音区极高,并不会干扰音高感知,但是带来了铃声特有的尖锐效果。

编钟与碰铃同为类板体振动,也难以产生完整的谐音列。但是通过内部凿隧、外部加枚等特殊加工,能够有效地抑制一些非谐音成分,因而具有一定的音高感(见图13)。

图13 编钟F5频谱

此频谱中F5为基音频率,但是除了第4个频率C6之外,其他频率成分都不符合谐音列结构。其中第2个频率#G5,实际上是“一钟双音”侧鼓部的振动频率。但是由于基音F5频率的能量相对极强,其他非谐音频率成分太弱而未阻碍听觉对音高的感知,但是带来较为明显的不和谐的干扰。

定音鼓的振动体为膜,通常情况下膜振动各分区振动频率不可能形成谐音列,但是定音鼓鼓膜由特殊加工的聚酯膜(Mylar)制成,通过调音螺栓调节其张力,振动时与锅形共鸣腔形成耦合振动,能够有效抵制非谐音成分、保留谐音成分,因而具有一定的音高感(C2)(见图14)。

图14 定音鼓C3

通过频谱显示,定音鼓前5个频率成分中的C3、G3与C4大致呈现为C2的第2~4谐音列结构,即使C2的能量在频谱中没有能量显示,但是根据这个谐音列线索,人耳仍然能够感知到C2的音高。但是由于其能量基本不存在,以及其他多个非谐音成分的干扰,C2的音高感知并不十分明确。

排鼓的振动原理与定音鼓相同,因而具有一定的音高感(C2)(见图15)。

图15 排鼓D3频谱

频谱中的A3、#F4成分与基音D3构成近似谐音列,因而可以感知到一定的音高(D3)。

结论

听觉对音色的初级感知是对预制谐音列结构的匹配过程中完成,依照其匹配程度可分为以下四级:

1.乐音:复合音各振动频率成分与谐音列结构完全吻合,即基音与各泛音频率构成整数比或近似整数比。如果谐音列中的基音能量相对较强,听觉则感知为丰满、均衡的音色;如果基音能量相对谐音列中其他谐音较弱甚至缺失,听觉感知为略显单薄(相对而言)。气鸣乐器由于气流的持续激励而发声,这种周期性持续激励会将空气柱的各振动频率成分锁定为整数比结构,声学称之为锁频(Frequency lock),因此绝大多数气鸣乐器与弦鸣乐器的发音都为乐音。但是弦鸣乐器也还有一些例外情况:其中弓擦类弦鸣乐器由于琴弓的持续摩擦、与气鸣乐器机制相似的激励机制,会将琴弦各振动频率成分锁定为整数比结构,因此绝大多数弓擦弦鸣乐器都发出乐音(京胡例外,原因见上文)。拨弦与击弦乐器由于是一次性激发振动体,无法完成持续的锁频过程,因此谐音列会产生略微偏高于整数比的情况。其偏离程度与琴弦的有效振动长度、张力成反比,与琴弦的刚性成正比,即琴弦越长、张力越大、刚性越小,其音高越明确、音色越和谐,反之则音高越不明确,音色越粗糙。因此大多数拨弦与击弦乐器的发音属于乐音,但极端情况下则属于噪音性乐音(如钢琴最低音区)。需要补充一点:纯音无疑是音高最为明确的音,属于乐音的第一级。本文只是对复合音进行分类,而纯音由于其只有单一振动频率而无需与谐音列匹配,因此并未将其单独予以列入说明。

2.噪音性乐音:复合音各振动频率与谐音列结构部分吻合。即除了基音与各泛音频率构成整数比或近似整数比的结构之外,还包含有若干非整数比的频率成分(非谐音)。当非整数比频率位于300~3000Hz①人耳对于2000~5000Hz的频率较为敏感,但是其中300~3000Hz频带是人类语音频率的能量集中区,对音色的感知影响较大。时,音高略显模糊,整体音色呈现粗糙特征;当非整数比频率位于300Hz以下时,音高较模糊且音色混浊;当非整数比频率高于3000Hz时,音高较明确,整体音色呈尖锐感。此类乐器的振动体通常是经过加工过的棒(木琴)、板(编钟)、膜(定音鼓)类打击乐器,并且部分乐器增加了耦合共鸣装置(如木琴、定音鼓)以强化其谐音成分,使得音高感进一步提升。极端情况下,如部分弦鸣乐器的个别音(如京胡的随机摩擦噪音对乐音的干扰、钢琴的极低音区)、边棱音激励的气鸣乐器(如吹孔处的气漩噪声对乐音的干扰②付晓东:《民族乐器音响协和研究——以梆笛、二胡与琵琶为例》,《人民音乐》2016年12期,第65-69页。)。

3.乐音性噪音:复合音各振动频率不符合谐音列结构但较稳定。即基音与各分频率不构成整数比、且各分音频率距离呈稳定性的开放排列。听觉感知无明确音高且较为粗糙,但是具备一定的音区感。此类乐器如大部分棒振动、板振动与膜振动类打击乐器。

4.噪音:复合音各振动频率不符合谐音列结构且随机出现。即各分音频率既不构成整数比,也不呈开放排列,具有一定的随机性。听觉无法感知其音高且不具备音区感。除了如沙锤摇奏或刮擦鼓膜等特殊演奏技法能够在一定程度上产生此种噪音外,声学乐器中极少乐器属于此类,大部分只能通过人工合成的白噪声、粉红噪声等手段来实现。表3为基本音色四分法简化说明(见表3)。

表3 基本音色四分法

任何对音色的概念诠释、音响分类以及测量分析,都必须基于人耳对音响的主观感知,但是主观感知的确难以量化也无法统一,这为我们的音乐学系统研究带来了一定的困难。将音色分为“乐音——噪音四分法”是基于人耳对“预制谐音列”的本能匹配而得出的初级感知结果,如上表所示,从乐音至噪音的四个类别,都可以用较为明确的客观测量数据予以支撑,这就为音乐理论的体系化研究提供了可操作的底层框架。当然,这仅仅是“基本”或“初级”分类,音色的定义、测量与认知,还需要在心理声学层面上进一步深入。

猜你喜欢
基音乐音谐音
如何区分乐音和噪声
勇闯长龙阵
作文成功之路·作文交响乐——学生展现心灵乐音的舞台
《谐音词里的民俗》
谐音词的规则
基于基音跟踪的语音增强研究
用心聆听学会区分
绝妙的数字灯谜
基于小波包变换的乐音时—频综合分析程序的开发
一种改进的基音周期提取算法