唱音障碍的认知神经机制

2016-02-28 13:47张卫东

心理科学进展 2016年8期

何昊张卫东

(华东师范大学心理与认知科学学院,上海 200062)

人类歌唱的历史比语言更久远(Hagen&Hammerstein,2009;Mithen,2007)。在漫长的人类社会发展历程中,人们通过歌唱来表达情绪(如,开心时哼着小曲)、交流情感(如,情歌对唱)、提升斗志(如,战斗前的军歌嘹亮)、讲述故事(如,歌剧和戏曲)、升华精神(如,宗教唱诵)。在现代社会,随着科技的发展,人们对于歌唱的热情更为高涨。如今,歌唱成为了一项普遍的社交活动,成了人们渴望掌握的一项技能。

在衡量歌唱能力的众多维度中,音准(intonation,即唱音的音高准确性)是最重要的考察要素(Watts,Barnes-Burroughs,Andrianopoulos,&Carr,2003)。而唱音不准确,也就是我们平常所熟知的“五音不全”1“五音”的原义是中国五声音阶中的宫、商、角、徵、羽五个音级。在生活中,人们将对于不同音高的分辨困难(如失乐症)或者唱不准确的现象皆称为“五音不全”。或“唱歌跑调”,被认为是一种唱音障碍。以往的研究结果显示,总体上约有1/3的人具有唱音障碍(发生率的具体数值会因测试任务和测量指标的不同而不同;这一点将在下文详述)(Berkowska&Dalla Bella,2013;Dalla Bella&Berkowska,2009;Hutchins&Peretz,2012;Pfordresher&Brown,2007;Pfordresher,Brown,Meier,Belyk,&Liotti,2010)。如此高的发生率,再考虑到其与言语学习、动作模仿学习等有着较为密切的关联(Pfordresher,Halpern,&Greenspon,2015),唱音障碍现象近年来引发了不少研究者的兴趣。本文旨在对近年来该领域所产生的众多研究成果进行梳理总结,分别就唱音障碍的判定标准、测量方法及其认知与神经机制等问题进行论述。需要注意的是,大脑损伤以及神经发育异常都会导致歌唱功能受损(e.g.,Berkowska&Dalla Bella,2009;Dalla Bella,Berkowska,&Sowiński,2011;Dalla Bella,Giguère,&Peretz,2009;Hutchins&Peretz,2013;Hutchins,Zarate,Zatorre,&Peretz,2010;Loui,Guenther,Mathys,&Schlaug,2008;Schön,Lorber,Spacal,&Semenza,2004;Tremblay-Champoux,Dalla Bella,Phillips-Silver,Lebrun,&Peretz,2010),但本文所探讨的是不存在上述疾患的正常个体的唱音障碍问题。

1 唱音障碍的判定标准与测量方法

1.1 唱音障碍的判定标准

唱音准确性(accuracy)的主要测量指标是唱音音高偏差,即个体实际所唱的音高与目标音高之间的差值。唱音偏差通常采用音分(cent)或者半音(semitone)为单位2半音是现代西方音乐体系 (采用十二平均律制)中的最小音程单位。在数理上,一个半音是将一个八度音程 (频率比为2:1)等比地分为12个等份的结果,也等于100音分。。唱音偏差值为零,表明唱音准确,但这是理想的情况。事实上,由于发声是一项十分复杂的过程,涉及骨骼、肌肉以及神经传导的协同,因此个体很难做到丝毫不差地唱准音。所以,实际唱音与目标音之间存在音高偏差是在所难免的。为此,研究者设定了一个可接受的偏差范围。位于这一范围内的唱音被认为是准确的。关于该范围的临界值,有些研究者将其上/下限分别设定为目标音高以上/下100音分;也有些研究者采取了更为严格的标准,即将上/下限缩小至目标音高的上/下50音分处。可接受范围的设定标准不一导致了不同研究所得到的唱音障碍的发生率相差较大。研究者在宽松标准下得到的唱音障碍发生率为 15%～20%(Pfordresher&Brown,2007),而在严格标准下得到的唱音障碍发生率超过50%(Berkowska&Dalla Bella,2013;Hutchins&Peretz,2012)。这样显然不利于不同研究结果之间的比较。Dalla Bella(2015)指出,上/下100音分(即一个半音)的设定方法存在理论上的缺陷。尽管半音是西方调性音乐体系中最小的音程单位,但如果在标准音高值的每一侧都设置一个半音的可接受范围,那么由该标准音高上、下两侧的可接受范围所构成的整个可接受区间就高达200音分。目前,研究者在这一问题上逐渐达成一致,陆续采用目标音高上、下50音分区间为唱音准确性的可接受范围(Berkowska&Dalla Bella,2013;Hutchins,Larrouy-Maestri,&Peretz,2014;Hutchins&Peretz,2012;Pfordresher&Mantell,2014)。因此,如果个体唱音的平均音高偏差大于50音分,那么其唱音就被认为是不准确的。在英文文献中,唱音障碍者被称为“差歌者”(poor singer),与之相对的是“好歌者”(good singer)。

然而,有相当一部分研究者在计算平均唱音偏差时采用了带正、负号的音高偏差值(Pfordresher&Brown,2007;Pfordresher et al.,2010)。采用带符号的偏差指标的优点是能够通过符号的正或负来反映实际唱音高于还是低于目标音高。但其缺点在于,计算平均音高偏差时,正负值在加法运算中的抵消作用使得最终结果出现偏差。一个极端的例子是,个体第一次唱低了100音分(记作-100 cents),第二次唱高了100音分(记作+100 cents),此时若是采用带符号的偏差指标,则平均唱音偏差为零,显示唱音正确。这显然与事实相违背。

为了解决这一问题,研究者设置了唱音一致性(precision)指标,以便更为全面地衡量个体的唱音水平。唱音一致性用来测量个体对同一个目标音所进行的多次模唱能否在音高上保持一致。在统计上,研究者通常采用唱音偏差的标准差作为唱音一致性的指标。准确性与一致性的不同情形可以构成一个2×2的列联表。通常情况下,唱音的准确性与一致性在统计学上是相关的。即准确的唱音也相对较为一致,反之亦然。然而,另外两种情形也是存在的(Dalla Bella,2015;Berkowska&Dalla Bella,2013)。其中之一就是之前所提到的,即个体的平均唱音偏差较小,但唱音偏差的标准差却较大,提示个体唱音的波动性较大,时准时不准。另一种情况是,虽然个体始终无法唱准某个目标音,但其多次唱音偏差的标准差较小,表示其唱音具有较高的一致性,不会时高时低。

然而,就唱音是否准确的判定而言,采用带正、负号的唱音偏差所计算得到的准确性与一致性之间的分离现象毕竟还是造成了很大的不便。但如果用唱音偏差幅度来取代原本带符号的唱音偏差,即对后者取绝对值,那么这一问题能在很大程度上得到解决。这一点已经得到一项研究结果(Berkowska&Dalla Bella,2013)的支持：以平均唱音偏差幅度为指标的准确性与一致性之间的相关性有了显著的提升。但是,Dalla Bella也指出,目前为止尚未有结论能够确定准确性和一致性,究竟哪一个能够更好地判定个体的唱音水平(Dalla Bella,2015)。

上述对于唱音障碍的定义属于绝对标准下的判定。采用绝对标准所得到的唱音障碍发生率会因测试任务和测量指标的不同而不同。例如,单音模唱和音程模唱任务下的唱音障碍发生率就有差别;音高模唱和记忆歌唱两种任务下的唱音障碍人数占比也有差异(Berkowska&Dalla Bella,2013;Pfordresher et al.,2010)。采用准确性指标所得到的唱音障碍发生率也不同于采用一致性指标所得到的发生率(Pfordresher et al.,2010)。此外,由于儿童的发声生理结构尚未发育成熟(Goetze,Cooper,&Brown,1990),因此对于他们的唱音水平的判定标准理应与成人有所不同(Dalla Bella,2015)。

因此,有些研究采用了一种可变的相对标准,即平均唱音偏差在对照组平均值两个标准差以外的个体被判定为差歌者(即唱音障碍者)。这一方法常见于音乐知觉能力障碍(即失乐症,amusia)研究(e.g.,Berkowska&Dalla Bella,2013;Schön et al.,2004)。相对标准取决于研究所考察的组群,如与差歌者相对照的是声乐专业人员还是唱音准确的普通人士。相对标准的优点是能够控制测试任务和测量指标的差异而提供较为稳定和合理的估计(Berkowska&Dalla Bella,2013)。因此,Dalla Bella(2015)建议,对于个体唱音水平的评估应采取多种测试任务,并采用相对标准。

1.2 唱音障碍的测量方法

以上所论述的关于唱音障碍的判定标准是建立在对唱音进行声学分析的基础上的。事实上,一些早期研究采用了专家评价法(e.g.,Hébert,Racette,Gagnon,&Peretz,2003;Schön et al.,2004;Wise&Sloboda,2008)。这种主观评估适用于整体和快速的评价,但也存在着一些缺陷：对于某些维度的评价缺乏一致性,如音高、节奏;一些细节也难以评估,如音高偏离的程度。因此,客观测量的优势更明显(Larrouy-Maestri,Lévêque,Schön,Giovanni,&Morsomme,2013)。对唱音进行声学分析的核心工作是提取唱音的基频(fundamental frequency,F0)。研究者在此基础上对个体的唱音进行多种指标的统计分析。声学分析的最大优点是可以量化个体的唱音成绩。这样就可以较为全面地反映个体的唱音水平,也为研究者设定区分好、差歌者的判定标准以及比较不同的研究结果提供了可能性(Dalla Bella,2015)。

如上所述,对于歌唱水平的判定受到了测试任务和测试指标的影响。因此,Berkowska和Dalla Bella(2013)认为对于歌唱水平的评估需要采用多任务多指标的方法。他们开发出了一套《歌唱水平成套测验》(Sung Performance Battery,SPB)。SPB含有5项歌唱任务：(1)单音模唱;(2)音程模唱;(3)新旋律模唱;(4)歌唱熟悉旋律;(5)跟着节拍器以慢速度歌唱熟悉旋律。SPB能够从多个角度(绝对音高vs.相对音高;准确性vs.一致性;绝对标准vs.相对标准)全面系统地测量个体的歌唱水平,揭示唱音障碍的不同表现形式。这有助于研究者进一步探索导致歌唱能力缺陷的原因,并且找到相应的矫治方法(e.g.,Tremblay-Champoux et al.,2010)。然而,SPB由于没有设置音高知觉测验,因此仍有待进一步完善。

最近,一项旨在制定标准化唱音准确性测验的《西雅图唱音准确性协议》(Seattle SingingAccuracy Protocol,SSAP)正在研制进程当中 (Demorest et al.,2015)。这套唱音能力测验可分为3个部分：歌唱准确性测试、音高知觉测试、音乐背景调查。其中,歌唱任务分为舒适音域测试、单音及4音序列模唱、歌曲演唱。研究者希望这套歌唱能力测验既能做到简洁、易操作,又能测量足够多的维度以便找到导致个体唱音障碍的可能原因。未来,该测验的广泛运用也将使不同研究结果间的直接比较成为可能(Demorest et al.,2015)。

2 唱音障碍的认知与神经机制

2.1 歌唱的心理过程及其神经基础

无论是对新旋律的模唱还是对记忆中老旋律的歌唱,都包含了4个主要的认知加工成分：知觉、感觉运动转换、发声动作控制和记忆(Berkowska&Dalla Bella,2009;Dalla Bella et al.,2011;Pfordresher et al.,2015;Pfordresher&Mantell,2009;Zarate,2013)。其中,研究者最感兴趣的是感觉运动转换过程。原因有三点。首先,相对而言,对于其他3个认知成分的考察比较容易操作,但对于感觉运动转换的观测却困难得多。其次,感觉运动转换是歌唱环路中的中继站,联系着其他三者,作用十分关键。第三,感觉运动转换障碍被认为是导致唱音障碍的主要原因(详见本文第三部分)。研究者从运动控制领域引入了内部模型(internal model,Kawato,1999)来解释歌唱中的听觉运动整合过程(Loui,2015;Pfordresher&Mantell,2014)。该模型用两个子模型和两个控制过程解释了听觉与发声动作阶段之间的信息整合过程。以模唱为例,研究者用逆向模型(inverse model)解释了个体根据目标音高的知觉表征制定发声动作计划的过程,用前向模型(forward model)解释了个体根据发声动作指令预测发声结果的过程,同时这一控制过程也称为前馈(feedforward)。此外,发声动作指令在发出去的同时会产生一份副本,称为“传出副本”(efferent copy),以供与目标音高做比较(反馈)。

在神经科学层面,内部模型得到了听觉皮层双通路理论的支持(Rauschecker&Tian,2000)。其中,背侧通路(起始于颞上回后部,经下顶叶投射至前额皮层)被认为是前向模型 (前馈)的神经基础。传出副本由前额皮层以及前运动皮层发出。这些额叶区域与下顶叶以及听觉皮层相互联系。在模唱中,个体通过反复练习来巩固这条通路的信息传导,最终达到能够快速制定动作计划的水平(Rauschecker,2011)。关于反馈过程,存在着两条路径：听觉反馈和体感反馈。个体将基于传出副本所预测的发声结果或者所听到的实际唱音与目标音进行比对的过程属于听觉反馈。而体感反馈则是体感感受器通过舌咽神经、迷走神经以及上行体感通路将当前的发声运动状态传递至初级和次级体感皮层以及脑岛的过程(Zarate,2013)。研究显示,好歌者比差歌者更多地利用体感反馈来控制自己的歌唱(Kleber,Veit,Birbaumer,Gruzelier,&Lotze,2010;Kleber,Zeitouni,Friberg,&Zatorre,2013;Mürbe,Pabst,Hofmann,&Sundberg,2004)。

受到双通路思想的启发,研究者们相继提出了许多类似的双通路模型来完善之前的理论或者解释歌唱过程中不同的听觉-运动整合现象。Zarate(2013)基于已有的众多神经成像数据,扩展了Dalla Bella的发声感觉运动环路模型(vocal sensorimotor loop,for reviews see Berkowska&Dalla Bella,2009;Dalla Bella et al.,2011),对歌唱的神经过程做了更明确的描述：颞上回/颞上沟以及顶内沟负责听觉信息加工(包括目标音以及反馈回听觉皮层的实际唱音)以及音高-发声运动转换;前脑岛、前扣带皮层、前运动皮层负责发声动作准备及启动,初级体感皮层根据体感反馈调控发声动作。以上是该模型中负责歌唱的外显通路(overt pathway)。此外,还存在着一条负责知觉加工的内隐通路(covert pathway),即听觉信息从听觉皮层传至额下回。先天性失乐症(congenital amusia)对于音高感知的受损之处正是这条额-颞通路(Hyde et al.,2007;Hyde,Zatorre,Griffiths,Lerch,&Peretz,2006;Hyde,Zatorre,&Peretz,2011;Loui,Alsop,&Schlaug,2009)。在上述 Zarate(2013)的模型中,外显通路和内隐通路分别负责听觉-运动转换和听知觉。实际上,有不少认知模型认为,听觉-运动转换本身也存在着外显和内隐两条加工通路：在外显通路中,个体首先形成目标音高的符号表征,而后制定发声动作计划;而内隐通路则使得个体在低水平知觉目标音后就能够自动形成发声动作计划(Berkowska&Dalla Bella,2009;Dalla Bella et al.,2011;Hutchins,Hutka,&Moreno,2015;Hutchins&Moreno,2013)。然而,这些模型中的内隐通路的神经基础尚不明确,有待未来研究做出进一步探索。

综上所述,歌唱涉及4个认知加工阶段：知觉、感觉运动转换、发声动作控制和记忆(Berkowska&Dalla Bella,2009;Dalla Bella et al.,2011;Pfordresher et al.,2015;Pfordresher&Mantell,2009;Zarate,2013),发生在其中任一阶段的功能缺陷均有可能导致唱音障碍。因此,我们接下来将从这4个方面展探讨唱音障碍的成因及其产生机制。

2.2 唱音障碍的成因及产生机制

2.2.1 音高知觉缺陷

早前较为普遍的观点认为唱音障碍是由音高知觉障碍引起的。这一观点预测歌唱能力与音高知觉能力存在共变关系。不少研究结果对此予以支持。来自失乐症(主要表现为音高知觉障碍)领域的研究结果显示,失乐症者普遍存在歌唱能力缺陷,并显示其音高差别阈限与歌唱成绩之间存在相关(Ayotte,Peretz,&Hyde,2002;Dalla Bella,Giguère,&Peretz,2007)。这种相关也存在于正常个体(非失乐症者)中(Amir,Amir,&Kishon-Rabin,2003;Estis,Coblentz,&Moore,2009;Estis,Dean-Claytor,Moore,&Rowell,2011;Moore,Keaton,&Watts,2007;Nikjeh,Lister,&Frisch,2009;Watts,Moore,&McCaghren,2005)。

但是,这一观点也受到了挑战。首先,同样存在不少研究未能发现上述音高知觉能力和歌唱成绩之间的相关(Bradshaw&McHenry,2005;Dalla Bella et al.,2007;Moore,Estis,Gordon-Hickey,&Watts,2008;Pfordresher&Brown,2007)。其次, 研究显示不少音高知觉能力正常的个体存在歌唱能力缺陷(Bradshaw&McHenry,2005;Dalla Bella et al.,2007;Hutchins&Peretz,2012;Pfordresher&Brown,2007),而部分在音高知觉能力测试中表现较差的个体却能够在唱音任务中表现出较好的音准(Pfordresher&Brown,2007)。甚至有少数失乐症者在唱熟悉歌曲的时候也能表现出较好的音准(Dalla Bella et al.,2009)。此外,如果音高知觉阈限与唱音准确性之间存在相关,那么可以预测差歌者对于大音程的模唱成绩应好于对小音程的模唱。但是,研究显示失乐症者的唱音偏差随着音程距离的增大而增加(Dalla Bella et al.,2009;Liu et al.,2013)。这表明,失乐症者的唱音障碍并不能完全由细微音高差异识别障碍来解释。最后,根据知觉缺陷观点,在歌唱时给予反馈应该能够帮助具备正常歌唱能力的个体提高音准。但研究表明,无论是听觉反馈还是视觉反馈,都不能显著地提升正常组被试的唱音准确性(Pfordresher&Brown,2007;Hutchins&Peretz,2012)。

事实上,真正存在音高知觉障碍的个体只约占总人口的4%(Kalmus&Fry,1980),而唱音障碍者所占的比例据最保守的估计也在10%以上(Berkowska&Dalla Bella,2013;Dalla Bella et al.,2011;Hutchins&Peretz,2012;Pfordresher&Brown,2007)。因此,音高知觉障碍并非导致唱音障碍的主要原因。

2.2.2 发声运动控制缺陷

唱音障碍也可能由发声运动控制缺陷引起。外周的发声运动过程包括了呼吸、发声 (phonation)和咬字(articulation)。其中决定唱音音高的是发声,其核心过程是由喉部肌肉运动所调控的声带振动(Hirano,Ohala,&Vennard,1969;Sundberg,1987;Titze,1994)。此外,咬字决定了唱音的音色(Jürgens,2002;Perkell,2012;Sundberg,1987;Titze,1994)。

研究者主要从三个方面来考察发声运动对于唱音准确性的影响。第一,音域限制。这导致了个体无法唱出超出其音域的音高(Goetzeet al.,1990)。但对于成人,过往研究显示,差歌者与好歌者并不存在显著的音域差异,表明音准与个体的音域没有明显的关联(Pfordresher&Brown,2007)。

第二,唱音的音高稳定性。音高稳定性反映了个体对声带振动的控制能力。其可以通过计算个体在单次唱音过程中各帧音高的标准差来加以测量。Pfordresher和Mantell(2009)发现,差歌者在音高稳定性的维持能力方面并不弱于好歌者。

第三,唱音的音高一致性。如本文在唱音的判定标准部分所述,唱音一致性是指个体在多次模唱同一目标音时的一致性程度。差歌者的唱音一致性差于好歌者(Dalla Bella et al.,2009;Hutchins&Peretz,2012;Pfordresher et al.,2010)。而且,唱音不一致的发生率甚至要高于不准确的发生率(Pfordresher et al.,2010)。然而,这是否意味着发声运动控制障碍是导致歌唱能力缺陷的主要因素呢？要回答这个问题,我们首先要明确音高一致性是否能够完全 (充分)地反映发声运动控制能力。答案并非肯定。唱音音高变异性大的现象也可能是感觉运动转换缺陷的结果。

2.2.3 感觉运动转换缺陷

研究者认为唱音障碍也有可能属于模仿缺陷,即位于知觉和发声动作之间的感觉运动阶段存在功能缺陷。Pfordresher和Brown(2007)提出感觉运动失映射说(sensorimotor mismapping explanation),认为音高知觉和发声动作之间存在固定的映射体系,但该体系中的系统性映射偏差导致了唱音障碍。根据这一假设,唱音的音高偏差应该在方向和幅度上表现出一致性。但实验数据只显示了偏差的方向性,而并未显示出偏差幅度的一致性(Pfordresher&Brown,2007;Pfordresher et al.,2010)。此外,单音模唱任务的结果也显示差歌者的唱音音高偏差幅度存在较大的变异性(Hutchins&Peretz,2012)。正是为了解释唱音变异性大这一现象,Pfordresher等(2010)提出了唱音的一致性概念,以区别于原有的准确性概念。他们认为,准确性由映射系统控制,而一致性则受到该系统噪音(误差)的影响。

Hutchins和Peretz(2012)认为,音高知觉和发声动作之间并不存在固定的映射系统,唱音障碍是由音色转换失败导致的。他们所基于的证据是他们在实验中所发现的自我模唱优势效应(selfimitation advantage)：差歌者对自己声音的模唱成绩要明显好于对电脑合成音的模唱。但是,音色转换缺陷假设无法解释该实验中的另一项结果：差歌者在使用调音器械进行同音色的音高匹配时出现首次音高匹配偏差幅度较大的现象(尽管他们最终能够匹配正确),而这一现象却没有发生在自我音高模唱任务中。来自Pfordresher等人的新近研究证据进一步表明,音色相同/相似并非自我模唱优势效应的根本原因。在他们的实验中,研究者改变了被试自我唱音的音色,以至于被试自己都很难再认;然而,即便如此,自我优势效应依然存在甚至更强(Pfordresher&Mantell,2014)。

基于感觉运动失映射假设的缺陷,Pfordresher和Mantell(2014)引入了运动计划和控制领域的内部模型(Kawato,1999)来解释歌唱过程中的感觉运动联结过程。本文在歌唱的心理过程及其神经基础部分已经对该模型的机制做了详细论述。唱音障碍的关键问题在于逆向模型的功能异常。也就是说,差歌者缺乏音高知觉与发声动作之间的表征联系,故而无法根据目标音高来计划相应的发声动作。而之所以差歌者能够唱准某些音,是因为他们曾经多次地唱对过,并将这些正确的音高知觉-发声动作联结存储在记忆中,作为将来唱音时可以提取的记忆痕迹。因此,Pfordresher认为曾经成功过的感觉运动联结经验才是产生自我优势效应的主要原因。他们的实验结果也支持了这一假设(Pfordresher&Mantell,2014)。然而,另一方面,差歌者的前向模型 (前馈)也存在着功能缺陷,导致其不能很好地利用听觉反馈来纠正错误的唱音反应(Pfordresher&Beasley,2014)。

内部模型的优点更多地在于提供了对反馈机制的解释,使得我们对于歌唱过程理解得更为细致。然而,仅就感觉运动转换的本质来说,内部模型并没有为我们提供更多的信息。因为逆向模型与感觉-运动转换在本质上是一回事。因此,用前者来解释后者无异于变了说法地复述着同一件事(Pfordresher et al.,2015)。根本的问题依然是,听觉信息与发声动作是如何联结转换(映射)的？最近,Pfordresher等人提出了多通道意象联结模型(Multi-Modal Imagery Association,MMIA),作为对内部模型在人类发声领域的扩展(Pfordresher et al.,2015)。为了使模型具有更大的解释范围 (扩展到语音模仿甚至联觉),Pfordresher等人在新模型中更新了几个概念。他们用外延更广的“多通道联结”(multi-modal association)代替了“感觉运动联结”,用“发声音高模仿障碍”(vocal pitch-imitation deficit,VPID)代替了原先的“唱音障碍”,用“心理意象”(mental imagery)代替了以往的“表象”。MMIA模型本质上是一个概率统计模型。它将听觉意象和发声动作意象看作是两个连续变量;二者可分别看作直角坐标系中的两个坐标轴。这两个变量的不同取值之间存在着双向映射。但这种映射并不是完美的1:1映射(听觉意象准确地映射到相应的发声动作意象),甚至也不是1对1的映射,而是一种呈二元概率分布的弥散映射。个体在日常生活中将偶然正确的听觉-发声动作联结经验加以巩固并泛化。久而久之,个体所积累的众多联结便形成了概率分布。MMIA模型的提出是基于以往的大量证据,即差歌者的唱音具有较大的变异性以及舒适音高(comfort pitch,个体容易唱对的音高)偏向现象(e.g.,Hutchins&Peretz,2012;Pfordresher&Brown,2007;Pfordresher et al.,2010)。MMIA模型包含两种概率分布。一个是期望值为目标音高的实际唱音分布;另一个是期望值为舒适音高的舒适唱音分布。该模型不仅对单音模唱做了解释,也对涉及时间推移的短音序列模唱做了解释。模型的仿真结果也较好地拟合了行为学数据。例如,当舒适音域增大,映射变异减小时,唱音偏差幅度减小;当舒适音域减小,映射变异增大时,唱音偏差幅度增大。

MMIA模型在内部模型的基础上进一步描述了听觉意象-发声动作映射的具体情形,并且将内部模型中相互独立的双系统简化为单一的双向映射系统。尽管具有这些优点,MMIA模型仍需要在未来接受研究者们的进一步检验和细化。例如,当前的MMIA模型对于舒适音高的预设可能就存在着缺陷。MMIA模型假设个体的舒适音高呈单峰分布,例如,在C4(261.63 Hz)～B4(493.88 Hz)的八度音区中,个体的舒适音高为E4(329.63 Hz)。而我们实验室所获得的数据提示,个体的舒适音高也存在着多峰分布的情况。例如,在同样的八度音区内,某个个体的舒适音高是分散的,如D4(293.66 Hz)和G4(392 Hz)。基于舒适音高呈单峰分布的预设,MMIA模型量化舒适音区的方法是计算舒适唱音的标准差,而这种算法在离散分布的情形下就行不通了。此外,也正是基于舒适音高单峰分布的预设,MMIA模型预测,越接近舒适音高,唱音的一致性越好,反之亦然。尽管以往的数据表明这是一种常见的情况,但是也存在着相对少数的一致性高但准确性低的唱音错误。上述这些都提示了进一步细化MMIA的必要性和可能性。

2.2.4 音高记忆缺陷

无论是模唱新旋律还是歌唱记忆中的老旋律,都会涉及记忆。如果是记忆缺陷导致了唱音障碍,那么减轻记忆负荷应该能够提高唱音准确性。研究者通过两种方法来减轻被试在歌唱时的记忆负荷。一是给予反馈,二是降低歌唱任务的复杂性。关于反馈,的确有研究显示,在乐曲歌唱任务中,给被试提供样例能够提高失乐症者的歌唱成绩,但是这种改善程度是有限的(Tremblay-Champoux et al.,2010)。而在短音序列和单音模唱任务中,给予听觉反馈和视觉反馈均未能提高差歌者的唱音准确性(Hutchins&Peretz,2012;Pfordresher&Brown,2007)。另一方面,差歌者在短音序列模唱中的成绩并未随着任务复杂性的增高而降低(Pfordresher&Brown,2007)。与好歌者的表现相反,差歌者对于异音高旋律(由4个不同的音构成)的模唱成绩要好于其对同音高旋律(由4个相同的音组成)的模唱成绩。这一结果显然不能被记忆负荷假设所解释,但却能在MMIA框架下得到比较合理的解释。由于MMIA模型中的通道联结是基于日常经验的,而日常生活中是很难见到由相同的音所构成的旋律的,因此差歌者在听到同音旋律时出于习惯依然优先提取了在记忆中占主导的异音旋律,而不是罕见的同音旋律(Pfordresher et al.,2015)。因此,减轻记忆负荷也许对于幅度较长、复杂性高的乐曲歌唱有帮助,但对于短音序列或者单音的模唱(复杂性低)则没有明显的改善。

3 小结与展望

唱音障碍的判定标准取决于具体的评估方式、测试任务和测量指标。大量的研究表明,采用声学分析的客观测量全面优于传统的主观评价法。然而,对于唱音障碍的判定到底是采用绝对标准还是相对标准？目前并没有定论。从理论上来讲,设定目标音高上、下50音分的可接受范围是相对而言最为严格也符合乐理的音准判断标准。但基于这一标准的判定结果会因为测试任务或测量指标的不同而出现较大的波动。而采用相对标准能够在一定程度上改善这种不稳定性。相较而言,采用多任务多指标的测量手段以及相对标准来判定唱音准确性是比较合理的办法。目前,标准化的歌唱能力测验即将开发完成(Demorest et al.,2015)。这将有助于未来研究准确快速地识别歌唱能力缺陷者,找出导致其唱音缺陷的具体原因,制定相应的音准矫正办法。同时,标准化测验也将使得不同研究的结果之间可以相互比较。

关于唱音障碍的成因,发生在音高知觉、感觉运动转换、发声运动控制以及记忆阶段的功能缺陷都会导致唱音障碍。尽管良好的音高知觉能力是准确唱音的必要条件,但对于大多数具备正常音高知觉能力的人来说,知觉障碍不是导致唱音障碍的原因。在以往的研究中,差歌者的发声动作控制能力也不弱于好歌者。此外,大多数研究所用的材料也较为简单;没有明显的证据表明这些实验材料给差歌者带来了足以影响音准的记忆负荷。因此,感觉运动转换缺陷被认为是导致唱音障碍的主要原因,其产生机制成了当前的研究热点。目前,研究者采用有着大量认知神经科学证据支持的内部模型来解释歌唱过程,尤其是其中的听觉-运动转换和反馈过程。而关于听觉-运动联结异常的具体情形,尽管最新的MMIA模型做出了数学描述,但其仍存在着一些缺陷。例如,MMIA模型关于舒适音高的单峰分布假设就可能面临实验数据的挑战。因此,未来的研究需要对当前的MMIA模型做进一步验证,看看是否存在需要修正或是补充的变量或参数。

尽管我们已经认识到差歌者在感觉运动联结方面存在功能缺陷,但目前还未有专门的研究报告唱音障碍是否存在特异性的神经结构或功能损伤。因此,探索唱音障碍的特异性神经结构或功能损伤及其遗传学机制应成为未来研究的一个重要方向,就像研究者在先天性失乐症领域所做的那样(e.g.,Albouyet al.,2013;Drayna,Manichaikul,de Lange,Snieder,&Spector,2001;Hyde et al.,2006,2007,2011;Peretz,2008;Peretz,Cummings,&Dubé,2007)。

厘清唱音障碍的感觉运动转换机制有助于帮助个体改善、提高自身的唱音水平。通过传统的视、听觉反馈来帮助改善音准的效果并不明显。但通过自我模唱来提升音准的即时效果却极为显著和稳定。但是,系统的自我模唱训练能够给差歌者的音准带来实质性的提升吗？如果可以,那么要想达到这种改善效果需要经历多长时间的自我模唱训练？这些问题的答案也有待未来研究加以揭晓。此外,探究个体能否以及如何将音准提升从自我模唱泛化到对于其他音色 (如,他人、乐器)的目标音模唱也是一个对于当前MMIA模型的拓展方向。

对于自我优势效应的产生机制,相较于Pfordresher和Mantell(2014)的情景记忆解释,我们更倾向于认为是关于听觉-发声动作联结的程序性记忆起到了关键作用。来自于听觉意象领域的脑成像研究也对此提供了不少证据：听觉意象可以激活负责相应(发声/弹奏乐器)的动作计划的脑区(e.g.,Leaver,van Lare,Zielinski,Halpern,&Rauschecker,2009;for reviews,see Halpern,2006;Zatorre&Halpern,2005)。这一点也提示了给音高知觉障碍患者带来帮助的可能性。人声中包含了许多信息,其中就包括了发声的动作信息。音高知觉障碍患者也许可以从自己的声音中提取发声动作信息以帮助其提高音准,从而代偿其受损的音高知觉能力。这一点有待未来研究针对先天性失乐症者以及人工耳蜗配戴者(听力障碍)做出进一步探索。

Albouy,P.,Mattout,J.,Bouet,R.,Maby,E.,Sanchez,G.,Aguera,P.E.,… Tillmann,B.(2013).Impaired pitch perception and memory in congenital amusia:The deficit starts in the auditory cortex.Brain,136(Pt 5),1639-1661.

Amir,O.,Amir,N.,&Kishon-Rabin,L.(2003).The effect of superior auditory skills on vocal accuracy.Journal of the Acoustical Society of America,113(2),1102-1108.

Ayotte,J.,Peretz,I.,&Hyde,K.(2002).Congenital amusia:A group study of adults afflicted with a music-specific disorder.Brain,125(Pt 2),238-251.

Berkowska,M.,&Dalla Bella,S.(2009).Acquired and congenital disorders of sung performance:A review.Advances in Cognitive Psychology,5,69-83.

Berkowska,M.,& DallaBella,S.(2013).Uncovering phenotypes of poor-pitch singing:The Sung Performance Battery(SPB).Frontiers in Psychology,4,714.

Bradshaw,E.,&McHenry,M.A.(2005).Pitch discrimination and pitch matching abilities of adults who sing inaccurately.Journal of Voice,19(3),431-439.

Dalla Bella,S.(2015).Defining poor-pitch singing.Music Perception,32(3),272-282.

Dalla Bella,S.,&Berkowska,M.(2009).Singing proficiency in the majority:Normality and"phenotypes"of poor singing.Annals of the New York Academy of Sciences,1169,99-107.

Dalla Bella,S.,Berkowska,M.,& Sowiński,J.(2011).Disorders of pitch production in tone deafness.Frontiers in Psychology,2,164.

Dalla Bella,S.,Giguère,J.F.,&Peretz,I.(2007).Singing proficiency in the general population.The Journal of the Acoustical Society of America,121(2),1182-1189.

Dalla Bella,S.,Giguère,J.F.,&Peretz,I.(2009).Singing in congenital amusia.The Journal of the Acoustical Society of America,126(1),414-424.

Demorest,S.M.,Pfordresher,P.Q.,Dalla Bella,S.,Hutchins,S.,Loui,P.,Rutkowski,J.,&Welch,G.F.(2015).Methodological perspectives on singing accuracy.Music Perception,32(3),266-271.

Drayna,D.,Manichaikul,A.,de Lange,M.,Snieder,H.,&Spector,T.(2001).Genetic correlates of musical pitch recognition in humans.Science,291(5510),1969-1972.

Estis,J.M.,Coblentz,J.K.,&Moore,R.E.(2009).Effects of increasing time delays on pitch-matching accuracy in trained singers and untrained individuals.Journal of Voice,23(4),439-445.

Estis,J.M.,Dean-Claytor,A.,Moore,R.E.,&Rowell,T.L.(2011).Pitch-matching accuracy in trained singers and untrained individuals:The impact of musical interference and noise.Journal of Voice,25(2),173-180.

Goetze,M.,Cooper,N.,&Brown,C.J.(1990).Recent research on singing in the general music classroom.Bulletin of the Council for Research in Music Education,(104),16-37.

Hagen,E.H.,&Hammerstein,P.(2009).Did Neanderthals and other early humans sing?Seeking the biological roots of music in the territorial advertisements of primates,lions,hyenas,and wolves.Musicae Scientiae,13(2 Suppl),291-320.

Halpern,A.R.(2006).Cerebral substrates of musical imagery.Annals of the New York Academy of Sciences,930(1),179-192.

Hébert,S.,Racette,A.,Gagnon,L.,&Peretz,I.(2003).Revisiting the dissociation between singing and speaking in expressive aphasia.Brain,126(Pt 8),1838-1850.

Hirano,M.,Ohala,J.,&Vennard,W.(1969).The function of laryngeal muscles in regulating fundamental frequency and intensity of phonation.Journal of Speech Language and Hearing Research,12(3),616-628.

Hutchins,S.,Hutka,S.,&Moreno,S.(2015).Symbolic and motor contributions to vocal imitation in absolute pitch.Music Perception,32(3),254-265.

Hutchins,S.,Larrouy-Maestri,P.,&Peretz,I.(2014).Singing ability is rooted in vocal-motor control of pitch.Attention,Perception&Psychophysics,76(8),2522-2530.

Hutchins,S.,&Moreno,S.(2013).The linked dual representation model of vocal perception and production.Frontiers in Psychology,4,825.

Hutchins,S.,&Peretz,I.(2013).Vocal pitch shift in congenital amusia(pitch deafness).Brain and Language,125(1),106-117.

Hutchins,S.,Zarate,J.M.,Zatorre,R.J.,&Peretz,I.(2010).An acoustical study of vocal pitch matching in congenital amusia.The Journal of the Acoustical Society of America,127(1),504-512.

Hutchins,S.M.,&Peretz,I.(2012).A frog in your throat or in your ear?Searching for the causes of poor singing.Journal of Experimental Psychology:General,141(1),76-97.

Hyde,K.L.,Lerch,J.P.,Zatorre,R.J.,Griffiths,T.D.,Evans,A.C.,&Peretz,I.(2007).Cortical thickness in congenital amusia:When less is better than more.Journal of Neuroscience,27(47),13028-13032.

Hyde,K.L.,Zatorre,R.J.,Griffiths,T.D.,Lerch,J.P.,&Peretz,I.(2006).Morphometry of the amusic brain:A two-site study.Brain,129(Pt 10),2562-2570.

Hyde,K.L.,Zatorre,R.J.,&Peretz,I.(2011).Functional MRI evidence of an abnormal neural network for pitch processing in congenital amusia.Cerebral Cortex,21(2),292-299.

Jürgens,U.(2002).Neural pathways underlying vocal control.Neuroscience&Biobehavioral Reviews,26(2),235-258.

Kalmus,H.,&Fry,D.B.(1980).On tune deafness(dysmelodia):Frequency, development, genetics and musical background.Annals of Human Genetics,43(4),369-382.

Kawato,M.(1999).Internal models for motor control and trajectory planning.Current Opinion in Neurobiology,9(6),718-727.

Kleber,B.,Veit,R.,Birbaumer,N.,Gruzelier,J.,&Lotze,M.(2010).The brain of opera singers:Experience-dependent changes in functional activation.Cerebral Cortex,20(5),1144-1152.

Kleber,B.,Zeitouni,A.G.,Friberg,A.,&Zatorre,R.J.(2013).Experience-dependent modulation of feedback integration during singing:Role of the right anterior insula.Journal of Neuroscience,33(14),6070-6080.

Larrouy-Maestri,P.,Lévêque,Y.,Schön,D.,Giovanni,A.,&Morsomme,D.(2013).The evaluation of singing voice accuracy:A comparison between subjective and objective methods.Journal of Voice,27(2),259.e1-259.e5.

Leaver,A.M.,van Lare,J.,Zielinski,B.,Halpern,A.R.,&Rauschecker,J.P.(2009).Brain activation during anticipation of sound sequences.Journal ofNeuroscience,29(8),2477-2485.

Liu,F.,Jiang,C.M.,Pfordresher,P.Q.,Mantell,J.T.,Xu,Y.,Yang,Y.F.,&Stewart,L.(2013).Individuals with congenital amusia imitate pitches more accurately in singing than in speaking:Implications for music and language processing.Attention,Perception&Psychophysics,75(8),1783-1798.

Loui,P.(2015).A dual-stream neuroanatomy of singing.Music Perception,32(3),232-241.

Loui,P.,Alsop,D.,&Schlaug,G.(2009).Tone deafness:A new disconnection syndrome?Journal of Neuroscience,29(33),10215-10220.

Loui,P.,Guenther,F.H.,Mathys,C.,&Schlaug,G.(2008).Action-perception mismatch in tone-deafness.Current Biology,18(8),R331-R332.

Mithen,S.(2007).The singing neanderthals:The origins of music,language,mind,and body.Cambridge,MA:Harvard University Press.

Moore,R.E.,Estis,J.,Gordon-Hickey,S.,&Watts,C.(2008).Pitch discrimination and pitch matching abilitieswith vocal and nonvocal stimuli.Journal of Voice,22(4),399-407.

Moore,R.E.,Keaton,C.,&Watts,C.(2007).The role of pitch memory in pitch discrimination and pitch matching.Journal of Voice,21(5),560-567.

Mürbe,D.,Pabst,F.,Hofmann,G.,&Sundberg,J.(2004).Effects of a professional solo singer education on auditory and kinesthetic feedback:A longitudinal study of singers'pitch control.Journal of Voice,18(2),236-241.

Nikjeh,D.A.,Lister,J.J.,&Frisch,S.A.(2009).The relationship between pitch discrimination and vocal production:Comparison of vocal and instrumental musicians.The Journal of the Acoustical Society of America,125(1),328-338.

Peretz,I.(2008).Musical disorders:From behavior to genes.Current Directions in Psychological Science,17(5),329-333.

Peretz,I.,Cummings,S.,&Dubé,M.P.(2007).The genetics of congenital amusia(tone deafness):A family-aggregation study.The American Journal of Human Genetics,81(3),582-588.

Perkell,J.S.(2012).Movement goals and feedback and feedforward control mechanisms in speech production.Journal of Neurolinguistics,25(5),382-407.

Pfordresher,P.Q.,&Beasley,R.T.(2014).Making and monitoring errorsbased on altered auditory feedback.Frontiers in Psychology,5,914.

Pfordresher,P.Q.,&Brown,S.(2007).Poor-pitch singing in the absence of"tone deafness".Music Perception,25(2),95-115.

Pfordresher,P.Q.,Brown,S.,Meier,K.M.,Belyk,M.,&Liotti,M.(2010).Imprecise singing is widespread.The Journal of the Acoustical Society of America,128(4),2182-2190.

Pfordresher,P.Q.,Halpern,A.R.,&Greenspon,E.B.(2015).A mechanism for sensorimotor translation in singing.Music Perception,32(3),242-253.

Pfordresher,P.Q.,&Mantell,J.T.(2009).Singing as a form of vocal imitation:Mechanisms and deficits.Paper presented at the Proceedings of the 7th Triennial Conference of European Society for the Cognitive Sciences of Music.

Pfordresher,P.Q.,&Mantell,J.T.(2014).Singing with yourself:Evidence for an inverse modeling account of poor-pitch singing.Cognitive Psychology,70,31-57.

Rauschecker,J.P.(2011).An expanded role for the dorsal auditory pathway in sensorimotor control and integration.Hearing Research,271(1-2),16-25.

Rauschecker,J.P.,&Tian,B.(2000).Mechanisms and streams for processing of"what"and"where"in auditory cortex.Proceedings of the National Academy of Sciences of the United States of America,97(22),11800-11806.

Schön,D.,Lorber,B.,Spacal,M.,&Semenza,C.(2004).A selective deficitin the production of exactmusical intervals following right-hemisphere damage.Cognitive Neuropsychology,21(7),773-784.

Sundberg,J.(1987).The science of the singing voice.Dekalb,IL:Northern Illinois University Press.

Titze,I.R.(1994).Principles of voice production.Englewood Cliffs,NJ:Prentice Hall.

Tremblay-Champoux,A.,Dalla Bella,S.,Phillips-Silver,J.,Lebrun,M.A.,&Peretz,I.(2010).Singing proficiency in congenital amusia:Imitation helps.Cognitive Neuropsychology,27(6),463-476.

Watts,C.,Barnes-Burroughs,K.,Andrianopoulos,M.,&Carr,M.(2003).Potential factors related to untrained singing talent:A survey of singing pedagogues.Journal of Voice,17(3),298-307.

Watts,C.,Moore,R.,&McCaghren,K.(2005).The relationship between vocal pitch-matching skills and pitch discrimination skills in untrained accurate and inaccurate singers.Journal of Voice,19(4),534-543.

Wise,K.J.,&Sloboda,J.A.(2008).Establishing an empirical profile of self-defined"tone deafness":Perception,singing performance and self-assessment.Musicae Scientiae,12(1),3-26.

Zarate,J.M.(2013).The neural control of singing.Frontiers in Human Neuroscience,7,237.

Zatorre,R.J.,& Halpern,A.R.(2005).Mental concerts:Musical imagery and auditory cortex.Neuron,47(1),9-12.