符秋养 综述 梁勇 审校
言语诱发的听性脑干反应
符秋养1综述 梁勇1审校
人类关于听觉系统的研究从未停滞,言语行为的神经解剖与生理学基础是国内外广大学者致力研究的热点,脑干作为听觉系统处理声音信号的初级中枢,在言语行为中的作用机制引起了广泛关注。本文就言语诱发的听性脑干反应(speech evoked auditory brainstem response,speech-ABR)的相关研究综述如下。
听性脑干反应(ABR)是声音刺激诱发脑干神经元同步化活动产生的生物电位,出现在声音刺激发生后的10~15 ms内。短声刺激诱发出的脑干反应(click-ABR)最为人们所熟知,包含I~Ⅶ波,其中波I、III和V的潜伏期及I-III、I-V、III-V波间期在临床常用于听觉神经通路的功能评估。此外,短声刺激时在波V后出现一个负性波,也可能来源于脑干,因其潜伏期约10 ms而被命名为慢负拾电位(slow negative 10,SN10)(Davis,1979),它的出现可能有助于判断波V和诊断中脑病变。1973年Moushegian等首次记录到与刺激频率一致的频率跟随反应(frequency following response,FFR),可能是来源于脑干的另一听觉诱发电位(Mφller,1982)。FFR潜伏期约为6 ms,其刺激强度低于40 d B SL、受试者年龄大于40岁、刺激频率高于2 k Hz不易引出的特点逐渐得到广大学者的关注。由于短声能量集中于高频区域,频率特性差,因此click-ABR的临床意义较为局限。近年来随着神经电生理技术、言语医学及语音合成技术的快速发展,学者们开始了speech-ABR的研究,寻求能更直接反映听觉功能及解码言语行为的神经基础的方法。在语音合成技术的帮助下,根据研究目的赋予不同的声学参数可合成各种不同的仿真言语,通过这些仿真言语诱发听觉电位可研究听觉系统的言语处理机制。例如通过不同的合成元音/u/和/a/[1]来研究言语中周期性信息的编码机制;不同音节/ga/、/da/和/ba/[2]来探索辅音辨认的神经基础;不同声调/yī/、/yí/、/yǐ/、/yì/[3]来比较言语中基频信息的识别机制及不同人群识别能力的差异;不同强度/ba/[4]来揭示参数变异对脑干言语处理特性的影响。这些合成言语的应用使人类言语感知机制的神经基础研究取得了突破性进展。一般认为脑干是言语处理的重要中枢,言语刺激时脑干放电模式与言语的声学特性关联密切。speech-ABR作为检测言语处理过程中脑干放电模式的电生理技术应用于言语相关的基础及临床研究[5],其中最有代表性的是合成言语/da/诱发的speech-ABR(da-ABR)的临床相关研究[6~9]。
/da/采用klatt合成法[10]以10 k Hz的采样率合成,包含辅音/d/和元音/a/两部分,时长约40 ms。起始音/d/是一个宽带的摩擦辅音,时长约10 ms;紧接着过渡到元音/a/,时长约30 ms,/a/.部分含有三个准周期性波:d、e及f,其出现时间分别约为15、24和33 ms,有9 ms左右的周期[11](图1中的*标记)。/da/含有基频及五个共振峰信息,基频在103~121 Hz,第一共振峰(F1)在220~720 Hz,第二共振峰(F2)在1 240~1 700 Hz,第三共振峰(F3)在2 500~2 580 Hz,第四共振峰(F4)和第五共振峰(F5)在3 600~4 500 Hz(图1)[5]。
da-ABR是由正性波V和负性A、C、D、E、F波和O波组成的复合波,可以分为起始反应(onset response,OR)和频率跟随反应(FFR)两部分[6]。反应的前10 ms左右是OR部分,包括一个正性波V和一个紧接着的负性A波,为/da/的辅音所诱发,波V之前尚可见波I、III等[5]。OR类似于click-ABR中I~V波及SN10的组合,原因可能是辅音为频率高而时程短的类噪声,与短声的声学特性类似所致。反应的后40 ms左右是FFR部分,为/da/中频率较低的元音诱发;其中元音中的准周期性d、e及f波引出了反应中相应的D、E、F波,而D、E、F波间的离散小峰则编码了F1的信息[5]。由于FFR的频率锁相特性,更高频率的F2~F5在反应中不明显[11],但其信息可能被包含在反应的潜伏期及波幅中[5]。反应中C波为辅-元音的过渡信息所诱发;而O波则为/da/刺激终止诱发(图2)[5]。da-ABR中上述反应波稳定性较好,其中以V波、A波、C波及F波最为稳定[6];这些反应波与刺激中对应的诱发信息的时间差均在12 ms内,符合脑干诱发电位的特性[12]。da-ABR类似于click-ABR的I~V波、SN10及FFR的有机结合,忠实编码了言语的声学信息,有可能成为言语声学及言语感知学相关研究的重要工具[12]。
图1 A:/da/的时域,B:/da/的频域
da-ABR的测试采用随机出现的交替极性刺激,以去除刺激伪迹和耳蜗微音电位的干扰[13]。测试耳多选右耳,刺激强度采用80 dB SPL,测试过程嘱受试者观看VCD,给非测试耳播放小于40 dB SPL的VCD声音[7,11]。银-氯化银头皮电极在头顶正中记录,同侧耳垂为参考电极,前额接地,有利于高效记录脑干神经元的同步化电位[14]。刺激参数中采样率为20 k Hz,带通滤波0.1~2 k Hz,刺激率11.1 Hz,记录时间约70 ms;每个受试者需记录三组实验数据,均叠加1 000次。截除波幅大于35μV的数据来削减反应的干扰伪影[7,11]。由于言语频率信息丰富、变化迅速,da-ABR的结果分析需要综合反应的瞬态及稳态成分,并应用快速傅立叶变换技术(FFT)提取出反应中包含的频率信息[7,11]。da-ABR的常用指标有反应波的潜伏期、波间期、波幅、VA复合波的斜率(V、A波潜伏期差/V、A波幅值绝对值和)及面积(V、A波潜伏期差×V、A波幅值绝对值和),刺激-反应相关系数和频谱分析等[7,8,11]。这些指标具有较好的信度,是可靠的临床指标[5]。
图2 /da/及da-ABR (A为时域波形:上面为/da/,下面为da-ABR;B为10 ms后面部分的频谱图:虚线为/da/,实线为da-ABR)
LP儿童是一类特殊的人群,听力及智力正常,其言语识别能力在安静环境下可无异常,但在噪声及语速变化等不利因素的影响下却表现异常从而导致学习方面的困难[7]。LP儿童在阅读和拼写测试中表现较差[15],这类行为学检查常发现其言语识别能力降低[8]、阅读及听写能力低下[16]。美国约有9%的儿童被诊断出具有这种学习障碍[8]。目前LP儿童的病因机制尚未完全明确。有研究发现LP儿童的听觉信息处理能力低下[17],特征性地表现出言语信息的处理障碍[18]。然而短声刺激时,click-ABR并无异常,这表明其听觉神经通路的完整性并未受损[19]。Heim[20]提出LP病因可能是皮层水平的听觉信息处理缺陷;而目前研究认为缺陷部位可能在皮层下[21]。LP儿童中可记录到异常的da-ABR,其中30%为OR部分的不正常[16],这种电生理表现表明其脑干出现言语编码的异常。LP儿童click-ABR正常而da-ABR不正常的原因可能是click与/da/为两类包含不同信息的声音,从而参与处理的脑干神经元及神经机制不同[7]。此外,目前认为即使为同一感觉信号,其神经处理机制也不同,信号内部不同的信息内容由不同的神经机制分开、同步处理[11]。与click声不同,言语声信息非常丰富,除了包含词义信息外,还携带说话者身份特征及情感状态等非词义信息;其中词义信息包括共振峰、音轨、过渡音征与嗓音起始时间等;而非词义信息主要为基频[5,11]。这些声学参数构成了言语的声学特征,是言语识别的重要依据。言语中这两部分信息的神经编码由两个平行的神经机制——腹侧通路及背侧通路(或称what通路和where通路)独立处理的[22];具体而言,腹侧通路(what通路)处理非词义信息,背侧通路(where通路)处理词义信息[12]。因此,LP儿童对言语的不同信息部分可以出现孤立的编码异常,如词义信息的编码异常,而非词义信息却正常编码,da-ABR中表现为OR异常而FFR正常[5];并可影响皮层水平的反应电位,导致失匹配负波的异常[16]。
日常生活中言语交流有赖于听觉系统从嘈杂的环境中把言语信息提取出来,噪声对听觉系统信息提取能力的影响常使对言语的词义理解变得困难,但对说话者的语气及态度等非词义信息的判断常无明显影响。正常人群的听觉言语信息提取功能具有一定的抗噪能力,保证了噪声条件下言语信息处理的准确性。然而噪声加剧了LP儿童言语信息处理能力的异常[9,23],原因可能为其抗噪声能力较正常人群低下。噪声环境中LP儿童的da-ABR表现为V波、A波、C波和O波的潜伏期延迟,F1幅值降低;而D波、E波和F波的潜伏期无明显延迟,F0幅值无明显降低[5]。这与言语中不同部分的声学特性有密切关系,词义部分信息能量较低且时程短暂,而非词义信息能量较高且时程较长,因此在脑干编码中,词义信息的编码比非词义信息更易为噪声所干扰[11]。噪声对LP儿童脑干及皮层的言语诱发反应的影响有正相关性,da-ABR中VA斜率越大者,皮层反应对噪声干扰越敏感[9];而尽管LP儿童皮层反应的P1/N1/P2/N2并无显著异常,但da-ABR的A波潜伏期延迟者与A波潜伏期正常者相比,皮层反应的安静-噪声相关系数显著降低,提示噪声干扰导致LP儿童da-ABR中A波潜伏期延迟的同时也降低了皮层反应的稳定性[8]。关于言语信息处理过程中脑干与皮层之间的复杂关系目前尚未明确。
LP儿童的治疗可采用针对性的言语刺激训练[15],治疗后其脑干神经元在噪声环境下对言语刺激反应的稳健性和同步化程度显著提高[24];同时皮层反应的稳定性也提高,安静-噪声相关系数显著增大[8]。原因可能是刺激训练降低了脑干神经元对噪声干扰的敏感性,从而增强了脑干及皮层神经元言语处理时的同步化活动[5]。行为学上训练后的LP儿童的言语感觉能力、言语识别能力、阅读及听写能力均提高[15],皮层下行通路的重塑作用可能起了重要作用[5]。
speech-ABR高度模仿了言语的声学特性,使探索言语识别的神经基础成为可能,势必促进听觉中枢及脑干的言语功能、言语疾病的神经基础及康复策略等研究的发展,有力推动人工语音识别、听觉助听、智能机器人等技术的革新。然而目前合成的言语声包含的语言成分较有限,尚未能完全模拟人类言语;而自然语音的多样性及众多未知因素限制了直接采用自然语音作为刺激信号的可能。speech-ABR对实验条件要求苛刻,记录结果较容易受到伪迹的干扰,测试环境需具备较高的信噪比[25]。此外,speech-ABR的结果分析需要借助Matlab系统及FFT等信号处理技术,过程较为复杂,不易为广大临床医生所掌握。这些因素限制了speech-ABR在临床中的应用,其推广需要嗓音医学、言语医学、耳科学、神经科学及生物工程医学等众多领域的相互协作。speech-ABR的后续研究需要选择包含言语成分更为丰富的刺激声,包括合成言语和自然言语;并通过改变刺激声的频率特性、刺激强度及刺激速率等参数来进一步模拟人类的言语行为,从而更进一步揭示言语识别的神经基础。
1 Ananthanarayan K.Human frequency-following responses to two-tone approximations of steady-state vowels[J].Audiol Neurootol,1999,4:95.
2 Krista LJ,Trent N,Steven GZ,et al.Brainstem encoding of voiced consonant vowel stop syllables[J].Clinical Neurophysiology,2008,119:2 623.
3 Ananthanarayan K,Xu YS,Jackson G,et al.Encoding of pitch in the human brainstem is sensitive to language experience[J].Cognitive Brain Research,2005,25:161.
4 Akhoun I,Gallégo S,Moulin A,et al.The temporal relationship between speech auditory brainstem responses and the acoustic pattern of the phoneme/ba/in normal-hearing adults[J].Clinical Neurophysiology,2008,119:922.
5 Krista LJ,Trent GN,Nina K.Brain stem response to speech:A biological marker of auditory processing[J].Ear Hearing,2005,26,5:424.
6 Nicole R,Trent N,Gabriella M,et al.Brainstem responses to speech syllables[J].Clinical Neurophysiology,2004,115:2 021.
7 Song JH,Banai K,Russo NM,et al.On the relationship between speech-and nonspeech-evoked auditory brainstem responses[J].Audiol Neurotol,2006,11:233.
8 King C,Warrier C,Hayes E.Deficits in auditory brainstem pathway encoding of speech sounds in children with learning problems[J].Neurosci Lett,2002,319:111.
9 Wible B,Trent N,Nina K.Atypical brainstem representation of onset and formant structure of speech sounds in children with language-based learning problems[J].Biological Psychology,2004,67:299.
10 Klatt DH.Software for a cascade/parallel formant synthesizer[J].Journal of the Acoustical Society of America,1980,67:971.
11 Nina K,Trent N.Brainstem origins for cortical what'and where'pathways in the auditory system[J].Trends in Neurosciences,2005,28,4:176.
12 符秋养,梁勇,苏园园,等.正常青年人言语诱发ABR的成分及特性研究[J].中华耳鼻咽喉头颈外科杂志,2009,44:900.
13 Gorga M,Abbas P,Worthington D.Stimulus calibration in ABR measurements[M].In:Jacobsen J,ed.The auditory brainstem response.San Diego,CA:College-Hill Press,1985.49~62.
14 Galbraith GC,Threadgill MR,Hemsley J,et al.Putative measure of peripheral and brainstem frequency-following in humans[J].Neuroscience Letters,2000,292:123.
15 Hayes EA,Warrier CM,Nicol TG,et al.Neural plasticity following auditory training in children with learning problems[J].Clinical Neurophysiology,2003,114:673.
16 Banai K,Nicol T,Zecker SG,et al.Brainstem timing:Implications for cortical processing and literacy[J].J Neurosci,2005,25:9 850.
17 Banai K,Ahissar M.Poor frequency discrimination probes dyslexics with particularly impaired working memory[J].Audiol Neurotol,2004,9:328.
18 Mody M,Studdert-Kennedy M,Brady S.Speech perception deficits in poor readers:Auditory processing or phonological coding[J].J Exp Child Psychol,1997,64:199.
19 Purdy S,Kelly A,Davies M.Auditory brainstem response,middle latency response,and late cortical evoked potentials in children with learning disabilities[J].J Am Acad Audiol,2002,13:367.
20 Heim S,Keil A.Large-scale neural correlates of developmental dyslexia[J].Eur Child Adolesc Psychiatry,2004,13:125.
21 Wible B,Nicol T,Kraus N.Correlation between brainstem and cortical auditory processes in normal and language-impaired children[J].Brain,2005,128:417.
22 Rauschecker JP.Cortical processing of complex sounds[J].Curr Opin Neurobiol,1998,8:516.
23 Cunningham J,Nicol T,Zecker SG,et al.Neurobiologic responses to speech in noise in children with learning problems:deficits and strategies for improvement[J].Clin Neurophysiol,2001,112:758.
24 Russo N,Nicol TG,Zecker SG.et al.Auditory training improves neural timing in the human brainstem[J].Behavioural Brain Research,2005,156:95.
25 Akhoun I,Moulin A,Jeanvoine A,et al.Speech auditory brainstem response(speech ABR)characteristics depending on recording conditions,and hearing status:an experimental parametric study[J].J Neurosci Methods,2008,175:196.
(2009-06-11收稿)
(本文编辑 李翠娥)
10.3969/j.issn.1006-7299.2010.04.031
R764.04
A
1006-7299(2010)04-0407-04
1 南方医科大学南方医院耳鼻咽喉-头颈外科(广州 510515)
梁勇(Email:yliang@fimmu.com)