Speech-ABR安静及噪声环境下音位的对比研究

2016-12-22 08:35王倩王燕刘志成

中华耳科学杂志 2016年5期

关键词：音位辅音元音

王倩王燕刘志成

1首都医科大学生物医学工程学院（北京100069）

2中国人民解放军总医院耳鼻咽喉头颈外科(北京100853)

·临床研究·

Speech-ABR安静及噪声环境下音位的对比研究

王倩1,2王燕1刘志成1

1首都医科大学生物医学工程学院（北京100069）

2中国人民解放军总医院耳鼻咽喉头颈外科(北京100853)

目的对比speech-ABR在安静及噪声环境下单音节声母、韵母及声调的变化，研究噪声对单音节音位的影响。方法招募正常听力受试者40例（男20例，女20例），母语为汉语普通话。Speech-ABR刺激声为260ms时程的合成言语声/mi/，声调为三声，刺激强度为70dB SPL，记录右耳安静状态下及噪声状态下（信噪比SNR=-10dB）speech-ABR的反应波形。对比起始反应波形(onset response,OR)、过渡反应波形(consonant-to-vowel transition)及频率跟随反应波形（frequency following response,FFR）的潜伏期的变化。并对比安静及噪声状态下声调追踪（pitch tracking）相关系数r的变化。使用SPSS18.0软件进行数据统计分析,数据采用配对t检验分析两组的差异,P＜0.05时为差异有统计学意义。结果260ms时程/mi/诱发的言语听性脑干反应波形特征，主要由潜伏期为10ms内的起始反应、潜伏期为80-220ms内的频率跟随反应及最后的终止反应组成，以及潜伏期在10-80ms内的辅音-元音过渡反应。其中起始反应部分为辅音部分所诱发；过渡反应部分为辅-元音的过渡信息诱发；由/mi/中的元音部分所诱发的频率跟随反应部分共由15个波形组成。经配对t检验分析，在安静及噪声环境下进行对比，起始反应峰值（辅音部分）平均潜伏期延长0.85±0.17ms(P=0.000)。过度反应峰值平均潜伏期延长0.75±0.15ms((P=0.000)。频率跟随反应峰值平均潜伏期延长0.38±0.10ms(P=0.000），结果均具有统计学意义。安静环境下声调追踪反应相关系数r均值为0.84±0.08，噪声环境下相关系数r均值为0.74±0.12，两者对比结果具有统计学意义（(P=0.000）。结论在噪声环境下，测试音的辅音、元音对应波形潜伏期均发生变化，声调追踪系数会有所下降，提示三种音位均会受到噪声的影响。与以往主观的言语识别率测试方式及诱发电位测试相比，speech-ABR是一种客观方式评估言语声受到噪声干扰情况的测试方法。

speech-ABR；言语噪声；单音节

随着听力学研究技术的不断发展，以言语诱发的听性脑干反应（speech evoked auditory brainstem response,speech-ABR）已经越来越多的被应用于临床与研究中。国外已有研究[1-3]发现，speech-ABR是对言语障碍人群进行筛选、诊断及治疗效果观察的良好工具。借助speech-ABR研究人脑对于言语信息的理解反馈已经成为目前的热点。人脑的左半球主要进行言语的处理，而右半球主要解决声调的识别[4]。言语刺激时脑干神经元放电模式与言语声学特性的高度相关表明脑干是言语处理的重要部位。

音位是一个语音系统中能够区别意义的最小语音单位。汉语的语音单位由元音音位、辅音音位、声调音位组成的。汉语普通话的声调十分重要，具有四声，在音节中起到区分词义的作用。不同于日耳曼语系的语言（例如英语、丹麦语、德语等），汉语的声调音位特点增加了噪声下言语研究的新角度。目前临床上对于嘈杂噪声环境下汉语识别的测试，以受试者复述回应，测试者计分为主，是一种主观的测试手段。尚无一种客观的测试手法从基础的单位——音位上研究人类受到噪声干扰后，言语识别的变化。Speech-ABR可以反映脑干听觉中枢对言语声的编码处理情况，和噪声下言语识别情况。由此speech-ABR可以辅助听设备的研发与评估。在听力师执行干预方案后，评价受试者噪声下聆听的效果改善，从而让使用者达到更好的听取效果[5]。为更深入的了解汉语普通话音位如何受到噪声的影响，本研究借助speech-ABR此种测试手段。更客观的探究噪声对于汉语单音节音位的影响情况，进而探讨噪声下言语识别困难的原因。

1 资料与方法

1.1 研究对象

正常成年人40人40耳（男20人，女20人），均选择右耳。年龄19～31岁，平均年龄25.4.±5.5岁。均为右利手，无听觉系统、神经系统疾病及精神障碍病史，纯音测听250-8000Hz平均听阈听力级≤20 dB HL，click-ABR测试双耳均能引出I、III、V波，且各波潜伏期在正常范围内。

1.2 测试仪器及方法

测试前均征得受试者同意，首先进行听力检测测试，筛选符合本研究的受试者。听力检测测试包括纯音听阈测试、声导抗测试、click-ABR检测。符合实验入选要求者，纳入实验组进行后续的speech-ABR测试。所有测试均在解放军总医院耳鼻咽喉头颈外科听力中心标准声双层隔声室（符合GB16403）中进行。隔声室内本底噪声低于A计权声压级20 dB。实验设备参考国标GB/T7341.2-1998标准经过严格校准。总测试时间约为80分钟，中间安排受试者进行休息。

Speech-ABR刺激声为260ms时程的合成言语声/mi/，声调为三声，刺激强度为70dB SPL，刺激速率为5.3次/秒，叠加3000次，采样率为4000Hz，采用100-3000Hz带通滤波、随机交替刺激极性及截除波幅大于31uV的反应以减小反应的干扰伪影。刺激声mi从右耳给声，言语谱噪声加在对测，强度80dB SPL,信噪比-10dB。采用测试仪器为美国Intelligent Hearing Systems公司生产Smart EP诱发电位仪，测试在隔声室内进行，受试者在测试时需要保持闭目安静状态，集中注意聆听测试声。用75%酒精局部去污，并涂磨砂膏消除表皮角质层。将记录电极接于前额正中发际处，接地电极接于眉心，参考电极接于左右耳垂。使得电极阻抗均≤3kΩ。采用插入式耳机固定于外耳道口深部0.5cm处。

1.3 波形标记及数据分析

260ms时程/mi/诱发的听性脑干反应波形特征，主要分为潜伏期10ms内的起始反应OR、潜伏期80-220ms内的频率跟随反应FFR组成，以及潜伏期在10-80ms内的辅音-元音过渡反应(conso⁃nant-to-vowel transition)。其中起始反应部分，为辅音部分所诱发；过渡反应潜伏期为辅-元音的过渡信息诱发；由/mi/中的元音部分诱发的频率跟随反应部分共由15个波形组成(见图1)。

图1 /mi/测试音反应波形Fig.1 response wave to the sound/mi/

1.4 声调追踪分析

本研究采用美国Intelligent Hearing Systems公司Smart EP软件中，C-ABR的声调追踪功能模块（如图2）。设置分析时间窗为0-260ms，得到刺激波形及反应波形。Smart EP软件计算并生成刺激波形与反应波形声调的相关系数r值。本研究对其进行记录，对比安静状态及噪声状态下声调追踪相关系数r值的差异。

图2 声调追踪模块Fig.2 the pitch tracking modular

1.5 噪声选取

噪声材料采用言语谱噪声（speech noise，SN）,即经过滤波后的白噪声（见图3），在0.25～1kHz间为等能量分布，在1～6kHz间每倍频程能量衰减12dB[5]。SN竞争下言语识别率结果较稳定，对听力损失敏感，是开展噪声竞争下言语测听的常用竞争噪声。本研究采用智听软件stimulus convertor将原始文件.wav格式，转化为Smart EP软件接受的.STM格式，在speech-ABR测试模块中导入噪声，以完成实验的测试。

图3 言语谱噪声Fig.3 speech noise

1.6 统计学方法

本研究使用SPSS18.0软件进行数据统计分析。采用1-Sample Kolmogorov-Smirnov进行正态分布检验(P＞0.05)。数据采用配对t检验分析两组的差异, P＜0.05为差异有统计学意义。

2 结果

2.1 潜伏期变化

Speech-ABR测试音/mi/的起始反应波形，过渡反应波形，频率跟随反应波形标注峰值，进行潜伏期对比。经配对t检验分析，在安静及噪声环境下进行对比，起始反应峰值（辅音部分）t=31.39，P=0.000＜0.05，平均潜伏期延长0.85±0.17ms。过度反应峰值对比t= 30.57，P=0.000＜0.05，平均潜伏期延长0.75±0.15ms。频率跟随反应（元音部分）峰值对比t=23.40，P= 0.000＜0.05，平均潜伏期延长0.38±0.10ms，结果均具有统计学意义。测试音/mi/的辅音，辅音-元音过渡，元音的波形潜伏期在安静及噪声状态下对比，结果均存在差异。

2.2 声调追踪相关系数

对安静及噪声下/mi/音的声调追踪反应相关系数r值进行配对t检验分析。结果显示，安静环境下声调追踪反应相关系数r均值为0.84±0.08，噪声环境下声调追踪反应相关系数r均值为0.74±0.12。t=4.01，P= 0.000＜0.05，对比结果具有统计学意义。在安静状态下的r值均值要略高于噪声下的r值均值（如图4）。

图4 安静状态及噪声状态下r值的对比Fig.4 r value of pitch tracking under quiet and noise environment

3 讨论

日常生活和工作中的交流场所多在噪声环境下。在进行研究时，为能够更加贴近生活中的状态，研究人员对噪声的选取就显得尤为重要。临床常用的噪声有多人嘈杂语噪声（babble noise,BN）、白噪声（white noise,WN）、言语谱噪声等。多人嘈杂语噪声是近年应用较多的一种语音噪声，被常用于临床言语识别能力的评估[6]。并且，多人嘈杂语噪声为由多人同时讲话录制而成，其频谱与言语长时平均频谱接近[7-9]。但是，相对于言语识别类型的测试，本研究给出的刺激声/mi/十分短暂，仅有几百毫秒。尽管多人噪杂语噪声最能模拟日常的噪声环境，但仅截取其中时长极短的一部分将会丢失原有噪声的大量信息和效果。本研究所选则的言语谱噪声即便在截取后，依然会保持原始噪声的特性。噪声与言语时长平均频谱越接近，对言语识别的掩蔽能力越大[10]。而白噪声没有言语频谱特征，掩蔽效果最差。言语谱噪声竞争下言语识别率结果较稳定，对听力损失敏感，是本研究开展噪声竞争下言语测听的最合适竞争噪声。考虑到以上因素，本研究最终选择言语谱噪声作为speech-ABR掩蔽刺激声的背景噪声。

本研究中测试音/mi/的辅音、辅音-元音过渡，元音的波形潜伏期在安静及噪声状态下对比，结果均存在差异。分析其受到噪声影响的程度，可发现刺激言语声的辅音部分、辅音-元音过渡部分所受到的影响要比元音部分更大一些。目前刺激波形时域参数受到噪声反应影响机理尚未明确[11]。根据目前已有报道显示，有关speech-ABR的神经起源也尚未完全明确，有学者[12-13]认为OR可能来源于蜗神经核或下丘核团：FFR可能来源于是蜗神经、下丘及内侧膝状体核团的整体性锁相活动。两者可能是包含不同突触连接的神经网络[14]，具有不同的反应特性[15]。因此，通过分析speech—ABR的潜伏期可以辅助进一步推断病变反应神经起源[16]。通过对于诱发电位解剖对应位置的推导，提示脑干对于辅音信息的处理较元音更易受到干扰[17]。

声音时间特征的精确采集是语言理解至关重要的一步。在现实环境中，语言通常伴随着复杂声学变化的噪声（如共振峰的转换）。因此伴随着噪声环境，言语信号声在快速的时间频谱上的变化便很难被人耳所接收[18]。所以，当信号声中加入了噪声后，言语觉察能力可能会部分地取决于聆听者是否可以维持正常信号在时间频谱上的神经表达，否则，言语觉察能力则会弱化[19、20]。背景噪声的存在会导致听觉脑干活动的延迟，当伴随刺激低信噪比的时候这种延迟就愈发明显。这种延迟出现在不仅会出现在简单的声刺激如纯音或click声[21]，也会出现在复杂言语声信号刺激下[22]。而且背景噪声也会影响皮层下处理，这常导致皮层下反应的延迟，包括P1、N1、 P2、N2、MMN和P3[23-24]。因此，背景噪声的存在会系统性（全身性）地影响听觉系统。潜伏期的延长可能反映了神经同步性或神经元环（neurons firing）的减少，这导致了听觉脑干反应在振幅的减小以及潜伏期的延迟[25]。在噪声中播放信号声可以近似类比为在安静环境下播放强度较低的相同信号声。这些潜伏期的延长在行为上是相关的，因为噪声诱导的潜伏期延长与噪声下言语觉察测试有直接的联系[16，26]。

汉语的声调主要依赖于基频的轮廓特征，是语音结构的重要组成部分[27]。本研究中发现，在其它参数设置相同的情况下，声调追踪的结果受到受试者的专注程度影响较大。例如，预实验时，当受试者专注于追踪测试音/mi/的三声声调时，反应波形与刺激波形的越相近，相似度越高。相反的，有些受试者在测试时处于闭目休息放松状态，虽然知晓有测试声存在，但不注意察觉它。当受试者处于一种注意力不集中的状态时，声调追踪的反应波形会变得断断续续，相似度下降（如图5）。因此正式试验时，在测试前都统一提醒受试者尽量保持清醒状态，尽量在测试时追踪测试声。最终正式研究整体结果要比预实验相似系数r值有所提高。同时，测试时注意为受试者提供中间休息的时间，保证受试者测试状态，从而保证研究数据的质量。

图5 未追踪声调走势受试者的反应波形Fig.5 The pitch tracking result of subject without focusing on the speech sound/mi/

4 结论

在噪声环境下，测试音的辅音、元音对应波形潜伏期均发生变化，声调追踪系数会有所下降，因此三种音位均会受到噪声的影响。其中起始反应潜伏期的变化最大，频率跟随反应潜伏期变化最小，提示在噪声下最易受到影响的音位为辅音音位。与以往主观的言语识别率测试方式及诱发电位测试相比，speech-ABR是一种客观评估言语声信号受到噪声干扰的测试方法。

1 Barlow N,Purdy SC,Sharma M,et al.The Effect of Short-Term Au⁃ditory Training on Speech in Noise Perception and Cortical Auditory Evoked Potentials in Adults with Cochlear Implants[J].Semin Hear, 2016,37(1):84-98.

2 Song JH,Nicol T,Kraus N,et al.Test-retest reliability of the speech-evoked auditory brainstem response[J].Clinical Neurophysi⁃ology,2011,122(2):346-355.

3 符秋养,梁勇,彭贤,等.言语诱发听性脑干反应的影响因素分析[J].中华耳科学杂志,2014,12(4):61-617. FU Qiuyang;LIANG Yong;PENG Xian,et al.Variables Affecting Speech Evoked Auditory Brainstem Responses.Chinese Journal of Otology,2014,12(4):61-617.

4 Zatorre RJ,Belin P,Penlune VB,Structure and function of auditory cortex:music and speech[J],Trends Cogn.Sci,2002,6(1):37-46.

5 Miller JD,Watson CS,Dubno JR,et a1.Evaluation of Speech-Per⁃ception Training for Hearing Aid Users:A Multisite Study in Prog⁃ress[J].Semin Hear,2015.36(4):273-283.

6 Wong LL,Liu S,Han N.The Mainland Mandarin hearing in noise test [J].International Journal of Audilology.2008,47(6):393-395.

7 Li M,Wang W,Tao S,et al.Mandarin Chinese vowel-plus-tone identification in noise:Effects of language experience[J].Hearing Re⁃search,2015,331:109-118.

8 Grossmann W,Brill S,Moeltner A,et al.Cochlear Implantation Im⁃proves Spatial Release From Masking and Restores Localization Abilities in Single-sided Deaf Patients[J].Otology&Neurotology. 2016.37:658-664.

9 Desjardins JL.The Effects of Hearing Aid Directional Microphone and Noise Reduction Processing on Listening Effort in Older Adults with Heairng Loss[J].Journal of the American Academy of Audiolo⁃gy.2016.27:29-41.

10 Sudebaker GA,Taylor R,Sherbecoc RL.The effect of noise spec⁃trum on speech recognition performance-intensity function[J].Journal of Speech&Hearing Research,1994,37(2):439-448.

11 Tierney A,Parbery-Clark A,Skoe E,et al.Frequendy-dependent ef⁃fects of background noise on subcortical response timing[J].Hearing Research,2011,282(1-2)：145-150.

12 Wible B,Nicol T,Kraus N.Atypical brainstem representation of onset and formant structure of speech sounds in children with language—based learning problems[J].BiologicalPsychology,2004，67(3): 299-317.

13 Picton TW,HllIyard SA.K rausz Hl.et a1.Human auditory evoked potentials I:EvaIuation of components[C].Electroencephalography and Clinical Neurophysiology,1974,36:179-190.

14 Skoe E,Nicol T,Kraus N.Cross-phaseogram:objective neural index of speech sound differentiation[J].Journal of Neuroscience Methods, 2011,196(2):308-317.

15 Purcell DW,John SM,Schneider BA,et a.Human temporal auditory acuity as assessed by envelope following responses[J].Journal of the Acoustical Society of America,2004,116(6):3581-3593.

16 Akhoun I,Gallego S,Moulin A,et a1.The temporal relationship be⁃tween speech auditory brainstem responses and the acoustic pattern of the phoneme/ba/in normal—hearing adults[J].Clinical Neurophys⁃iology,2008,119(119):922-933.

17 Johnson KL,Nicol T,Zecker SG,et al.Brainstem encoding of voiced consonant-vowel stop syllables[J].Clinical Neurophysiology Official Journal of the International Federation of Clinical Neuro⁃physiology,2008,119(11):2623-2635.

18 Nishi K,Leewis DE,Hoover BM,et al.Children’s recognition of America English consonants in noise[J].The Journal of the Acousti⁃cal Society of America.2010，127(5):3177-3188.

19 Bidelman GM,Krishnan A,Effects of reverberation on brainstem representation of speech in musicians and non-musicians[J].Brain Research.2010，1355(2):112-125.

20 Hornickel J,Chandrasekaran B,Zecker S,et al.Auditory brainstem measures predict reading and speech-in-noise perception in school-aged children.Behavioral Brain Research.2011,216(2): 597-605.

21 Bukard RF,Sims D.A comparison of the effects of bradban mask⁃ing noise on the auditory brainstem response in young and older adults[J].American Journal of Audiology,2002,11(1):13-22.

22 Anderson S,Kraus N.Objective neural indices of speech-in-noise perception[J].Trends in Amplification.2010，14(2):73-83.

23 Billings CJ,Tremblay KL,Stecker GC,et al.Human evoked cortical activity to signal-to-noise ratio and absolute signal level[J].Hear⁃ing Research.2009，254(1-2):15-24.

24 Alexra P,Frederic M,Julia B.What subcortical-cortical relation⁃ships tell us about processing speech in noise[J].European Journal of Neuroscience.2011,33(3):549-557.

25 Don M,Allen A,Starr A.Effect of click rate on the latency of audito⁃ry brain stem responses in humans.Annals of Otology Rhinology &Laryngology,1977,86(2 pt.1):186-195.

26 Feldner JC,Sarkar NK,Sherdan JJ,et al.Noise tolerance in human frequency-following responses to voice pitch[J].Journal of the Acoustical Society of America,2011,129(1):21-26.

27 Jeng FC,Lin CD,Wang TC.Subcortical Neural representation to Mandarin Pitch contours in American and Chinese newborns[J].Journal of the Acoustical Society of America..2016，139(6):190.

Speech-ABR on Phoneme in Quiet and Noise Environment

WANG Qian1,2，WANG Yan1，LIU Zhicheng1
1 Capital Medical University,100069,Beijing,China
2 Department of Otolaryngology Head and Neck Surgery,Chinese PLA General Hospital,Beijing 100853

Objective The aim of the study was to compare speech-ABR results with changes of vowel,consonant and pitch of monosyllables under quiet and noise circumstances.Methods Forty Mandarin speaking subjects(20 males,20 females)with normal hearing were recruited.The stimulus of speech-ABR was/mi/with a duration of 260 ms and down-up pitch,delivered to the right ear at 70 dB SPL.The peaks of response waves were labeled.The latencies of onset response (OR),consonant-to-vowel transition(CV)and frequency following response(FFR)were analyzed under quiet and noisy (SNR=-10 dB)circumstances,and correlation coefficients of pitch tracking were compared.The SPSS 18.0 software was used for statistical analysis.Paired sample t-test was used for two group comparisons.Statistical significance was defined as P＜0.05.Results Brainstem responses elicited by/mi/were composed of four parts:an onset response(10 ms),a transitional response(10-80 ms),a frequency following response(80-220 ms)and an offset response.The onset response was evoked by the consonant and the transitional response by consonant-to-vowel transition.The frequency following response,evoked by the vowel,was composed of fifteen response waves.A series of featured waves were observed.The change of average latency of the onset response wave was 0.85±0.17 ms(P=0.000).The change of average latency of consonant-to-vowel transi-tion wave was 0.75±0.15 ms(P=0.000),and the change of average latency of frequency following response wave was 0.38± 0.10 ms(P=0.000).Furthermore,the correlation coefficient of pitch tracking was 0.84±0.08 under quiet environment and 0.74±0.12 under noisy environment(P=0.000).Conclusions Noise can change latencies of the consonant and vowel,and reduce correlation coefficient of pitch tracking.These results suggest that the three phonemes can be affected by noise.Compared with the subjective evoked potentials in previous reports,speech-ABR is more sensitive and objective to detect differences in auditory recognition against noise background..

speech-ABR;speech noise;monosyllable

R764.1

1672-2922（2016）05-634-5

2016-08-15审核人：于宁）

10.3969/j.issn.1672-2922.2016.05.016

王倩，本科，听力师，工学学士，研究方向：人工耳蜗术后调机及评估

刘志成，Email:zcliu@ccmu.edu.cn