刘杨文易 综述 陈兵 审校
·综述·
背景噪声对人工耳蜗植入者言语识别影响的研究进展*
刘杨文易1综述陈兵1审校
网络出版时间:2016-4-2615:52
网络出版地址:http://www.cnki.net/kcms/detail/42.1391.R.20160426.1552.008.html
人工耳蜗技术发展到现在已有50多年的历史,最初开发人工耳蜗的目的仅是为了辅助唇读,而现在人工耳蜗可以使植入者在安静环境中顺利地进行言语交流,成为目前世界上最成功的神经假体;但是在一些嘈杂的环境中,人工耳蜗植入者的言语识别困难较大[1~4],人工耳蜗不足以提供将靶信号从噪声中分离出来的频域、时域精细结构信息,这也是人工耳蜗植入者在噪声中言语识别困难的主要原因。本文主要就噪声影响人工耳蜗植入者言语识别的机制、提高噪声对人工耳蜗植入者言语识别影响的方法、目前存在问题和展望,对背景噪声下人工耳蜗植入者言语识别的研究与发展进行综述。
1噪声影响人工耳蜗植入者言语识别的机制
1.1噪声类型关于噪声下言语识别的研究主要集中在宽带(broadband)噪声及多人言语(multi-talker)噪声下的言语识别,即在不同信噪比(signal noise ratio,SNR)下的言语识别能力。人工耳蜗植入者需要较正常人更高的信噪比才能达到满意的言语识别[5, 6],正常人可利用波动或者调制噪声中能量较弱部分分辨靶言语信号,因此,正常人在不稳定噪声下的言语识别较稳态噪声下更好[6~8]。与正常人不同,人工耳蜗植入者在稳态噪声下的言语识别明显好于不稳定噪声[6, 8],这与目前人工耳蜗技术中电刺激信号的动态范围、粗糙的频域分辨率、较宽的滤过频带和植入电极间的相互影响密不可分。
随着人们对于生活质量追求的提高,日常生活中人们经常会处于音乐环境中,比如影院、餐厅等,这些音乐在声谱特征方面与之前所研究的噪声有很大不同。由于人工耳蜗仅能提供有限的时域、频域信息,音乐感知本身对于人工耳蜗植入者就是一项挑战。音乐背景噪声对于言语识别的影响逐渐受到重视,Eskridge等[7]发现人工耳蜗植入者的言语识别能力随着背景音乐噪声的频域、时域结构复杂程度增加而下降;Zhu等[9]关于人工耳蜗植入者竞争性音乐识别(靶信号和干扰信号均为音乐)表现的研究显示当干扰信号与靶信号声谱信息相似时,人工耳蜗植入者受到的干扰最大,靶信号识别表现较差;在Gfeller等[10]的研究中,采用了古典钢琴独奏、交响乐和带歌词的流行音乐三种背景音乐作为干扰,测试三种环境下人工耳蜗植入者的言语识别阈值,结果显示当背景音乐为钢琴独奏时的言语识别最好,流行音乐其次,而交响乐最差,而这三种音乐中,交响乐的乐器组合最复杂,旋律最多变,钢琴独奏最单一,这与之前的研究结果一致,说明背景噪声越复杂,稳定性越差,对于人工耳蜗植入者的言语识别影响越大,即背景噪声不同的声谱特征对于言语识别有不同的影响。
1.2噪声空间方向来源空间听觉能力基于正常的听觉功能,空间信息有助于噪声中靶言语的分离,而无论对于单侧还是双侧人工耳蜗植入者来说,空间听觉能力均较正常听力人群弱[11, 12],特别是对于单侧人工耳蜗植入者,虽然在安静环境中有较好的言语识别,但他们的空间听觉能力受到严重影响,这也是提倡双侧人工耳蜗植入的重要原因之一。当靶信号和干扰信号声源在水平面方向上存在空间分离时,会使干扰信号的掩蔽作用减弱,产生空间去掩蔽(spatial release from masking,SRM)效应。这是由于靶信号和干扰信号声源空间分离加上头影效应(head shadow effect)引起的双耳间时间差(interaural time difference, ITD)和声强差(interaural level difference, ILD)[13]导致到达感知耳的信噪比不同。空间去掩蔽效应还与频率有关,频率越高,空间去掩蔽效应越明显,且存在个体差异。
对于正常成人,用言语识别阈值(speech reception threshold, SRT)描述的空间去掩蔽效应接近12 dB,而成人和儿童人工耳蜗植入者的空间去掩蔽效应小于正常人[12, 14]。Murphy等[11]对正常听力受试者、双侧人工耳蜗植入者和单侧人工耳蜗植入者的不同噪声方向下的言语识别能力进行了比较,给予的靶言语信号位于受试者正前方(0°),噪声信号随机位于受试者正前方或受试者左侧90°(-90°)或右侧90°(+90°)位置,发现正常听力受试者和双侧人工耳蜗植入者在噪声位于±90°时言语识别阈值降低,且正常听力受试者和双侧人工耳蜗植入者之间言语识别阈值差异无明显统计学意义(P=0.71);当噪声位于非植入侧时,到达单侧人工耳蜗植入者感知耳的信噪比最高,言语识别最好。噪声和靶信号空间方向来源的分离对于噪声下言语识别有明显的增益,这为人工耳蜗植入者对日常噪声环境的应对提供了科学的指导,为抗噪信号处理策略提供了新的思路。
2提高噪声下人工耳蜗植入者言语识别能力的方法
2.1人工耳蜗信号处理策略人工耳蜗信号处理策略是人工耳蜗的关键技术之一,该技术根据人类听觉感音机理将声音信号转换为对听神经进行电刺激的电信号,即:决定了人工耳蜗电极输出的信号特征。根据提取信息方式的不同,主要分为特征提取(feature extraction)策略和波形(waveform)策略。
特征提取策略主要通过提取基频和共振峰等重要声学特征来编码声信号,Cochlear公司先后提出了F0/F2、F0/F1/F2和MPEAK(multi-peak speech coding strategy)策略[15],并在1997年发布第二代人工耳蜗产品,该产品言语处理器中包含的SPEAK策略(spectral-PEAK)和ACE(advanced combination encoder)策略也为特征提取策略。SPEAK策略采用20个带通滤波器,选择其中最大的5~10个峰值,使对应电极产生刺激,因此比MPEAK策略性能有明显的提升;ACE策略是SPEAK策略一个扩展,有更高的刺激率,从而使得滤波器输出幅度能更好的表达时域变化信息[16]。但共振峰的提取有一个局限是很难从噪声中将其实时有效地提取出来,为此研究人员开始寻找其他抗噪性能好的编码策略。
基于大多数现代人工耳蜗采用了在有限频带范围内对幅度调制信息的提取和编码,而这种方式很难满足在噪声环境下的言语交流,Nie等[17]提出的FAME (frequency amplitude modulation encoding)信号处理策略是基于信号的AM(amplitude modulation)-FM(frequency modulation)分析/合成模型,并参考了相位声码器的设计思想,通过调制FM信息来表达时域精细结构。在FAME策略中以每个通道的中间频率为中心频率,每个通道的载波频率将随提取的FM信息变化。正常听力受试者仿真声测试中,FAME策略在背景噪声中的言语识别表现明显优于连续间隔采样(continuous interleaved sampling, CIS)策略,其中AM信息满足安静环境中的言语识别;而FM信息对于背景噪声环境,尤其是现实生活中的竞争性言语噪声环境中的言语识别非常重要[17]。Zeng等[18]进一步研究了AM和FM信息在噪声环境对言语识别的影响,结果显示8个通道的FAME策略刺激优于16个通道的AM刺激;之后MED-EL公司提出的FSP(fine structure processing)策略[19]增加了时域精细结构信息,在较高频率采用虚拟通道处理,在不同信噪比环境下(+5、+10、+15 dB SNR),FSP策略的言语识别较CIS策略有所提高[20]。噪声具有频谱信息复杂多变的特点,因而谐音(harmonic)和时域精细结构(temporal fine structure, TFS)信息对于噪声中的言语识别非常重要,在此背景上HSSE(harmonic single sideband encoder)策略被提出,它同时编码了谐音和TFS信息,在正常听力受试者仿真声噪声下言语识别测试中明显好于CIS策略[2]。许多人工耳蜗信号处理策略目前尚处于正常人仿真声测试阶段,尚未用于人工耳蜗植入者的测试,具有抗噪声功能的信号处理策略在不断的改进更新中,为人工耳蜗植入者更好的适应社会环境提供了可能。
2.2双耳聆听双耳聆听较单耳能提供更多的益处。之前噪声空间方向来源部分所述双耳间时间差和双耳间声强差均与双耳聆听密不可分;双耳响度总和机制中声音的响度与声音触发的动作电位数量有关,每侧耳都会将动作电位送达至脑干,根据响度的大小,双耳响度总和可以增加约3~6 dB的响度感知[21];双耳静噪效应即双耳产生的空间去掩蔽效应对噪声下的言语识别尤为重要,听觉中枢能够从双耳间时间差和双耳间声强差等信息中获取空间线索,因而双耳聆听能够使听到的声音更响亮、立体音质更好,可提高噪声下的言语识别及声源定位能力。
在不考虑其他因素的情况下,双侧人工耳蜗植入是双侧重度或极重度感音神经性聋患者听力重建的最佳方案,双侧人工耳蜗植入者在噪声下言语识别方面的优势[22,23]已达成共识,但目前因经济能力及保留残余听力的考虑国内大多数患者选择单侧植入人工耳蜗。随着人工耳蜗植入标准的放宽、保留残余听力手术的进步和微创电级特殊设计的出现,越来越多有残余听力的患者进行了人工耳蜗植入[24];利用一侧耳佩戴助听器提供声学信息,同时另一侧耳植入人工耳蜗提供电信号刺激,这种模式称为双模式刺激,助听器提供更多的基频信息和精细结构信息与人工耳蜗电刺激同时应用可以使患者更好的感知声音,从而提高人工耳蜗植入者的言语识别能力[25~27]。研究显示双耳双模式较单侧人工耳蜗植入在噪声中言语识别方面的效果更优;Kong等[25]的研究也证实了这一点,但并不是所有信噪比条件下所有受试者都适用。同样,Crew[28]的研究中同一受试者在双模式、单侧人工耳蜗、单侧助听器三种情况下测试多人言语噪声中的言语识别阈值(hearing in noise test,HINT),结果显示单侧使用助听器的患者言语识别能力明显差于单侧人工耳蜗植入者;对于大多数的受试者使用双模式和单侧人工耳蜗植入的言语识别能力相仿;而双模式条件下平均言语识别阈最低,双模式和单侧人工耳蜗两种情况并没有明显的统计学差异(P=0.201)。此外,Kong等[25]的研究显示当给予双耳双模式受试者靶言语为男声,以女声作为掩蔽噪声时较以男声作为掩蔽噪声时的言语识别更好;而当单侧人工耳蜗条件下,男、女声的掩蔽作用一致。由此看出,助听器提供的额外低频信息有助于利用基频线索提高噪声下的言语识别能力。
3结语
综上所述,背景噪声下言语识别相关领域的研究得到了一些共识,但仍然存在不足,值得进一步探索。通过人工耳蜗获得的频域、时域精细结构信息的不足是人工耳蜗植入者噪声下言语识别困难的根本原因,人工耳蜗技术中信号处理策略的改进是大的方向,而刺激频率、通道使用个数、电刺激信号动态范围、算法[29]等一些细节的改进均可对其有很大的帮助。实现双耳聆听需要国家对人工耳蜗植入推广的支持,双侧耳蜗植入及双耳双模式刺激的普及,特别是适应双耳双模式刺激较双侧人工耳蜗植入难,佩戴时声电刺激是否会相互干扰说法不一,需要进一步探索并找出应对方法,双模式调频技术也有待进一步的提高。目前,大部分关于噪声下言语识别的研究主要集中在以英语或拉丁语系为母语的西方国家,而汉语作为声调语言具有一定的特殊性,不论是言语评估还是言语康复都不能简单地按照国外的研究方法。我国目前对这方面的研究尚未形成独立的体系而且缺乏相互印证,需要国内相关研究人员共同努力,使得人工耳蜗植入者能够更好的感受有声世界,融入主流社会,从而创造更大的社会价值。
4参考文献
1Turner CW. Hearing loss and the limits of amplification[J]. Audiology and Neurotology, 2006,11:2.
2Li X, Nie K, Imennov NS, et al. Improved perception of speech in noise and Mandarin tones with acoustic simulations of harmonic coding for cochlear implants[J]. J Acoust Soc Am, 2012,132:3387.
3Caldwell A, Nittrouer S. Speech perception in noise by children with cochlear implants[J]. J Speech Lang Hear Res, 2013,56:13.
4Shannon RV. Auditory implant research at the house ear institute 1989-2013[J]. Hearing Research, 2015,322:57.
5Gifford RH, Olund AP, Dejong M. Improving speech perception in noise for children with cochlear implants[J]. J Am Acad Audiol, 2011,22:623.
6Fu Q, Nogaki G. Noise susceptibility of cochlear implant users:the role of spectral resolution and smearing[J]. Journal of the Association for Research in Otolaryngology, 2005,6:19.
7Eskridge EN, Galvin JR, Aronoff JM, et al. Speech perception with music maskers by cochlear implant users and normal-hearing listeners[J]. J Speech Lang Hear Res, 2012,55:800.
8Nelson PB, Jin SH. Factors affecting speech understanding in gated interference: cochlear implant users and normal-hearing listeners[J]. J Acoust Soc Am, 2004,115(5 Pt 1):2286.
9Zhu M, Chen B, Galvin JR, et al. Influence of pitch, timbre and timing cues on melodic contour identification with a competing masker (L)[J]. J Acoust Soc Am, 2011,130:3562.
10Gfeller K, Turner C, Oleson J, et al. Accuracy of cochlear implant recipients in speech reception in the presence of background music[J]. Ann Otol Rhinol Laryngol, 2012,121:782.
11Murphy J, Summerfield AQ, O Donoghue GM, et al. Spatial hearing of normally hearing and cochlear implanted children[J]. International Journal of Pediatric Otorhinolaryngology, 2011,75:489.
12Misurelli SM, Litovsky RY. Spatial release from masking in children with bilateral cochlear implants and with normal hearing: Effect of target-interferer similarity[J]. J Acoust Soc Am, 2015,138:319.
13van Hoesel RJM. Contrasting benefits from contralateral implants and hearing aids in cochlear implant users[J]. Hearing Research, 2012,288:100.
14Hawley ML, Litovsky RY, Culling JF. The benefit of binaural hearing in a cocktail party: effect of location and type of interferer[J]. J Acoust Soc Am, 2004,115:833.
15Patrick JF, Clark GM. The Nucleus 22-channel cochlear implant system[J]. Ear Hear, 1991,12(4 Suppl):3S.
16冯海泓, 孟庆林, 平利川, 等. 人工耳蜗信号处理策略研究[J]. 声学技术, 2010(6):607.
17Nie K, Stickney G, Zeng FG. Encoding frequency modulation to improve cochlear implant performance in noise[J]. IEEE Transactions on Biomedical Engineering, 2005,52:64.
18Zeng FG, Nie K, Stickney GS, et al. Speech recognition with amplitude and frequency modulations[J]. Proc Natl Acad Sci USA, 2005,102:2293.
19Hochmair I, Nopp P, Jolly C, et al. MED-EL cochlear implants:state of the art and a glimpse into the future[J]. Trends in Amplification, 2006,10:201.
20Arnoldner C, Riss D, Brunner M, et al. Speech and music perception with the new fine structure speech coding strategy: preliminary results[J]. Acta Otolaryngol, 2007,127:1298.
21Haggard MP, Hall JW. Forms of binaural summation and the implications of individual variability for binaural hearing aids[J]. Scand Audiol Suppl, 1982,15:47.
22Culling JF, Jelfs S, Talbert A, et al. The benefit of bilateral versus unilateral cochlear implantation to speech intelligibility in noise[J]. Ear Hear, 2012,33:673.
23Dunn CC, Noble W, Tyler RS, et al. Bilateral and unilateral cochlear implant users compared on speech perception in noise[J]. Ear and Hearing, 2010,31:296.
24Dorman MF, Gifford RH. Combining acoustic and electric stimulation in the service of speech recognition[J]. International Journal of Audiology, 2010,49:912.
25Kong YY, Stickney GS, Zeng FG. Speech and melody recognition in binaurally combined acoustic and electric hearing[J]. J Acoust Soc Am, 2005,117(3 Pt 1):1351.
26Mok M, Galvin KL, Dowell C, et al. Speech perception benefit for children with a cochlear implant and a hearing aid in opposite ears and children with bilateral cochlear implants[J]. Audiology and Neurotology, 2010,15:44.
27Yoon YS, Li Y, Fu QJ. Speech recognition and acoustic features in combined electric and acoustic stimulation[J]. J Speech Lang Hear Res, 2012,55:105.
28Crew JD, Galvin III JJ, Landsberger DM, et al. Contributions of electric and acoustic hearing to bimodal speech and music perception[J]. PLoS One, 2015,10:e120279.
29Chen F, Hu Y, Yuan M. Evaluation of noise reduction methods for sentence recognition by Mandarin-speaking cochlear implant listeners[J]. Ear Hear, 2015,36:61.
(2015-11-16收稿)
(本文编辑雷培香)
【中图分类号】R764.5
【文献标识码】A
【文章编号】1006-7299(2016)03-0297-04
DOI:10.3969/j.issn.1006-7299.2016.03.020
通讯作者:陈兵(Email:bchen66@163.com)
*国家自然科学基金青年基金(81300818)、国家自然科学基金面上项目(81371087、81570914)、上海市科学技术委员会(134119 a1800)基金资助
1复旦大学附属眼耳鼻喉科医院(上海200031)