伏臻 吴玺宏 陈婧
感音神经性听力损失(sensorineural hearing loss,SNHL)患者除了听阈提高外,言语识别也存在一定障碍。根据患者的纯音听阈验配助听设备,对声强进行补偿后,虽然安静环境中的言语识别能力大幅度提升,但在噪声或多人交谈的环境中,言语识别的表现依旧不及正常听力者。这是因为可听的声音在受损的听觉系统中发生了畸变,所以听阈不足以解释听力损失患者在言语可懂度上的差异[1],仅将纯音听阈作为听力评估和补偿策略的依据会限制听力补偿的效果。因此,一些阈上的心理声学(psychoacoustic)指标也被用来评估听者的听觉功能,例如频率辨别阈限[2],频率调制辨别阈限(frequency-modulation discrimination limen,FMDL)[3]和时域精细结构的辨别[4]等。其中,反应听觉系统对频率调制敏感性的指标FMDL被认为与噪声环境下的言语识别能力相关[5]。频率调制(frequency-modulation,FM)是语音信号重要的声学属性之一,其对应共振峰过渡、音节韵律和声调语言中的词汇意义等,如汉语声调。有研究表明,基频包络(F0contour),即基频的调制方式是汉语识别中最重要的声学线索之一[6],而听者的FMDL与汉语声调识别之间的关系还鲜有讨论。
FMDL作为一种主观测试指标,依赖于受试者的主观反馈,具有一定的临床局限性。频率追随反应(frequency-following responses,FFRs)是一种持续周期性刺激声诱发产生的听觉脑干反应,反映了听觉脑干神经元对刺激声中周期性成分的锁相活动[7]。由于SNHL患者的锁相精度变差,其FFRs幅度低于正常人,对语音信号包络和精细结构的表征强度也均弱于正常人[8]。Marmal等[9]使用稳定纯音(steady tone)诱发的FFRs,反映了不同听力被试的频率辨别能力与锁相强度的关系。但是对SNHL患者,线性扫频(sweep)信号诱发的FFRs指标与FMDL之间的关系尚缺乏验证。本研究针对听损患者的汉语声调识别机理,研究SNHL患者的FMDL、sweep信号诱发的FFRs,以及汉语声调识别之间的关系,探讨临床中应用FFRs作为听力损伤评估手段的可能性。
选择中重度感音神经性听力损失患者6名(男性5名,女性1名),均为双侧对称性听力损失,学语后聋,年龄25~58岁(平均年龄46岁),每名被试听力较好耳的听力曲线见图1。
图1 6名被试听力曲线示意图
1.2.1 FMDL测试 刺激声分两类,频率为150 Hz、调制速率为0的稳定音(steady tone)和中心频率为150 Hz、调制速率大于0的sweep声,图2A展示了这两类刺激声的基频包络。测试使用3I-2AFC的实验范式,被试会连续听到3段声音,首段播放稳定音,后两段以随机顺序播放sweep声和稳定音,被试需要选出sweep声。sweep声的初始调制速率为150 Hz/s,以“2下1上”的方式变化,即被试连续选对两次后降低调制速率,答错一次后就增加调制速率。调制速率的初始调整因子为1.414,且每两个拐点后再开方,图2B展示了测试过程中调制速率的变化情况。刺激声的持续时间为200 ms,刺激声间隔为500 ms,声强为75 dB SPL,由头戴式耳机呈现给听阈较好的耳。共进行4次测量,每次测量中,取12个拐点的后8个的均值作为阈值,取4次阈值的均值作为被试的FMDL。
图2 FMDL测试中刺激类型和实验范式示意图
1.2.2 FFRs测试 刺激声分两类,稳定音与FMDL测试中相同,sweep声的中心频率为150 Hz、调制速率分别为50 Hz/s,100 Hz/s和200 Hz/s,图3A展示了刺激声的基频包络。刺激声的持续时间为200 ms,刺激间隔为100 ms,刺激声强为75 dB SPL,由入耳式耳机呈现给听阈较好的耳。实验分3个条件进行,每个条件中两类声刺激交替呈现,且起始相位的极性也正负交替,见图3B。FFRs的记录在隔声屏蔽声中进行,以颅顶中央处为主动电极,同侧耳垂为参考电极,前额为地电极。使用NeuroScan产品对记录到的信号进行放大、带通滤波(30~3000 Hz)和采样(20 kHz),使用Matlab对记录信号进行离线分析。
图3 FFRs测试中刺激类型和刺激呈现顺序示意图
首先根据同步信号将记录信号分段为300 ms,并逐段进行伪迹去除(±20 μV);将对应相同刺激和极性的记录信号进行叠加平均,然后将相位相反的平均信号相减,提取出刺激基频对应的成分;最后对信号进行维纳滤波和低通滤波(400 Hz),进一步降噪,得到FFRs信号。本研究使用FFRs信号与刺激的互相关系数评价听觉系统对刺激信号的锁相强度。
1.2.3 元音识别测试 选取汉语拼音中的6个单元音/a,o,e,i,u,ü/,并分别搭配汉语的4种声调,得到24个带调单元音作为刺激声。刺激声的说话人为女性,时长固定为450 ms,包括前后各15 ms窗长的渐入渐出。由于不同元音间平均基频的差异较大,为了避免被试在识别元音时使用元音间平均基频的差异作为线索,使用Praat软件将所有元音刺激的平均基频均调整至210 Hz,而基频包络的形状保持不变。根据被试的听阈调整刺激声在各频带的增益后[10],刺激声以20 dB SL的强度由头戴式耳机呈现给听阈较好的耳,被试听到声音后,分别选取元音和声调类型。本研究统计被试对带调元音的声调识别正确率,即仅要求声调类别选择正确。
使用SPSS 20软件进行统计分析,使用Pearson相关性分析计算各指标间的相关性。以P<0.05为相关性具有统计学意义。
6名被试的FMDL测试结果见表1,均值为67 Hz/s,标准差为17 Hz/s。
表1 FMDL测试结果表(Hz/s)(n=6)
FFRs指标与FMDL的关系。选取与平均FMDL相接近的50 Hz/s的sweep声诱发的FFRs的指标进行分析。图4展示了每名被试FFRs信号和刺激之间的相关系数与FMDL之间的关系,Pearson相关性分析表明二者存在显著负相关(r=-0.849,P=0.032),说明被试对频率调制信号的锁相强度越高,行为上对FM的敏感性也越高,FMDL越小。
图4 FFRs互相关系数与FMDL的相关性分析散点图
2.3.1 声调识别率与FMDL的关系 图5展示了每名被试的声调识别正确率与FMDL之间的关系,Pearson相关性分析表明二者存在显著负相关(r=-0.958,P=0.003),这表明被试对语音的FM线索越敏感,声调识别率也越高。
图5 元音声调识别正确率与FMDL的相关性分析散点图
2.3.2 声调识别率与FFRs指标的关系 考虑到实验中使用元音刺激的FM速率范围较广,将稳定音和三种sweep声诱发的FFRs的指标平均后进行分析。图6展示了每名被试的声调识别正确率与FFRs信号和刺激互相关系数之间的关系,Pearson相关性分析表明二者存在显著正相关(r=0.856,P=0.03),这表明被试对频率调制信号的锁相强度越高,声调识别率也越高。
图6 元音声调识别正确率与FFRs互相关系数的相关性分析散点图
2.3.3 可靠性分析 为进一步确认上述指标间关系的可靠性,排除其它因素的干扰,对这些指标与被试的年龄和平均听阈(0.5、1、2和4 kHz处听阈的均值)之间的相关性进行分析,分析结果见表2。被试的年龄和平均听阈均与其它几项指标之间没有相关性,这说明上述结果和分析可靠。SNHL被试的声调识别正确率取决于被试对频率调制的敏感性,而听阈不足以解释不同被试间的识别结果差异。
表2 各指标相关性分析结果表
较多研究[9,11]表明稳定音诱发的FFRs指标与频率辨别阈限(frequency discrimination limen,FDL)之间存在显著的相关性;Fu等[12]使用sweep声诱发的FFRs客观地评估了听力正常被试的FMDL。本研究验证了该结论对SNHL患者依然成立。FFRs指标和FMDL之间存在显著的负相关,即受试者对FM信号的锁相强度越高,行为上对FM的敏感性也越高,FMDL越小。这些结果都表明客观的FFRs测试可以有效地预测主观的行为阈值FMDL。
听觉系统对语音中时变的基频准确地进行编码,对理解声调语言中的词汇意义至关重要,而不准确的编码会带来声调的混淆,进而导致言语理解产生偏差[13]。汉语声调识别的研究,多集中在不同声学成分的重要性分析[6,13],或不同助听策略下的识别表现[14],鲜有根据受试者的听觉功能指标对其进行评估的工作。图7给出了本研究中声调识别的混淆矩阵,可以看到,SNHL患者倾向于将二、三、四声调识别为一声调,而听力正常者则容易混淆汉语的二、三声调[15]。如果将一声调对应为调制速率为0的稳定音,那么二、三、四声调就对应调制速率非0的sweep声,所以两类被试声调混淆矩阵不同的原因,就是SNHL患者对FM信号的锁相强度降低,使其对频率调制的辨别能力变差,导致FM线索未能得到充分利用。这与SNHL患者的FMDL显著高于听力正常被试的结论相符[16],并且锁相强度和频率调制辨别能力越差,声调识别正确率就越低。除此之外,目前汉语声调辨别测试的标准语料较少,且这类测试依赖受试者的主观反馈,受限于受试者的词汇量和言语表达能力。本文使用FFRs这一客观的听觉诱发电位,可以有效地评估SNHL患者的FMDL和声调识别表现,从而避免上述限制。
FFRs潜在的临床应用价值有以下方面:对语后聋患者,FFRs测试可作为声调辨别等言语功能的客观评估手段,用于指导听力诊疗方案和助听方案;对新生儿,FFRs可作为传统听力筛查测试的补充,更全面地评估听觉脑干神经元的功能完整性和可塑性;对语言学习阶段的听损儿童,以及患有自闭症谱系障碍疾病的具有语言交流障碍的儿童,FFRs测试可以客观地评估其言语功能,指导言语康复训练。另一方面,患者配戴助听设备情况下的FFRs测试,可用于评估助听设备中语音信号编码策略对汉语声调信息表达的准确性,指导针对汉语人群的编码策略设计与改进。
图7 元音识别测试中的声调混淆矩阵(n=6)
声调识别率与FFRs指标之间的相关性弱于与FMDL(0.856<0.958),因为FFRs是一种客观的听觉诱发电位,不需要被试的主动反馈,其反映的是听觉系统在自底而上加工过程中对信号中FM线索的神经表征,不涉及较高层次的加工。而FMDL测试和元音声调识别作为主观测试,均有高层的加工机制参与其中,所以二者的相关性更强。
频率调制信号诱发的频率追随反应可以客观地评估SNHL患者的频率调制辨别能力,其反映的听觉系统对信号中FM成分锁相能力的强弱,显著地影响听者对汉语声调的识别,表明临床中应用频率追随反应评估听觉言语功能的可行性。
[1]Smoorenburg GF. Speech reception in quiet and in noisy conditions by individuals with noise induced hearing loss in relation to their tone audiogram[J].J Acoust Soc Am,1992,91(1):421-437.
[2]Tyler RS,Wood EJ,Fernandes M.Frequency resolution and discrimination of constant and dynamic tones in normal and hearing-impaired listeners[J].J Acoust Soc Am,1983,74(4):1190-1199.
[3]Papakonstantinou A, Strelcyk O,Dau T.Relations between perceptual measures of temporal processing, auditory-evoked brainstem responses and speech intelligibility in noise[J].Hear Res,2011,280(1-2):30-37.
[4]Chen J,Baer T,Moore BC.Effect of enhancement of spectral changes on speech intelligibility and clarity preferences for the hearing impaired[J].J Acoust Soc Am, 2012,131(4):2987-2987.
[5]Strelcyk O,Dau T.Relations between frequency selectivity,temporal fine-structure processing, and speech reception in impaired hearing[J].J Acoust Soc Am, 2009,125(5):3328-3345.
[6]陈雪清,刘海红,刘博,等.时域和频域信息对汉语普通话声调识别的影响[J].中国听力语言康复科学杂志,2008,6(5):18-20.
[7]Skoe E,Kraus N.Auditory Brain Stem Response to Complex Sounds[J].A Tutorial:Ear Hear,2010,31(3):302-324.
[8]Ananthakrishnan S,Krishnan A,Bartlett E. Human Frequency Following Response:Neural Representation of Envelope and Temporal Fine Structure in Listeners with Normal Hearing and Sensorineural Hearing Loss[J].Ear Hear,2015,37(2):e91-103.
[9]Marmel F,Linley D,Carlyon RP,et al.Subcortical Neural Synchrony and Absolute Thresholds Predict Frequency Discrimination Independently[J].J Assoc Res Otolaryngol,2013,14(5):757-766.
[10]Moore BCJ,Glasberg BR.Use of a Loudness Model for Hearing-Aid Fitting I Linear Hearing Aids[J].Br J Audiol,1998,32(5):317-317.
[11]Krishnan A,Bidelman GM,Gandour JT.Neural representation of pitch salience in the human brainstem revealed by psychophysical and electrophysiological indices[J].Hear Res,2010,268(1-2): 60-66.
[12]Fu Z,Wu X,Chen J.Using frequency-following responses(FFRs)to evaluate the auditory function of frequencymodulation(FM)discrimination[J].Appl Inform,2017,4(1):10-10.
[13]Wang S,Li X,Mannell R.Relative Contributions of Temporal Envelope and Fine Structure Cues to Lexical Tone Recognition in Hearing-Impaired Listeners[J].J Assoc Res Otolaryngol Jaro,2011,12(6):783-794.
[14]Chen J,Wu X,Li L,et al.Simulated phase-locking stimulation:an improved speech processing strategy for cochlear implants[J].J Oto-Rhino-Laryngol Relat Spec,2009,71(4):221-227
[15]Mao Y,Xu L.Lexical tone recognition in noise in normalhearing children and prelingually deafened children with cochlear implants[J].Int J Audiol,2016,56(sup2):1-8.
[16]Moore BCJ,Skrodzka E.Detection of frequency modulation by hearing-impaired listeners:Effects of carrier frequency,modulation rate,and added amplitude modulation[J].J Acoust Soc Am,2002,111(1): 327-335.