言语声时域和频域调制察觉阈的测试及其临床应用*

2021-05-22 02:02陈继跃戴静李兴启韩东一冀飞

听力学及言语疾病杂志 2021年3期

陈继跃戴静李兴启韩东一冀飞

语言本质上是一种调制信号，是由动态频率调制和时间调制组成，这些调制成分随着语言的表达而改变。声波振动在耳蜗中传播具有频率选择性，这些频率信息经过听神经纤维束传递到听觉中枢系统，听觉中枢系统对声音进一步分析并处理为可识别的信息[1]。同样，听觉神经元对随时间变化的声源也有选择性，包括信号能量的时间调制和随时间变化的频率变换(Langner等，1988和Schreiner等，1988)。外周听觉感受器对声源进行初始的分解，将声源分解为依赖时间的频率激活模式的声音表征，这种高效的表达是以耳蜗能量调制的神经活动传入听觉中枢系统，并分析解码和提取声源内容和来源。对听神经元在提取和传导噪声环境中言语信息的测试，有助于了解在自然环境中听神经元的功能状态和辅助下一步的治疗措施。

对自然界中复杂信号的频率和时间信息在听觉神经系统中表达的理解主要依赖于计算神经元刺激响应函数的方法。神经元刺激响应函数(stimulus-response function，SRF)是指单个神经元将声音编码为一系列动作电位或峰电位的方式[1]，这些信息的特征不能用简单的参数表示。因此，联合使用结构噪声和反向相关分析可对听觉神经元对声音的频率和时间成分之间的相互作用或依赖反应进行量化，大致评估这种反应是兴奋性还是抑制性，进而反映听觉系统中复杂和简单的SRF特性[1]。基于此，有学者提出了听觉系统的时频感受野(spectrotemporal receptive fields，STRFs)的理论[1,2]。STRFs可以被看作为一个时频调制滤波组(spectrotemporal modulations filter bank)，能捕获随时间推移的频率响应积分的演变过程[2]。STRF的发生需要一个覆盖范围足够广的刺激声，使神经元均匀地暴露在所有可能的声音结构的子集中，通过一个反向相关(仅在每个动作电位前平均所有刺激模式进行的)或平均触发峰电位的过程获得。用傅里叶变换将STRFs转换为调制传递函数，以频率和时间为声音参数来表示神经元反应强度，这样可量化频率和时间之间相互依赖或作用[3]。时域和频域调制(简称时频调制，spectrotemporal modulation，STM)信息在STRFs中准确的表达，对言语可懂度起着至关重要的作用[4]。在听力正常的人群中，STM对句子的理解和语音性别的鉴别起着关键的作用[3]；而在听力障碍的人群中，STM灵敏度可以作为言语清晰度的预测指标[5]。时频灵敏度测试分为频率行波辨别测试和频率/STM察觉阈的测试[6]。文中主要针对STM察觉阈的测试进行系统的综述。

1 STM察觉阈的测试

言语功率谱在时间和频率上的波动称为调制。任何语谱图可以分解为频率和时间调制成分构成，其包含一定范围的频率调制密度(周期/倍频程，cycle/octave,c/o)和时间调制速率(Hz)(图1)(Chi等，1999和Elhilali等，2003)。STM察觉阈测试是将同时进行频域和时域调制后的语音信号作为检测信号(时频调制声)的一种阈上听神经功能测试方法。时频调制声是二维调制函数(公式1)，言语时频调制声是指语音输入信号在经过外周听觉滤波库系统的输出信号后呈STM剖面，即一定范围内的时间速率和频率密度上的语音信号的STM成分的量[5]。噪声时频调制声，如移动行波(dynamic moving ripple)，频率的行波随着时间在频率通道上非同步波动，产生随时间频率的频峰移位的移动行波，每个行波都有特定的时域和频域调制值[4]。

图1 频域调制、时域调制和时频调制刺激声的语谱图 Y轴表示频率(0～6 kHz)，X轴表示时间(500 ms)，黑框里为6种不同的时频调制声的语谱图[15]

S(x,t)=A×[2π×(ωt+Ωx)+Φ]

(1)

公式中，S为每个载波声的振幅，即时间(t)和对数频率(x)[如x=log2(f/f1), f为信号音频率，f1为最小的频率]的函数;A为行波调频振幅，由载波声的调制深度决定的,当A值设置为0到1之间，其相应的平坦行波包络的频率调制为0至100%;Ω为单位每倍频程周期(cycle/octave, c/o)的频率密度，Φ是以弧度表示的载波随机化的频率调制初始相位(范围从0到2π),ω为时间调制速度，以每秒扫描次数(Hz)表示。

STM察觉阈的测试程序是通过采用两间隔、两选择的自适应强制选择(2-interval, 2-altemative a daptive forced choice)范式，沉默间隔500 ms；一个间隔为时频调制刺激声(即目标信号)，而另一间隔为未调制噪声(即参考信号，如稳态噪声)，刺激声随机出现在第一或第二个间隔。受检耳的目标信号和参考信号的标称值为80 dB SPL/oct(总给声强度86 dB SPL),使受试者在舒适聆听环境下最大限度地提高可听度。测试时要求受试者识别、选出两个连续的刺激间隔中包含时频调制的刺激声，例如鸟叫、振动或随时间和频率移动声。调制深度在一个降3升1自适应程序中变化，追踪79.4%的正确点，阶跃大小以分贝计算(dB，20 logA，A为调制深度,也指调频振幅)。调制深度从0 dB开始(全调制)，然后降6 dB直到出现第一个逆转点，再降至4 dB直到出现下两个逆转点，再降至2 dB直至出现最后六个逆转点；将最后六个逆转点的调制深度的平均值定义为阈值。调制深度不能超过0 dB，如自适应追踪要求的调制深度超过0 dB，则下一次测试采用全调制。另外，如果受试者在任何一次测试中不能察觉全调制信号超过五次，则终止测试。

在外周听觉滤波库系统中，低通滤波器和陷波滤波器对言语理解力起着至关重要的调制。相对低速率的时间和频率能量调制反映了清晰发音的速度、音节速率和语音音位(即元音和辅音)(Chi等，1999)。Elliott等[3]用低通滤波器对语音的频率和时间进行调制研究言语声的时频调制与言语可懂度之间的关系发现，调制密度≤4 c/kHz(如中心频率为500 Hz，2 c/o=4 c/kHz)和调制速率≤8 Hz为核心调制，在言语理解力方面起着关键作用。另外，他们联合陷波滤波器对语音核心调制区域进行调制发现，决定言语清晰度主要在1～7 Hz之间的中间时间调制和极低的频率调制，可见言语可懂度转换形式为时间的带通调谐和频率的低通调谐。言语的清晰度、性别识别、音调和音乐的音色感知高度取决于不同的时间调制速率和不同的频率调制密度[7]。

2 STM察觉阈的测试在听力障碍诊断中的应用

STM结合了言语信号的时频维度，是对言语传输的一种细化，可有效的对信号频率进行特定的函数加权即调制，用来评估噪声下的言语可懂度和混响，其适用于由某部分听觉通道出现相位抖动(phase jitter)和脉冲振幅限幅(amplitude clipping)导致的相位畸变或严重非线性言语信号失真而出现时频畸变的情况(Elhilali等，2003)，因此，结合时频的变化线索的灵敏度测试评估STM感知，可广泛应用于各种研究中[4,8～10]。以下是对STM察觉测试在几种特定的听觉障碍诊断中的应用。

听神经病患者在噪声环境中的聆听技能和言语识别能力差,这主要源于传入声音信号的非同步神经响应相关的时间处理障碍[11,12]。听觉时间处理帮助聆听者快速的分析和整合简短的、随时间变化的语言信息的变化，迅速完成言语识别，这是获得聆听和语言技能的必备条件[12]。噪声或混响背景中的言语信号失真是由于言语信号的时间模糊化(Steeneken等，1980)，而检测某些时间对比的能力对识别辅音释放脉冲非常重要[5]。目前，对于了解听神经病的时间处理能力改变的方法主要通过间隔察觉和声源空间定位测试[13～15]。部分研究表明在安静的环境中，即使频率分辨率降低，言语可懂度仍然可有较好的表现；但在噪声环境中，则需要更高的频率分辨率进行言语识别(Shannon等，1995和Friesen等，2001)。目前尚未见STM察觉阈测试应用于听神经病的研究，但根据听神经病的频率分辨率和时间处理能力会随着时间恶化的结果，结合频率和时间调制信号进行STM察觉阈监测，可能有助于医生和听力师更好地、动态地掌握听神经病的病程进展，并及时干预。

老年性聋主要表现为渐进性听力下降，识别终止辅音或摩擦元音音节困难(Turner等，1987)、伴或不伴语言提示的压缩语音困难(Gordon-Salant等，2001)及时间精细结构处理障碍、扫频调制察觉阈下降、音位鉴别困难和词汇识别障碍[16,17]。在心理物理学测试中，对年龄相关的频率处理改变主要用频率拓扑或调谐曲线测试，时间处理的改变则用间隔感知或调幅信号测试[17]。Trujillo等[17]对老年性聋小鼠的皮层时频处理的变化进行研究，发现年龄相关的听皮层神经元减少导致时频处理能力快速下降。因此，STM察觉测试可能替代非言语声学测试，并有效获得老年性聋的频率和时间改变信息。

听处理障碍(auditory processing disorder, APD)是指听觉中枢神经系统的听觉信息感知处理障碍，主要表现为听觉鉴别、声源定位、言语识别和噪声中听觉表现异常，尤其是双耳线索和时间处理能力异常[18]。临床上，APD测试主要是基于言语的测试[19]，少部分研究则针对APD的声源定位和鉴别能力的改变用非言语刺激声测试，如间隔感知或双耳时间精细结构灵敏度测试[20～22]，后者主要用纯音刺激信号获得耳间相位差(interaural phase difference, IPD)的阈值[22]。而这些测试结果异常通常不能用来解释是由APD引起的还是由高级认知障碍引起。生理学研究表明在不同层级结构水平的听觉中枢系统中存在对STM调谐的神经元滤波组，即听觉神经元选择性的对不同的频率和时间结合信号响应[23]。因此，APD可导致听觉神经元对STM响应功能下降，Lotfi等[10]研究发现儿童APD患者的听觉神经系统的声信号时频编码障碍可能导致STM察觉阈提高，噪声下言语感知聆听障碍是STM线索提取能力差的潜在因素。另外，STM察觉测试信号是一组时频调制刺激声和未被调制的参考载波噪声组合，不受测试者认知功能的影响，可很好地解释引起APD测试结果异常的因素。STM察觉测试在APD中应用可用来预测听觉神经系统的神经元时频编码的功能状态和提取STM线索能力的参考指标。

3 STM察觉阈的测试在助听器验配中的应用

助听器能够有效改善中度听障者的听觉能力，但在噪声环境中的言语清晰度存在差异性。Smoorenburg(1992)、Amos(2007)和Humes(2007)等报道听力障碍患者在没有助听时，用纯音听阈图来解释这种差异的灵敏度高达50%～75%，当助听器给予较高增益时，语谱图的可听度大大高于阈值。因此，不能单用听阈图作为噪声环境中言语理解力的可靠参考指标[9]。言语感知障碍包括二部分，即言语可听度和言语失真(Plomp等)，发生言语失真的确切机制还不清楚，目前普遍共识包括认知处理障碍、阈上信号在外周听觉或中脑中畸变编码或两种因素同时存在[9]。用工作记忆能力测试来评估认知处理障碍过程中，发现安静时助听效果良好，但仍有15%～35%的患者在噪声环境中存在言语感知的差异[24,25]。外周听觉结构，如毛细胞和听神经纤维损伤，可引起时间或频率的分辨率降低，削弱了提取言语信号特征的能力，导致言语信号可听成分的神经表征失真。

听觉康复训练可提高存在认知障碍听障者处理言语信息的能力[26]，阈上处理障碍的听障者需用未来设计的信号处理算法补偿言语信号失真的部分信息[27]，因此，需要选择合适的测试方法来区分认知障碍和阈上处理障碍的听障人群。而STM察觉阈的测试可以鉴别认知障碍和阈上失真导致噪声中言语接受能力受限，其结果有助于听障人士选配合适的助听器、获得更高效的增益，并有针对性的施行言语康复措施。另外，时频调制参数对助听器的压缩放大技术的改进具有指导意义[9]。

4 STM察觉阈的测试在人工耳蜗植入中的应用

人工耳蜗植入者对STM信息有一定的灵敏性，人工耳蜗通过不断更新感知策略来提高对STM灵敏度，帮助患者获得周围环境的信息[7]，故其效果差异部分是由于STM灵敏度不同。通过对时频信号改变的灵敏性检测评估频率和时间信号的感知整合方式，对开发言语处理策略有启示作用，以进一步提高人工耳蜗植入患者的语言理解能力。

人工耳蜗言语编码策略通常用高级组合编码(ACE)或连续间隔采样(CIS)。目前，植入Nucleus人工耳蜗的绝大多数患者都采用ACE策略，ACE一般设定8～12个谱峰，言语信号交由22个带通滤波器来分隔，刺激速率为每个通道900～1 200 Hz，只进行频率调制的声音在每个时间帧中都要刺激相同的电极。动态STM刺激声在每个时间帧中都有可能刺激不同的电极，从而在所传递的频率信息中产生持续的变化。有些人工耳蜗植入者由于长期的听觉剥夺或其他因素出现听神经退化，而STM传输的信号可能较少发生神经适应，故STM信息能以更高的保真度传输到听觉中枢水平[4]，因此，时频调制声比频率调制声能获取更多声源信息。另外，人工耳蜗多通道响度总和与处理器的空间和时间通道相互作用导致时频灵敏性增加；处理器内的包络滤波器的低通滤波器截止频率可能影响多通道相互作用和调制灵敏性。人工耳蜗的双频率和时间处理策略是通过采用增强时频信号来提高言语清晰度，因此，STM灵敏性对开发人工耳蜗言语处理策略和人工耳蜗植入术后康复策略具有指导意义。

另外，时频察觉测试可补充言语测试材料，辅助临床医师更精确的预测人工耳蜗助听效果。Choi等[8]研究发现听障患者在最佳助听条件下，STM察觉阈的测试(尤其是频率密度为0.5 c/o及时间调制速率为5 Hz)比言语感知测试更能精确地筛选出人工耳蜗植入的适用人群。

5 STM察觉阈测试的临床应用展望

应用于研究听觉神经系统的测试方法不计其数，而大多数听力和言语测试方法只能反映安静的条件下患者的听力情况和言语理解程度。STM察觉阈的测试则是模拟人们真实环境中对周围环境所需的语言信息反应的一种阈上听神经功能测试方法，即利用噪声分析技术来评估听觉神经元对言语信号的反应和听觉皮层对言语信号的处理。对STM灵敏度测试方法有电生理测试和心理声学测试两类，其中电生理测试是将STRF模型应用于皮层脑电图(electrocorticogram, ECoG)记录各大脑皮层区域对言语反应的时频调谐特征和研究听觉皮层反应的可塑性[2]，而ECoG记录结果是通过外科手术将硬脑膜下电极阵列植入(即听觉脑干植入)后获得的，而该手术效果存在很大争议性，且手术风险较大，因此，客观记录听觉系统的STM灵敏度受限。近年来，调频/调幅声、调时声、chirp声、言语声和噪声下的言语声在客观听觉电生理中的应用，积累了大量的临床经验及丰富的外周听觉神经系统和中枢听觉神经系统数据。而各级听觉存在STRFs特性，结合言语声频率和时间调制在听觉电生理测试中的应用为客观的、更为简便易行的及无创记录到各级听觉神经系统的时频处理能力带来了希望，也是下一步研究的目标。

STM察觉阈的测试中调制滤波方法和由此产生的语音特征为人们提供了更好的改进音频工程中语音压缩的方式的参考指标，更加完善了言语处理器的处理策略，便于根据助听器和人工耳蜗助听效果的差异性开发出个体化或定制的助听装置。