言语测听中信号的发送和强度控制

2019-01-15 01:26:00冀飞

中国听力语言康复科学杂志 2018年6期

冀飞

作者单位：中国人民解放军总医院耳鼻咽喉头颈外科;解放军总医院耳鼻咽喉研究所;聋病教育部重点实验室;聋病防治北京市重点实验室;军事声损伤防护实验室北京 100853

言语测听（speech audiometry）作为辅助诊断和效果评估的重要方法，在耳科学和听力学临床实践中的应用越来越广泛。根据不同的测试目的，衍生出了多种不同的言语测听材料和言语测听方法。除了经典的安静测试条件下的言语识别率和言语识别阈，噪声下言语识别阈、信噪比损失等新的测试指标越来越多地应用于听力学干预的效果评估甚至预估[1-4]。在言语测听的实施过程中保证信号强度的可靠量化非常重要。这涉及到设备的校准、测试材料的标准化以及测试过程中的强度控制等环节。国家标GB/T7341.2-1998《电声学测听设备第2部分：语言测听设备》规定了对言语听力计的要求，这一标准旨在保证符合该标准的不同听力计，以标准化的方式给受试者提供言语声信号[5]。该标准的新版本在本文撰写时尚在修订中，对于“speech”的称谓仍沿用“语言”。在2017年新颁布的国家标准GB/T 16296.3-2017《声学测听方法第3 部分：言语测听》中已经改为“言语”。后者对标准化言语材料的编制和录制要求以及言语测听方法做了规定[6]。本文主要简述言语测听操作中的信号的发送方法，以及为保证结果的准确性，依据国家标准进行的强度计量控制操作方法，为言语测听的临床操作提供参考。

1 言语测听的信号

1.1 言语信号及其发送方法

言语信号是指特定语言中携载信息的声信号。言语信号可以是发音人录制的语声信号，也可以是合成的模拟语声信号[5,6]。言语信号可以是单音节字、双音节词、句子等。为实现可比较的测试结果，言语信号应具有良好的可复现性，并应准确量化。符合标准的言语信号可以内置于言语听力计中，也可以不包括在言语听力计中，而是以其他载体通过各种形式的播放器复现。对于前者，其信号控制依赖于听力计本身的校准和增益，较为简单，但受制于言语材料，灵活性较差，这一缺点在中文言语测听中尤为突出。对于不包括在言语听力计中的言语信号材料，可以：①在声级计监控下实时口语发音；②使用CD、MP3、PC电脑等音频播放器播放测试材料，同时用声级计监控强度；③使用具有线路输出（Line OUT）的CD播放器或PC电脑播放测试材料，并且使用言语听力计的外接测试信号功能进行测试强度控制。比较而言，使用言语听力计对信号强度控制最为精确和标准，此时需要在听力计的输入端进行外部信号的强度定标。

言语测听的信号可以通过气导耳机、骨振器或声场下的扬声器发送给受试者。在干预效果评估中用到的最多的就是扬声器输出。特别是噪声下言语测听，使用不同的扬声器输出组合，可灵活实现多种测试目的[7]。

1.2 竞争声或噪声

噪声条件下言语测听在临床评估中应用越来越广泛。在国家标准GB/T 16296.3-2017中将言语识别测试中播放的额外附加的声音统称为竞争声[6]，也就是通常意义上所说的噪声条件下言语测听中的噪声。优先推荐使用已录制在母版标准录声中且提供了言语识别基准值的竞争声[6]。国家标准GB/T 7341.2-1998中规定了可用作竞争声的经频率计权的非调制的无规则噪声[5]，此种噪声内置于言语听力计中，可直接使用。也可使用其他干扰信号作为噪声下言语测听的竞争声，包括调制噪声、非调制噪声、各种人类言语录声等。使用这类噪声时，测试结果的变异度较大，而用计权无规噪声所得结果的变异度较小。

1.2.1 调制噪声其幅度调制与单人讲话或多人讲话时相似，较为典型的例子是代表了一名干扰者语音的平均长时语谱和时间构型的ICRA 5噪声[8]。长时平均语谱(long term average speech spectrum，LTASS)噪声也是经常用到的调制噪声，对较长一段时间（至少2 min以上）的言语信号进行平均频谱测量，匹配言语能量的频谱分布情况。正常嗓音强度下，LTASS在低频（元音）具有更多的能量，高频（辅音）能量较少。

1.2.2 非调制噪声没有或仅有很小的幅度调制，通常代表用于言语识别测试的言语材料的平均长时语谱。典型例子为CCITT噪声和ICRA1噪声[6]。一些言语测听材料中也提供了相应的非调制噪声，其频谱与言语测试项相匹配[1,2]。

1.2.3 人类言语录声可以是单人语声或多人（4人、8人等）混叠而成的嘈杂噪声（babble noise）。这些噪声具有不同程度的调制和信息掩蔽[6]。此外还可使用国际言语测试声信号（international speech test signal，ISTS），该信号由6种语言的女性发音人录制。将录音分割成短片段（500 ms）并以随机顺序重新组合。

在耳机测试中，竞争声由用于播放言语测试信号的同一耳机发送。在声场测听中，应规定所使用到的所有扬声器的位置。国家标准建议播放言语的扬声器位于聆听者前方0°入射角。竞争声由另外两个位置对称、入射角为±45°的扬声器发出[6]。实际工作中，根据不同的临床或研究需要，竞争声的入射角度可进行灵活组合。

2 言语信号的计量和校准

2.1 言语信号强度的计量单位

如同其他听力学测试信号，言语信号通常也以“级（level）”的概念来表达，单位是相对于参考强度的分贝（dB）[7,9,10]。言语信号可以两种方式计量，即言语级（speech level）和言语听力级（hearing level for speech）[11]。言语级的单位是dB SPL，基准为20μPa，也就是声压级。言语级指的是按IEC61672-1以C频率计权在适当的耦合器、仿真耳和声场中测定的言语材料的等效连续声压级（equivalent continuous level，Lp.T）。由于言语信号的幅度随时间波动较大，不像纯音和窄带噪声那样稳定，故在测量其言语级时有所区别。此处测量的实际上是整个测试材料的平均能量，且不包括言语材料测试项之间的无声间隔时段。言语听力级的单位是dB HL speech。对足够量的耳科正常人，以指定的言语材料和指定的信号发送方式，得出的言语识别阈级的中位数称为基准语言识别阈级（即0 dB HL speech）。言语级减去相应的基准语言识别阈级即为言语听力级（以 dB HL speech表示）。言语级与言语听力级之间的关系可比照纯音测听中声压级与听力级之间的关系[9]。图1给出了这种对应关系的说明。言语测听的报告中必须标明言语信号采用的校准单位是dB SPL还是dB HL speech。

图1 言语听力级和言语级与听力级和声压级对应关系

2.2 竞争声或噪声强度的计量和信噪比的概念

与言语信号类似，竞争声或噪声的强度计量也有两种方式。第一种与言语级（dB SPL）对应，即采用声压级dB SPL计量。竞争声声压级指的是按IEC 61672-1中的C频率计权，在适当的耦合器、仿真耳或声场中测得的竞争声的等效连续声压级。第二种与言语听力级（dB HL speech）对应，强调噪声的掩蔽效能，采用有效掩蔽级dB EML计量，这类似于纯音测听中掩蔽噪声的计量[9]。

噪声条件下言语侧听中一个重要的概念是言语噪声比，也就是信噪比，指的是言语级和竞争声级之差。这一概念对于噪声下言语识别能力的评估至关重要。需要特别注意的是，计算信噪比时，言语信号与竞争噪声的计量单位应该相对应。言语级（dB SPL）对应噪声声压级（dB SPL）；言语听力级（dB HL speech）对应有效掩蔽级（dB EML）。这两种计量方式不可混淆。

在实际当中，不同频谱的噪声针对相同的言语材料、相同的噪声针对不同言语材料的掩蔽效能均不同，因此有效掩蔽级很难统一给出。特别是当采用母版标准录声中未包含的其它竞争声时，并没有基准有效掩蔽级存在。因此，国家标准中推荐使用dB SPL计量言语和竞争声的声级以计算信噪比[6]。固定言语级测试时推荐用65 dB SPL，大致相当于正常会话时的言语声级。

2.3 言语听力计的输出校准

上文提到，言语信号可以言语级（dB SPL）和言语听力级（dB HL speech）两种计量标度进行校准。需要特别说明的是关于基准语言识别阈级（即0 dB HL speech）的校准。在现行国家标准GB/T 7341.2-1998的第9章提到，基准识别阈级对单耳气导耳机是20 dB SPL[5]。在最新的IEC标准IEC 60645-1:2017中也提到了使用dB SPL和dB HL speech校准的差值为20 dB。但是这一基准语言识别阈级是根据较容易识别的材料（如双音节词）得出的，而实际中的测试材料多种多样，各种材料的0 dB HL speech并不像纯音信号一样有统一的值[6,11-13]。全国声学标准化技术委员会等同采用国际标准化组织ISO公布的ISO 389系列标准，形成了关于校准测听设备基准零级的系列标准GB/T 4854，其中并不包括言语测听的基准等效阈级。因此，在临床实际中使用dB HL speech作为输出标定单位时，严谨的做法是使用符合标准的言语测听材料提供的其本身的0 dB HL speech进行零级校准。这在研究纯音听阈与言语识别阈之间的关系时非常重要。

对于噪声下言语测听，当言语信号使用dB HL speech校准时，同样需要所使用的测听材料提供每种竞争声的基准有效掩蔽级（0 dB EML）方可完成竞争声的dB EML校准。言语信号使用dB SPL校准时，竞争声也应使用dB SPL校准。

2.4 校准信号

实际测试中的强度控制通过校准实现。由于言语信号是时变的信号，因此在校准中需要使用校准音代表言语测听材料的整体信号强度。校准信号的声级应与特定言语材料的全部测试项的平均言语级相差不超过±0.5 dB。计量校准信号声级，应采用与计量言语级时一致的频率和时间计权。

言语听力计均内置GB/T 7341.2-1998中规定的非调制的计权无规噪声，可直接用于内置的言语材料的校准[5]。

对于不包括在言语听力计中的言语测听材料，国家标准规定，每一录声成品除包括言语测试材料之外，还应包括：（1）时程不少于60 s的用于校准言语测听设备的信号，校准信号应为符合GB/T 7341.2-1998中规定的计权无规噪声，或中心频率为1kHz 的、带宽为1/3倍频程的带通噪声；或带宽不少于1/3倍频程的1 kHz调频音，调制信号应为重复率在4～20 Hz范围内的正弦或三角波。（2）为检测言语听力计和录放设备的频响而用的信号，时程应不短于15 s，包括符合ISO 266规定的125～8000 Hz频率范围内以各优选1/3倍频程频率为中心频率的1/3倍频程通带内的白噪声。

2.5 信号电平指示器

无论言语测听材料是否内置于言语听力计，在进行校准时，都应使校准音的信号电平位于一个可控制的参考位置。言语听力计提供一个信号电平指示器，用以监测所有的校准和言语输入信号的电平。这个指示器可以是VU表的形式，也可以是节段计的形式等。无论哪一种形式的指示器，都具有微调旋钮，通常都可补偿输入信号电平20 dB。在校准时，应保证校准音的输入电平在参考指示位置（通常是0 dB）。需要注意的是，此处提到的0 dB仅就电平指示器本身的示数而言，并不是指的听力计增益控制面板上的dB。调节信号电平指示器的过程是为了使用听力计进行准确的输出增益控制，因此无论是进行dB HL speech的校准还是dB SPL的校准，这一过程都非常重要。这一过程也可称作信号定标。对于未包含在听力计中的言语材料，由于其录声材料电平可能与内置的校准音电平不一致，此时使用材料自带的校准音进行外接信号定标显得尤为重要。

3 言语测听设备连接和信号通路

3.1 言语测听材料内置于言语听力计的情况

言语测听材料传递给受试者的过程，本质上是发音人的物理言语声信号转换成电声信号，经过控制和调整，再由电声信号转换成物理言语声。言语听力计及其换能器起到了量化控制强度的功率放大器和播放器的作用。对于内置于言语听力计的言语测听材料，设备连接与纯音测听一样。

3.2 言语测听材料的播放独立于言语听力计的情况

大部分情况下，所使用的言语测听材料录制在CD或数字音频文件中，需要使用具有线路输出（Line OUT）的播放器如CD机、MP3播放器或PC电脑等输出，将信号馈入言语听力计的外接测试信号接口，经过听力计的定标之后，可以将外接信号的强度与表盘所示的声压级或者听力级对应起来，此时听力计就起到了精准控制外部信号强度的作用，使得最后的测试结果具有可靠的量化指标。图2给出了这种情况的设备连接图。需要注意输入信号具有左右两个声道（LA和RA），输出端也有左右两个声道（LB和RB），这就提供了多种信号通路：LA-LB、LA-RB、RA-RB、RALB、（LA+RA）-LB、（LA+RA）-RB、（LA+RA）-（LB+RB）等。也就是说，发送给受试者的信号，可以是左右对应的单声道的输入信号，可以是左右翻转的单声道输入信号，也可以是左右输入信号的混合。在噪声下言语识别测试时，分辨言语信号和噪声的输出信号通路对于控制信噪比至关重要。

图2 外接言语信号连接言语听力计

设备连接示意图见图2（a）。输入信号具有左右两个声道（LA和RA），输出端也有左右两个声道（LB和RB），这提供了多种信号通路：LA-LB、LA-RB、RA-RB、RA-LB、（LA+RA）-LB、（LA+RA）-RB、（LA+RA）-（LB+RB）等。设备连接实物图见图2（b）。A为外接信号输入端，白色为左声道，红色为右声道。B为信号的扬声器输出端。

4 噪声条件下言语测听的信号发送和强度控制

噪声条件下言语测听的信号发送比安静条件下稍微复杂一些。这是因为涉及到信号和噪声两者的相互关系。这种相互关系及包括强度上的，也报包括空间和时间上的。

上文提到的信噪比是描述信号和噪声强度关系的指标，指的是言语级和竞争声级之差。计算信噪比时应注意两点：（1）言语信号与竞争噪声的计量单位应该相对应。言语级（dB SPL）对应噪声声压级（dB SPL）；言语听力级（dB HL speech）对应有效掩蔽级（dB EML）。但由于有效掩蔽级通常较难得到，多推荐使用dB SPL计量言语和竞争声的声级用于计算信噪比。（2）言语信号与竞争噪声输出通道独立。对于非固定信噪比如采用自适应方式进行信噪比调整的测试，信噪比的变化既可通过改变言语级实现，也可通过改变噪声级实现。此时言语信号和噪声必须从不同的声道（通道）输出，也就是独立控制增益。

在声场下测试时，言语信号与噪声信号可以来自同一方向，也可以来自不同方向。空间上的相对关系以入射角度来描述。下文详述。

在时间上，噪声与言语信号的播放方式不同。对于门控噪声，噪声须开始于言语信号前若干毫秒（例如500 ms）并结束于言语信号后若干毫秒。对于持续噪声，其播放应贯穿整个测试过程。

5 声场下的言语测听

5.1 言语信号和噪声信号的空间关系

在声场测听中，应规定所使用到的所有扬声器的位置。入射角通常定义为扬声器参考轴与受试者矢状面在耳部高度上的夹角。建议播放言语的扬声器位于聆听者正前方0°入射角（图3）。声场言语测听可根据其测试目的加或不加竞争噪声。噪声可以与言语信号来自同一方向，也可来自不同的入射角。常用的是噪声由两个位置对称、入射角为±45°的扬声器发出（图3a）。如果竞争声是由两个或更多的扬声器发送，应为非相关的。也可采用其他噪声入射角如±90°入射角（图3b）

图3 声场下言语测听的言语和噪声入射角度

言语0°入射，噪声由两个位置对称、入射角为±45°的扬声器发出，见图3（a）；言语0°入射，噪声入射角±90°，见图3（b）。

5.2 声场下言语信号的校准

对于声场下言语测听的校准，同样可使用dB HL speech和dB SPL两种方式。通常扬声器输出级应以在参考轴上1m距离的测量结果为准。对于前者的零级校准，目前校准规范采用的是用言语噪声0°入射校准，听力计输出70dB HL，声场参考点位置的声压级为（83±2）dB SPL，也就是基准言语识别阈级为13 dB SPL[14]。与气导耳机类似，这同样并不严谨地符合每一种测试材料。同时，由于声场中竞争声下的言语识别可能受到测试房间声学特征的影响，因此每一特定测试环境下都需要给出基准数据。所以，更便于应用的方法，是对言语和噪声均使用dB SPL校准。