语音传输指数STI的测量

2022-01-21 15:20祝培生莫方朔

声学技术 2021年6期

祝培生，莫方朔

（1.大连理工大学建筑与艺术学院，辽宁大连 116024；2.同济大学物理科学与工程学院，上海 200092）

0 引言

语音传输指数（Speech Transmission Index,STI）是被广泛接受和使用的言语可懂度客观评价参量，使用来自室内声学理论的调制传递函数（Modulation transfer function,MTF）进行测量与计算[1-3]。STI与一些较为公认的传统音质客观评价参量如混响时间（Reverberation Time,RT）、背景噪声、明晰度C50等相比，除能综合考虑混响时间、信噪比的影响外，混响衰变的细节、房间反射声序列的分布等也可考虑[4]，并与言语可懂度的主观感受直接对应[5]，有着传统音质评价参量所不具备的优势。定义STI的国际电工委员会（International Electrotechnical Commission,IEC）标准（v4.0）是2011年发布的[1]，修改采用IEC标准[1]的中国国家标准GB/T 12060.16—2017[3]于2017年11月1日发布，2018年5月1日正式实施。在2020年9月，IEC发布了最新修订的STI技术标准（v5.0）[2]。但由于STI方法定义复杂，测量时影响因素较多，推广与应用一直不太理想。当前除了在扩声系统、公共广播系统等领域的应用比较普遍之外，在厅堂声学领域，现行国际、国内标准采用STI作为控制指标的并不多。但这种情况也正在快速改变，在ISO 3382-3[6]和国家标准GB/T 36075.3—2018[7]中，STI已作为重要的控制性声学参量用于开放式办公室音质的客观评价；英国教室声学设计标准BB93[8]也对开放空间内的STI限值给出了明确规定；在正在制定的国际标准ISO 18484《Acoustics-Indoor acoustic environment》中，STI也是评价声舒适的重要指标之一。

2011年发布的IEC标准[1]与以前的版本相比，在技术领域提升较大，同时标准还致力于提供一个广泛的、完整的、明确的STI技术标准，以促进STI方法的应用与推广[1]。但经过近年的使用发现，尤其是在建筑声学领域的应用，有一些可能带来较大误差的影响因素并没有考虑。出现这种情况的原因可能是标准的制定者对扩声系统、公共广播系统等领域的影响因素考虑较多，但对建筑声学领域的影响因素考虑相对较少。即使在最新修订的STI技术标准（v5.0）[2]中，这种情况也没有明显改变。尽管修改采用IEC标准[1]的国家标准GB/T 12060.16—2017[3]已经做了一些改进，但仍有一些问题需要解决。因此有必要对按现行标准进行自然声厅堂STI测量时容易遇到的问题以及影响因素进行分析，以提高测量结果的准确性，促进STI方法的应用与推广。

1 STI方法

从20世纪二三十年代人们就开始尝试对言语可懂度进行客观评价，第一个客观评价参量清晰度指数（Articulation Index,AI）[9]在四五十年代提出，AI在1997年发展成为言语可懂度指数（Speech Intelligibility Index，SII）[10]。到70年代，又提出了语音传输指数STI[5]和辅音损失比[11]（Articulation Loss of Consonants,ALcons%）等[12]。自STI被提出以来，其一直处于完善与发展的过程中，一些改进成果，包括对其他成熟方法的借鉴[13]被不断整合进来。与其他方法相比，STI的适用范围较宽，具有较高的精度并易于使用[1-3]。虽然STI方法也有一定的局限性，但在许多条件下被证明是非常有效的，因此为国际社会普遍接受。典型的STI应用场景包括[1-3]：扩声系统、房间和厅堂（自然声或使用扩声系统）、通信电路；直接的言语交流环境（例如在交通工具内）、听力辅助系统等。

IEC标准（v4.0）[1]一共推荐了三个语音传输指数参量：完整STI（FullSTI），公共广播系统语音传输指数（Speech Transmission Index for Public Address systems,STIPA）和通信系统语音传输指数（Speech Transmission Index for Telecommunication systems,STITEL）。这些参量密切相关，STIPA和STITEL是STI的简化版本。在IEC标准（v5.0）[2]中，取消了STITEL。对于语音传输指数参量的测量，IEC标准[1-2]推荐了两种方法：使用调制信号的直接法和基于系统脉冲响应的间接法。直接法测量STI耗时较长，主要在科研中使用[1,3]，在常规测量时使用较少。与直接法STI测量相比，直接法STIPA的测量时间大大缩短，因此IEC标准[1-2]将直接法STIPA推荐用于多种场合，包括扩声系统、自然声房间和厅堂的言语可懂度客观评价。与直接法STI相比，间接法STI的测量耗时较少，但在使用时受到一些条件的限制[1-3]。

2 影响STI测量的因素

结合近年来的研究成果，在自然声房间和厅堂中STI测量时可能带来较大误差但标准[1-3]并没有给出明确规定影响因素主要有声源特性、测试信号的声压级校准、测量方法与流程、不同语言体系等，下面逐一做出分析。

2.1 声源特性

按照IEC标准[1]和国内标准[3]规定，STI测量应使用与人嘴指向性特征基本相同的扬声器（例如仿真嘴）作为测试声源，也可使用纸盆直径不超过100 mm的扬声器作为替代声源。在最新发布的IEC标准（v5.0）[2]中，测试声源纸盆直径调整为不超过65 mm。但也有标准[6-7]使用十二面体声源作为STI的测试声源，例如在开放式办公室中的STI测量中。对于测试声源来说，最可能影响STI测量结果的声源特性是声源的指向性和频率响应[14-15]。测试声源（系统）的均衡对测量结果有较大影响，频率响应不均衡带来的STI最大偏差可达到0.172[14]，具体大小还取决于声源本身的频率响应情况。鉴于标准[1-3]已对频率响应均衡作出了明确规定，本文不做深入讨论，下面重点分析声源指向性的影响。

在接收点位置处，传声器接收到的声信号包含直达声和反射声两部分。对于在自由场校准过的声源，声源主辐射方向前方1 m处的直达声声压级是完全相同的，都为60 dBA[3]，因而在接收点位置处的直达声声压级也是相同的。然而由于指向性的影响，不同声源在接收点位置处的反射声声压级是不同的。这时，具有较大指向性指数（Directivity Index,DI）的声源（例如纸盆直径为100 mm的声源），在接收点位置处的反射声声能较低，具有较小DI的声源（例如十二面体声源），在接收点位置处的反射声声能较高。依据IEC标准[1-2]，调制传递函数MTF按照公式（1）计算：

上述现象已在研究中得到验证。在Zhu等的一个研究中[14]，对比了3个声源（仿真嘴GRAS 44AA；监听音箱GENELEC 8020B；十二面体声源B&K 4292L）的STI测量结果。由于声源指向性的影响，具有最小DI的4292L测得的结果，当背景噪声较高时（信噪比约为−5 dB）STI是最高的，当背景噪声较低时（信噪比约为20 dB）STI基本上是最低的；具有最大DI的8020B（纸盆直径约100 mm）测得的结果，当背景噪声较高时（信噪比约为−5 dB）STI是最低的，当背景噪声较低时（信噪比约为20 dB）STI基本上是最高的；8020B测得的结果与仿真嘴44AA相比，最大偏差达到了−0.065（出现在信噪比约为5 dB时）；4292L测得的结果与仿真嘴44AA相比，最大偏差达到了0.068（出现在信噪比约为5 dB时）。在Zhu等的另一个研究中[15]，将当前常用的两个商用STI测量系统（DIRAC Room Acoustics Software（v6.0）[16]；NTi XL2 Audio and Acoustic Analyzer[17]）的声源与标准声源仿真嘴GRAS 44AA做了对比，这三个声源（GRAS 44AA；DIRAC的Echo Speech Source 4720，纸盆直径约55 mm；NTi的Audio TalkBox，纸盆直径约100 mm）都满足IEC标准（v4.0）[1]的要求，GRAS 44AA和4720也满足IEC标准（v5.0）[2]的要求。最大的STI偏差出现在具有最大指向性差异的TalkBox和44AA之间，达到了0.072（出现在信噪比约为−5 dB时）；即使纸盆直径较小的4720与44AA之间的STI差异也达到了0.045（出现在信噪比约为20 dB时）。考虑到STI的1个最小可觉差（Just Noticeable Difference,JND）大约为0.03[19]，由此可以看到即使满足标准要求，由声源指向性带来的偏差还是比较大的。

这些研究结果表明，满足标准[1-3]的声源仍然可能带来较大的STI偏差。当选择一个在自然声房间测量的系统时，声源特性的影响应该加以考虑，否则不同房间的测量结果之间会没有可比性。一个纸盆直径较小的声源，更容易获得与仿真嘴相近的指向性特征，但是声源的声功率较低，低频的衰减也较大，在较大房间和厅堂的自然声条件下无法测得准确的脉冲响应。一个纸盆直径较大的声源，更容易获得较大的声功率和更好的低频表现，但是声源的指向性较强，会对测量结果带来明显影响。在测试声源的性能取得较大技术进步之前，这个问题并没有理想的解决方法。但换个角度来看，STI只是一个客观度量工具，稳定的测量结果才是更应关心的问题。我们需要的是一个明确的规定，例如采用确定尺寸的测试声源，这样不同测量数据之间才有较好的可比性。从这点来说，当前声源的选择，可以选用直径较大的纸盆，这样可以兼顾较大房间和厅堂的自然声STI测量。办公空间的STI测量就明确规定使用十二面体声源[6-7]，数据之间有较好的可比性，也并不影响对办公空间的评价。

对于扩声系统的测量，按照标准[1-3]规定，将声源设置在扩声系统话筒的主轴上，摆放在通常说话人的位置（距离），设置话筒位置处测试信号的声压级为系统正常使用时的工作语音声级，测点处的声压级调整为听众正常听音时的声压级，信号校准的方式与自然声房间和厅堂并不相同[3]。由于声源指向性带来的测点处声压级差异可通过扩声系统的增益来补偿，并且扩声情况下信噪比普遍较高，因此声源指向性对扩声条件下的STI测量影响较小。当然扩声系统的测试信号在自由场中校准也是应该鼓励的。

2.2 测试信号的声压级校准

对于扩声系统的测量，尽管测试信号的声压级采用了现场校准的方式[1-2]，但对STI的测量影响较小。对于自然声房间和厅堂的测试信号声压级校准，IEC标准[1-2]默认同扩声系统一样，在现场校准。国内标准[3]对此做了修改，明确规定测量使用自然声的房间和厅堂的言语可懂度时，测试信号的声压级应在自由场中校准，设定仿真嘴或测试扬声器（主辐射轴方向）前1 m处的等效连续声压级为60 dBA。如果在现场校准，由于反射声的影响，工作语音声级可能被明显低估，这种低估还与房间的声学条件有关，使得不同房间和厅堂的测量数据之间没有可比性。在Zhu等的一个研究中[15]，进行了自由场校准和现场校准对STI测量结果影响的对比。在4个房间中，以标准声源仿真嘴44AA为例，现场校准和自由场校准的声压级差分别为实验室中3.2 dB（中频混响时间为1.87 s）；办公室中3.1 dB（中频混响时间为0.73 s）；教室中1.3 dB（中频混响时间为1.25 s）；会议室1.1 dB（中频混响时间为1.15 s）。1 dB的信噪比（Signal to Noise Ratio,SNR）变化最大可带来约0.033的STI偏差[2,18]。SNR变化对STI的影响同时还取决于混响时间的长短、信噪比的大小，图1给出了SNR的不确定度为1 dB时，不同SNR情况下的STI不确定度绝对值与混响时间（Reverberation Time,RT）的关系[2,18]，数据是在房间理想指数衰变声学条件下计算得到的。根据图 1可知，在混响时间较短、信噪比较低的情况下，SNR的变化对STI的影响较大。以基本满足正常使用时的SNR为9 dB情况为例，实验室中3.2 dB的信号声压级差可带来约0.024的STI偏差；办公室中3.1 dB的信号声压级差可带来约0.045的STI偏差，超过了1个JND；教室中1.3 dB的信号声压级差可带来约0.013的STI偏差；会议室中1.1 dB的信号声压级差可带来约0.011的STI偏差。由此可见，测试信号的自由场声压级校准对于自然声房间和厅堂的STI测量也非常重要。

2.3 测量方法与流程

对于STI的测量，主要有直接法STI、直接法STIPA和间接法STI可供选择[1-2]。对于扩声系统来说，直接法STIPA是比较合适的方法。这是因为由于效果器的作用，很多时候扩声系统并不是一个线性时不变系统，间接法STI并不适用于存在非线性失真的声传输通路，而直接法STI的测量时间较长，无法进行商业测量。研究表明[15,19]，STIPA和STI之间的差异较小，基本不随 SNR的变化而变化，最大偏差为0.018，小于1个JND。这种差异主要受测量系统或者房间的频率响应影响。

对于自然声房间和厅堂的STI测量，IEC标准[1-2]同时推荐了直接法STI、直接法STIPA和间接法STIPA、间接法STI。依据相关研究[15,19]，直接法STI和间接法STI测量结果没有区别，两者同样稳定、准确，间接法STI也完全可以满足科研需求。这也是可以解释的，当直接法的测试信号具有无限多个调制周期时，直接法测量结果就会无限接近于使用脉冲响应计算MTF得到的间接法测量结果。由于间接法STIPA与间接法STI测量时间、流程基本相同，因此间接法STI成为自然声房间和厅堂测量的一个最佳选择。

当前间接法STI测量产生的较大误差主要是由不规范的信噪比修正导致的[15]。间接法STI测量一般分两部分进行，一部分是脉冲响应测量，另一部分是计算STI时用于信噪比修正的工作语音声级和背景噪声测量。当前存在的主要问题是，包括一些商业测量系统，工作语音声级的测量没有使用与直接法测试信号频谱完全相同的标准信号。在现场使用一段语音测量工作语音声级会存在两个问题：首先如果语音信号没有经过自由场校准，测得的工作语音声级会有偏差，见2.2节；其次，一段语音信号由于存在起伏和静音部分，与一段稳定信号测得的声压级并不相同，同时这段语音信号的频谱与语言长时平均频谱之间还会有差异。这会使间接法STI测量结果出现较大偏差。在Zhu等的研究中[14-15,19-21]，采用了一个经过标准语言谱调整的7个1/2倍频带载波合成的信号（没有经过调制频率调制）测量工作语音声级，这个信号的声压级也在自由场中进行了校准，这样测点处的工作语音声级、频谱与直接法STI测量时完全相同，测量结果也是完全相同的。

尽管间接法测量结果同样准确，所需时间较短，但是由于测量包含两个过程，系统也需是线性时不变系统，这对测试人员提出了一定的技术要求。而直接法STIPA测量只包含一个过程，这也是STIPA获得广泛使用的原因之一。经过简单操作就可获得测量结果，这也是间接法STI测量系统的发展方向。当前很多测量系统都提供了基于脉冲响应的间接法STI测量，但这些系统很少提供一个标准的工作语音声级测试信号和一个标准声源，使得很难获得准确的测量结果。DIRAC测量平台（包括Echo Speech Source）[16]则是这些测量系统中的一个很好例外，它提供了一种易于操作的间接法解决方案，使用一个经过工厂校准的声源发出测试信号，整个测试只需一个操作过程。但即使DIRAC这样的测量平台，可能也有需要改进的地方，在Zhu等的研究中[15]，DIRAC的测量结果在背景噪声较高时出现了较大偏差，进一步的研究发现信噪比修正存在问题。DIRAC使用测得的脉冲响应计算信噪比，这与使用标准工作语音声级和背景噪声计算得到的信噪比明显不同。对于DIRAC来说，只需在多段连续的测试信号中插入一段标准化的工作语音信号用于计算信噪比，就可很好解决这个问题[15]。

当前间接法STI推广的当务之急是为这些测量系统匹配一个标准声源，并在声源中整合一个标准的工作语音信号。对于直接法STIPA的测量，尽管理论上与直接法STI差异不大，但现有的STIPA测量系统过于追求缩短测试时间，例如一个测试只需要10～15 s，使用7个载波频带同时混合的信号，在接收信号的包络提取上可能就需要更好的处理技术，否则在背景噪声较高时，测量结果容易出现偏差[15]。

2.4 不同语言体系

由不同语言体系带来的影响在STI方法中主要体现在四组修正系数上[1-3]：语言频谱、听觉掩蔽效应、绝对言语接收阈、倍频带权重因子和冗余因子。研究表明，这些修正系数中不同语言频谱的影响较大，其他系数的影响相对较小[20]。在IEC标准（v4.0）[1]中，使用汉语语言频谱替代西方语言频谱，可带来最大约0.054的STI差异[20]。IEC最新标准（v5.0）[2]对西方语言频谱进行了调整，调整后的西方语言频谱在低频有了较大衰减，这与汉语语言频谱相似，在高频与汉语语言频谱的差异也有一定减小，因此由语言频谱带来的影响还会降低。表1给出了汉语语言频谱[20]和 IEC标准[1-2]推荐的西方语言频谱对比。表1中各倍频带声压级（单位dB）被归一化为总声级0 dB（A）。一般来说，IEC标准定义的STI只是一个国际上普遍采用的基础度量工具，不是一个具体的评价标准，如果在用于不同语言体系时确有明显差异，可在规定不同房间和厅堂的STI限值的具体评价标准中做出调整，例如在教室中西方语言体系下的STI建议值为0.62[1-3]，依据汉语的主、客观评价对应关系曲线，国内标准可以规定为其他的值。也有研究表明，尽管汉语语言体系与西方语言体系完全不同，使用汉语与英语这两种不同语言的主体在感受和理解上也存在文化差异，汉语语言体系和西方语言体系的言语可懂度主、客观评价对应关系并没有明显差异[20,22]。影响言语可懂度主、客观评价结果的因素较多，二者的对应关系比较复杂，这仍需要进一步的研究。

表1 汉语语言频谱和IEC标准推荐的西方语言频谱Table 1 Chinese language spectrum and western language spectrums recommended by IEC standards

2.5 传声器指向性

标准[1-3]推荐采用全指向性和扩散声场型传声器，并明确说明使用指向性传声器会导致不同和不相关的测量结果。但实际上即使是全指向性传声器，也有一定的指向性特征[15]。因此可以认为系统的指向性是两个换能器（声源和传声器）的共同作用。另外，在测量过程中传声器附近是否有人存在也是一个影响因素，因为可能使用手持式测量仪器[15]。这方面标准并没有给出明确的说明[1-2,5]。在Zhu等的研究[15]中进行了4种传声器设置的对比：传声器垂直指向上方（附近有人或没有人）和传声器指向信号声源（附近有人或没有人）。结果表明，4种传声器设置条件下相互之间的STI差值都非常小，最大的STI差值仅为0.011，小于1个JND；传声器指向信号声源时，附近有人和没有人的STI差值的平均值为0.004；传声器垂直指向上方时，附近有人和没有人的STI差值的平均值为0.008；附近没有人时，传声器指向信号声源与垂直指向的STI差值的平均值为0.007。这些STI差值的平均值均大于0，说明传声器的指向性以及附近是否有人确实会影响STI的测量结果，但与声源指向性、频率响应均衡、测试信号的声级校准以及测量方法等对STI的影响相比，这些偏差相对较小，不在一个数量级上[15]。

3 结论

尽管IEC标准致力于提供一个广泛的、完整的、明确的STI技术规范，但经过近年的使用发现，有一些可能带来较大误差的影响因素并没有给出明确规定，使得按当前标准测量获得的数据之间缺少可比性，尤其是在建筑声学领域的应用。结合近年的研究成果，本文对这些可能的影响因素做出了分析并给出了解决方案。这些问题完全可以通过对测试声源、信号等的选用给出更加清晰明确的限定，并采用规范化的测试流程来解决。随着这些问题的解决，STI今后必将作为一个通用的声学参量而获得广泛使用，对于剧院、多功能厅、体育馆、教室等的传统建筑声学测量也会向该领域迅速拓展。