汉语语言可懂度客观评价的STI与SII方法实验对比研究

2014-03-20 08:00:12祝培生莫方朔王季卿

大连理工大学学报 2014年2期

祝培生，莫方朔，王季卿

（1.大连理工大学建筑与艺术学院，辽宁大连 116024；2.同济大学声学研究所，上海 200092）

0 引言

语言可懂度是音质评价的重要指标，可以用来评价厅堂或扩声系统的声音传输质量.对语言可懂度的评价，又可分为主观评价和客观评价.20世纪四五十年代提出了第一个语言可懂度客观评价参量清晰度指数AI［1］（articulation index，近年来发展成语言可懂度指数 SII［2］，speech intelligibility index），到20世纪70年代末，又提出了语言传输指数STI［3］（speech transmission index）和辅音损失比%ALcons［4］（articulation loss of consonants）等参量.这些参量的提出，为语言可懂度的客观评价提供了可能，虽然也都有各自的局限性.

STI和SII为当前语言可懂度的两个主要客观评价体系，对应于国际上两本现行标准：IEC 60268－16［5］和ANSI S3.5［2］.前者为国际电工委员会标准，世界上大部分国家都采用该标准；后者为美国标准，除美国之外只在极少数国家使用.

STI方法因为能够较好反映混响时间、信噪比对语言可懂度的影响，具有一定的抗系统失真能力，为国际社会普遍接受，并在建筑声学领域得到了广泛应用.SII则因为有更为精细的临界频带划分方法，并且提供了6种不同语言材料的权重系数，为那些研究不同语言材料效果的人所偏爱，也经常被经验丰富的听觉矫治专家所使用.但对于传统建筑声学领域来说，这两个语言可懂度客观评价方法到底有什么样的差别？这方面国内、外相关的研究文献很难见到.Larm 等［6］对英语频谱的STI与SII进行了实验对比研究，但在测量仪器的选用、实验方法，以及研究内容上尚有改进空间.

汉语是一种特殊的单音节语言，声、韵、调为音节信息的主要组成成分，与英语有着较大的区别.中国关于汉语语言可懂度的现行规范有两本：GB／T 14476—1993［7］和GB／T 15485—1995［8］，分别对应于IEC 60268－16 标准和美国ANSI S3.5标准.考虑到这两本规范都有近20 年没有修订的现状，按照最新标准对汉语语言可懂度客观评价的STI与SII方法进行详细对比研究也有较好的现实意义.为验证SII和STI应用于建筑声学测量的具体表现，选取了一间办公室和一间实验教室，主要研究以下内容：（1）倍频带条件下的SII与STI测量结果差异；（2）与倍频带SII相比，载波频带划分更为精细的1／3倍频带方法是否具有更高的精度；（3）SII和STI方法对汉语语言可懂度主、客观评价关系曲线的影响（主观评价数据来自于另外研究）.

1 STI与SII方法

1.1 STI方法

IEC 60268－16推荐了两种STI的测量方法：一种是使用调制信号的直接测量方法，另一种是使用房间脉冲响应的间接测量方法.关于STI的计算模型及测量方法在相关文献［9］中都有详细描述.

1.2 SII方法

清晰度指数AI是第一个将声学测量同语言可懂度联系起来的客观参量，美国国家标准局在1969年发布了ANSI S3.5－1969，1997年对AI进行了大量修正，发布了ANSI S3.5－1997，通过这次修订，AI发展为语言可懂度指数SII，标准的通用性得到扩展，并将建筑声学的混响声场情况考虑在内.

SII通过对等效语言谱级、等效噪声谱级、等效听阈级这些输入变量的计算得到语言可懂度参量.所谓等效就是采用在基准环境中测得的声级大小表示实际声场中的真实情况（二者在耳膜处引起的声级相同）.基准环境主要是指自由场环境，没有混响的影响.等效语言谱级、等效噪声谱级的获得有3种方法：（1）测量耳膜处声强的调制转移函数MTFI以及语言和噪声的合成谱级，该方法需要使用人工头，是SII推荐的最通用测试方法；（2）测量声场中听众双耳中间位置处的调制转移函数MTFI以及语言和噪声的合成谱级，这是一个通用性差些的方法，不能用来测量一些通信条件（如电话等）；（3）分别测量语言谱级和噪声谱级，这种方法不能评价混响带来的语言可懂度降低，也不能反映噪声和语言相互影响的情况（是ANSI S3.5－1997之前版本所采用的方法，基本假设就是语言和噪声二者独立，可分别测量得到），因此应用前景越来越小.在本研究中，由于IEC 60286－16推荐的STI测量方法采用的是无指向性传声器，为增加可比性，SII测量采用了第（2）种方法.

SII值的计算对应于4种不同的临界频带（载波频带）划分方法：临界频带法（共21 个频带）、1／3倍频带法（共18个频带）、等贡献临界频带法（共17 个频带）、倍频带法（共6 个频带）.为同STI的7个载波频带对比，本文采用了倍频带方法，同时为了验证精细的临界频带划分对SII测量结果的影响，也进行了1／3倍频带法的测量对比.倍频带法从250 Hz到8 000 Hz共6个载波频带，1／3倍频带法从160 Hz到8 000 Hz共18个载波频带，通过对这些载波频带中心频率fi的计算就可得到

式中：i为相应的载波频带；E′i为等效语言谱级；Di为等效干扰谱级，对应于倍频带（1／3倍频带）中心频率fi.E′i－Di被限制在±15dB.Ii为各频带的权重系数，实验选用了一般语言材料的数据，ANSI S3.5同时也给出了其他5种不同测试语言材料的频带权重系数.Li是声级失真因子，用来考虑当语言声级非常高时，除了受信噪比的影响，语言可懂度还会有额外的降低，计算公式为

其中Ui为频带fi的标准语言谱级（由ANSI S3.5中给出）.Li被限制在0～1.

等效干扰谱级Di通过选择内部等效噪声谱级X′i（为参考噪声谱级Xi与等效听阈级T′i之和，Xi由ANSI S3.5给出）和等效噪声谱级N′i二者的较大值得到.内部等效噪声谱级的应用是基于这样一个考虑：在安静环境中，人耳内存在假设的内部噪声，它会对外来的声音产生掩蔽.

SII的初始计算模型假定等效语言谱级和等效噪声谱级在自由场内测得，这表明整个语言声级不包含混响声.但在混响空间内，并不能测得没有混响声的语言声级，为考虑混响的影响，SII引入了调制转移函数MTFI方法.该方法对倍频带法（或1／3倍频带法）的每个载波频带，都用9个调制频率（0.5、1.0、1.5、2.0、3.0、4.0、6.0、8.0、16.0Hz）调制.对应于9个调制频率的9个有效信噪比被限制在±15dB，然后取平均值得到Ri.语言和噪声的合成谱级Pi则是通过重放没有调制过的测试信号测量得到.等效语言谱级和等效噪声谱级最后按式（3）、（4）计算：

1.3 STI和SII对比

作为语言可懂度的两种最常用客观评价体系，SII和STI的计算框架模型比较相似，都是基于将各频带的贡献相加来确定语言可懂度.但STI可以直接测量各频带的贡献并相加得到，SII则需要先将MTFI转换成语言信号的等效语言谱级、等效噪声谱级等参量，然后计算得到.

两种标准设立之初，SII和STI虽然计算框架模型相似，但具体计算方法与适用范围有较大区别.在经历了较长时间的自我完善与发展后，两个标准的最新修订版都借鉴了对方一些内容，有许多相似之处，例如为对混响条件下的等效语言谱级和等效噪声谱级进行测量，SII标准引入了STI的调制转移函数概念；而STI的最新修订则借鉴了SII的内部等效噪声谱级和声级失真因子参量，修正了极低背景噪声条件下的语言接收阈值以及极高声压级下的听觉掩蔽效应.

SII和STI在混响条件下有效信噪比的确定都采用调制转移函数方法，但载波频带并不相同，调制频率也有区别.例如SII有4 组不同的临界频带（载波频带）划分可供选择，每个临界频带都用9 个调制频率调制，而STI只有一组载波频带，每个载波频带用14个调制频率调制.除此之外，STI虽然给出了男声和女声的标准语言频谱，但在测试时只采用男声标准语言频谱，SII则给出了4种不同发声条件下由男声和女声平均的标准语言频谱供选择；STI只有对应于男声和女声的两组权重系数，SII则针对6种不同的测试语言材料，给出了6种不同的权重系数，考虑到还有4种不同的临界频带划分方式，相应的权重系数共有24组.在本研究中，为在相同条件下进行对比，SII和STI都采用了GB 7347—1987［10］规定的男声汉语标准语言频谱.

2 实验方法

2.1 实验设置

本文选取了两个不同的房间作为测试场所，包括一间办公室、一间实验教室.办公室、实验教室平面均为矩形，表1给出了这两个房间的基本情况.

表1 两个测试房间的基本情况Tab.1 Characteristics of the two test rooms

在办公室内共布置了2个测点，测点和声源的布置位置见图1；在实验教室内共布置了3 个测点，测点和声源的布置位置见图2.在这两个房间中，接收点的高度都为1.2m，声源的高度都为1.5m，图中S1为信号声源，S2为干扰噪声声源，R1～R5为接收点.

为获得从非常差到非常好的听音条件，对于两个房间中的每个测点，都设计了4种发声条件，对应于4种不同的信噪比.测量时，在发声位置处布置了两个声源同时发声（两声源相距0.5 m），用人工嘴播放测试信号，球面声源播放经过汉语语言频谱调整的粉红噪声.测量STI时，语言信号播音条件按照IEC 60268－16规定，在消声室内设定距离人工嘴正前方1 m 处声压级为60dB；测量SII时，语言信号播音条件按照ANSI S3.5规定，在消声室内设定距离人工嘴正前方1m处声压级为62.35dB.同时调整噪声源声压级，使得在距这两个声源1 m 处测量STI时分别对应不同的信噪比：－5、0、10、20dB（这些信噪比并不代表现场测点处的实际信噪比）；测量SII时分别对应不同的信噪比：－2.65、2.35、12.35、22.35dB.之所以STI和SII的信噪比设定不同，是考虑ANSI S3.5规定的语言信号声压级高，与IEC 60268－16规定的60dB 相比，实际测量时会占有2.35dB 的信噪比优势.然后将消声室内设定好的信号声源和干扰噪声声源摆放到测试房间的相应位置，依次对两个房间的5个测点共20个测试条件下的STI、SII进行了测量.

图1 办公室声源与测点布置Fig.1 Source and receiver positions in the office

图2 实验教室声源与测点布置Fig.2 Source and receiver positions in the laboratory

2.2 STI和SII测量与计算

由于SII的使用者较少，因此很难见到SII的商用测量软件.STI的商用测量软件相对多些，可以见到的有Dirac、WinMLS、Aurora、NTI等，但采用的都是间接测量方法.STI直接测量方法由于测量时间较长，数据处理对硬件要求较高，尤其是完整STI（Full STI，在IEC 标准中建议一般仅在科研时使用）更加难以测量，因此完整STI的直接法商业测量软件也很难见到.为能真实体现IEC 60268－16和ANSI S3.5规定的测量方法，并且采用汉语的标准语言频谱，作者严格按照IEC和ANSI标准编写了STI的直接法测量与计算程序和SII的倍频带、1／3倍频带测量与计算程序.

IEC 60268－16对测试信号的生成和调制都有严格规定，125Hz到8 000Hz的7个1／2倍频带载波分别用14 个调制频率调制，因此共得到98个调制转移值.ANSI S3.5对测试信号的生成和调制限制较少，对于倍频带法，载波频带从250 Hz到8 000Hz共6个；1／3倍频带法，载波频带从160Hz到8 000Hz共18个.对于每个载波频带都分别用9个调制频率调制，因此倍频带法共得到54个调制转移值，1／3倍频带法共得到162个调制转移值.为使测量结果具有可比性，对于ANSI S3.5 没有明确规定的信息，本文都按照IEC 60268－16的规定执行，如粉红噪声生成时波峰因子等的限制，使用相同的滤波器，滤波后的调制深度相同，以及最后对每个载波有效信噪比的计算方法等都是相同的.

2.3 技术保障措施

在测量过程中，测量系统的选用与匹配、声源声压级的标定、测试信号的生成及后期处理都可能带来较大误差，这些误差会降低测量结果的可信度.降低这些误差的关键是采用规范化、标准化的测量系统、测试程序，测量过程也要严格按照规定执行.

本文实验所采用的测量系统包括信号声源GRAS 44AA、干扰噪声声源PYRITE、功率放大器AMPHION（对应于PYRITE）、声卡B＆K ZE－0948、传声器B＆K 4189（供电系统为B＆K 1704），以及录音软件Audition（v3.0）.测试前对整个系统进行了回路校验，以保证其为线性时不变系统，没有谐波产生.针对人工嘴、干扰声源频率响应较差问题，预先对整个系统采用消声室逆滤波方法对测试信号及干扰噪声信号进行了频率响应均衡.

声源声压级的标定是一个非常容易产生误差的环节，并且会直接影响到信噪比的大小进而影响测量结果，因此实验中的两个声源都在半消声室内进行了标定，当然所用测试信号也在信号生成之初就通过滤波方式对声压级进行了精确控制.这些措施的采用可基本保证由测试系统带来的误差被尽可能地降低.

所采用测量程序的有效性也是保证测量结果可信的关键.假定已经根据标准生成了调制深度为0.8的测试信号，然后将该信号直接当作接收信号进行后期处理（回路校验），理论上应该得到98个（倍频带SII为54；1／3倍频带SII为162）调制深度为0.8的调制转移值，但实际情况并非如此.造成这种情况的原因是多方面的，比如所用粉红噪声是伪随机信号；信号生成时需要滤波、调制；接收后还要滤波、包络提取等，这些都会带来一些信号损失，从而导致出现误差.

为判断测量程序的这些误差对测量结果的影响，采用统计学中单一样本t检验的方法，来检验经过回路后的98 个数值（倍频带SII为54；1／3倍频带SII为162）的总体均值和指定值0.8之间是否存在显著性差异.计算结果显示，STI测量程序的相伴概率为0.819；倍频带SII测量程序的相伴概率为0.219；1／3倍频带SII测量程序的相伴概率为0.388，都大于显著性水平（＝0.05），可认为该98个数值（倍频带SII为54；1／3 倍频带SII为162）的均值和0.8相比没有显著性变化.

本文还将98个（倍频带SII为54；1／3 倍频带SII为162）调制深度为0.8 的调制转移值和98个（倍频带SII为54；1／3倍频带SII为162）经过回路后的调制转移值同时输入实验教室的一个测试条件来计算STI、SII，两种情况下STI的差值为0.001；倍频带SII的差值为0.002；1／3倍频带SII的差值为0.000 1，这些差值都远小于一个JND（just noticeable difference，最小可察觉差，约为0.03［11］）.由此可见，由测量程序带来的误差还是非常小的.

3 实验结果与讨论

图3给出了STI与倍频带SII的测量结果.可以看到二者有一定的误差，最大差值达到了0.111，出现在办公室R2测点20dB 信噪比条件下，比Larm 等的研究结果最大偏差－0.04要大.考虑到本文实验在测试声源的选择、声源频率响应修正与声压级的校准、调制频率、干扰噪声频谱等方面都不相同，存在这些差别也是正常的.另外也可以看到，在信噪比较低时，STI比倍频带SII测量结果低；在信噪比较高时，STI比倍频带SII测量结果高.这也说明STI对信噪比的变化具有更高的灵敏度.

图3 STI与倍频带SII测量结果Fig.3 Measurement results of STI and octave band SII

图4 不同信噪比情况下5个测点的STI与倍频带SII差值Fig.4 The difference between STI and octave band SII in 5receiver positions with different SNRs

为进一步研究STI和倍频带SII的测量结果与信噪比变化的关系，图4给出了5个测点的STI与倍频带SII随信噪比变化的差值.可以看到随着信噪比的增加，STI与倍频带SII之间的差值有变大趋势.存在这种情况也是正常的.因为二者采用的干扰噪声信号相同，都是具有汉语语言频谱的125～8 000Hz共7个没有经过调制频率调制的倍频带载波合成信号，但测试信号并不相同，SII的测试信号不包含125 Hz载波.由于测试信号的总声级相同，SII各频带声功率级都要比STI对应频带的声功率级大.在测试信号各频带声级固定的情况下，随着噪声声级的增加（信噪比降低），SII各频带信噪比与STI各频带信噪比之间的比例关系有变大的趋势，SII相对于STI有增加的趋势，因此STI与倍频带SII之间的差值有减小的趋势.

图5给出了倍频带SII与1／3倍频带SII测量结果差值.可以看到，二者的差别并不大，最大差值约为－0.035，出现在实验教室R4测点的0 dB信噪比情况.另外还可以看到，与倍频带SII相比，随着混响时间的增加，1／3倍频带SII的测量结果有增大趋势.这可能是因为对接收的信号又进行了一次滤波的缘故，滤波器会使测量的MTF变小.滤波器频带越窄、被测声场混响时间越短，影响就越大，即测量的MTF 越偏小，所以相对于倍频带的MTF，1／3倍频带的MTF 会随混响时间的变长而增加.

为分析这两种方法的测量结果对汉语语言可懂度主、客观评价关系曲线的影响，本文将STI、倍频带SII、1／3倍频带SII作为横坐标轴数据，20个测量条件的语言可懂度主观评价得分作为纵坐标轴数据（数据来自于另外研究），建立了汉语语言可懂度主、客观评价关系曲线，并与张家騄［12］的研究结果进行了对比，见图6.从图可以看到，当STI、SII数值较小时（0.1～0.4），倍频带SII、1／3倍频带SII的主观评价得分小于STI的结果；当超过约0.4 时，倍频带SII、1／3 倍频带SII的主观评价得分大于STI的结果；STI与倍频带SII主观评价得分的最大差值约为7%，与1／3倍频带SII主观评价得分的最大差值约为12%；张家騄的研究结果与倍频带SII的主观评价得分最大差值约为11%.考虑到STI与SII是完全不同的评价体系，SII与AI采用的方法也有较大区别，这些差别也在情理之中，总的来说差别也不算大.

图5 倍频带SII与1／3倍频带SII差值Fig.5 The difference between octave band SII and one－third octave band SII

图6 STI、SII汉语语言可懂度主、客观评价关系曲线Fig.6 The relationship between subjective and objective Chinese speech intelligibility scores by STI and SII

4 结语

通过分析STI和SII的计算模型和测量结果可以看到，二者并没有本质上的区别.虽然二者的最大差值达到了0.111，超过了一个JND，但对于两个不同的评价体系来说并不是很大.这些差别也主要是由于采用的具体方法不同造成的；与STI方法相比，SII需根据测量值再进行计算得到，测量过程更为烦琐.除此之外，IEC 60268－16对STI的测量条件限制较为详细，而ANSI S3.5对SII的测量条件限制较为宽松.由于声源特性（频率响应与指向性）、测试信号的声压级大小及其标定方式、语言频谱的选用、所用载波频带与调制方法等都非常容易对测量结果造成影响，STI的测量条件限制严格，可供选择余地较小反而有助于获得稳定的测量结果，数据之间也具有更好的可比性.

虽然SII具有更为精细的临界频带划分，并且提供了6种不同语言材料的权重系数，对某些领域的研究也许更为适用，但对于传统建筑声学等领域来说，与STI相比，倍频带SII的测量结果精度（或灵敏度）偏低，而测量过程却更为复杂；1／3倍频带SII也没有表现出更好的精度（或灵敏度），并且对于实际的应用测量来说没有可操作性.

STI和SII的汉语语言可懂度主、客观评价关系曲线区别并不是很大，也都可以用来对汉语的语言可懂度进行客观评价.但考虑到SII的测量过程更为复杂，在传统建筑声学等领域的应用也不具有优势，以及ANSI S3.5对测量条件限制的相对宽松可能会带来数据之间的可比性降低等因素，STI更适于作为汉语语言可懂度的客观评价参量进行推广.

［1］ French N R，Steinberg J C.Factors governing the intelligibility of speech sounds［J］.Journal of the Acoustical Society of America，1947，19（1）：90－119.

［2］ Acoustical Society of America Standards Secretariat.ANSI S3.5，1997 Methods for Calculation of the Speech Intelligibility Index［S］.New York：Standards Secretariat Acoustical Society of America，1998.

［3］ Houtgast T，Steeneken H J M.The modulation transfer function in room acoustics as a predictor of speech intelligibility［J］.Acustica，1973，28（1）：66－73.

［4］ Peutz V M A.Articulation loss of consonants as a criterion for speech transmission in a room ［J］.Journal of Audio Engineering Society，1971，19（11）：915－919.

［5］ International Electrotechnical Commission.IEC 60268－16 Sound System Equipment－Part 16：Objective Rating of Speech Intelligibility by Speech Transmission Index［S］.4th ed.Paris：IEC，2011.

［6］ Larm P，Hongisto V.Experimental comparison between speech transmission index，rapid speech transmission index，and speech intelligibility index［J］.Journal of the Acoustical Society of America，2006，119（2）：1106－1117.

［7］中华人民共和国机械电子工业部.GB／T 14476—1993 客观评价厅堂语言可懂度的RASTI法［S］.北京：中国标准出版社，1994.The Mechanical and Electric Engineering Ministry of the People′s Republic of China.GB／T 14476—1993 RASTI Method for the Objective Estimating of Speech Intelligibility in Auditoria［S］.Beijing：Standards Press of China，1994.（in Chinese）

［8］全国声学标准化技术委员会.GB／T 15485—1995声学语言清晰度指数的计算方法［S］.北京：中国标准出版社，1995.National Technical Committee on Acoustics of Standardization Administration of China.GB／T 15485—1995 Acoustics — Methods for the Calculation of the Articulation Index of Speech［S］.Beijing：Standards Press of China，1995.（in Chinese）

［9］祝培生，莫方朔，路晓东，等.语言清晰度客观评价方法——对IEC 60268－16（4.0 版，2011.6）规范的解读［J］.电声技术，2012，36（5）：40－45.ZHU Pei－sheng，MO Fang－shuo，LU Xiao－dong，et al.Objective rating methods of speech intelligibility—the interpretation on the IEC 60268－16 （4.0 version，2011.6）standard［J］.Audio Engineering，2012，36（5）：40－45.（in Chinese）

［10］全国信息技术标准化技术委员会.GB／T 7347—1987 汉语标准频谱［S］.北京：中国标准出版社，1987.National Technical Committee on Information Technology of Standardization Administration of China.GB／T 7347—1987 The Standard Spectrum of Chinese Speech［S］.Beijing：Standards Press of China，1987.（in Chinese）

［11］ Bradley J S，Reich R D，Norcross S G.A just noticeable difference in C50for speech［J］.Applied Acoustics，1999，58（2）：99－108.

［12］张家騄.汉语人机语音通信基础［M］.上海：上海科学技术出版社，2002：500－501.ZHANG Jia－lu.Chinese Man－Machine Communication Foundation ［M ］.Shanghai：Shanghai Scientific and Technical Publishers，2002：500－501.（in Chinese）