章斯宇,孟子厚
(中国传媒大学 传播声学研究所,北京100024)
语言传输指数STI评价汉语清晰度的失效性
章斯宇,孟子厚
(中国传媒大学 传播声学研究所,北京100024)
摘要:为了研究针对汉语清晰度的客观评测方法,通过汉语清晰度主观评价实验和客观测量对现有语言传输指数STI评价汉语清晰度的失效性进行分析。从汉语清晰度与STI的关系、STI的掩蔽模型、STI的权重系数三方面论述了采用STI评价汉语清晰度可能存在的问题,对引用IEC标准作为评价汉语清晰度的国家标准或工程规范提出了一些建议。
关键词:语言传输指数;汉语清晰度;失效性
中图分类号:O428
文献标识码::A
文章编号::1673-4793(2015)01-0020-06
Abstract:In order to study an objective evaluating method for Chinese Mandarin intelligibility,the inapplicability of speech transmission index called STI for evaluating Chinese Mandarin intelligibility was analyzed by a series of subjective evaluation experiments and objective measurements. The problems that may exist when using STI for evaluating Chinese Mandarin intelligibility was discussed from three different aspects including the relationship of Chinese Mandarin intelligibility and STI,the masking model applied in STI,the weighting factors of STI,and some suggestions for adopting IEC standard as a national standard or engineering discipline were proposed.
Keywords:speech transmission index;Chinese Mandarin intelligibility;inapplicability
收稿日期:2014-12-22
基金项目:国家自然科学基金资助项目(11204278)
作者简介:章斯宇(1985-),女(汉族),江西景德镇人,助理研究员.E-mail:zhangsiyu@cuc.edu.cn
The Inapplicability of Speech Transmission Index for
Evaluating Chinese Mandarin Speech Intelligibility
ZHANG Si-yu,MENG Zi-hou
(Communication Acoustics Laboratory,Communication University of China,Beijing 100024)
1引言
语言清晰度或语言可懂度是衡量语音传输系统性能优劣的一项重要指标。国际标准化组织ISO把可懂度定义为“理解言语效能的一种测度”,规定用正确接受的语言单位占全部发送语言单位的百分比度量系统的清晰度或可懂度[1]。当测试语料使用的语言单位是音素、音节这样的无意义语言单位时,称为清晰度;当使用的是词组、句子这样的有意义语言单位时,称为可懂度。语音从发音人发出直至被听者接收,在发音人和听者间形成的广义传输通道中,由于信道传递条件(比如噪声、混响、回声、削峰、滤波等)的干扰,输出语音信号的清晰可懂程度往往会降低,严重影响了信息传递的质量和效果。因此,对任何语音传输系统来说,比如面对面的交谈、电话通讯、厅堂扩声或公共广播等,语音传输系统的清晰度评价是系统设计者和使用者面临的重要问题,也是语音通信、声频技术、建筑声学等相关学科中的重要研究内容。
语言清晰度的评价方法分为主观测试和客观测量两种,主观测试是根据听者的听闻感受对传输系统的语言清晰度做出评价,但这需要组织专业的测试队伍(一定数量的发音人和一定数量的听音人)在现场或实验室模拟的环境下进行清晰度测试,主观测试的结果准确直观但对环境条件的要求较高,实际操作起来有诸多不便。因此,语言清晰度的客观测量方法逐渐发展起来,客观测量就是按照一定的算法模型,用某些客观物理参数预测系统的语言清晰度,操作简单便捷。语言清晰度客观评测方法有很多,其中语言传输指数STI(speech transmission index)是目前国际上应用广泛的一种主流评测方法,国内在声频工程、厅堂音质设计、言语工程领域也越来越多地采用STI评价系统的语言传输质量。
然而我们在实际工作中发现,用语言传输指数STI评测以汉语传播为主的语音传输系统的清晰度所得到的结果与国外学者给出的观点或相关国际标准[2]中规定的量值有较大的出入,用STI评价汉语清晰度的结果与实际的听闻感受存在明显差异[3]。某些测试条件下STI测量结果仅属于“中”或“差”等级,但实际汉语清晰度较高;或者是STI测量结果达到“优”或“良”级别听者仍感觉听不清楚等。为此,中国传媒大学传播声学研究所在工程实践的基础上,在汉语清晰度评价方面开展了多年的基础研究工作,通过大量汉语清晰度主观听感实验和客观测量结果表明:直接引用国际标准IEC 60268-16定义的STI评价汉语清晰度可能存在失效问题,同等传递条件下汉语主观清晰度与现有标准预测的清晰度结果有较大差异,用STI评价体系评判汉语清晰度还需要考虑汉语的语言语音学特性等因素,汉语清晰度的客观评价方法研究还有待进一步完善。本文从汉语主观清晰度与语言传输指数STI的关系、STI的掩蔽模型、STI的权重系数等方面对语言传输指数STI评价汉语清晰度的失效性进行论述。
2汉语清晰度与语言传输指数STI的关系
为了论证语言传输指数STI是否适用于评价汉语清晰度,首先需要比较汉语清晰度与STI的关系与相关文献或国际标准中给出的结果是否一致。为此,我们开展了一系列不同声学传递条件下的汉语清晰度主观听感实验并测量记录了相应条件下的语言传输指数STI或STIPA(speech transmission index for public address,STIPA是STI的一种简化方法,本文实验条件下二者测量结果等同),积累了大量汉语清晰度评价的主、客观基础数据。
汉语清晰度评价实验涉及的失真条件如表1所示,共计234种不同的声学传递条件。主观清晰度指的是通过汉语清晰度主观听感实验获得的汉语单音节清晰度得分,客观清晰度是用专门的语言传输指数测量设备(NTi XL2)测得的STI或STIPA值。汉语清晰度测试方法严格参照国家标准[4]进行,由于现场测听不便,主要采用实验室模拟的方法,其中测试语料使用的是汉语语音平衡单音节词表(KXY表),每表含75个汉语单音节,随机排序分成25组,每组3个音节,连读不构成语意。由1男1女两位播音员在录音间以自然平稳的语速(4个音节/s)朗读并保存,语音信号与不同的失真条件混合后得到实验信号,通过耳机重放给被试听音。每次实验至少有10名以上被试参加,均为在校大学生或研究生,男女比例均等,能说标准普通话,听力检测正常,实验前受过必要的训练。被试按组听音,记录下自认为听到的音节拼音或汉字。实验结束后对各被试不同条件下的音节听辨正确率进行统计平均即为汉语清晰度得分。根据实验结果建立汉语清晰度与语言传输指数的关系如图1所示。
散点区域对应了不同实验条件下的汉语单音节清晰度得分与语言传输指数STI/STIPA及二者的三次多项式拟合曲线(Chinese PB words (monosyllable)),参照汉语语言可懂度与音节清晰度的关系[5]图中还给出了相应条件下汉语可懂度与STI的三次多项式拟合曲线(Chinese intelligibility (sentences))。图中虚线分别是英语语音平衡单词清晰度与STI的关系(English PB words)[6]以及荷兰语辅音-元音-辅音结构无意义单词清晰度与STI的关系(Dutch CVC words)[7],这两条曲线已经被IEC采纳为国际标准。考虑到文中实验使用的是汉语语音平衡单音节词表,因此主要与英语单词(English PB words)的结果进行比较,如图可见二者差异明显,汉语清晰度分布整体偏向英语清晰度曲线的右侧,大多数条件下STI似乎是高估了汉语清晰度,如果参照IEC标准给出的语言清晰度主客观关系,同等STI条件下,根据参考曲线预测的语言清晰度比实际的汉语主观清晰度更高。
表1 汉语清晰度评价实验涉及的声学传递条件
图1 汉语清晰度/可懂度与语言传输指数的关系
出现这种差异的原因与汉语的语音特点以及清晰度测试方法密切相关。一方面,STI是基于西方语言(以英语、荷兰语等印欧语系语言为主)的研究结果提出的。汉语与这些语言有很大的差别,汉语属于汉藏语系,是一种声调语言,声调起着辨义的作用。汉语的基本语音单位是声韵调结构的单音节,一个汉字就是一个单音节,听感上抑扬顿挫、明亮饱满。另外由于汉语同音字较多,单个汉字听感上不具备可懂度,而英语单词大多是多音节结构,单个英语单词本身具备一定的语意,这一定程度上也解释了汉语可懂度与STI的关系与英语单词清晰度曲线更加接近的原因。另一方面,汉语清晰度的主观评价方法与其它语言也有较大差异,在语料设计、测试步骤和数据处理等方面都有所不同。语言清晰度客观评测方法的提出很大程度上依赖清晰度主观评价的结果,因为不论是何种客观评测方法,其目的都是尽可能以最小的拟合误差去逼近主观实验的结果,实现最佳的主客观关联,反映真实的听闻感受。因此,分析汉语清晰度与语言传输指数的关系对我们接下来进一步研究汉语清晰度客观评测方法也有重要的意义。
3语言传输指数STI中的掩蔽模型分析
STI算法的一个主要特点是考虑了人耳的听觉掩蔽效应,利用听觉掩蔽对原有的模型进行优化,确切地说是利用了向上掩蔽效应(upward masking)。向上掩蔽指的是掩蔽作用向上传播的特性,即频率较低的声音对频率较高的声音的掩蔽作用要远远强于频率较高的声音对频率较低声音的掩蔽作用。STI实际采用的是噪声掩蔽噪声的掩蔽模式(NMN),考虑了中心频率为125Hz~8kHz这7个倍频带中,较低倍频程噪声对相邻较高倍频程噪声的掩蔽作用,这种掩蔽作用可以看作是由于掩蔽声的存在,在被掩蔽声频带内增加了一个“内部”噪声,该噪声的大小等于掩蔽声压级一定时刚好能听见被掩蔽声的最小声压级,即掩蔽阈。掩蔽声声压级与掩蔽阈的差值称为向上掩蔽斜率(masking slope),掩蔽斜率的大小反映掩蔽强度的强弱,其绝对值越小,说明在被掩蔽声频带增加的噪声越强,掩蔽作用也越强。
分析发现,尽管STI是按倍频带进行计算,但STI实际使用的是频率50-800Hz的低频窄带噪声的向上掩蔽模式,该掩蔽模型直接引用了1962年Cater和Kryter的实验结果[8],作者指出向上掩蔽斜率与掩蔽声的声压级以及频率均有关系。我们认为在语言清晰度客观评测模型中采用具备语言谱的噪声掩蔽模式可能更为合理,汉语语言谱与外语存在明显的差别,汉语语谱噪声的向上掩蔽效应还少有人研究。为此我们探讨了汉语语谱噪声的向上掩蔽模式与现有STI算法中的向上掩蔽模式的一致性问题,这对汉语语言清晰度客观评测方法研究具有实际的意义。
参考文献具体实验方法详见[9],这里仅作简单介绍,首先制作汉语语谱噪声[10],将语谱噪声进行倍频带滤波(中心频率250Hz~4kHz),得到5个不同频带的带通信号,分别考察较低频率的倍频带语谱噪声对较高频率的倍频带语谱噪声的掩蔽效应。实验在低噪声低混响的听音室内进行,掩蔽声声压级分别固定在65dB,70dB,75dB,80dB,被试先熟悉该组掩蔽噪声与被掩蔽噪声,每次听到信号后,被试报告是否从掩蔽声中听到被掩蔽声,掩蔽噪声与被掩蔽噪声长度均为2s。实验采用阶梯法,当被试报告未听见时,被掩蔽声压级逐次增加2dB,直至被试报告听见。当被试报告听见时,被掩蔽声压逐次降低2dB,直至被试报告听不见。将连续十次转折点的值加和平均就是所求的掩蔽阈限值。 实验方法和条件这里不再赘述,具体步骤见[12-13]。采用迭代法计算权重系数,当语言清晰度主观得分与客观STI预测值的标准差达到最小时,认为该条件下的权重系数是最合适的一组权重系数。表3给出的是IEC 60268-16中规定的STI各倍频带权重系数α和冗余系数β,基于这组权重系数的男声清晰度与预测值的标准差是5.89%,女声清晰度与预测值的标准差是6.12%。表4是根据汉语清晰度主观评价实验结果优化后的一组权重系数和冗余系数。图4和图5分别是优化后的权重系数得到的男声汉语清晰度与STI的关系以及女声汉语清晰度与STI的关系。
表2给出的是IEC 60268-16 2003中规定的向上掩蔽斜率值,2011年的版本对该数据进行了适当修改,但差别不大。图2和图3是我们实验获得的汉语语言谱噪声的向上掩蔽模式,其中图2是不同中心频率掩蔽声条件下,掩蔽斜率随着掩蔽声声压级的变化规律,图3是不同声压级条件下,掩蔽斜率随着掩蔽声中心频率的变化规律。由图可见,相邻倍频带的向上掩蔽斜率随着声压级的升高逐渐提高,不同频率掩蔽声对相邻较高倍频带噪声的掩蔽斜率有所不同,但掩蔽斜率变化范围并不十分明显,在30dB/octave~35dB/octave附近波动。
表2STI使用的向上掩蔽斜率[11](upward masking slopes)
掩蔽声压级/dB向上掩蔽斜率96----10dB/octave86----9515dB/octave76----8525dB/octave66----7530dB/octave56----6535dB/octave46----5540dB/octave
图2 掩蔽斜率随着掩蔽声声压级的变化规律
图3 掩蔽斜率随着掩蔽声中心频率的变化规律
比较发现,Carter 和Kryter的研究未给出掩蔽斜率值随着掩蔽声频率变化的关系,而且掩蔽斜率随着声压级的提高而显著下降,在不同的掩蔽声声压级条件下,掩蔽斜率的波动范围为10~40dB/octave。本次实验讨论的汉语语谱噪声的掩蔽模式,发现向上掩蔽斜率会随着掩蔽声的声压级以及掩蔽声的频率的提高而上升。但是掩蔽斜率变化范围不明显,并没有随着掩蔽声声压级和频率的变化也产生很大波动,掩蔽斜率的范围约为30dB~35dB/octave。关于掩蔽斜率的优化对汉语清晰度客观评测结果的影响正在研究中。
4语言传输指数STI的权重系数优化
STI算法模型基于频带分割加权求和的原理,根据各倍频带对语言清晰度的贡献率,按照一定的权重系数进行加权求和,其中权重系数即反映了各倍频带的贡献率。考虑到汉语的语言语音学特性与西方语言的差异,不同的频带对汉语清晰度的贡献程度可能有所不同,因此直接使用IEC 60268-16中规定的权重系数可能不妥。为此我们开展了一系列的不同频带滤波组合条件汉语清晰度主观评价实验,并计算了相应条件下的STI值,分析不同频带对汉语清晰度的贡献度,以期得到更适合汉语的一组权重系数,实验结果表明基于优化的权重系数预测的汉语清晰度与实际听感清晰度的拟合度更高,标准偏差更低。
表3 STI使用的倍频带权重系数和冗余系数
表4 汉语清晰度倍频带权重系数和冗余系数
图4 男声信号主观清晰度得分与STI的关系,其中标准差δ=4.38%
图5 女声信号主观清晰度得分与STI的关系,其中标准差δ=3.36%
5小结
本文从汉语主观清晰度与语言传输指数STI的关系、STI的掩蔽模型、STI的权重系数三方面论述了语言传输指数 STI评价汉语清晰度存在的失效问题,我们认为不宜直接引用IEC规定的语言传输指数STI作为评价汉语清晰度的国家标准或工程规范,有必要针对汉语的语言学和语音学特点、汉语知觉心理特点、传输通道传递条件的多样性等方面建立一种符合实际听觉感受的汉语清晰度客观评测方法。该评测方法能够较好预测各类复杂传递条件下的汉语清晰度水平,为汉语环境中的建筑厅堂音质设计、扩声系统、语音通讯系统的研制等提供可靠的依据,这就需要弄清影响汉语清晰度的因素有哪些、以及具体的影响方式等,相关研究还有待进一步完善深入。
[1]张家騄. 汉语人机语音通信基础[M]. 上海:上海科学技术出版社,2010.
[2]IEC 60268-16:2011.Sound system equipment - Part 16:Objective rating of speech intelligibility by speech transmission index[S]. 2011.
[3]戴璐,孟子厚. 教室公共广播系统STI-PA的测量与分析[J]. 声频工程学术交流年会,2007,长沙.
[4]GB/T 15508-1995,声学语言清晰度测试方法[S]. 1995.
[5]中国建筑科学研究院建筑物理研究所. 建筑声学设计手册[M]. 北京:中国建筑工业出版社,1987.
[6]B W Anderson,J T Kalb. English verification of the STI method for estimating speech intelligibility of a communications channel[J]. J Acoust Soc Am,1987,81:1982-1985.
[7]Steeneken,H J M,Houtgast T. Validation of the STIr method with the revised model[J].Speech Communication,2002,38:413-425.
[8]Carter,N L Kryter,K D.Masking of pure tones and speech[J]. Journal of Auditory Research,1962,2:66-98.
[9]尚楠,章斯宇. 汉语语言谱窄带噪声向上掩蔽特性的测量[J]. 声频工程学术交流年会,2013,广州.
[10]包紫薇,魏荣爵. 汉语的平均频谱:应用现场和实验室语噪测量的结果[J]. 物理学报,1960,16(6):338-346.
[11]IEC 60268-16:2003,Sound system equipment - Part 16:Objective rating of speech intelligibility by speech transmission index[S]. 2003.
[12]任海全,章斯宇. 语言传输指数中频带计权的优化[J]. 声频工程学术交流年会,2012,银川.
[13]H J M Steeneken,T Houtgast. Mutual dependence of the octave-band weights in predicting speech intelligibility[J]. Speech Communication,1999,28:109-123.
(责任编辑:宋金宝)