赵凌伟
(91404部队,河北 秦皇岛 066001)
一种快速的语音干扰效果客观评估方法
赵凌伟
(91404部队,河北秦皇岛066001)
为提高语音干扰效果客观评估的效率,以平均单点能量比为客观评估测度,以误组率为主观评价测度,以最小二乘法为主客观拟合方法,提出一种新的方法。使用Matlab对标准语音文件叠加高斯白噪声,模拟受噪声干扰的语音文件,该方法的主客观拟合程度达到89.5%。使用通信干扰设备测试数据进行验证,正确率达到86%,计算时间不超过10s,证明对于噪声干扰,该算法效率较高。
语音干扰效果;客观评估;效率
语音干扰效果主观评价受到测试条件和测试人员主观因素的影响,很难在现实环境中实时地进行,所以一般采用客观评价方法[1],将客观评价结果映射为主观评价结果。各种客观评估方法在实际使用时,一般会有计算时间的要求。语音干扰效果的客观评估方法一般由失真测度、主客观拟合方法两部分组成,二者的选择对计算效率都有较大影响。目前,常用的客观特征参数包括线性预测倒谱系数(LinearPrediction Cepstrum Coefficient,LPCC)、Mel频率倒谱系数(Mel-FrequencyCepstrumCoefficient,MFCC)等[2],当干扰不断增强时[3],使用最小二乘法进行主客观拟合,计算速度较快,但相关度和方差均变差,而使用维度更高的其他测度时,虽然提高了相关度,但计算速度较慢。本文分析了低信噪比下受噪声干扰的语音信息的特点,基于分段信噪比的思路,提出了平均单点能量比+最小二乘法的方法并进行了测试,证明该方法效率和正确率均较高。
对通信话音实施干扰,最佳的干扰样式是正态分布噪声[4]。为统计受扰语音的受扰强度与误组率的关系,使用Matlab对标准语音文件叠加高斯白噪声来模拟噪声调频干扰[5],按相关军标[6]要求组织有经验的人员使用误组率对模拟加噪文件进行主观评价,误组率不小于70%时,判为干扰有效。对每一个标准语音文件使用函数z=awgn(x,ydB,'measured')[7]加噪,y分别取-8、-9、-10、-11、-12、-13、-14、-15,结果见表1。
表1 误组率与模拟加噪强度关系表
由表1可知,对于本次实验所用标准语音文件,随着y值减小,模拟加噪文件受干扰程度增大,误组率逐渐增大,呈现较为明显的线性关系,干扰有效的y值范围应在-13和-14之间,使用各样本平均值进行线性拟合后,得到误组率平均值与模拟加噪程度关系为式1,计算得出干扰有效时的模拟加噪参数y约为-13.37,如图1所示。
Y=0.13×X-1.041(1)
图1 误组率与模拟加噪强度关系
使用y=-13.37对标准语音文件再次模拟加噪、测听并统计后,误组率平均值为68%,认为此时的加噪文件已经处于干扰有效与无效的临界状态,可以作为目标对象进行分析。
3.1受扰语音文件的预处理
观察标准语音文件及加噪幅度为-13.37的受扰语音文件的时域波形图及语谱图,如图2、图3所示。
图2 标准语音文件波形及语谱图
图3 加噪-13.37受扰文件波形及语谱
随着加噪强度增大,受扰文件的波形图已经逐渐看不出语音的轮廓,语谱图只能在2000Hz以下,看到部分能量比较集中的、有规律的横纹。为降低噪声影响,根据人耳可听频率范围、掩蔽效应和实际测试结果,使用100~2000Hz的带通滤波器对模拟加噪文件进行滤波,形成新的受扰语音文件,并对其进行分析。利用语音分析软件Cooledit对受扰文件进行带通滤波,如图4所示。
图4 Cooledit带通滤波器参数
3.2平均单点能量比的由来
为提高计算效率,需要选择低维度、易计算的参数作为客观失真测度。由于信噪比计算简单,但直接作为语音干扰效果失真度参数的主客观一致性不是很好,考虑以此为出发点,进一步寻找更适合的参数。假设y(n)为含噪语音离散时间序列,由标准语音信号s(n)和非相关加性噪声信号d(n)组成。y(n)可表示为:
其信噪比可表示为:
由于在受扰语音文件中难以将和区分开,一般截取一段受扰语音文件中对应标准语音文件无语音段数据来估计频谱,然后整体使用谱减法[8],计算语音信息功率谱,再计算信噪比,这种方法有时会出现负值,若置零解决,会出现音乐噪声,客观结论常常与主观评价相反,降低算法性能。分段信噪比是计算受扰语音信号每一段语音的信噪比,然后再对各帧的信噪比求平均值[9],这种算法将受扰语音文件进行分段计算,计算更加精细,但由于每帧语音与相邻无语音段长度不一致,所得的短时能量[10]不尽相同,也需要进行估计处理,对计算结果有影响。为消除噪声估计对计算结果的影响,本文从整体角度考虑,不再区分信号与噪声,暂不考虑语音与噪声相位对幅度[11]的影响,取受扰语音文件中单个数码的每个采样点能量的平均值与该数码相邻噪声的每个采样点能量的平均值进行比对,以比值作为客观失真测度,在此将该参数命名为平均单点能量比(AverageDotEnergyRate,ADER)。其表达式为:
式中:n——该数码语音采样点数;
X——每个语音点幅值;
m——该段语音相邻噪声采样点数;
Y——该段语音相邻噪声点的幅值。
3.3ADER的提取
平均单点能量比(ADER)的计算流程如图5所示。
图5 平均单点能量比计算过程
3.4ADER与误组率判据的对应关系
对模拟加噪的文件进行滤波并计算ADER值。由于模拟加噪幅度不断增加,按ADER计算方法,ADER值应随之变小,与模拟加噪文件的误组率变化规律相同。我们以ADER值作为横坐标,误组率作为纵坐标,并对ADER值与误组率进行拟合,得到趋势拟合曲线及相关系数,如图6所示。
图6ADER与误组率的关系
图6中二项式趋势线表达式如式(5)所示,R2为0.895,表示此趋势线的估计值与对应的实际数据之间的拟合程度为0.895。
由此式得到误组率为70%时,ADER值为1.124,即当ADER大于1.124时,可判断干扰无效,反之判断干扰有效;当ADER大于1.4时,此曲线略有上翘,是由于个别点造成的,但可以预料,随着测试数据的增加,信噪比更低的数据的加入,其总体趋势必将趋于0,由于个别点造成的上翘会得到解决,主客观拟合程度会逐渐提高;同时,计算时间保证在10s以内,没有较大波动,满足一般使用要求。
3.5测试验证
为验证ADER对真实实验数据是否适用,使用误组率对实际干扰设备在噪声调频干扰下的多组通信数据进行主观评定,选择100组数据,其中50组干扰有效,50组干扰无效,判断结果中86%正确,错误的有14个文件,结果见表2。
表2 测试数据
针对话音通信时的噪声调频干扰,在信噪比较低时,使用基于分段信噪比引申参考文献:
出的平均单点能量比对干扰效果进行客观评估,其主客观一致性较好,计算时间较短,整体效率较高。
[1]冯岩,唐普英.基于MATLAB的语音增强系统的设计[J].通信技术,2010,43(5):191.
[2]易克初,田斌,付强.语音信号处理[M].1.北京:国防工业出版社,2003:136-146.
[3]ZouXia,ZhangXiongwei.SPEECHENHANCEMENT USING AN MMSE SHORT TIME DCT COEFFICIENTS ESTIMATOR WITH SUPERGAUSSIAN SPEECH MODE LING[J].JournalofElectronics,2007,24(3):334.
[4]陈鹏举.通信干扰原理与技术[M].1.合肥:1985:28.
[5]SONYoung-ho,LEESang-min,Improvedspeechabsence probability estimation based on environmental noise classi fication[J].JournalofCentralSouthUniversity,2012,19(9):2548.
[6]张璐琳,陈静,吴淑珍,等.GJB4405A-2006,语音通信干扰效果评定准则[S].北京:总装备部军标出版发行部出版,7[2014.12.20].
[7]邓华.Matlab通信仿真及应用实例详解[M].1.北京:人民邮电出版社,2003,117.
[8]李晔,崔慧娟,唐昆.基于谱减的语音增强算法的改进[J].清华大学学报(自然科学版),2006,4(10):12.
[9]徐岩,孟静,基于分红噪声的语音增强算法性能评价研究[J].铁道学报,2011,33(4):54.
[10]韩纪庆,张磊,郑铁然.语音信号处理[M].2.北京:清华大学出版社,2013:49-50.
[11]TongMing BianZhengzhong LiXiaohui etal.STUDY ON PHASEPERCEPTIONINSPEECH[J].JournalofElectronics,Electronics,2003,20(5):389.
TN912