基于Mel尺度的语音干扰效果评估方法研究

2017-02-20 06:59赵凌伟

无线电工程 2017年2期

关键词：测度滤波器主观

赵凌伟，张磊

(1．中国人民解放军91404部队，河北秦皇岛 066001; 2．哈尔滨工程大学，黑龙江哈尔滨 150001)

基于Mel尺度的语音干扰效果评估方法研究

赵凌伟1，张磊2

(1．中国人民解放军91404部队，河北秦皇岛 066001; 2．哈尔滨工程大学，黑龙江哈尔滨 150001)

实际的干扰效果评估和传统的语音质量评估有一定区别。干扰评估系统中同步环节需要考虑;在干扰系统中，强干扰信号会破坏语音信号本身的结构信息，使其评估变得更加困难。针对超短波通信干扰系统，结合Mel尺度在人耳听觉感知上的优点和统计特征在强干扰下具有的顽健性特点，提出新的基于Mel尺度的统计测度，获得了良好的性能。结合最小二乘、BP神经网络以及SVR拟合回归模型等，其主观预测值和实际主观评测值之间的相关系数可以达到0.9以上，保障了该方法在实际干扰评估系统中的实用性。

Mel尺度;顽健性;统计测度;干扰效果评估

0 引言

在现代化通信系统中存在各种干扰，包括不可避免的通信噪声干扰，以及一些以阻断通信为目的人为施加的干扰。如何对各种干扰进行评价，给出客观的评测指标，以及如何评价通信系统在这些干扰下的抗干扰能力，对完善高质量的通信系统，确保通信任务顺利进行起着至关重要的作用。

语音质量的评价系统主要分为主观评价和客观评价2种。主观评价方法的依据是ITU－TP．800(传输质量的主观评价方法)，主观评价是一种以人为主体的评价方法，它利用人主观感觉的满意度以可懂度为原则给听到的语音打分，并通过得分情况来评价端到端的语音质量。多种主观方法形成军用标准或行业标准，如GJB2763－1996《通信设备话音质量等级标准与评测方法》、SJ 2077l－2000《军用通信系统音质的MOS评价法》和DJBZ2006－9l《电话通信设备话音质量主观测试方法》等。客观评价方法很多，如基于SNR的评价方法、基于LPC技术的评价方法、基于谱距离的评价方法［1－2］、基于听觉模型的评价方法、基于判断模型的评价方法。目前主流的评测方法是利用得到的客观测度，将其用一定的模型映射到主观测度上，使其更接近于实际的主观测度变化趋势。

虽然很多学者关于语音质量评价问题展开了一定的研究，但目前仍存在一些问题，这些问题主要体现在以下几点:① 目前评测系统过于依赖语音质量的评估，而通信系统干扰评估和语音质量评估侧重点有所不同［3］;② 在强干扰情况下，用于语音质量评估的特征性能下降。本文针对实际应用中的干扰评估需求，将听觉模型中更符合人耳听觉特性的Mel尺度和其频域统计特征结合，提出基于 Mel尺度的统计测度，并将其用于干扰效果评估系统中，取得很好的试验结果。

1 干扰效果评估系统的组成

干扰效果评估系统构成如图1所示。不用于语音质量评估系统，由于存在通信系统本身的延时以及干扰加入点确定等问题，因此在干扰评估系统中存在同步环节。发送端的纯净语音信号和接收端的干扰语音经过同步环节之后，根据提出的Mel尺度的统计特征计算相应的客观测度，在已知主观测度的前提下，可以利用拟合算法对主客观测度进行拟合，将客观测度映射到主观测度上［4－5］。

图1 干扰评估系统的组成

在同步环节中，包含通信系统的延时估计、发送和接收数据同步估计。这里采用在发送正常语音信号之前加等间隔的高低频同步头的方法，通过检测到第一个低频信号确定通信系统的延时，检测最后一个低频信号作为发送方和接收方的同步点。其中同步头信号的频域形式以及加干扰之后的信号的对比关系如图2所示。其中方框部分为发送端和接收端的同步头信号，分别由频率500 Hz和2 000 Hz的低频纯音和高频纯音组成。而椭圆部分对应干扰前后的语音信号。可以看出在强干扰情况下，语音部分清晰的语谱结构被破坏。

图2 发送端和接收端的同步头信号和干扰情况举例

2 基于Mel尺度统计特征的客观测度

2．1 Mel尺度滤波器组构造

客观测度的计算对干扰评估系统的性能影响很大。希望能找到一种可以更好地反应干扰强度变化的客观测度。根据人耳听觉机理的研究发现，人耳对不同频率的声波有不同的听觉敏感度。人耳具有一定的频率分辨率，对于一定范围内的频率变化，人耳是无法感知其变化。一般根据这个机理，将频域尺度进行不同的划分，其中Mel尺度就是根据人耳基底膜对频率感知变化不同的原理，将频域分成22 ～26个相互交叠的滤波器组［6］，Mel尺度下滤波器组示意如图3所示。

图3 Mel尺度下滤波器组示意

Mel尺度的滤波器组构造可以分为以下几个步骤:

① 将频率转换为Mel尺度。其中Mel尺度和频率的转换关系如下:

② 确定滤波器的个数，遵从在Mel尺度上均匀划分的原则确定各个滤波器的中心频率f(*)。

③确定各个滤波器的幅度。按照三角形滤波器的构造原则，按照式(2)构造如图3所示的滤波器组，其中Hm(k)表示第m个滤波器在频点k上的滤波器系数。

2．2 基于Mel滤波器组的统计特征提取

对每一帧信号预加重后，提取每一个滤波器的幅度谱的均值和方差，以及滤波器的功率等统计特性作为一帧信号的特征，除此之外，将各个滤波器之间的能量变化熵作为特征。具体计算公式如下:

幅度谱均值:

式中，si为第i帧信号;fft()表示傅里叶变换;abs()表示取幅度谱;N为落在滤波器m范围内的频点个数。

幅度谱方差:

滤波器功率:

整体熵:

滤波器个数选择为25，经过上述运算，每一帧信号可以表示25×3+1，即76维的向量。

2．3 Mel尺度统计特征的客观测度

为了避免同步环节出现的误差影响整体系统性能，在计算反映发送端和接收端信号之间差异的客观测度时，采用动态规划的思想，即，计算不等长序列的(Dynamic Time Warping，DTW)距离如下［7］:

式中，X和Y分别为发送端和接收端的Mel滤波器组统计特征，为76维;C为动态规划的路径，由{i (n)，j(n)}点对集组成;W(n)为该路径的惩罚因子。由于在试验中发现，发送端数据和接收端数据的序列长度差异小于1/60，因此这里惩罚因子值选择为1。

3 主客观拟合算法

主客观拟合方法的目的是将上述计算的客观测度映射到相应的主观测度上。这种映射可以是一个简单的函数，如最小二乘拟合中的二次函数或者三次函数，也可以对主观测度和客观测度进行建模，用一个复杂模型表示两者之间的关系，如 BP(Back Propagation)神经网络拟合和 SVR(Support Vector Regression)拟合方法等。分别对3种拟合方法进行尝试。

3．1 最小二乘拟合

最小二乘法的估计准则是在寻找数据的最佳匹配函数时，以误差的平方和最小为评判标准。其准则函数如下:

式中，Di为第i个语音发送端数据和接收端数据之间的客观测度;Si是其对应的主观测度;F()为最小二乘的映射函数，则式(8)是寻找合适的函数F()，使得映射后的客观测度和实际的主观测度之间的误差平方和最小，其中F()函数选择为最高次幂为2的函数，具体如下:

式中，a、b、c为待估计参数，具体估计方法这里采用最大似然方法。

3．2 BP神经网络拟合

BP神经网络又称为多层前馈神经网络，具有强大的非线性数据处理能力［8］，而这是传统数学方法难以解决的。

构建3层神经网络结构，即输入层、隐含层和输出层［9］。其中输入层神经元个数和输出层神经元个数为1，中间隐含层的神经元个数设定为10。具体神经网络结构如图4所示。

图4 BP神经网络结构示意

在如图4的BP神经网络结构中，待估计的参数包括从输入层节点到隐含层节点的权重和从隐含层到输出层节点的权重。具体的估计算法采用误差反向传播的梯度下降方法，该方法的核心思想是:将网络的输出看作是网络权值向量的函数，然后根据实际输出和期望输出之间的误差平方值最小化为原则来调整其权值向量。

3．3 SVR回归拟合

SVR回归是专门针对有限样本情况的学习，其可以实现结构风险最小化［10］，即在对给定的数据逼近的精度与逼近函数的复杂性之间寻求折衷，以期获得最好的推广能力。对于分类问题，支持向量机可描述为:在线性可分的情况下，只有一个分类器能够使2类样本的分类间隔最大［1 1］。

在SVR模型中，客观测度Di和主观测度预测值S(Di)之间满足如下关系:

式中，φ为核函数;w为待估计的参数。选用径向基核函数进行测试，具体估计原则是风险函数如式(11)达到最小:

式中，ξi为松弛因子;C是一个指定的系数，表示对回归误差大的点加入的惩罚。

4 试验分析

4．1 试验数据

为验证基于Mel尺度的统计测度在实际使用中的效果，从常规的超短波噪声调频干扰［1 2］语音库中选取误组率分别为 0～30%、30%～50%、50%～70%、70%～90%、90%～100%的受扰语音文件各30个组成训练文件集，计算每个文件基于Mel尺度的统计测度、基于小波变换预处理的统计测度、基于感知的测度，并分别使用最小二乘拟合、BP神经网络拟合和SVR拟合建立3种客观评估模型，计算其主客观拟合相关系数和方差。

4．2 试验结果分析

测试结果如表1所示。

表1 3种测度3种拟合方法测试结果

由表1可以看出，基于Mel尺度的统计测度与SVR拟合方法组合，由于其充分考虑了人耳特性，加之SVR拟合最大程度降低了错判风险，因而得到的主客观相关系数最好，达到了0．9。对受扰语音文件进行4层DB4小波变换后，选择每帧的质心、带宽、子带能量、子带方差和过零率组合在一起作为特征向量，与3种拟合算法组合，计算结果较为平均，说明单纯经过小波变换而不考虑人耳特性时，失真测度的选择对拟合算法不够敏感。第3种方法是对Mel尺度语谱图进行图像处理，尝试以视觉分析的方法解决听觉问题，但效果不够理想，还要进一步进行研究和改进。

5 结束语

通过对基于Mel尺度统计特征向量的DTW距离的研究，探索了以此作为干扰评估系统发送端和接收端数据的客观测度，与最小二乘法及SVR支持向量等回归分析模型相结合，用于超短波信道干扰系统干扰效果客观评估的方法。目前本方法对噪声调频干扰样式效果非常明显，但通信干扰技术的发展必然要求多种多样通信干扰信号形式［13］，对其他干扰样式还需进行进一步测试与优化。

［1］冯岩，唐普英．基于 MATLAB的语音增强系统的设计［J］．通信技术，2010，43(5):187－188．

［2］韩纪庆，张磊，郑铁然．语音信号处理［M］．北京:清华大学出版社，2013:49－50，110．

［3］ ZOU Xia，ZHANG Xiong-wei．Speech Enhancement Using an MMSE Short Time Dct Coefficients Estimator with Supergaussian Speech Modeling［J］．Journal of Electronics，2007，24(3):332－337．

［4］ GJB 4405A－2006．语音通信干扰效果评定准则［S］．

［5］张璐琳，赵凌伟．语音通信干扰效果客观评估的实现［J］．通信对抗，2009(1):55－57．

［6］项要杰，杨俊安，李晋徽，等．一种适用于说话人识别的改进 Mel滤波器［J］．计算机工程，2013，39(11): 214－217．

［7］徐利军．基于DTW的孤立词语音识别研究［J］．软件导刊，2012，11(2):137－139．

［8］宋树田，孙泽南．基于BP神经网络的散射通信传输损耗小时中值预测［J］．无线电通信技术，2015，41(4): 34－36．

［9］徐野，刘铁强．基于BP神经网络算法的手写数字识别技术研究［J］．沈阳理工大学学报，2010，29(5): 13－16．

［10］王玉震，李雷．基于SVR的图像增强方法［J］．计算机技术与发展，2009，19(1):60－62．

［11］段同乐，张冬宁．二叉树多分类SVM在目标分群中的应用［J］．无线电工程，2015，45(6):88－91．

［12］常琳英．通信对抗中高效干扰方法研究［D］．西安:西安电子科技大学，2011．

［13］杨建军．通用通信干扰信号发生器设计［J］．无线电通信技术，2013，39(3):83－85．

Study on Voice Jamming Effect Evaluation Based on Mel Scale

ZHAO Ling-wei1，ZHANG Lei2

(1．UNIT 91404，PLA，Qinhuangdao Hebei 066001，China; 2．Harbin Engineering University，Harbin Heilongjiang 150001，China)

There is certain difference between jamming effect evaluation and voice quality evaluation．First，the synchronous step in the jamming effect evaluation system needs to be considered;second，in the jamming system，the structure information of the voice signal is destroyed by the strong jamming signals，which makes the evaluation more difficult．As for UHF communication jamming system，a new statistical measurement based on Mel scale is proposed，which combines the advantages of human ear auditory perception and the robustness of the statistical characteristics under serious jamming，and achieves good performance．Combined with the least squares，the BP neural network and SVR fitting regression model，the correlation coefficient between the estimation of the subjective evaluation and the actual value can reach above 0．9，which guarantees the practicability of the method in actual evaluation system．

Mel scale;robustness;statistical measurement;jamming effect evaluation

TN972

1003－3106(2017)02－0032－04

10．3969/j．issn．1003－3106．2017．02．08

赵凌伟，张磊．基于Mel尺度的语音干扰效果评估方法研究［J］．无线电工程，2017，47(2):32－35，40．

2016-11-10

国家自然科学基金资助项目(61571147)。

赵凌伟男，(1977—)，硕士，工程师。主要研究方向:通信对抗。

张磊女，(1971—)，博士，教授。主要研究方向:信号处理。