许亮 赵松波 高强 莫家庆 吕小毅 郭翔
关键词: 干扰; BP神经网络; 粒子群优化算法; Mel倒谱; 特征参数; 主观MOS
中图分类号: TN912?34 文献标识码: A 文章编号: 1004?373X(2019)06?0043?04
Abstract: An objective speech interference effect evaluation method which uses the particle swarm optimization (PSO) algorithm to optimize the BP neural network is proposed, so as to overcome the shortcomings during the process of using the back propagation (BP) neural network to evaluate continuous speech data interference effects. In the method, the continuous speech data feature parameters obtained and extracted by using the Mel cepstrum technology are taken as the input of the model. The multi?point optimization is conducted for the initial weight coefficient of the BP neural network by means of the PSO, so as to construct the BP neural network model based on PSO algorithm optimization. The nonlinear mapping from the input values to the corresponding mean opinion scores of subjective evaluation is implemented by using the optimized BP neural network model. A verification for effectiveness of the method was conducted by using the selected representative speech data. The results show that, in comparison with the traditional BP neural network, the BP neural network model based on PSO algorithm optimization has a big improvement in the convergence speed, its convergence error can be effectively controlled within 4%, and the correlation coefficients and standard deviations of the model are closer to the ideal parameters.
Keywords: interference; BP neural network; PSO algorithm; Mel cepstrum; feature parameter; subjective MOS
伴隨着通信技术的发展及生活标准的提高,基于输出的客观语音干扰效果评估已经成为干扰效果评估研究中的重要内容,在实际的通信系统具有不可或缺的意义[1]。如现代军事领域、遥感通信传输领域等在较难甚至不能获取原始语音的状况下,要实现语音质量的客观评价,则必须采用基于输出的客观语音干扰效果评估系统进行评估操作[2]。同时对命令的传递和执行、通信设备的研制,以及语音信号增强、语音信号自动快速识别、语音自动客观评分等领域中都具有重要的应用前景[3]。
目前,国内外研究学者在语音干扰效果评估领域中提出众多谱失真测度。其中,Mel倒谱失真测度充分且更真实地反映了人耳对语音重要特征参量的非线性感知特性,并形象地模拟了人耳听到复杂声音时所表现的频率分析和谱合成特性[4]。同时,Mel倒谱失真测度作为一种弯折频率谱失真测度,以计算量少、运行速度快的优点受到了广泛的关注,在语音干扰下效果客观评价和语音识别等方面取得了大量的工程应用,并获取了显著的成绩[5?6]。本文采用Mel倒谱对连续语音信号进行特征参数提取。
BP神经网具有强大的自组织性、协同性、容错性和联想记忆性的优势,是目前人工智能领域中研究最多、应用范围最广的一种神经网络。该网络依据大脑结构为原理,可以实现处理数据间的并行分析,进而组建成了一种新的信息处理系统。在实际工程中,BP神经网络存在易陷入局部最优、学习效率较低、搜索时间长、速度慢、网络泛化及适应能力较差等问题。文献[7?8]提出粒子群优化(Particle Swarm Optimization,PSO)算法,该算法以群体全局寻优为基础,对种群进行历次迭代搜索,依据追踪鸟群捕食的路径,分析和研究后提出一种有效的寻优算法,该算法具有易于实现、结构简单、收敛速度快等特点。目前已广泛应用于模式识别、函数优化、数据挖掘及神经网络等许多领域,具有良好的应用前景。本文利用PSO优化的BP神经网络模型,由一些简单且高度互联的处理元素来实现语音信号特征参数到主观评价平均意见得分(MOS)的映射,完成基于输出的客观音质快速精准的评估。
Mel倒谱失真测度基于语音信号频域分析原理而建立,在一定程度上模拟了人耳的听觉系统特征,从而实现了对语音干扰前后语音频率及幅度的模拟评价。并依据感知实验结果,通过非线性弯折,将信号频率映射到新的频率尺度空间,在新尺度空间下提取一系列典型的语音特征参数。Mel频率尺度可以很精准地模拟听觉系统对音量的敏感程度及与声频之间的关系。Mel倒谱系数表示法则是一种基于短时傅里叶变换的谱包络参数表示方法。Mel倒谱与其他倒谱相比,运算量较小,易于实现,不依赖于全局点语音产生模型,在噪声干扰条件下具有较强的稳定性,使得其在语音信号分析中取得更加广泛的应用[6]。对连续语音信号进行特征参数提取的步骤如下。
1) 预处理:由于声门激励和口鼻辐射的影响,且语音信号是非平稳信号,因此需对语音信号s(n)进行预处理,预处理包括预加重、分帧和加窗两部分操作。预加重前信号是s(n),预加重后信号为[sn]。本文选取8 000 Hz进行采样,一帧为25 ms,故一帧的采样点数为200个;采用Hamming窗作为窗函数进行窗截取。
2) FFT变换:FFT变换之前,对每一帧语音序列[P(n)]补56个0,然后进行256点FFT变换,再取模平方进行短时功率谱[P(f)]的计算。
3) 频率弯折和滤波:频率弯折过程中,利用线性频率弯折的方法处理1 000 Hz以下的频率,利用对数频率弯折处理1 000 Hz以上的频率。Mel频率与线性频率的非线性映射为:[mel=1 000 log2(1+f1 000)]。其中,[mel]表示Mel频率;[f]表示线性频率。弯折处理之后,使[P(f)]通过Mel测度三角带通滤波器组,计算可得该序列通过每个数字滤波器的能量加权和[Ak]。
通过语音数据测试实验结果可得,在同一个干扰效果客观评估系统之中,对多组不同的语音文件进行客观评价时,PSO?BP网络模型误差明显低于BP网络模型,且PSO?BP模型的各项性能指标也均优于BP模型。由此可得,PSO?BP神经网络评估模型在BP神经网络评估模型的基础上,对BP神经网络的初始权系(权值和阈值)进行优化,降低了模型的评估误差,提高了模型的可靠性,并进一步提升了BP神经网络评估模型的精确度。
本文利用Mel倒谱对不同失真条件下的语音文件进行MFCC特征参数提取,采用PSO算法对BP神经网络的初始权值和阈值进行优化,利用优化后PSO?BP神经网络模型对不同语音文件进行干扰效果客观评估,形成一个新的语音干扰效果评估模型,也为语音干扰效果客观评估确立了一个新的快速评估标准。客观评估结果与主观评估结果相关联,与失真干扰的变化规律一致,能有较真实且精确地反映不同失真条件人的主观感觉[13]。最终可以通过PSO?BP模型的客观评估结果来快速精确预测或者代替主观评估结果,对主观判断者起到较好的辅助作用,且减小了干扰环境下主观评估的不确定性,具有较好的应用前景。
注:本文通讯作者为吕小毅。
参考文献
[1] 张伟伟.通信系统中语音质量评价的研究[D].北京:北京邮电大学,2014.
ZHANG Weiwei. The research on speech quality assessment in communication system [D]. Beijing: Beijing University of Posts and Telecommunications, 2014.
[2] 譚晓衡,许可,秦基伟.基于听觉感知特性的语音质量客观评价方法[J].西南交通大学学报,2013,48(4):756?760.
TAN Xiaoheng, XU Ke, QIN Jiwei. Objective evaluation method of speech quality based on auditory perceptual properties [J]. Journal of Southwest Jiaotong University, 2013, 48(4): 756?760.
[3] 郝佳,彭沛沛.BP神经网络在语音干扰评估系统中的应用研究[J].信息通信,2016(4):6?7.
HAO Jia, PENG Peipei. Application of BP neural network in speech interference assessment system [J]. Information & communications, 2016(4): 6?7.
[4] 袁飞,陈炜玲,李晔,等.水声语音通信体验质量的实时测量方法[J].数据采集与处理,2016,31(2):307?314.
YUAN Fei, CHEN Weiling, LI Ye, et al. Real?time measurement for experience quality of underwater acoustic voice communication [J]. Journal of data acquisition & processing, 2016, 31(2): 307?314.
[5] 尚永强,殷未来,姜双双,等.基于相位调制特征的语音活动检测[J].吉林大学学报(信息科学版),2016,34(1):29?33.
SHANG Yongqiang, YIN Weilai, JIANG Shuangshuang, et al. Voice activity detection based on phase modulation feature [J]. Journal of Jilin University (Information science edition), 2016, 34(1): 29?33.
[6] 邓瑞,肖纯智,高勇.基于MFCC相似度和谱熵的端点检测算法[J].现代电子技术,2013,36(21):67?69.
(上接第46页)
DENG Rui, XIAO Chunzhi, GAO Yong. Endpoint detection algorithm based on MFCC similarity and spectrum entropy [J]. Modern electronics technique, 2013, 36(21): 67?69.
[7] EBERHART R C, KENNEDY J. A new optimizer using particle swarm theory [C]// Proceedings of the Sixth International Symposium on Micro Machine and Human Science. Nagoya: IEEE, 1995: 39?43.
[8] EBERHART R C, KENNEDY J. Particle swarm optimization [C]// Proceedings of IEEE International Conference on Neural Networks. Perth: IEEE, 1995: 1942?1948.
[9] KENNEDY J, EBERHART R C, SHI Y. Swarm intelligence [M]. San Francisco: Morgan Kaufman Publishers, 2001: 20?28.
[10] 杨遵,雷虎民.采用粒子群优化算法规划无人机侦察航路[J].电光与控制,2007,14(2):4?7.
YANG Zun, LEI Humin. Particle swarm optimization based path planning for reconnaissance of unmanned air vehicles [J]. Electronics optic & control, 2007, 14(2): 4?7.
[11] 中华人民共和国信息产业部.军用通信系统音质的MOS评价法:SJ/T20771?2000[S].北京:中国标准出版社,2000.
Ministry of Industry and Information Technology of the People′s Republic of China. MOS method of speech quality assessment for military communication systems: SJ/T20771?2000 [S]. Beijing: Standards Press of China, 2000.
[12] 佚名.MOS测试语音材料表(配套应用标准):SJ6607?2000[S].北京:中国标准出版社,2000.
Anon. Speech material table of MOS test (matched application standard): SJ6607?2000 [S]. Beijing: Standards Press of China, 2000.
[13] 张毅,谢延义,罗元,等.一种语音特征提取中Mel倒谱系数的后处理算法[J].智能系统学报,2016,11(2):208?215.
ZHANG Yi, XIE Yanyi, LUO Yuan, et al. Postprocessing method of MFCC in speech feature extraction [J]. CAAI transactions on intelligent systems, 2016, 11(2): 208?215.