改进动量粒子群优化神经网络的语音端点检测

2013-07-11 09:36林,朱军,刘颖,张
计算机工程与应用 2013年5期
关键词:端点语音粒子

黎 林,朱 军,刘 颖,张 磊

1.安徽大学 计算机教学部,合肥 2306012.安徽大学 电子信息工程学院,合肥 230601

改进动量粒子群优化神经网络的语音端点检测

黎 林1,朱 军2,刘 颖1,张 磊1

1.安徽大学 计算机教学部,合肥 230601
2.安徽大学 电子信息工程学院,合肥 230601

在语音识别系统中,端点检测是极其重要的一个环节,好的语音端点算法不仅可以准确地从噪声中提取出语音信息,有效降低噪声对系统资源消耗,而且可以大幅提高系统识别率。大量研究表明,即使在理想条件下,语音识别错误的发生一半以上都来自于端点检测,端点检测作为语音识别的第一步,其重要性不容忽视[1]。

语音端点检测的目标是从信号流中分辨出语音信号和非语音信号,并确定语音信号起点和终点,当前主要分为时域和频域两类语音端点检测算法[2]。时域检测算法主要包括短时能量、短时平均过零率和短时相关分析等[3-5],在低信噪比环境下,该类方法不能进行正确语音端点检测,然而在实际语音检测应用中,很难保证有足够高的信噪比,时域方法容易将噪声误当成语音信号。频域检测算法有倒谱、信息熵、谱熵和频带方差等,该类检测方法在理想条件下可以获得较好的检测效果[6-7],但在恶劣环境下,该类端点检测准确性仍然很差。为了获取更优的语音端点检测效果,学者们提出了特征组合的端点检测算法,显著提高在低信噪比、噪声动态化的各种环境下的端点检测性能[8]。传统语音端点检测器基本上均是基于线性建模方法,对环境噪声变化不够鲁棒,虚检率和漏检率较高[9]。近些年,随着非线性理论发展,出现神经网络(neural network)和支持向量(support vector machines)等非线性语音端点检测算法,语音端点检测率得以提高,尤其是BP神经有较好的自学习和非线性映射能力,得到了广泛应用[8-9]。BP神经网络参数与端点检测结果优劣密切相关,当前主要采用遗传算法、粒子群算法优化BP神经网络参数,它们均存在不向程度的缺陷。

为提高了语音端点检测率,提出一种小波分析(WaveletAnalysis,WA)、改进动量粒子群优化算法(Improved Momentum Particle Swarm Optimization algorithm,IMPSO)和BP神经网络(BP Neural Network,BPNN)相结合的语音端点检测方法(WA-IMPSO-BP)。仿真结果表明,相对于传统检测算法,WA-IMPSO-BP算法具有更好的检测效果,环境适应性更较强。

1 WA-IMPSO-BP的端点检测系统结构

语音端点检测是对输入语音信号进行分析,然后把它们与噪声门限阈值进行比较,若超过门限阈值则表示当前帧为有音片段,反之为无音片段语音,因此语音端点检测本质就是一种模式识别系统,其包括两个关键步骤:语音特征提取和选择、端点检测器设计[10]。

在语音识别系统中,噪声类型比较复杂,尤其是语音信号清音部分与白噪声比较相似,这给端点检测造成了很大困难。小波分析(Wavelet Analysis,WA)在时域和频域都能表征信号的局部特征,对信号的高频部分有较好的时间分辨率,对低频部分有较好的频率分辨率,能够满足语音信号处理的要求[11],因此可以采用小波分析提取语音信号的特征量。BP神经网络具有很强的自适应、并行性、鲁棒性、非线性逼近能力,因此利用BP神经网络作为语音端点检测器,对小波变换提取到的语音特征量进行训练,同时采用IMPSO对BP参数进行优化,建立最优语音端点检测模型。基于WA-IMPSO-BP的语音端点检测系统结构如图1所示。

图1 WA-IMPSO-BP的语音端点检测系统图

2 语音端点检测模型

2.1 语音信号的预处理

语音信号是一种非平稳信号,不能直接用于提取特征,对采集语音信号进行预处理,英文单词“eat”的预处理结果见图2。

2.2 语音特征量提取采用Mallat算法对每帧信号 f(n)进行5层小波分解,即1235

根据小波多分辨率分析原理可知,d1(n)~d5(n)表征原信号所有的频率信号,计算各层小波子带系、a5(n)可数的平均能量:

图2 英文单词“eat”的预处理

式中,si(n)代表d1(n)~d5(n)、a5(n)小波子带中的某个子带的小波系数,N为小波系数的个数[12]。

计算6个小波子带平均能量的均值Em和方差σ2:

共获得8小波子带平均能量E1~E6,一个Em和一个σ2,

2.3 BP神经网络

BP神经网络是一种包含输入层、隐含层和输出层的多层前馈型网络,大量实践证明三层神经网络能够以任意精度逼近任何的非线性函数[13]。BP神经网络结构具体如图3所示。

图3 BP神经网络结构图

BP神经网络预测性能优劣与其网络连接权值密切相关,传统动量项法或经验法难以获得全局最优络连接权值,使网络学习速率小,没有足够的能量跃过局部极小值点,导致语音端点检测率低。

2.4 自适应逃逸粒子群优化算法

粒子群算法(PSO)是一种模拟鸟群觅食行为的群智能优化算法,通过个体之间的协作使得群体达到最优化的目的[14]。PSO中的每一个粒子代表求解问题的一个候选解,首先初始化一群粒子,然后通过迭代生成新的粒子群,每一次迭代过程中,第i个粒子的速度和位置采用式(5)、(6)进行更新。式中,n是种群中粒子的数量;t是迭代次数;c1,c2是学习因子;r1,r2是[0,1]之间的随机数;w为惯性权重。

为改善粒子的搜索能力,将式(4)进行改进,具体为:

式中,0≤mc<1。

式(7)实际上是对粒子的运动轨迹采用低通滤波器进行平滑,即所谓的动量粒子群优化算法(momentum particle swarm optimization algorithm)。

MPSO算法通过粒子间相互协作和竞争,在解空间搜索最优解,然而由于MPSO算法不具有交叉、变异等机制,当某个粒子找到一个局部最优解时,其他粒子会受到该最优解吸引,快速聚集到其附近,出现“早熟”现象。

遗传算法是一种模拟生物进化“优胜劣汰”机制的启发式搜索算法,其通过交叉、变异等操作增加种群的多样性,不断进化最后找到最优解[15]。因此,本研究鉴于遗传算法的变叉操作,将其引入到MPSO算法中,增加和保持粒子群多样性,当陷入局部最优解时,帮助其逃逸局部最优解,提高算法寻优能力。具体交叉策略:将每一代中的每一个粒子和全局最优粒子进行交叉操作,然后将交叉后的个体与父代个体进行比较,选择较好的个体进入下一代粒子群,使粒子以更快的速度收敛到当前全局最优解。

粒子个体交叉方式如下:

式中,ru为随机变量。ru生成方式为:

式中,η为交叉参数;u为0到1之间的随机数。

对式(8)进行分析可知:当ru的值在1附近时,引入交叉操作会使得粒子产生一个强加速,快速聚集于当前全局最优粒子,使算法快速收敛于当前最优解;当ru较大时,引入交叉操作对粒子产生一个变异作用,保持粒子群的多样性,降低“早熟”现象出现的概率。

在QSO中,若对粒子加速导致其一维的速度(vi)超过该维的最大速度(vmax),那么vmax为该维速度;若粒子速度变为0时,那么就要对该粒子速度进行随机初始化,具体为:

此外,若粒子飞出了边界区域时,则该粒子位置为将边界位置,并从相反方向上搜索最优位置,即

通过上述操作,可以将粒子限制在可行解空间内搜索,又可以防止粒子在边界堆积现,从而提高算法的全局搜索能力。

2.5 自适应逃逸粒子群优化BP神经网络参数

为了解决BP神经网络存在的难题,采用智能优化搜索方法——粒子群优化算法对其网络连接权值进行优化,获得性能更优的BP神经网络,具体流程如图4所示。

图4 BP神经网络参数优化流程图

2.6 BP神经网络的语音检测步骤

步骤1初始化BP神经网络、小波分析和IMPSO相关参数。

步骤2随机选择1段含语音段和噪声的信号,小波分析提取特征量作为BP神经网络输入,人工标示出每帧信号作为BP神经网络输出,完成BP神经网络训练样本构建。

步骤3将训练样本输入BP神经网络进行训练,由于随机确定BP神经网络初始参数会导致检测结果与实际结果间差异较大,因此通过IMPSO对BP神经网络优化,使BP神经网络输出与理想输出值达到预设要求,从而完成BP神经网络训练。

步骤4用训练好的BP神经网络对原来训练样本进行计算,并输出检测结果,门限值为0.5,输出结果大于0.5,认为当前帧为语音帧,否则为非语音帧,然后将实际输出结果与标示好的信号语音帧进行比较,如果神经网络训练效果不好,需要重新对神经网络进行训练。

步骤5进行语音端点检测。取一段语音信号,提取其特征量,然后采用训练好的BP神经网络对其进行检测,最终输出语音端点检测结果。

3 仿真实验

3.1 仿真环境

为了检验WA-IMPSO-BP算法对语单端点检测有效性,在CPU P4 3.0 GHZ,内存2 GB,Windows XP平台下,采用Matlab 2007软件实现仿真实验。为了使WA-IMPSO-BP算法的检测结果更具有说服力,选择短时能量特征+IMPSO-BP神经网络(BPNN1),小波分析+BP神经网络(BPNN2)、小波分析+线性模型(WA-LINER)进行对比实验。采用检测率、虚检率、漏检率和检测速度作为算法性能的评价标准。

3.2 数据来源

实验使用带噪语音是由aurora2.0语音库中的130个干净声音和Noisex 92噪声库中的7种噪声混合而成wav格式的声音,每个千净语音分别混合destroyerengine噪声、pink噪声、volvo噪声、white噪声、bueeaneer2噪声等5种噪声。声音的位速为128 kb/s,音频采样大小为16位,频道为单声道,音频的采样级别为8 kHz,音频格式为PCM。

3.3 结果与分析3.3.1 不同语音端点算法的检测性能对比

不同信噪比的条件下,各种语音端点检测算法的仿真结果见表1~3。

表1 语音端点检测率比较 (%)

表2 语音端点检测虚检率比较 (%)

表3 语音端点检测的漏检率比较 (%)

根据表1~3对比结果可以得到如下结论:

(1)对于white噪声语音信号进行检测,各检测算法均获得了比较满意的检测效果,检测率比较高。当噪声环境为estroyerengine噪声、pink噪声、volvo噪声、bueeaneer2噪声,全部语音端点检测算法性能均有所下降,尤其是WA-LINER下降十分明显,已基本失去区分能力,已经不能达到实际应用的要求,这主要是由于其基于线性建模,无法反映语音信号的动态变化规律,而基于BP神经网络的检验率仍然较高,说明BP神经网络具有很强的自适应、并行性、鲁棒性,对语音环境变化适应性比较强。

(2)相对于BPNN1,WA-IMPSO-BP的检测性能要优,这主要是由于采用小波分析不但可以反映信号的时域特征,还能反映信号的频域特性,可以对语音信号有效特征进行提取,而短时能量只适合于信噪比比较高的语音端点检测,因此BPNN1应用范围受限,WA-IMPSO-BP利用小波分析和BP神经网络相结合,达到了优势互补,表现出更强的抗噪性,提高语音端点检测率的同时,有效降低了端点漏检率和虚检率。

(3)相对于BPNN2算法,WA-IMPSO-BP检测性能也更优,这说明采用IMPSO对BP神经网络的参数进行优化,可以很好地克服BP神经网络因参数选择不当存在的缺陷,使BP神经网络的性能达到全局最优,进一步提高了音端点检测率。

3.3.2 算法检测速度比较

采用运行时间来衡量语音端点检测速度,在Matlab2007平台下,利用Tic和Toc命令记录预测模型的训练和预测时间,WA-IMPSO-BP、BPNN1、BPNN2和WA-LINER的检测时间如表4所示。

表4 各种算法的检测速度对比s

从表4可知,相对于对比算法,无论是训练时间还是检测时间,WA-IMPSO-BP均是最短的,这说明采用小波分析提取语音特征,以减少BP神经网络的输入变量数目,降低了计算复杂度,同时采用IMPSO对模型参数进行优化,加快了学习效率,对比结果表明,WA-IMPSO-BP更适合于实时性要求比较高的语音端点检测。

3.3.3 在现实噪声环境下的有效性检验

分别在纯净环境和噪声环境中,对一段女生朗读语音信号进行采集,得到语音信号如图5所示。然后采用WA-IMPSO-BP对该语音端点进行检测,得到的检测结果如图6所示。其中,横轴表示语音信号的采样点数,纵轴表示信号的幅。从图6可知,WA-IMPSO-BP可以很好检测到语音信号的起始点和终止点,不仅具有良好的抗噪性能,而且具有较好的语音识别率。

图5 现场采集的语音信号

图6 WA-IMPSO-BP检测结果

4 结束语

端点检测是语音识别中极其重要的一项技术,其准确性对识别性能具有很大影响,在当信噪比较小环境下,传统检测算法难以对语音端点进行正确检测,为此提出一种强噪声背景下的语音端点检测算法。实验结果表明,相对于传统检测算法,WA-IMPSO-BP提高了语音端点检测准确率,抗噪性、鲁棒性更好,具有更好的实际应用性。

[1]蔡莲红,黄德智,蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社,2003.

[2]Wu Bingfei,Wang Kunching.Robust endpoint detection algorithm based on the adaptive band-partitioning spectral entropy in adverse environments[J].IEEE Transactions on Speech and Audio Processing,2005,13(5):762-775.

[3]李王劲松,李柏岩,宋辉.基于小波分解和信号相关函数的语音端点检测[J].计算机应用与软件,2011,28(7):103-105.

[4]Plapous C,Marro C,Scalart P.Reliable a posteriori signal-tonoise ratio features selection[C]//2005 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. New Paltz,NY:[s.n.],2005:16-19.

[5]乔峰,张雪英.一种基于信息熵和神经网络的语音端点检测方法[J].太原理工大学学报,2007,12(38):145-147.

[6]Hung Wei-Wen,Wang Hsiao-Chuan.On the use of weighted filter bank analysis for the derivation of robust MFCC[J]. IEEE Signal Processing Letters,2001,8(3):70-73.

[7]朴春俊,马静霞,徐鹏.带噪语音端点检测方法研究[J].计算机应用,2006,26(1):2685-2686.

[8]张铁威.基于小波分析与神经网络的语音端点检测研究[D].大连:大连理工大学,2008.

[9]乔峰.基于信息熵和神经网络的语音端点检测算法研究[D].太原:太原理工大学,2007.

[10]Qi Li,Jin Songzheng,Tsai A,et al.Robust endpoint detection and energy normalization for real time speech and speakerrecognition[J].IEEE Transactions on Speech and Audio Processing,2002,10(3):146-152.

[11]朱恒军,于泓博,王发智.小波分析和支持向量机相融合的语音端点检测算法[J].计算机科学,2012,6(39):244-246.

[12]李如玮,鲍长春.一种基于分带谱熵和谱能量的语音端点检测算法[J].北京工业大学学报,2007,33(9):920-924.

[13]孙娓娓.BP神经网络的算法改进及应用研究[D].重庆:重庆大学,2009.

[14]李爱国,覃征,鲍复民,等.粒子群优化算法[J].计算机工程与应用,2002,38(21):1-3.

[15]傅颖勋.遗传算法的研究与改进[D].北京:北京邮电大学,2010.

LI Lin1,ZHU Jun2,LIU Ying1,ZHANG Lei1

1.Department of Computer Teaching,Anhui University,Hefei 230601,China
2.School of Electronics and Information Engineering,Anhui University,Hefei 230601,China

In order to improve detection rate of the speech endpoint,this paper proposes a speech endpoint detection method based on BP neural network optimized by improved momentum particle swarm optimization algorithm.The features of speech signals are extracted by wavelet analysis,then the features are input to BP neural network to build the speech endpoints detection model in which the BP neural network's parameters are optimized by particle swarm optimization algorithm,the simulation experiments are carried out on Matlab environments.The experimental results show that the proposed method improves the detection rate,and reduces the false detection rate and false negative rate effectively,WA-IMPSO-BP is a high detection rate and strong resistant noise performance speech detection algorithm.

wavelet analysis;neural network;speech endpoints;particle swarm optimization algorithm;feature selection

为了提高语音端点检测率,提出一种改进动量粒子群优化神经网络的语音端点检测算法(WA-IMPSO-BP)。利用小波分析提取语音信号的特征量,将特征向量作为BP神经网络输入进行学习,并采用粒子群算法优化BP神经网络参数,建立语音端检测模型,在Matlab环境下进行仿真实验。仿真结果表明,WA-IMPSO-BP提高了语音端点检测率,有效降低了虚检率和漏检率,表示WA-IMPSO-BP是一种检测率高,抗噪性能强的语音检测算法。

小波分析;神经网络;语音端点;粒子群优化算法;特征选择

A

TN91

10.3778/j.issn.1002-8331.1211-0105

LI Lin,ZHU Jun,LIU Ying,et al.Speech endpoints detection based on BP neural network optimized by improved momentum particle swarm optimization algorithm.Computer Engineering and Applications,2013,49(5):225-229.

国家自然科学基金(No.61071168);安徽大学211三期质量工程项目(No.40010014,No.39020014)。

黎林(1979—),男,硕士,主要研究领域为计算机应用、嵌入式应用、信号采集与处理;朱军(1968—),女,博士,副教授,硕士生导师,主要研究领域为通信信息处理、光通信网络、多媒体通信;刘颖(1981—),女,博士,主要研究领域为通讯与信息系统、网格计算。

2012-11-08

2012-12-25

1002-8331(2013)05-0225-05

猜你喜欢
端点语音粒子
非特征端点条件下PM函数的迭代根
不等式求解过程中端点的确定
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
基于粒子群优化的桥式起重机模糊PID控制
基于粒子群优化极点配置的空燃比输出反馈控制
参数型Marcinkiewicz积分算子及其交换子的加权端点估计
基丁能虽匹配延拓法LMD端点效应处理