王钟斐
(宝鸡文理学院 数学与信息科学学院,陕西 宝鸡 721013)
基于双门限-频带方差的语音端点检测方法研究
王钟斐
(宝鸡文理学院 数学与信息科学学院,陕西 宝鸡 721013)
为了提高语音信号端点检测的准确率,提出了一种基于双门限-频带方差的检测方法。该方法将语音信号短时能量、短时过零率和频带方差结合起来,作为检测语音信号起始位置和终止位置的参数。仿真实验表明,该方法比传统方法更有效、更优越,能够比较准确地检测语音信号。
端点检测;短时能量;短时过零率;频带方差;语音信号
在对语音信号进行分析处理之前必须把要分析的语音信号从输入信号中找出来,这项工作叫语音信号的端点检测[1]。而端点就是语音信号的有效起始位置和终止位置,其中含有音节、因素、词素等的起始位置和终止位置。端点检测工作就是把信号中有用的部分、感兴趣的部分从原始信号中提取出来,与其他无关联的部分分离开。通俗地讲,端点检测就是找出输入信号中携带语音信息的部分信号,为进行各种分析处理工作提高操作对象,这就是语音端点检测工作的目的。
目前,在语音信号处理系统中有很多端点检测方法[2],这些方法在信噪比较高的环境下效果还是比较不错的。但是,当信噪比比较低时,这些传统的检测方法效果不太理想,不能较准确的检测出携带语音信息的部分信号。一般情况下,用短时能量鉴别端点在背景噪声较小时比较为有效,而使用短时平均过零率鉴别端点在背景噪声较大时比较为有效。
语音和噪声的频谱特性差异是很大的。在噪声的频谱中,各频带之间变化很平缓,这与“白噪声”的称谓相符;而语音则是有“色”的,各频带之间变化比较激烈。根据这一特征可以很明显的区分语音和噪声[3]。频带方差检测法是将每帧信号的短时频带方差作为参数,利用了信号的频率信息。
为提高语音信号端点检测效果,文中提出了一种基于双门限—频带方差的检测方法,该方法将语音信号短时能量、短时过零率和频带方差结合起来,作为检测语音信号起始位置和终止位置的参数,最后通过仿真实验说明了该法取得了较好的效果。
传统双门限的端点检测方法把语音短时能量和过零率结合起来,利用二者进行检测。该方法采用两级判别法,首先用语音的短时能量E判别,在此基础上再用过零率进行第二次判别。做第一级判别时,通常采用双门限方法。如图1所示,根据短时能量首先选择一个较高的门限R1,信号的能量大多在门限R1之上。可知:语音的起始位置和终止位置在该门限与短时能量包络交点所对应的时间间隔之外 (即AB段向外)[4]。然后根据噪声平均能量确定一个较低的门限R2,找到短时能量包络与门限R2的两个交点C和D,而CD段就是所判定的语音段。接下来作第二级判别,这次以短时平均过零率Z为依据,从CD段之外的信号段去搜索短时平均过零率包络与某个门限M3的交点E、F,如图2。E和F就是语音段的起始位置和终止位置。
图1 基于短时能量端点检测原理
图2 基于短时过零率端点检测原理
计算某一帧信号的各频带能量的方差,将这种以短时频带方差作为参数检测语音段起止端点的方法称为频带方差检测法[3]。
定义一个矢量X={x(ω0),x(ω1),…,x(ωn)},其中的分量x(ωi)定义为中心频率为ωi的滤波器的输出能量,它可以根据一帧信号通过一带通滤波器来计算,也可以首先计算一帧信号的FFT,然后把几个频率分量组合而得。对于数字信号,最低频是0,最高频是π,其余各中心频率按一定规则从0至π通增。
定义均值为
则频带方差为
检测门限M,在实际应用中,具体门限值可以根据实际环境的背景噪声特性来确定。一般取M=(3~5)Dr,Dr为背景噪声的频带方差值。
为了更为准确的检测语音信号的起止位置,文中提出了一种基于双门限—频带方差的检测方法,该方法将语音信号短时能量、短时过零率和频带方差结合起来,作为检测语音信号起始位置和终止位置的参数,其计算步骤如下:
1)对语音信号进行分帧加窗处理。
语音信号是时变的,为便于对其进行分析,要将其分成一段一段的,每段信号称为一帧,每帧长度一般为10~30ms,认为在这个小时间段内语音信号是平稳的。用加窗函数来将语音信号分帧,文中采用汉明窗来处理。
2)计算每帧信号的短时能量。
短时能量是语言信号强度的度量参数,反映语音信号的幅度变换。语音信号{x(n)}的短时能量定义为如下的表达式:
其中,h(n)为线性滤波器的单位冲击响应,且h(n)=ω2(n),En表示在信号的第n个点开始加窗函数时的短时能量。
3)计算每帧信号的短时平均过零率。
短时平均过零率指每帧信号通过零值的次数,可在一定程度上反映语音信号{x(n)}的频谱性质。其定义如下:
其中,sgn[·]是符合函数,即
4)计算每帧信号的短时频带方差。
以信号的短时能量、短时过零率和短时频带方差作为参数,按照本文的基于双门限—频带方差的语音端点检测方法检测语音段起止端点。
用普通计算机麦克风录入说话人的语音,将其保存为.wav文件,以汉语拼音a的.wav文件为例,进行说明。首先对给语音a以randn函数加入随机噪声,然后分别用基于短时能量、基于过零率和文中的基于双门限—频带方差的方法对染噪语音进行端点检测。得到结果如图3~图7。
图3 原始语音波形
图4 染噪语音波形
图5 基于短时能量端点检测
图6 基于过零率端点检测
图7 本文的端点检测方法
表1 不同端点检测方法的准确率
从上面图中波形和表中数据可知:文中方法无论对原始信号还是对染噪信号进行端点检测,都有很好的效果,在波形上要比基于短时能量、过零率的方法清晰,在数据上要更加的准确,从而说明了文中方法的有效性和优越性。
首先,文中介绍了传统双门限端点检测方法;其次,讨论了频带方差端点检测方法[5];再次,提出了基于双门限—频带方差的语音端点检测方法[6-9],该方法在传统基于能量和过零率的端点检测方法基础上,再加入每帧信号的频带方差;最后,用MATLAB软件做仿真实验,依次用4种方法对语音信号进行端点检测,实验表明文中的方法取得了比传统方法更为理想的结果。
当然,文中的方法还有一定的不足之处,如:文中方法在较高噪声下能否也得到较为准确的检测结果?这是今后工作中亟待解决的问题。
[1]赵力.语音信号处理[M].北京:机械工业出版社,2003.
[2]顾亚强,赵晖,昊波.一种语音信号端点检测的改进方法[J].计算机仿真,2010,27(5):340-343.
[3]王炳锡,屈丹,彭煊等.实用语音识别基础[M].北京:国防工业出版社,2005.
[4]侯周国.基于HMM的汉语数字语音识别系统研究[D].湖南:湖南师范大学,2006.
[5]戴秋芳,吴晓军.基于谐波分析的频带方差端点检测方法[J].计算机仿真,2009,26(8):330-333.
[6]韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2004.
[7]朱旭东.低成本播放大功率高保真数字语音的信号方法及快速验证方法[J].电子设计工程,2016(7):125-128.
[8]张震,王化清.语音信号特征提取中Mel倒谱系MFCC的改进算法[J].计算机工程与应用,2008(22):54-55.
[9]赵力,王治平,卢韦 ,等.全局和时序结构特征并用的语音信号情感特征识别方法[J].自动化学报,2004(3):423-429.
Speech endpoint detection m ethod research based on double threshold-frequency band variance
WANG Zhong-fei
(School ofMathematics and Information Science,BaojiUniversity of Arts and Sciences,Baoji721013,China)
In order to increase the accuracy of speech endpoint detection,the speech endpoint detection method based on double threshold-frequency band variance is proposed.The speech signal short-time energy,short-time zero-crossing rate and frequency band variance is combined asa parameter to detect the starting position and ending position ofspeech signals in this method.Simulation experiment shows that thismethod ismore effective and more superior than traditionalmethods,which could comparative accuratly detectspeech signal.
endpoint detection;short-time energy;short-time zero-crossing rate;frequency band variance;speech signal
TN912.3
A
1674-6236(2016)19-0086-03
2015-10-11稿件编号:201510055
陕西省教育厅科研计划项目资助(2013JK0601);宝鸡文理学院院级重点项目(ZK12093)
王钟斐(1983—),女,陕西咸阳人,硕士,讲师。研究方向:数据挖掘与网络安全等。