基于短时自相关及过零率的语音端点检测算法

2016-10-17 05:40纪振发金银超
电子科技 2016年9期
关键词:清音端点信噪比

纪振发,杨 晖, 李 然, 金银超

(上海理工大学 光电信息与计算机工程学院,上海 200093)



基于短时自相关及过零率的语音端点检测算法

纪振发,杨晖, 李然, 金银超

(上海理工大学 光电信息与计算机工程学院,上海 200093)

传统的基于短时能量端点检测算法,在高信噪比环境下可以比较准确地检测出语音端点,但在低信噪比环境下检测效果不理想。文中提出了基于短时自相关最大值与短时过零率之积的改进算法。利用短时自相关最大值可以有效地区分出语音段和噪音段,利用短时过零率可有效地检测出清音信号,将两参数相结合可有效地检测出低信噪比语音信号的端点。实验证明,在低信噪比环境下该改进算法相比短时能量算法减小了检测误差,可以有效地检测出语音端点。

端点检测;短时能量;短时自相关最大值;短时过零率

Technology,Shanghai200093,China)

语音识别以语音为研究对象,是语音信号处理的一个研究方向,是模式识别的一个分支,涉及到生理学、语言学、计算机科学及信号处理等诸多领域,其最终目的是实现人与机器进行自然语言通信,用语言操纵计算机[1]。语音识别的基础环节是端点检测, 语音端点检测是指从包含语音的一段信号中判断各语音片段的起止点、区分纯噪声段和带噪语音段[2]。准确的语音端点检测不仅可以提高后续处理(如语音识别)的正确率和处理效率,还能为后续处理提供段落分割的依据[3]。在实验室高信噪比环境下,传统的端点检测算法可以较好地检测出语音端点,然而在低信噪比环境下,大多数端点检测算法的性能均急剧下降[4-5]。因此在低噪声环境下如何提高语音端点检测的准确率尤为重要[6]。

目前常用的端点检测算法有:短时能量[7]、短时自相关[8]、短时过零率[8]等。利用背景噪声的短时能量最低,浊音的短时能量最高,清音的短时能量居于前两者之间的特性[9],在高信噪比环境下可以有效地区分出语音和噪声。但是大量实验结果显示,基于短时能量的方法在低信噪比和非平稳噪声环境中,其性能明显下降[10]。根据浊音的过零率低,清音的过零率较高[11],可以有效的判断清音和浊音。利用噪声段和语音段的短时自相关函数的不同特性进行有效区分语音信号的噪声段和语音段。但此方法在低信噪比环境下,不能将语音的清音很好地表征出来[12]。为此本文将短时自相关和短时过零率相结合进行端点检测。

1 短时过零率与短时自相关

1.1预处理

在语音信号端点检测之前,首先要对其进行预处理。语音信号的预处理包括预加重和加窗分帧。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频段中能用同样的信噪比求频谱,以便于频谱分析或声道参数分析[13]。预加重后进行加窗分帧处理。分帧使用汉明窗加权,并采用交叠分帧的方法来实现。

1.2短时过零率

短时过零率就是一帧语音信号经过零电平的次数[8]。短时过零率对叠加不同噪声的语音信号效果不同,需要与短时自相关等其他参数相结合进行有效的端点检测。

1.3短时自相关

语音信号x(n)分帧后的第i帧语音信号xi(m)的短时自相关函数定义为[14]

(1)

其中,Ri(k)为第i帧的自相关函数;L为语音分帧后每帧的长度;k为延迟量。短时自相关不能较好的检测清音,需要与其他参数结合进行有效的端点检测。

2 端点检测

2.1清音和浊音分析

语音信号一般可分为无声段和有声段,有声段又可以进一步分为清音段和浊音段。无声段是背景噪声段,浊音段为声带振动发出对应的语音信号段,清音段是空气在口腔中的摩擦冲击或爆破而发出的语音信号段[9]。为了分析噪音、带噪清音和带噪浊音的短时自相关特性,运用式(1)对3种语音信号的一帧信号分别作自相关分析,结果如图1所示。由图1(a)可知,噪音信号的短时自相关函数杂乱无章。由图1(b)可知,带噪清音信号的短时自相关函数无明显周期性,但也不同于噪声。由图1(c)可知,带噪浊音信号的短时自相关函数呈现明显的周期性。另外,每帧噪声、清音、浊音信号的峰值最大值相差较大。

图1 带噪语音信号短时自相关波形

对清音和浊音分别作频谱分析,结果如图2所示。由图2(a)可知,清音语音的多数能量出现在较高的频率上,因此清音的过零率较高。由图2(b)可知,浊音语音的能量主要集中在低频部分,而且具有高频跌落的频谱,因此浊音的过零率较低。

图2 语音频谱图

为了验证短时自相关和短时过零率对清音段和浊音段的分辨效果,录取语音“7”,其波形如图3(a)所示,此语音的前段是清音段,后段是浊音段。其短时过零率和短时自相关函数最大值如图3(b)、图3(c)所示。由图3(b)可明显看出清音段的过零率较高;而浊音段的过零率较低。由图3(c)可知,浊音段的短时自相关函数最大值较大,清音段和背景噪声段短时自相关函数最大值较小。因此将短时过零率与短时自相关相结合可以有效的检测语音端点。

图3 语音信号检测分辨图

2.2改进算法

由以上分析可知,只利用短时自相关性对清音的检测精度不高,为此引入短时过零率作为辅助参数,求取语音信号的短时自相关函数最大值与短时过零率之积,然后进行端点检测。对每帧语音信作短时自相关函数,结合式(1)求取每帧自相关函数的最大值(Ri,max),其定义为

(2)

每帧语音信号的自相关函数最大值与过零率之积(RZi),其定义为

(3)

其中,Zni为第i帧的短时过零率。

短时自相关参数可有效的区分语音段和噪音段,短时过零率参数可以有效的判别清音和浊音。此改进算法结合两个参数的优点,将两个参数相乘结合为一个参数简化了门限判别运算,可有效地避免清音段引起的检测误差,更准确得识别出语音信号端点。

3 实验数据分析

基于短时能量的端点检测算法对高信噪比语音信号有绝对准确的检测结果,所以基于短时能量算法检测出的端点适用于作为对比标准。对于本文提出的改进算法,首先要保证其对于高信噪比的信号有较高的检测正确率。为此,录取100个高信噪比语音信号作为检测样本,对于每一次对比,用基于短时能量算法对此高信噪比语音信号检测出的端点作为对比标准。对100个样本信号计算语音信号检测的起点(止点)与标准起点(止点)的差值作为误差,并对误差检测结果进行统计。改进算法与短时能量算法在语音信号起止点处的误差统计直方图如图4所示。由图4可知,起点处的误差在6~9ms,止点处的误差在9~12ms,检测误差比较小,可以忽略。综上所述,对于高信噪比语音信号本文提出的端点检测改进算法可以准确的检测出其端点。

图4 高信噪比语音信号起止点误差统计直方图

为了证明对于低信噪比语音信号本文提出的改进算法具有较好的检测效果,对100个样本信号中每一个信号叠加信噪比为20dB的高斯白噪声。用上述同样的方法计算误差,并对误差检测结果进行统计,两种端点检测方法在语音信号起止点处的误差统计直方图如图5所示。

图5中,两种端点检测算法在语音信号端点处的检测误差都大体服从正态分布。改进算法检测的起止点误差分别主要集中在(15~20ms)和(25~30ms)区间,短时能量算法检测的起止点误差分别主要集中在(25~30ms)和(35~40ms)区间,所以,本文提出的改进算法比短时能量算法有较小的分布误差。另外,改进算法的误差拟合曲线分布相对陡峭,而短时能量算法的误差拟合曲线分布相对广泛。由以上可知,对于叠加相同噪声的语音信号,改进算法相对短时能量算法有较高的端点检测准确率。

图5 带噪语音信号起止点误差统计直方图

为更好地说明改进算法对低信噪比语音信号有较好的检测优越性,对100个样本语音信号叠加不同信噪比的高斯白噪声,并对其检测统计,作出两种端点检测算法在起止点处的均值误差图如图6所示,横坐标为叠加高斯白噪声的信噪比,信噪比越小表示叠加的噪声强度越大。纵坐标为100个样本语音信号叠加不同信噪比噪声后,信号在起止点处检测的均值误差。黑色实线为改进算法的均值误差拟合曲线,黑色虚线为短时能量算法的均值误差拟合曲线。

如图6所示,(1)两种端点检测方法在低信噪比环境下其误差波动都比较大,但随着信噪比的提高误差波动越来越小;(2)两种端点检测算法在语音信号信噪比特别低时检测均值误差都比较大,但随着语音信号信噪比的提高检测误差越来越小;(3)在信噪比为10~25dB的范围内,改进算法的检测均值误差相对短时能量算法的检测均值误差较小,且误差波动相对较小。由以上可知,在低信噪比环境下改进算法的端点检测效果相对较好。另外,随着信噪比提高,当信噪比高于30dB后,两种端点检测算法的均值误差几乎相近,此时都有较高的检测准确率。由图6(a)和图6(b)对比可知,对同一带噪语音信号,止点处检测均值误差相比起点处要大一些。

图6 带噪语音信号起止点均值误差图

4 结束语

本文提出了基于短时自相关最大值与短时过零率之积的改进算法,此算法的主要思想是利用清音、浊音和噪音信号不同的短时自相关特性来有效区分语音段和噪音段,利用短时过零率有效判别浊音和清音。将语音信号的短时自相关函数最大值与短时过零率相乘,然后进行端点检测。其主要特点为:(1)清音信号的每帧自相关函数最大值比较小,过零率较高。浊音信号的每帧自相关函数最大值比较大,过零率较低;(2)依据清音与浊音段的不同特性,以短时过零率算

法辅助修正短时自相关算法,可以有效避免清音段引起的检测误差,得到更加准确的语音端点;(3)对于低信噪比语音信号(10~25dB),本文提出的改进算法的检测均值误差相对较小,误差波动相对较小。由此得出,在低信噪比环境下,改进算法的检测准确率相对较高,具有一定的抗噪性。

[1]张雪英.数字语音处理及Matlab仿真[M].北京:电子工业出版社,2010.

[2]YiKCH,TianB,FuQ.Speechsignalprocessing[M].Beijing:NationalDefenceIndustryPress,2000.

[3]GhoshPK,TsiartasA,NarayananS.Robustvoiceactivitydetectionusinglong-termsignalvariability[J].IEEETransactionsonAudio,Speech,andLanguageProcessing, 2011, 19(3): 600-613.

[4]Bou-GhazaleSE,AssalehK.Arobustendpointdetectionofspeechfornoisyenvironmentswithapplicationtoautomaticspeechrecognition[C].Shanghai:ProceedingofIEEEICASSP, 2002.

[5]ShafranI,RoseR.Robustspeechdetectionandsegmentationforreal-timeASRapplications[J].Acoustics,Speech,andSignalProcessing,Proceedings, 2003(1): 6-10.

[6]蔡莲红,黄德智,蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社,2003.

[7]LiQ.Robustendpointdetectionandenergynormalizationforreal-timespeechandspeakerrecognition[J].IEEETransactionsonSpeechandAudio,2002,10(3):146-157.

[8]韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2013.

[9]肖军,袁剑峰,栾江峰,等.一种基于短时能量和高阶差分的端点检测方法[J].北京师范大学学报,2012,48(2):146-147.

[10]郭丽惠,何昕,张亚昕,等.基于顺序统计滤波的实时语音端点检测算法[J].自动化学报,2008,34(4):419-420.

[11]尹岩岩,殷业,罗汉文,等. 基于短时能零熵的端点检测方法[J].计算机仿真,2012,29(11):408-409.

[12]王纲金,赵欢.低信噪比环境下语音端点检测方法研究[D].长沙:湖南大学,2011.

[13]陈栋,赵荣椿.语音信号前端处理技术研究[D].西安:西北工业大学,2005.

[14]宋知用.Matlab在语音信号分析与合成中的应用[M].北京:北京航空航天大学出版社,2013.

Speech Endpoint Detection Algorithm Based on Short Time Autocorrelation and Short-time Zero Crossing Rate

JIZhenfa,YANGHui,LIRan,JINYinchao

(SchoolofOptical-ElectricalandComputerEngineering,UniversityofShanghaiforScienceand

Thetraditionalendpointdetectionalgorithmbasedonshort-timeenergycandetectspeechendpointaccuratelyinhighSNRenvironment,buttheeffectisnotsatisfactoryinlowSNRenvironment.Forthispurpose,animprovedalgorithmisproposedbasedonthemaximumvalueofshort-timeautocorrelationandthezerocrossingrate.Theshort-timeautocorrelationmaximumisusedforvalidspeechsegmentsareaandnoise,whiletheshort-timezerocrossingratefortheeffectivedetectionoftheunvoicedsignal,thuseffectivelydetectingtheendpointofthespeechsignal.ExperimentsshowthattheimprovedalgorithmreducesthedetectionerrorcomparedtotheshorttimeenergyalgorithminthelowSNRenvironment,anditcaneffectivelydetectthespeechendpoint.

endpointdetection;short-timeenergy;short-timeautocorrelationmaximum;short-timezerocrossingrate

2015- 12- 14

纪振发(1990-),男,硕士研究生。研究方向:信号处理。杨晖(1981-),男,博士,副教授。研究方向:光学精密测量。

10.16180/j.cnki.issn1007-7820.2016.09.015

TN912.34

A

1007-7820(2016)09-052-04

猜你喜欢
清音端点信噪比
《山水清音》
《园林清音》
非特征端点条件下PM函数的迭代根
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
基于深度学习的无人机数据链信噪比估计算法
不等式求解过程中端点的确定
低信噪比下基于Hough变换的前视阵列SAR稀疏三维成像
基丁能虽匹配延拓法LMD端点效应处理
保持信噪比的相位分解反褶积方法研究