藏语拉萨话语音信号端点检测的研究

2016-01-15 00:21张提

中文信息 2016年1期

摘要：本文主要研究的是基于藏语拉萨话的语音信号端点检测。端点检测目的就是为了在噪杂的环境下判别出语音信号的开始以及结束。在识别的过程中，需要识别的语音跟语料库里的语音需要在时间上加以校对，而校对的精准度则依赖于端点检测的准确度。本文主要介绍了“双门限法”的端点检测算法。用Matlab进行编程和实验，结果表明，在低噪声环境下，具有相当好的性能。

关键词：端点检测特征参数短时能量双门限法

中图分类号：TN912 文献标识码：A 文章编号：1003-9082（2016）01-0006-01

一、引言

目前，对自动语音识别在一般非噪杂环境下的研究已经达到了一定程度。为进一步提升其识别效果，我们让其应用于噪杂的环境中，研究其识别效果。其中，文献[1]提出了批处理模式算法可以精确的检测到端点，使得计算复杂度少了很多。文献[2]中主要是设计了一个滤波器，为了提高精度和鲁棒性的检测，将滤波器加入到自动语音识别中，从而达到所需要的效果。文献[3]对于孤立词识别系统的描述，利用LPC分析未知单词，K-最近邻（KNN）决策规则，动态时间规整每个未知单词的参考模板，以此来得出结果。

从端点检测的提出到现在，已经研究出一些方法实现。端点检测通常是对其特征参数的研究，包括一些语音信号最基本的信息，如特征信息、语义信息等等。采用本文研究方法效果最好，但此方法并不能直接有效的确定出语音信号的始端和尾端，只是可以模糊的判断出语音的大概位置。找到了大概位置之后就可以将一段语音的清音和噪音分离开，这样才能较为精确地确定语音的起点和终点的位置。

二、基于短时能量的端点检测

短时能量通常适用于SNR（Signal-to-Noise Ratio，简称SNR）较高的噪声环境下的语音信号，高SNR噪声环境下的检测正确率较高。通常，噪声环境下利用短时能量算法进行检测所需要的计算量也比较小。短时能量的定义如下：

其中，。

图1 语音信号的短时平均能量实现图

如图1所示，窗口加权短时能量就是将语音信号进行平方运算，然后通过线性滤波器低通滤波进而输出。低通滤波主要为了减少外来的噪声的影响以及大部分共振峰的影响。语音信号的平方在一个冲激响应为的线性滤波器的作用下输出的就是短时能量。所以，窗函数的选择对短时能量的性质起着决定的作用，有两个方面的原因，一方面是使用哪种类型的窗函数，另一方面是窗长度设置多长最合适。若窗的长度设置相对较短，随着时间的变化导致短时能量发生剧大变化，所以就无法得到平滑的能量函数。通常情况下，窗长设置为几个基音周期的数量级。

三、短时平均过零率

短时平均过零率中过零就是指语音波形与坐标轴的交点，在离散信号序列上的表现就是相邻的两个采样值是异号，也就是单位时间内与坐标轴相交的点数。简单来说，在语音信号的分析当中，通常把短时平均过零率看作是一类特征参数。其定义如下：

其中，sgn[x]是取符号函数，它的定义为：

从定义中我们看出，短时平均过零率实际就是离散型信号采样点的符号的变化的次数，为了使过零的计算更加的准确，我们使用了滤波器对原始信号进行带通滤波。对于短时平均过零率的算法流程分以下三个步骤，第一，要对语音信号序列划分成成对的，我们所要做的就是通过查看符号的正负变化，来记录其过零的情况，如果涉及到符号的正负变化，则记录一次过零现象。第二，对于离散信号得到的序列要进行一阶差分运算来实现奇异点检测。第三，对其进行低通滤波。

由于一般情况下浊音通常具有较低的过零率，而清音则具有较高的过零率，所以在某种程度上，短时平均过零率能够反映出频率的高低，所以通常用来清浊音的初步判断。简单来说，就是短时能量更适合浊音的检测，短时平均过零率更适合清音的检测，所以对于一般的发音，仅仅用其中一种方法来检测是远远不能达到我们所需要的效果。因此，将两者结合起来对端点进行检测将会达到很好的结果。

四、双门限法端点检测

双门限端点检测算法通俗来说，就是在一段语音信号上通过上、下设置两个限制来进行端点的检测。通过以上研究，我们得到短时能量对于信号的浮动比较敏感，所得到的数值又计较小，可以将其设置成低门限。而计算短时平均过零率得到的数值比较大，只有信号足够强的时候才可以超越，所以将其设置为高门限较为合适。这就是本文主要讲的设置了两个参数的“双门限法”端点检测算法。

五、结束语

本文使用Matlab软件对双门限端点检测法进行编程和仿真，实验语音采用的是男声藏语拉萨话，在安静的环境和带有噪声的环境下分别作出了分析。实验证明，短时能量及短时平均过零率更适合在有噪声的环境下进行端点检测，同时说话人的情感对检测结果也有一定的影响。

参考文献

[1] LI Q.Robust Endpoint Detection And Energy Normalization For Real-TimeSpeech And Speaker Recognition[J].IEEE Trans.on Speech and Audio，2002，10（3）：146-157.

[2]CH Lee，QP Li.Method and apparatus for performing real-time endpoint detection in automatic speech recognition[J].US，2004.

[3]LR Rabiner，SE Levinson，AE Rosenberg.Speaker-independent recognition of isolated words using clustering techniques[J].Acoustics Speech & Signal Processing IEEE Transactions on，1979，27（4）：336-349.

作者简介：张提（1991-），女，河南周口人，在读研究生，研究方向为计算机网络与应用。