一种应用于智能家居的语音端点检测方法

2016-11-09 07:31田学民宋云燕
电子设计工程 2016年19期
关键词:端点门限智能家居

田学民,孙 飞,宋云燕

(河北工业大学 天津300401)

一种应用于智能家居的语音端点检测方法

田学民,孙 飞,宋云燕

(河北工业大学 天津300401)

提出了一种应用于智能家居的语音端点检测方法,综合利用语音信号的时域特性。设置了短时能量动态门限作为前端判定;对短时过零率算法做了抗干扰处理并结合平均幅度差函数做后期判定。实验结果表明,该算法能在室内信噪比较低的情况下准确地检测出语音信号,计算方法简单便于硬件实现,能够满足实时系统的需要。

语音识别;语音时域分析;智能家居;端点检测

21世纪以来人工智能得到飞速发展,语音识别、人脸识别等技术都取得了重大研究成果,甚至声纹技术已经出现。在高度智能化的今天,传统的家居已慢慢不能满足人们生活乐趣,新的智能家居成为新宠。本文正是以语音识别在智能家居中的应用而展开。

语音识别并不同于说话人识别,前者着重点在于语音内容的识别,后者在于说话的人的识别。语音识别技术的发展研究使得人机对话成为了可能,这一新的人机互动方式将预示着一个新的时代的开始。

语音识别系统一般包括前端处理、特征提取和模板匹配等几个模块组成,每一个模块都对识别的结果有着重要影响。研究表明,在信噪比良好的外界条件下,语音识别仍有50%以上的错误来自前端处理,而其中绝大部分错误都是因错误的识别出语音始末导致。由此可见,端点检测技术作为语音识别系统基础的存在在语音识别系统中扮演着至关重要的角色。端点检测技术的优秀与否有以下判决条件:1)判定门限应能够随外界语音条件的变化而相应改变;2)对于超过门限的噪声,如短时高频噪声也能够有效地归为非语音;3)能够清楚地判别语音停顿和语音结束;4)针对于FPGA等硬件,端点检测算法还要相对简单便于硬件实现以及满足实时性识别。

语音分析可分为时域分析、频域分析和倒频域分析,后两者虽然能够在恶劣的语音条件下仍有较为理想的识别效果,但由于其算法一般比较复杂,需要经过大量的乘法甚至更高级的运算不便于硬件实现[1],更不利于实时性的识别。因此,在一般条件下多采用短时能量、短时过零率等语音检测方法,而为了提高时域分析方法的准确性和适应性,笔者改进了一些算法和检测手段。

1 算法介绍

鉴于智能家居语音系统输入的语音信号来自室内语音,可能受到一些高频短噪声、电视或其他说话人的干扰。语音端点检测系统要求有较好的抗干扰能力,为了提高时域分析方法的准确性和适应性,笔者改进了一些算法和检测手段。端点检测的基本思路是:1)电视,其他说话人的干扰为无用的说话人语音,对语音识别干扰很大,但由于电视、其他说话人一般距智能家居(电视作为智能家居其语音系统构造不太相同,故不作考虑)较远,其语音信号能量较低,因此可以依靠语音信号的能量强度以予判别。2)针对于白噪声、瞬时高频噪声我们可以采用短时过零率和短时平均幅度差相结合的方法以予判别。

1.1短时能量和短时平均幅度

人的语音信号是不规则变化的,但其在极短的时间内可以看做平稳信号。对语音信号进行预加重、分帧加窗后我们可以得到每一帧的短时能量[2]:

由公式可以看出表示En的是输入信号振幅的平方,表示语音信号的能量。而正由于En是平方函数,其对电平变化非常敏感,我们可以利用这一特点用以区分能量相差较小语音信号。在室内环境下,说话人的语音中可能有电器工作的声音、其他说话人声音的干扰。但由于其能量较低,因此可设置短时能量门T限加以识别。能量门限T的选取一般是根据经验选取一个固定的能量门限,文中以前五帧信号的平均能量的1.5倍作为门限值T。

1.2短时过零率

短时过零率为一帧语音信号其语音信号波形传过横轴(零电平)的次数,对于离散的语音信号而言,过零率意味着语音信号改变符号的次数[3]。语音信号x(i)的短时过零率Zn定义为:

式中,sgn[]为符号函数:

从过零率的定义可以看出,平均过零率易受低频信号干扰,解决这个问题一般是在前端设置一个带通滤波器来减小随机噪声的干扰。在这里我们可以对平均过零率定义做一个小的修改,即设置一个能量门限Gt,将过零率的定义修改成跨过正负门限[4-6]。

于是,平均过零率的定义被修改为:

过零率的跨过门限Gt一般由经验所得。其实 ,任何一种语音信号都有其频率范围,根据这个特点我们可以设置过零率的第二个门限Gz。人们发出的语音有清音和浊音,清音频率高故而过零率高,浊音频率低过零率低。对于人来讲女声频率高、男声频率低,由此可以确定语音过零率的大致范围Gz1,Gz2。当连续N帧语音ZcrGz2时,语音系统质疑是否为语音信号。

1.3短时相关分析

信号的短时相关分析一般借助于短时自相关函数,由于自相关函数自身的一些性质:如果输入信号具有周期性,则其也为周期函数并具有相同的周期,利用自相关函数的性质,自

相关函数可以运用到信号处理的时域分析中,自相关函数的定义为:

其中0

假设语音信号是周期信号,其周期为T,则相距为NT的样点的幅值是相等的,差值为零,即:

考虑到实际的输入信号不是绝对的周期信号,等式右边不为零,但等式右边将会是极小的数,由此可得短时平均幅度差函数:

对于单频信号而言,它是一个准周期信号,所以信号的差值在kT处必然很小,白噪声周期性差,没有明显的极小值,而语音信号的周期性介于两者之间。如此,当FL

2 语音端点检测整体流程

考虑到说话人可能会有极小的语音停顿,文中设定只有连续14帧无法检测到语音信号时系统才认定语音结束,同时为了避免遗漏有用的语音信号错误判断语音结束,系统在确定语音开始后其判断条件设定较低。语音端点检测系统的语音起始条件为:En连续7帧有4帧超过门限T且Zcr、Fn是否满足。语音结束条件为:En连续7帧有4帧超过门限T或Zcr、Fn是否满足。

语音检测流程如图1所示。

3 仿真结果

语音端点检测的短时能量门限由输入的前五帧信号决定,在一定程度上提高了端点检测系统的稳定性;Zcr以及AMDF门限由实验经验所得[7]。

图2 语音信号的短时能量及过零率

图3 语音信号的AMDF

图4 白噪声的AMDF

文中所使用语音信号为录音软件录制的单声道、8位、8.000 kHz音频文件,使用Modelsim和Matlab联合仿真。短时能量、过零率仿真结果如图2:Speech为经过归一化的语音信号,短时能量、过零率在语音始末很快有相应改变,能够很好地反映语音信号的变化。图3、图4分别为白噪声和语音段的平均幅度差函数。在实际应用的情况下,由于硬件仿真中平均幅度差比软件相应要大,所以应该根据实际进行调整。

4 结 论

通过语音端点检测的理论研究和实验结果,可以得知:在室内即使存在其他说话人的干扰,但由于距语音接收系统较远,很难被接收;其次由于短时能量门限为动态门限以及短时过零率、平均幅度差函数的后期判定,即使在如播放歌曲的室内环境下依然能有90%以上的识别率。由于电视、音箱等可能作为智能家居出现,在其工作时必然会对语音识别造成极大影响,因此如何在极强语音干扰中识别所需语音将是今后的研究方向。

文中提出的应用于智能家居的语音识别系统能在室内环境中起到很好的识别效果,所涉及到的算法简单,满足语音识别的实时性要求并且便于FPGA硬件实现。

[1]王宏禹,邱天爽.自适应噪声抵消和时间延迟估计 [M].大连:大连理工大学出版社,1999.

[2]张雄伟,陈亮,杨吉斌.现代语音处理技术及应用[M].北京:机械工业出版社,2003.

[3]王帆.鲁棒语音识别中声学特征的提取与处理研究[D].北京:清华大学,2002.

[4]GervenS,XieFei.Acomparativestudyof speech detection methods[C],EUROSPEECH,Greece,1997.

[5]W.Gin-Der and L.Chin-Teng,Word boundary detection with meI-scale frequency bank in noisy environment[C]. IEEE Transactions on Speech and Audio Processing,2000.

[6]Christoph Bandt,Bernd Fompe.Permutation entropy-a natural complexity measure for time series[C].Phys.Rev. Lett.2002.

[7]马莉,党幼云.特定人孤立词语音识别系统的仿真与分析[J].西安工程大学学报,2007,21(3):371-373.

A kind of speech endpoint detection method is app lied to intelligent household

TIAN Xue-min,SUN Fei,SONG Yun-yan
(HebeiUniversity of Technology,Tianjin 300401,China)

Put forward a kind of speech endpoint detection method is applied to the intelligent household,comprehensive utilization of time-domain features ofspeech signals.Setup a short-time energy dynamic threshold as the front-end judgement;Did anti-jamming processing algorithm for short-time zero crossing rate and averagemagnitude difference function to do later. Indoors experimental results show that the algorithm can accurately under the condition of low signal noise ratio(SNR)to detect the speech signal,the calculationmethod is simple and convenient forhardware implementation,can satisfy the need of real-time system.

speech recognition;the time domain analysis of speech;smarthome;endpoint detection

TN912.34

A

1674-6236(2016)19-0089-03

2015-09-09稿件编号:201509072

田学民(1967—),男,天津人,博士,副教授。研究方向:半导体材料及光电器件的研究开发。

猜你喜欢
端点门限智能家居
非特征端点条件下PM函数的迭代根
基于规则的HEV逻辑门限控制策略
随机失效门限下指数退化轨道模型的分析与应用
VoLTE感知智能优化
基于PLC的智能家居控制系统研究
不等式求解过程中端点的确定
基于Neyman-Pearson准则的自适应门限干扰抑制算法*
基于Zigbee的无线通信技术在智能家居中的应用
关于智能家居真正需求的探讨
基丁能虽匹配延拓法LMD端点效应处理