裴春宝
( 西藏大学 藏文信息技术研究中心,拉萨 850000)
DHMM在家用安全门藏文语音识别中的应用
裴春宝
( 西藏大学 藏文信息技术研究中心,拉萨 850000)
对于家用安全门的防护措施,除了传统的安全锁,目前也使用一些指纹识别技术。给出了一种安全性更高的基于DHMM的家用安全门藏文语音识别系统。通过语音的监控方式,引入矢量量化(VQ)算法,同时建立安全门语音的离散隐马尔科夫模型(DHMM)。通过MFCC的特征参数抽取,将LBG算法应用在藏文码书设计中,导出多观察序列的参数重估形式。在实验中选择30个人的语音信号作为实现对象,结果表明,识别准确率达到99%以上,验证了此方法的可适用性。
隐马尔科夫模型;藏文语音识别;矢量量化
随着时代的发展,人们对于生活的要求越来越高,应运而生的无线传感技术、无线通信技术以及无线网络技术都有了长足的发展。传统的家用安全门是针对安全锁进行升级,使得用户通过尽可能繁琐地调整锁来保证人身和财产的安全,但会导致一旦钥匙丢失,或者密码锁的密码遗忘,都会给用户带来不必要的麻烦,对自身的物力和财力都会造成消耗。
本设计提出的离散隐马尔科夫模型是一种统计模型,在语音识别领域得到了很好的应用。其理论基础源于1970年左右Baum等[3-4],随后,CMU的Baker和IBM公司的Jelinek等将它引入到语音识别中[1]。真正的HMM模型被全世界的语音研究人员所认识是通过Bell实验室的Rabiner等人的努力。随着HMM模型的进一步演化,它的应用领域也在不断扩大,目前已在金融市场的波动分析、手写字识别[9]、手势识别[11]、旋转机械启动故障诊断[2,16]、电源监控[10]、经济预算、语音识别、神经生理学与生物遗传等方面有了很好的应用。家用安全门设计的音频信号是非平稳的,DHMM模型是一种模拟非平稳动态模型的多元统计工具[12]。在很多领域图形识别和语音识别被广泛地应用,需要通过对局部结构特征的分析得到关于目标和背景的先验分布信息,再进一步对比度特征和空间位置关系特征进行抽取[13-14]。
DHMM模型是一种随机过程的统计模型。在某一时刻的一个事件必然是处于一个状态,t时刻的状态会受到前一个时刻状态的影响,同时会产生一个观测值,观测值都会对应一个概率分布。
用参数集α=(π,C,D)描述DHMM模型。假设st,是通过有限状态空间Θ={1,2,…,M}的齐次马尔科夫链,Lt,t≥1是观测序列,取值范围为集合R={r1,r2,…,rn}。定义模型的参数:
初始分布η:
(η=(η1,η2,…,ηm)
ηi=P(s1=i),i∈Θ)
状态转移概率矩阵C=(cij):
cij=P(st+1=j|st=i),i,j∈Θ
观察值概率矩阵D=(di(rj)):
di(rj)=P(Lt=rj|st=i),i∈Θ,rj∈R
1.1 DHMM观察序列的参数重估
给定观察序列L是DHMM模型的重要内容。通过调整模型参数α,得到概率P(L|α)的最大值,实现参数的重估。标定需要很多样本的参与才能解决前后向变量的溢出问题。
多观察序列的Baum-Welch的重估公式为[5-7]:
(1)
(2)
(3)
同理,可得多观察序列观察值重估公式的标定形式为:
(4)
1.2 对隐状态的估计
κt(i)为沿某条路径s1,s2,…,st,t时刻的状态st=i同时生成观察序列l1,l2,…,lt的最大概率:
由归纳法可算出st(i),推理公式为
(5)
然而在计算机上实现时,κt(i)会超出双精度而出现溢出状态,所以实际计算κt(i)的对数值的步骤如下:
初始化:
lg[κ1(i)]=lg(ηi)+lg[di(l1)],1≤i≤M;
ψ1(i)=0,1≤i≤M;
对公式(5)取对数得到递推公式为:
则最佳状态的概率对数值为:
2 DHMM模型在家用安全门语音识别的应用
DHMM模型在家用安全门语音识别的结构系统主要分为训练过程和识别过程。这里提取的是语音的倒谱域参数,主要分为MFCC和LPCC参数[15],它们都是多维矢量,分别得出48维的MFCC和LPCC参数。HMM模型可把矢量序列转换为标量序列,矢量量化能很好地完成这样的任务。通过LBG算法[8]可完成码书的设计。
在模型的训练和语音识别中,以得到训练和识别语音的特征参数矢量和码书各个码字的欧式距离。通过最小序号的码字为观察值的帧,可以完成输入语音到观察序列的转换,能很好地应用于DHMM模型的训练和识别。
2.1 MFCC参数和LPCC参数的特征抽取
MFCC参数和LPCC参数是不同的两种特性区别,其中,MFCC参数通过人耳听觉来判断,而LPCC参数通过语音识别模型获得。MFCC参数抽取的过程如图1所示。
图1 MFCC特征参数的抽取
语音首先通过预加重和分帧以及加窗过程后,通过对每帧进行快速的傅里叶(FFT)转换,得到短时频谱;然后频谱通过48个Mel频率三角滤波器过滤。通过滤波器输出的每一个能量去对数,得到对数的能量,由对数能量得出DCT的倒谱。
2.2 DHMM模型的训练过程
对语音分段的阶段,需要选同一样的语音,一般每段语音的长度为20帧到600帧。训练过程是一个迭代的过程。观察值概率矩阵很重要,因此需要首先得出D的初始值。对于影响小的C和α可以根据训练模型的要求手动设置。计算D的初值,需要根据α、C、D的初值应用Viterbi算法得出语音的隐状态,同时得出各个观测值的概率,然后得到D的初值。
通过初始值可以实现参数重估的一直循环。应用Baum-Welch算法对模型进行重估,然后通过Viterbi算法计算重估模式下观测值序列出现的概率,稳定概率后,才可以停止参数重估的循环。为了确保训练模型准确率更高,选择迭代次数为 1 000 次。由多次的循环结束得到的结果,可以看到矩阵D的元素大多值为0,这样会使Viterbi算法算出的结果无效,需要在每次参数重估以后进行矩阵D的矫正,将0都改为最小的正数10-5,同时还要满足每一行的元素之和为1。
语音的开始都是从第一个字或者音素,开始和结束的状态固定。为了计算的方便,把发音的开始状态强制定义为1,则它的初始概率可以表示为
α=(1,0,…,0)
对于安全门的语音识别信号,需要对信号进行分割。通过随机的分割,来判断声音与原训练的语音模型是否相符。本文的模型状态是10个,所以它的初始状态为等概率状态为:
α=(0.1,0.1,…,0.1)
DHMM模型的参数C决定了模型的形式。DHMM模型的语音识别方式是开始状态和结束状态都是固定的,最后一个只能传到自身。
2.3 语音识别过程
选择30个人的声音作为语音识别对象进行实验。每种音频10个样本用于训练DHMM模型,另外10个样本用于识别,HMM模型的训练次数是 1 000 次。语音音频的采样频率为6MHz,经过截止频率为3MHz的低通滤波器后分帧,每帧为256个采样点,帧移为60个采样点。训练出的状态转移概率矩阵为Y:
从表1可以看出:语音男的概率对数值大部分相同,语音女的概率对数值大部分也相似,说明他们的音频相似,与实际情况相同。
语音识别的关键在于实时性,因此能无延时地识别语音而自动执行相关命令,具有很高的实用性。采用Viterbi算法实现识别功能,在Matlab仿真中,50帧长度的语音识别需要0.23s左右。
通过选择合适的帧,使得识别准确率更加的合理。从图2可以看出帧数与识别率的关系,帧数在30帧到80帧的时候识别准确率是比较高的;在帧数低于10时,识别准确率下降很快,高于80以后识别准确率也稍有下降。
表1 30语音个人在DHMM模型下的概率对数值
图2 语音的识别准确率与帧数的关系
去噪环境下,对MFCC参数的识别率在93%左右,LPCC的识别率在93.4%左右。在有噪声干扰的情况下,识别准确性会有所下降。当HMM个数减少时,准确识别率反而增高;码书的距离越大,识别率也越高,但会由于计算量的增加而延时,这样更便于用户对家用安全门的使用。
针对家用安全门的语音识别,采用MFCC作为DHMM模型的特征参数,同时应用矢量量化来进行构造模型和训练,完成对语音的分析和识别功能,使得语音识别的准确率达到96.5%以上,可应用在家用安全门以及一些其他方面。当有噪声干扰时,识别率会下降,需要进一步的研究。如果语音的音频不正确,则拒绝服务,这样能为人们生活的安全和方便带来深远的影响。
[1]JELINEKF.ContinuousSpeechRecognitionbyStatisticalMethods[J].ProceedingsofTricomm,1976,64(4):532-536.
[2] 邵强,冯长建,管丽娜,等.混合密度连续HMM在旋转机械启动过程故障诊断中的应用[J].机械科学与技术, 2009,28(11):1439-1443.
[3]LEONARDE,BAUMJ,EAGONA.AninequalitywithapplicationstostatisticalestimationforprobabilisticfunctionsofMarkovprocessesandtoamodelforecology[J].BulletinoftheAmericanMathematicalSociety,1967,73:360-363.
[4]BAUMLE.AninequalityandassociatedmaximizationtechniqueinstatisticalestimationforprobabilisticfunctionsofaMarkovprocess[J].Inequalities,1972(3):1-8.
[5]RABINERLR,LEVINSONSE,SONDHIMM.OntheapplicationofvectorquantizationandhiddenMarkovmodelstospeakerin-dependent,isolatedwordrecognition[J].TheBellSystemTechnicalJournal,1993:321-371.
[6]RABINERLR.AtutorialonhiddenMarkovmodelsandselectedapplicationsinspeechrecognition[J].ProcessingoftheIEEE,1989,77(2):257-285.
[7] 张金良,裴春宝,拥措.隐马尔科夫模型在列车无线传输中的应用[J].西安工程大学学报,2015(4):457-461.
[8] 韩纪庆,徐希利.一种基于矢量量化的音频场景分析方法[J].电声技术,2002(3):8-10.
[9] 肖明,贾振红.基于轮廓特征的HMM手写数字识别[J].计算机工程与应用,2010(33):172-174.
[10]程延伟,谢永成,李光升.基于加权HMM的车辆电源系统状态预测[J].计算机应用,2011(6):1696-1698.
[11]严焰,刘蓉,黄璐,等.基于HMM的手势识别研究[J].华中师范大学学报(自然科学版),2012(5):555-559.
[12]阙大顺,赵永安,文先林,等.基于DHMM和VQ的关键词识别系统研究[J].武汉理工大学学报,2011(2):140-143,152.
[13]张建勋,汪波,侯之旭,等.图像多特征融合的障碍物检测[J].重庆理工大学学报(自然科学),2015(3):65-70.
[14]曾祥鑫,李飚,刘坤.基于对比度和局部结构特征的显著性检测[J].重庆理工大学学报(自然科学),2015(9):93-97.
[15]竺乐庆,王鸿斌,张真.基于Mel倒谱系数和矢量量化的昆虫声音自动鉴别[J].昆虫学报,2010(8):901-907.
[16]丁启全,冯长建,李志农,等.旋转机械启动全过程DHMM故障诊断方法研究[J].振动工程学报.2003(1):41-45.
(责任编辑 杨黎丽)
The Application of DHMM in Home-Security Door with Tibetan Speech Recognition
PEI Chun-bao
(Tibetan Information Technology Research Center, Tibet University, Lhasa 850000, China)
Besides the traditional security lock, the protective measures of home-security door includes fingerprint identification.This study provides a more secure Tibetan speech recognition system based DHMM. By voice monitoring methods and the introduction of the vector quantization (VQ) algorithm, it established a security door voice discrete hidden Markov model (DHMM). By MFCC feature parameters extraction, it applied LBG algorithm in Tibetan code-book design, and exported observe parameters revaluation form sequence.30 persons’voice signals was chosen as the experiment object. The result showed a recognition accuracy rate of more than 99%, which verifies the applicability of this method.
hidden Markov model; Tibetan speech recognition; vector quantification
2016-04-18 基金项目:2016年度教育部人文社会科学青年基金资助项目(16XZJCZH001);西藏自治区自然科学基金资助项目(2015ZR-14-1);2014年度西藏大学青年科研培育基金资助项目(ZDPJZK201403);国家哲学社会科学重大项目(14ZDB101);西藏自治区高校青年教师创新支持计划资助项目(QC2015-19);西藏大学珠峰学者人才发展计划“杰出青年学者”阶段性成果
裴春宝(1980—),女,硕士研究生,主要从事语音识别研究,E-mail:375394610@qq.com。
裴春宝.DHMM在家用安全门藏文语音识别中的应用[J].重庆理工大学学报(自然科学),2016(11):150-154.
format:PEI Chun-bao.The Application of DHMM in Home-Security Door with Tibetan Speech Recognition[J].Journal of Chongqing University of Technology(Natural Science),2016(11):150-154.
10.3969/j.issn.1674-8425(z).2016.11.024
TP39
A
1674-8425(2016)11-0150-05