马晓梅,韩 娜
(黑龙江科技学院)
语音增强技术在关键词检测系统中仿真研究*
马晓梅,韩 娜
(黑龙江科技学院)
描述了一个机票定制系统,在强噪声环境的公共场所针对汉语小词汇量非特定说话人的连续无限制语音流中检测出其中的关键词语音.为增强其关键词语音信号提出建立一种新的基于行为模式分解的语音增强算法.对同一噪声环境下增强关键词语音信号的HMM与未增强关键词语音的HMM进行了比较,结果显示,采用增强语音信号强度的算法在提高关键词的检测率同时,有效地降低了虚报率,系统的整体性能较好,具有一定的可行性与实用性.
关键词检测;模式分解;语音增强;虚报率
关键词检测(Keyword Spotting,KWS)技术是近几年来颇受重视的语音识别的一个研究领域,也是多年一直备受关注的研究热点问题.在监听、命令控制、语音拨号、通信、对话系统等人机对话系统中,并不需要正确无误的将说话人的连续自然语音逐词逐句的识别出来,而只需检测出其中的关键性词汇,这就是关键词检测技术[1].而在关键词检测过程中,人们不可避免地会受到来自周围环境、传输媒介引入的噪声、通信设备内部电噪声、乃至其它讲话者的干扰.这些干扰最终将极大程度的降低关键词检测率,为有效提高关键词检测率提出了一种新的基于行为模式分解的语音增强算法.
若要让机器能够快速准确的在非特定说话人的连续自然语音中检测出关键词,可以从检测算法、语音信号特征参数的提取或增强系统鲁棒性等方面提高检测效率.本文针对用户购买机票开发了机票定制系统,在强噪环境下采用行为模式分解算法有效增强关键词语音,实验结果表明,该语音增强算法的应用与传统未去噪的关键词检测技术相比,在降低虚报率的同时,系统的检测率有了很大的提高,具有一定的可行性.
有物理意义的瞬时频率要求信号是单分量信号,而非平稳信号通常都含有多个单分量信号,即通常都是多分量的.由此对于语音信号等非平稳信号,必须要把它分解为渐进单频信号,这个过程由EMD方法来完成[2].
对任意信号s(t),首先确定出s(t)的所有极值点,然后将所有极大值点和所有极小值点分别用一条曲线拟合出来,使两条曲线间包含所有的信号数据.这两条曲线分别作为信号s(t)的上下包络线.若上下包络线的平均值记作m,s(t)与m的差记作h,则
将h视为新的s(t),重复以上操作,直到h满足一定的条件(如h变化足够小时),记
将c1视为一个IMF,再作
将r视为新的s(t),重复以上过程,依次得到第二个IMF c2……,当cn或r满足给定的终止条件时,筛选过程终止,得分解式
则信号s(t)被分解为IMF的和.需要补充的是,理想情况下,h1(t)为一个IMF,但由于包络线拟合过程中容易出现过冲和欠冲现象,并且筛选过程中可能遗漏极值点,对h1(t)要进行反复筛选直到满足IMF的条件为止.反复筛选过程有两个目的:一是消除模态波形的叠加;二是使波形轮廓更加对称.
对于分解后的结果,和小波变换类似,都是由高频到低频分布的,但小波变换各分量,我们可以计算出其中心频率,而IMF分量是无法计算的,因此对于各层上的噪声能量也无法推出相互之间的关系.
表1为3种不同能量大小的白噪声分解后各层的能量对比,前3层能量占了总能量的87%,相当于几乎把全部的高频分量集中在了前3层,这对于去噪具有重要的意义.
表1 能量对比
对三个不同的语音样本进行行为模式分解,语音采样率为11025.语音能量及其分解后各层的能量如表2所示.
表2 行为模式分解对比
由表2可知:通过行为模式分解方法,语音信号被分解为多个IMF分量的和,语音信号含有较少的高频成分,因而第一与第二个IMF分量能量较低,主要的信号成分分布在第三、四及第五个IMF中,其中第三层最重要.需要注意的是,由于EMD分解方法的不完备,即端点飞翼和过冲、欠冲问题,因而分解后IMF能量和与原纯净语音信号的能量出现了较大的偏差.
对于工作较忙、经常旅游或出差的人来说,为了节省时间提供效率,势必会选择乘坐飞机出行.而多数情况要选择订票的环境场所噪声较大,所以要快速准确检测出说话人连续语音中的关键词势必要增强你的关键词语音.
在实验中,所用的语音数据的采样率为11025 Hz,语音为“我想订一张从哈尔滨飞往北京的飞机票”的男声发音.采用基于词典表结构的填料模型检测非关键词语音“我、想、订、一、张、从、飞、往、的、机”,在检测关键词语音“哈尔滨”与“北京”时所用噪声为白噪声,噪声估计采用离散余弦方法对IMF区的高频区进行估计.
对于系数的处理,由于噪声主要集中在固有模态分量的前两层上,因此我们直接舍去前两层.对于后几层分量,采用概率阈值处理方法进行处理.
纯净语音在不同信噪比下去噪前后的波形,其中白噪声已得到有效地消除,中间部分的清音部分有一些损失,但对语音的可懂度损伤很小.
笔者将输入语音视为非关键词语音、关键词语音与背景噪音模型组成,为每个关键词训练一个HMM声学模型,非关键词训练填料模型,背景噪音训练静音模型.其结构如图1所示.图中的Keyword1~KeywordM代表M个关键词模型,Filler1~Filler N代表N个填料模型.非关键词语音均采用词典表结构进行建模,这种基于词(单音节或多音节)的建模,将训练语音按词典顺序排放,当用户需要订机票时,而只需对着系统说出包含地点名称的语音序列,系统会自动在输入语音序列中按照其非关键词语音的首字母在词典中顺序搜索其对于序号,再与其模型相匹配.
自行建立的训练语料库为单声道信号,当训练模拟的语音信号输入声卡后,要对其进行11025 Hz采样,16bit的量化.整个训练语料库由20多个嵌有关键词的语句组成共100句训练样本,其中关键词数量为9个地点名称.参与训练的共有9人,其中男性4人,女性5人,年龄分布在20岁到40岁之间.由这9人分别说9个不同的地点名称,包括:“哈尔滨”、“北京”、“大连”、“沈阳”、“天津”、“广州”、“深圳”、“三亚”、“南京”来训练9个关键词的HMM声学模型,其中,每个关键词都录制7个训练样本.本文所涉及的基于地名的机票定制系统是应用在查询控制方面的,常见的非关键词语音也是可以预料的,训练非关键 词 语 音 有 wo, xiang,ding,mai,yi,zhang,qing,wen,cha,zhao,you,等共计20个,对这些非关键词语音也由上述人员录制语音数据训练相应的填料模型.同时,还要录制测试语音数据,由上述人员及参与训练以外人员完成测试.
对于训练样本要加汉明窗,帧长为15 ms,帧移为10 ms,对输入的测试语音信号要采用基于分形维的汉语音节实时分割技术进行音节切分.在进行特征提取时,每帧语音信号提取12维LPCC和MFCC参数和它们的二阶差分系数12维,分别组成24维的特征参数.检测系统的识别基元使用无跨越从左向右的连续CHMM模型,每个CHMM有7个输出状态,每个状态有64个高斯分量,经过迭代得出关键词模型、填料模型和静音模型.
图1 关键词检测系统的语法网络图
实验采用开发环境为硬件:内存512 M、CPU1.7 GHz和普通麦克风入口,软件工具为Matlab7.0作为编程和测试平台.
在进行关键词检测时,首先对输入语音要采样、量化,并结合行为模式分解算法增强关键词语音信号,从而粗判语音信号起始点,结合分形维的汉语音节分割技术将待测语音分成音节和音节片段.对输入语音按填料模型、关键词模型的顺序进行匹配,采用Viterbi算法计算匹配得分.在与HMM模型匹配时计算每个匹配的得分,直到得分低于某个阈值,说明当前的语音是非填料语音,此时就应与每个关键词模型逐个进行匹配,从而对非关键词语音进行有效拒识,得出最终的检测结果.
以数据库中5个人录制的数据作为测试数据,每个测试语音为4~6 s.
对基于关键词首音节的HMM模型有8个,其中,关键词“水壶”与“水杯”共用一个首音节“shui”.对本文提出的基于行为模式分解的关键词语音模型有9个,采用与训练相同的特征向量提取算法与置信度算法计算匹配得分,检测结果如表3所示.
表3 关键词语音增强对检测性能的影响
从检测结果看,除检测时间相差0.21 s外,采用基于行为模式分解的算法增强关键词语音在检测率与虚报率两方面的性能都明显优于未增强关键词语音的模型.
针对基于地名的机票定制系统中增强关键词语音模型与未增强关键词语音模型的结构和类型进行了研究,实现了基于行为模式分解的关键词语音增强算法.在检测过程中采用并采用分形维的汉语音节分割技术对输入语音进行音节切分,对关键词与非关键词进行了有效的拒识.与传统的关键词模型相比,对于不同的虚报率关键词的检测率有了很大的提高.从实验结果中也可以看到,虽然检测率相对来讲有了提高,但是只达到了0.89,所以对于模型的结构还有待于进一步的研究.
[1]王炳锡,屈丹.实用语音识别基础.北京:国防工业出版社,2006.
[2]李星星.基于HMM的汉语语音关键词检测研究与实现.武汉:武汉理工大学信号与信息处理专业,2009.4.
[3]李宏伟,段艳丽,郭英.基于帧间重叠谱减法的语音增强算法及实现.空军工程大学学报:自然科学版,2001,2(5).
[4]刘聪,胡郁,戴礼荣,等.一种针对区分性训练的受限线性搜索优化算法.模式识别与人工智能,2010,23(4):167-171.
[5]Sunil Devdas Kamath.A mulit-band spectrul subtraction method for speech enhancement aster thesis.The University of Texas at Dallas,2001.
The Simulation Research on Speech Enhancent Technique in the Keyword Spotting System
Ma Xiaomei,Han Na
(Heilongjiang Institute of Science and Technology)
In this paper,a plane ticket advance booking system is described,which aims at keyword speech and non-keyword speech that present to continuous unconditional speech stream for non-special speaker in Chinese small vocabulary.A new speech enhancent arithmetic based on behavior pattern decomposition is offered,in order to enhance the keyword speech.The comparison of keyword HMM based enhancent keyword speech with the keyword speech is made,the results show that the enhancent keyword speech has a great improvement in the probability detection for the keyword and falling the false report,the whole system has a better capability and the practicability properly.
Keyword spotting;Pattern decomposition,Speech enhancent;False declaration
2011-02-24
*黑龙江省黑龙江科技学院引进高层次人才科研启动基金项目(06-132)
(责任编辑:李佳云)