鲜晓东,吕建中,樊宇星
(重庆大学 a.信息物理社会可信服务计算教育部重点实验室;b.自动化学院,重庆400044)
基于密度与距离参数的CHMM声学模型初值估计
鲜晓东a,b,吕建中b,樊宇星b
(重庆大学 a.信息物理社会可信服务计算教育部重点实验室;b.自动化学院,重庆400044)
在语音识别中,连续型隐马尔可夫模型(CHMM)在初始化时采用分段K-means算法,但该算法会导致模型参数收敛于局部最优。针对该问题,提出基于密度和距离参数的CHMM模型初始化算法。计算数据对象的距离和密度参数,选择密度值较大而同时距离较远的数据对象作为初始聚类中心,对其进行K-means聚类处理,得到最终的聚类中心,根据聚类中心初始化CHMM模型的参数。实验结果表明,与随机取值算法相比,该算法提高了语音的识别率。
语音识别;连续型隐马尔可夫模型;K-means算法;局部最优;参数初始化
DO I:10.3969/j.issn.1000-3428.2015.10.060
在语音识别中,关键的问题是建立每个语音识别基元的声学模型。目前,应用较多的是隐马尔可夫声学模型。连续型隐马尔可夫模型(Continuous Hidden Markov Model,CHMM)[1]由于其计算精度高的优点,在声学模型中有较好的应用前景。对于连续型隐马尔可夫声学模型的研究主要有2个方面的内容:声学模型的训练和声学模型的匹配。对于声学模型的训练采用的是Baum-Welch迭代算法。Baum-Welch算法不是一种解析算法,它是在给定初始模型的基础上,不断趋近于局部的最优解,不同的初始模型会得到不同的CHMM,因此,初始模型选取的准确程度影响语音识别的精度。目前,初始模型的选取主要采用分段K-means算法。
K-means算法[2]是一种基于划分的聚类算法,应用比较广泛,它的优点是计算简单快速,但是也存在一些不足,不同的初始聚类中心会产生不同的聚类效果,同时会受到数据边缘点和孤立点的干扰。很多学者对K-means的初始聚类中心的选取[3]以及
聚类过程[4]进行了研究。文献[5]通过在聚类过程中进行变量的自动加权对传统算法进行改进。文献[6]将遗传算法应用到了K-means聚类算法中,文献[7]对遗传算法的全局搜索和K均值算法的局部搜索进行了结合聚类,文献[8]将粒子群优化与K-means进行混合聚类来提高全局搜索功能,但是这些算法计算量比较大。文献[9]提出了一种基于空间划分的初始聚类中心选取的方法。文献[10-11]提出了基于密度的初始化聚类算法,文献[12]提出了基于距离聚类的初始化算法,但是这2类算法中各有不足,基于密度的没有考虑类间的相似度,而基于距离的没有考虑类内的相似度。因此,本文采用结合距离与密度的方法进行初始聚类中心的选取,同时将该方法应用到语音的识别中。
一个语音识别基元的隐马尔可夫声学模型可以由4个参数来描述,分别定义为:
(1)N,模型中的状态总数;
(2)π={πi},初始的状态概率分布,表示开始时处于第i个状态的概率;
(3)A={aij},状态的转移概率分布矩阵,表示状态由i转移到j的概率;
(4)bi(Ot),概率密度函数,表示处于状态i时,第t个输入序列的输出概率。
采用混合高斯函数作为概率密度函数,每个状态下对应一个混合高斯函数来表示该状态下的输出概率。
混合高斯函数表示为:
2.1 传统的初始化算法
在CHMM的初始模型选取中,对于状态转移概率,可以采用随机取值和均值取值,对于状态初始概率,一般是根据所选模型类型进行取值,初值选取的关键主要在于混合高斯密度函数各个参数的选择上,一般采用分段K-means算法。
分段K-means算法是采用分段聚类的方法,将训练数据分割成K类,将每类的均值向量和协方差矩阵作为高斯分量的初始均值向量和方差向量。
算法具体步骤如下:
(1)将语音训练数据分成N段,N为训练模型的状态总数,每段为该状态下对应的观察值向量,这样完成了分段。
(2)在每个状态下的训练数据中,随机选择K个特征矢量作为聚类的初始中心矢量。
(3)其余的点根据欧式距离计算与各个聚类中心的距离,选择最小距离对应的聚类中心作为其类别。
(4)计算各类中数据的均值矢量,作为新的聚类中心,如果新的聚类中心与原聚类中心的距离满足要求,说明聚类完成,否则转第(3)步,继续进行聚类处理。
(5)聚类完成后,得到K个聚类中心,即每一类的均值矢量,同时计算每一类的方差矢量,将其作为高斯密度函数的均值和方差的初始值。
传统算法的优点是计算过程比较简单,但是这种算法在聚类过程中有缺点。隐马尔可夫模型的参数优化算法依赖于初始值的设置,在初始值的基础上不断趋近最优的一组参数,对于初始参数比较敏感,不同的初始参数会产生不同的训练模型,而传统的短算法对于初始值的计算比较粗略,是随机选取了K个聚类中心点进行的计算,没有结合训练数据的特点,因此,最终的聚类结果的准确性受到影响。
2.2 基于密度和距离参数的初始化算法
根据分析,可以知道初始聚类中心应该遵循这样的原则:
(1)聚类中心之间的距离尽量大,这样类别之间的相似度较差;
(2)聚类中心应该处在数据密度大的地方,这样类内的相似度较强,同时可以消除孤立点的影响。
基于数据密度和数据距离的聚类算法的基本思想是:首先计算每个训练数据对象的密度值,以及任意2个对象的距离,通过这2个参数,选择K个数据对象作为初始聚类中心,满足密度值较大,同时任意2个中心的距离较远,然后采用K-means的算法进行聚类。
定义密度:以数据对象χ为中心,半径为R的空间区域内包含数据对象的数目称为数据 χ的密度,用ρ表示。ρ越大,表示数据对象χ所处的区域数据对象比较集中,类内的相似度较高,反之,则类内相似度较低,可能是孤立点或噪声干扰。
具体的算法描述如下:
(1)计算任意 2个对象之间的距离:dχy=组成距离集合D,同时求取平均距离。
(2)由平均距离设定半径R,根据R计算训练的数据对象的密度值,组成密度集合M。
(3)选择M集合中密度值最大的数据对象作为第1个初始聚类中心,在集合M中剔除χ1,从M集合中选择第2个初始聚类中心 χ2,满足的条件是在
与χ1的距离不小于R的数据对象中χ2的密度值是最大的,然后选择第3个聚类中心 χ3,同样在与 χ1,χ2的距离均不小于2R的数据对象中χ3的密度值是最大的,进行选择k次,得到k个初始聚类中心。
(4)将第(3)步计算选择出的聚类中心作为初始中心,然后采用K-means算法对语音数据进行聚类处理,从而将语音的训练数据分成K类,每类的均值矢量作为高斯概率密度函数的均值估计,方差矢量作为高斯概率密度函数的方差估计,由每类的数据对象的总数得到对应的高斯分量的权值。
以上算法完成了按照数据对象的密度和距离参数的初始化处理,克服了K-means的初值随机选择的缺陷,使选择出的初始聚类中心能够最大程度表征数据对象的分类。根据距离准则是类间数据对象的距离较大,相似性较弱,而同时结合密度参数,保证了所选的聚类中心不会是孤立点,这样得到的高斯概率密度函数较准确,有利于进行模型参数的重估。
本文算法首先需要计算距离和密度,并通过计算得到初始聚类中心,较传统算法复杂,单次迭代的复杂度较高,但是基于密度和距离选择初始聚类中心的算法因为克服了传统算法的初值随机选择的缺陷,初值聚类选择得比较恰当,迭代次数会减少,使得本文算法的速度快于传统算法。
K-means算法是一种经典的聚类算法,应用比较广泛,计算简单快速;文献[10]算法相比其他优化算法在考虑聚类效果的前提下,计算量较小,实现比较容易。为了验证本文算法的有效性,对特征参数分别采用传统K-means聚类算法、文献[10]算法以及本文算法进行比较。进行仿真实验,录制了30段语音词组,通过预处理和特征提取之后,得到语音的特征参数矩阵,对特征参数分别采用上述3种算法进行聚类,聚类的性能结果如表1所示。
表1 3种算法性能比较
文献[10]算法主要采用密度参数进行初始聚类中心的选取,相比于传统的初始化算法和文献[10]算法,基于密度和距离选择初始聚类中心的算法迭代次数减少了很多,说明初值聚类选择的比较恰当,而且平均的类内距离,即类内的矢量到该类中心的距离要小一些,说明聚类中心能够较好地表征该类的特征矢量。在实时性方面,本文算法的聚类时间要少于传统K-means聚类算法和文献[10]算法。
30段语音数据的特征参数聚类后类内方差、类间方差如图1、图2所示。
图1 语音数据聚类结果类内方差
图2 语音数据聚类结果类间方差
图1表示语音数据聚类之后类内的方差,从图中可以得出,采用本文算法进行聚类初始化的类内方差要小于随机选择初值的传统K-means聚类和文献[10]算法的类内方差。图2表示语音数据聚类后类间的方差,从图中可以得出,采用本文算法进行聚类初始化的类间方差要大于随机选择初值的传统K-means聚类和文献[10]算法的类内方差,说明基于本文的初始化算法的聚类算法得到的聚类中心之间不仅距离较远,即聚类中心点分布较分散,同时各个聚类中心在语音数据的聚集点消除了孤立点的干扰,能够表征该类之内的数据,因此,聚类的效果相比随机初值的传统K-means聚类的效果要好。
实验中所用到的语音数据采集于实验室的同学,录制了8个人(5男3女)的语音,创建了18个词的语音库,每个词汇每人录制了 7次,采样频率为22 050 Hz,每个词有56个语音数据,总共有1 008个语音数据,对于每个词将其中的24个语音数据作为训练语音,总共得到240个训练数据,其余的作为测试样
本,每个词有32个测试样本。
将实验中采集的18个词作为测试模板(即测试用例)进行识别。表2为采用传统的初始化算法和本文的初始聚类中心算法进行聚类得到的结果;表2有18组测试样本,其中每组32个,实验结果表明,本文算法相对于传统算法的正确识别个数明显增加,误识数减少;且传统算法在左转和右转上误识数多,这是因为读音有相似的地方,导致提取出的参数有部分相似,而传统算法训练的模型不能较好地消除这种影响,导致读音相近时误识数较高,而本文算法减小了这种影响,误识数明显减少,能训练较好的模型。
表2 2种算法识别结果
为了评价基于密度和距离的初始化算法的效果,选择识别率作为评价标准,识别率 s定义如下:s=(r/n)×100%,其中,n为词总数;r为识别正确词数。表3为识别率的比较。可以看出,相比随机选择聚类中心的识别率86.7%,本文算法的识别率达到了90.3%,识别率较高,同时训练得到的模型对于语音的描述较好,测试语音与其匹配值较高。这说明本文算法能在一定程度上提高语音识别率,达到较好的效果。
表3 2种初始化算法的识别率 %
针对语音识别中,利用连续型隐马尔可夫模型对语音训练时,初始化采用分段K-means算法会导致模型参数可能收敛于局部最优的问题,本文提出了一种基于密度和距离参数的CHMM模型初始化算法。将传统K-means聚类算法、文献[10]算法和本文算法在多段语音词组下进行仿真实验对比,结果表明,本文算法能满足实时性要求,训练得到的模型对于语音的描述较好,并在语音的识别率上有所提高。
[1] 赵 力.语音信号处理[M].北京:机械工业出版社,2008.
[2] 袁 芳,孟增辉,于 戈.对K-means聚类算法的改进[J].计算机工程与应用,2004,40(36):176-178.
[3] Deelers S,Auwatanamongkol S.Enhancing K-means Algorithm with Initial Cluster Centers Derived from Data Partitioning Along the Data Axis with the Highest Variance[C]//Proceedings of World Academy of Science,Engineering and Technology.Washington D.C.,USA:IEEE Press,2007:323-328.
[4] 刘 韬,蔡淑琴,曹丰文,等.基于距离浓度的 K-均值聚类算法[J].华中科技大学学报:自然科学版,2007,32(10):50-52.
[5] Huang Zhexue,Ng M K,Rong Hongqiang.Automated Variable Weighting in K-means Type Clustering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(5):657-668.
[6] Sarafis I,Zalala A M S,Trinder PW.A Genetic Rulebased Data Clustering Toolkit[C]//Proceedings of Congress on Evolutionary Computation.Honolulu,USA:[s.n.],2002:1238-1243.
[7] 陆林华,王 波.一种改进的遗传聚类算法[J].计算机工程与应用,2007,43(21):170-172.
[8] 陶新民,徐 晶,杨立标,等.一种改进的粒子群和 K均值混合聚类算法[J].电子与信息学报,2010,32(1):93-97.
[9] 苏锦旗,薛惠锋,詹海亮.基于划分的K-均值初始聚类中心优化算法[J].微电子学与计算机,2009,26(1):8-11.
[10] 傅德胜,周 辰.基于密度的改进 K均值算法及实现[J].计算机应用,2011,31(2):432-434.
[11] 汪 中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,2(4):299-304.
[12] 苏 中,马少平,杨 强.基于Web-Log Mining的Web文档聚类[J].软件学报,2002,13(1):99-104.
编辑 顾逸斐
Initial Estimation of CHMM Acoustic Model Based on Density and Distance Parameter
XIAN Xiaodonga,b,LV Jianzhongb,FAN Yuxingb
(a.Key Laboratory of Information Physical Society Credible Service Computing,Ministry of Education;b.College of Automation,Chongqing University,Chongqing 400044,China)
The method of Continuous Hidden Markov Model(CHMM)parameter initialization for speech recognition is segmented with K-means algorithm that can lead to convergence in local optimization of model parameters.A new approach of CHMM parameters initialization is proposed based on density and distance.Computing density and distance of data,the initial cluster center is selected according to the far distance and max density,then carries the K-means clustering process to get the final cluster centers,and initializes the CHMM parameters according to the cluster center. Experimental results show that the new approach has better recognition results compared with random selection algorithm.
speech recognition;Continuous Hidden Markov Model(CHMM);K-means algorithm;local optimization;parameter initialization
鲜晓东,吕建中,樊宇星,等.基于密度与距离参数的CHMM声学模型初值估计[J].计算机工程,2015,41(10):318-321.
英文引用格式:Xian Xiaodong,Lv Jianzhong,Fan Yuxing.Initial Estimation of CHMM Acoustic Model Based on Density and Distance Parameter[J].Computer Engineering,2015,41(10):318-321.
1000-3428(2015)10-0318-04
A
TP301.6
重庆市教育委员会科学技术研究基金资助项目(KJ08A 01)。
鲜晓东(1966-),女,副教授、硕士,主研方向:无线传感器网络,移动机器人控制;吕建中、樊宇星,硕士研究生。
2014-08-18
2014-10-26E-mail:xxd@cqu.edu.cn