王景中 尉朋朋
(北方工业大学 北京 100144)
基于无限逆狄利克雷混合模型的变分学习*
王景中 尉朋朋
(北方工业大学 北京 100144)
近期的研究表明,有限逆狄利克雷混合模型是一种建模非高斯数据的重要的模型。然而,它存在参数估计及模型选择困难的问题。利用常用的EM算法无法对其进行准确地估计参数及选择最佳的混合分量数。因此,论文研究无限逆狄利克雷混合模型,提出一种变分近似推理算法对其进行学习。该算法能够同时解决这两个问题。为了验证算法的有效性,论文在人工数据集上进行了大量的实验,实验结果表明利用变分贝叶斯推理来估计混合无限逆狄利克雷分布是一种非常有效的方法。
逆狄利克雷; 变分推理; 贝叶斯估计; 参数估计; 模型选择
当今,大量数据的统计分析与数据建模在科学工程领域中的地位变得越发重要。有限混合模型(Finite Mixture Models,FMM)就是分析复杂数据的一个概率建模工具,它提供了一种用简单密度拟合复杂密度的学习方法。其中,高斯混合模型(Gaussian Mixture Models,GMM)作为有限混合模型中的一种,依赖其模型参数方便计算、灵活性能强、能以很高的精度逼近任意概率密度等优点,成为应用最为广泛的有限混合模型。
但是,对于高斯分布来说,高斯分布是无界的,而有些实际数据却是有界或半有界的[3~4]。大量研究表明高斯混合模型对非高斯分布数据的描述并不理想[3~4]。近年来,研究者提出了若干的其它分布模型,如文献[5]提出贝叶斯非对称混合模型,在医学图像分割领域得到了很好地性能;文献[6]提出非对称学生t混合模型,并成功应用于非高斯数据的聚类。目前,非高斯统计模型研究已经成为了一个热门的研究领域[5~9]。
对于有限分布来说,有限混合模型主要研究的问题有两点:混合模型参数的估计和混合分量数的确定(通常也被称为模型选择)。对于混合分量数,如果选择的过多,会引起模型过拟合(Over-fitting);而混合分量数过少则会引起模型的欠拟合(Under-fitting)。而无限混合模型(Infinite Mixture Models,InMM)可以很好地解决这个问题:无限混合模型的分量数是无限的,会自动确定准确的分量数,避免了模型选择的问题。所以,无限混合模型主要研究的问题是混合模型参数估计。
综上所述,结合非高斯分布与无限分布的优点,即无限非高斯混合模型(Infinite non-Gauss mixture model,InnGMM),既可以拟合非高斯分布的数据,又可以避免模型过拟合、欠拟合问题,并避开模型选择问题,是一个好的研究重点。
本文提出了一种基于无限逆狄利克雷混合模型的变分贝叶斯方法,使得该算法在模型聚类上有很好的效果。
通过有限逆狄利克雷模型入手,引出无限狄利克雷混合模型:假设具有M个分量的有限逆狄利克雷混合模型的定义为[8]
(1)
(2)
IDir(xn|αm)是代表D维逆狄利克雷分布的概率密度函数[9],其表达式为
(3)
p(
(4)
根据stick-breaking描述可知,π的先验分布是一个Beta分布:
(5)
根据给定的隐变量Z的条件分布,可得数据集X的条件分布为
p(χ|,
(6)
在进行变分贝叶斯估计前,需要为模型参数ζ指定适当的先验分布。由于无限逆狄利克雷分布的共轭先验分布中存在高维积分计算问题,于是本文选择Gamma分布作为无限逆狄利克雷分布的近似的先验分布[10]。先验分布为
(7)
其中pmd>0,qmd>0,并假设无限逆狄利克雷模型参数相互独立。
3.1 算法介绍
无限混合模型的参数学习经典算法有EM算法和Bayes估计法。其中EM算法需要预先指定混合分量数M、过度依赖参数初始值等,从而易产生欠拟合和过拟合等问题;而Bayes估计法可以通过Bayes算法将模型参数的先验分布转化为后验分布,从而确定模型的参数,这样就可以避免拟合问题。但是求解Bayes模型的后验分布会涉及高维积分计算的问题,需要用近似推理算法[11~13],它被用来逼近真实的贝叶斯推断,能够有效地解决这个问题。近似推理算法分两种:随机近似和确定性近似。随机近似中主要的算法有马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)算法[14],但该算法局限于小规模的数据集,同时其收敛速度慢。确定性近似方法中主要的算法有拉普拉斯近似推理算法[15~16],其在单峰的模型上有很好的效果,但无法对无限混合模型这种多峰模型进行有效的后验近似。
对于以上各种算法的优缺点,本文提出一种变分贝叶斯方法,该方法在Bayes估计法的基础上,利用stick-breaking构造建立起一种逆狄利克雷混合过程,在变分推理过程中采用截断作用,并自动反复修正截断模型,使得模型选择和推理过程有机地结合在一起,并利用后验得到关于模型参数的分布,从而在一定程度上避免了模型选择过程中的过拟合问题。
3.2 算法过程
(8)
其中〈·〉n≠s表示除n=s之外的所有服从Qn(Ωn)的期望。受到文献[20]的启发,可以在M值上做一个变分分布的截断,比如当m>M时:
(9)
截断级M是一个变化的参数,可以任意初始化,而且在变分学习的过程中自动最优化。因此,通过采用棒断裂性表示和因式分解假设,可以获得:
(10)
通过式(8),可以得到每一个变量变化后的后验概率的最优结果:
(11)
(12)
(13)
参数更新方程中的期望值如下
〈znm〉=rnm
(14)
(15)
(16)
(17)
其中ψ(·)是定义为ψ(a)=dlnΓ(a)/da的双伽马函数。
由于每一个变分变量的解是与其它变量的期望值相互耦合的,所以模型的优化可以通过一个类似期望最大化(EM)算法来求解,完整的算法可以概括如下:
1) 初始化:选择初始阶段混合分量数M=15,以及初始化超参数pmd、qmd、um、vm等的值,其中{pmd,qmd}={1,0.1}。采用K均值(K-Means)算法初始化rnm的值。
2) 变分步骤:使用当前的模型参数分布估计式(14)~(17)的期望值。
4) 重复步骤2)和3)直至算法收敛。
6) 忽略混合系数M小于阈值(本实验选取的阈值为10-5)的分量并且确定最终的分量数。
为了验证本文所提出的变分贝叶斯算法(记变分无限逆狄利克雷混合模型为varInIDMM,Variational Infinite Inverted Dirichlet Mixture Model)的性能,在合成数据集上进行了大量的实验。试验中各参数的初始值选择如下:初始混合分量数为15,超参数(pmd,qmd)=(1,0.1),阈值为10-5,初始混合权重和样本值见表1。
以下通过对合成数据的实验给出本文所提算法(varInIDMM)的性能。试验中用程序实现并生成了可以指定维数、分量数和权重的服从InIDMM分布的四个2维合成数据集,其中样本容量不同(分别为400、800、800、1000)。进行以下实验。
4.1 实际参数与不同合成数据集的估计参数对比
4.2 概率密度
图1给出了变分贝叶斯算法对于四个合成数据集学习得到的概率密度图,由图可见,InIDMM的概率密度函数既可以是对称的,也可以是非对称的,因此它对比例数据有很强的描述能力。
图1 合成数据集变分学习后的混合密度
4.3 模型选择后的有效分量
算法初始化时给定的混合逆狄利克雷分量个数为15,由于变分贝叶斯算法设置了隐变量,每次迭代循环中都要首先更新超参数的值,然后会重新计算各个分量的权值。当隐变量所指示的分量在加权求和权重过小时,该分量就是冗余分量,可忽略它的存在,即认为Znm=0。变分算法对于四个合成数据集的有效分量学习结果如图2所示。由此可见,四个合成数据集的混合分量数分别为:2、3、4、5,混合权重分别为(0.5,0.5)、(0.25,0.25,0.5)、(0.25,0.25,0.25,0.25)、(0.2,0.2,0.2,0.2,0.2),混合分量数和混合权重均符合实际样本参数,证明该算法最终收敛后通过模型选择。
图2 模型选择后的有效分量
4.4 算法的迭代次数和收敛时间
统计本文变分贝叶斯算法的收敛速度,表2量化的给出了算法对于四个合成数据集学习的收敛时间(单位为:s)和迭代次数。由此可见,本文提出的varInIDMM算法在簇数和样本数量增加的情况下,收敛时间增加较少,基本处于一个稳定的区间内;迭代次数也总体小于600次。总体优于其他算法。
表1 实际参数与不同合成数据集的估计参数
表2 算法的迭代次数和收敛时间(s)
对于无限逆狄利克雷混合模型(InIDMM)的模型参数估计问题,本文提出了一种变分贝叶斯学习方法。该方法可以很好地解决贝叶斯模型的后验分布会涉及高维积分计算困难的问题。大量的仿真实验验证了该方法能够有效地估计模型参数和混合权重,并大大地加快了算法的计算速度。此外,通过实验统计了变分贝叶斯算法的参数结果和迭代时间等数据,并与实际参数进行了对比:在估计精度上有很好的结果,在聚类问题上有更好的性能。因此该算法是有效和可行的。变分贝叶斯算法将可用于比例数据统计建模、无监督学习和自然语言处理等领域。
[1] Bishop C M. Pattern Recognition and Machine Learning[M]. NewYork, NY, USA: Springer-Verlag,2006:461-571.
[2] Permuter H, Francos J, Jermyn I. A study of Gaussian Mixture Models of Color and Texture Features for Image Classification and Segmentation[J]. Pattern Recognition,2006,39(4):695-706.
[3] Thanh M N, Wu Q M J. Gaussian Mixture Model Based Spatial Neighborhood Relationships for Pixel Labeling Problem[J]. IEEE Transaction on System, Man,and cybernetic, part B,2012,42(1):193-202.
[4] Constantinopoulos C, Titsias MK, Likas A. Bayesian Feature and Model Selection for Gaussian Mixture Models[J]. IEEE Transactions on Patterns Analysis and Machine Intelligence,2006,28(6):1013-8.
[5] Nguyen T M, Wu Q M J, Zhang H. Bayesian Bounded Asymmetric Mixture Model with Segmentation Application[J]. IEEE Journal of Biomedical and Health Informatics,2014,18(1):109-118.
[6] Nguyen T M, Wu Q M J. Bounded Asymmetrical Student’s-t Mixture Model[J]. IEEE Transactation on Cybernetics,2014,44(6):857-869.
[7] Fan W T, Bouguila, Ziou N. Variaional learning for finite Dirichlet mixture models and applications[J]. IEEE Transaction on Neural Networks and Learning Systems,2012,23(5):762-774.
[8] Bdiri T, Bouguila N. Positive vectors clustering using interted Dirichlet finite mixture Models[J]. Expert Systems with Applications,2012,39(2):1869-1882.
[9] Beal M J, Ghahramani G. The variational Bayesian EM algorithm for incomplete data: With Application to Scoring Graphical Model Structures. Bayesian Statistics, J. M. Bernardo, M. J. Bayarri, J. O. Berger, A. P. Dawid, D. Heckerman, A. F. M. Smith, and M. West, Eds[M]. New York: Oxford Univ. Press,2003:453-464.
[10] Ma Zhan-yu, Arne Leijon. Bayesian estimation of beta mixture models with variational inference[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(33):2160-2173.
[11] Kulesza A, Pereira F. Structured Learning with Approximate Inference[J]. Advances in Neural Information Processing Systems,2007,20:785-792.
[12] Breslow N E, Clayton D G. Approximate Inference in Generalized Linear Mixed Models[J]. Journal of the American Statistical Association,1993,88(421):9-25.
[13] Grimmer J. An Introduction to Bayesian Inference via Variational Approximations[J]. Political Analysis,2011,19(1):32-47.
[14] Robert C P, Casella G. Monte Carlo Statistical Methods[M]. New York: Springer-Verlag,1999.
[15] Husmeier D. The Bayesian Evidence Scheme for Regularizing Probability-density Estimating Neural Networks[J]. Neural Computing,2000,11(12):2685-2717.
[16] Shun Z, McCullagh P. Laplace Approximation of High Dimensional Integrals[J]. Journal of the Royal Statistical Society. Series B (Methodological),1995,57(4):749-760.
[17] Lewis S M, Raftery A E. Estimating Bayes Factors via Posterior Simulation with the Laplace-Metropolis Estimator[J]. Journal of the American Statistical Assocation,1997,92(438):648-655.
[18] J Zhang. The mean field theory in em procedures for markov random fields[J]. Signal Processing, IEEE Transactions on,1992,40:2570-2583.
[19] G Parisi. Statistical Field Theory[M]. New Jersey: Addison-Wesley,1988.
[20] D M Blei, M I Jordan. Variational inference for dirichlet process mixtures[J]. Bayesian Analysis,2005,1:121-144.
Variational Learning Based on Infinite Inverted Dirichlet Mixture Model
WANG Jingzhong YU Pengpeng
(North China University of Technology, Beijing 100144)
Recent studies have shown that finite inverse Dirichlet mixture model is an important model for modeling non Gauss data. However, it has the problem of parameter estimation and model selection. The EM algorithm can not be used to accurately estimate the parameters and select the optimal number of mixture components. Therefore, this paper studies the infinite inverse Dirichlet mixture model, presents a novel variational approximate inference algorithm for learning. The algorithm can solve these two problems at the same time. In order to verify the effectiveness of the algorithm, this paper carries out experiments on artificial data sets. Experimental results show that the variational Bayesian inference to estimate mixed infinite inverse Dirichlet distribution is a very effective method.
inverted Dirichlet, variational inference, Bayesian estimation, parameter estimation, model selection Class Number TP393
2016年10月9日,
2016年11月17日
国家自然科学基金(编号:61371142);北方工业大学校内专项(编号:XN060)资助。
王景中,男,硕士,教授,研究方向:数字图像处理与识别、计算机通信网络与信息安全。尉朋朋,男,硕士研究生,研究方向:机器学习、信息安全。
TP393
10.3969/j.issn.1672-9722.2017.04.010