高斯混合模型的理解和应用

2018-01-24 11:38张鹂沣

课程教育研究 2018年48期

关键词：means算法

张鹂沣

【摘要】本文主要介绍了人工智能的核心——机器学习中的无监督学习算法中的高斯混合模型。研究了使用EM算法对高斯混合模型进行参数估计。其次讨论了高斯混合模型和K-means算法作为聚类算法上的异同。最后介绍了现阶段高斯混合模型在实际中的应用。

【关键词】高斯混合模型 K-means算法无监督学习

【中图分类号】G63 【文献标识码】A 【文章编号】2095-3089（2018）48-0218-02

前段时间Alpha go横扫世界高手的人机大战成为一时热点，而这反映出近年来发展最为迅速而引人注目绝对非人工智能莫属了。人工智能是研究学习人类智能的方法并发展为完整的应用系统的一门前沿的技术科学。

人工智能的核心是机器学习，它是一门涉及数学、统计学、计算机科学等专业学科的多领域交叉学科。具体而言，机器学习由数据样本出发应用不同的算法“学习”出规律，进而可以应用于新的数据样本上。

众多的机器学习算法可以从不同的维度进行分类。其中一种分类方式是依据数据是否有或仅有部分的标记或分类标签而分为监督学习和无监督学习，或半监督学习。聚类分析是将已有的对象根据“学习的规律”而分组，每组中由具有相同性质或属性的对象组成。这属于典型的无监督学习。

不论是越来越多可得的海量数据，还是机器学习算法的进一步发展和完善，人工智能都有了更广阔的应用场景，展现了更惊人的发展潜力。在不远的未来，人工智能必将能满足更多的科技和生产提出的新要求，带来方方面面的革新。

1.高斯混合模型

1.1 高斯混合模型的定义

当p=1时，闵可夫斯基距离即为欧氏距离；当P=2时，闵可夫斯基距离此时即为常用的曼哈頓距离。在不同的情形下，适用于不同的距离度量，选择更合适的距离度量有益于得到更好的模型效果。

2.2 高斯混合模型与K-Means模型的异同

高斯混合模型与K-Means模型都属于机器学习算法中无监督学习中的聚类算法模型——都是通过对无已知标记或分类的样本数据通过算法根据数据的分布结构或性质进行分类的过程。这两者模型在聚类的过程中都关注了样本数据的均值信息。而这两种算法在迭代流程上也有相似之处：在训练参数时首先都初始簇的数量，其次根据样本数据训练模型参数，之后更新簇的数量，再次训练模型参数，直到模型收敛，参数迭代稳定后，得到最终聚类模型。

机器学习算法中另一种分类方式是依据算法学习的过程中是否涉及概率密度的估计而分为概率模型和非概率模型。高斯混合模型和K-means算法的最大不同之处在于是否对样本数据所服从的分布有前提假设，即样本是否服从正态分布。因此，高斯混合模型属于机器学习中的概率模型，在训练的过程中不仅关注样本数据的均值，还有样本的标准差，得到了相对更为精准的估计模型。但与此同时，相对于仅关注样本数据均值的K-Means模型，高斯混合模型的计算复杂程度也大大增加。除此以外，高斯混合模型涉及概率的概念，即一个样本点可以同时间重复属于多个簇，即支持混合分类。而K-Means模型仅支持单一分类结果。

3.GMM模型的应用

机器学习算法中，无监督学习是通过学习未标定的数据得到分类标准。无监督学习在图像识别、语音识别等各个方面有着优异的表现。其中的高斯混合模型相较于其他模型而言，在静态和动态的图像识别和物体检测和背景音识别、男女声音判别等方面也都表现出优异的准确性和稳定性。高斯混合模型现今成熟的应用场景包括但不限于以下情形：数据集分类，例如不同级别的会员依照消费额高低进行分类；静态和动态的图像分割及其特征提取，例如在固定位置的摄像机拍摄下的视频中，持续跟踪动态人物并且区分其动作，从交通监控视频中识别跟踪运动中的汽车；最后应用于语音分割和识别，例如从讨论的声音中分辨男、女声，或有针对性的识别单个人的声音，又或从嘈杂的户外声音中提取地震的声音等。高斯混合模型以及机器学习在我们的现实生活中有着广阔的应用前景。

参考文献：

[1]李航：统计学习方法[M].清华大学出版社，2012.

[2]熊彪，江万涛，李乐林：基于高斯混合模型的遥感影像半监督分类半监督分类[J].《武汉大学学报信息科学版》， 2011，第36卷第1期.

[3]王千，王成，冯振元，叶金凤：K-means聚类算法研究综述[J].《电子设计工程》，2012（7）：21-24.