谱聚类算法学术论文研究与探讨

2016-05-14 22:11李志伟

数字技术与应用 2016年7期

李志伟

摘要：对论文进行科学性学习研究与探讨是提高科研能力的必经之路。本文针对谱聚类算法科学研究进行分析、探讨性学习，旨在通过研读国内外高水平论文，获得启发和创作新思路，学习他人之长来提高自身科研能力。在此基础上产生自己的想法、更好地创作，为后期将理论研究转化为社会生产力奠定基础。最后期望本文能够对科研在一线的学者、研究人员提供帮助。

关键词：谱聚类算法相似度矩阵学术研究

中图分类号：TP301.6 文献标识码：A 文章编号：1007-9416（2016）07-0124-01

1 研究内容描述

文献[1]针对医学图像数据难以用数学模型来表述和聚类的问题，提出了一种基于近似密度函数的医学图像聚类分析方法，该方法采用核密度估计模型来构造近似密度函数，利用爬山策略来提取聚类模式。文献[2]说明了各种密度函数的优越性及使用高斯密度核的工程常用性，分析了计算高斯密度模型各参数的评价函数，以及如何确定用到的参数。比如：模型个数如何确定，哪些样本应该作为该数据点的影响样本参与计算密度，哪些样本被同一吸引子吸引，特征值参数epsilon（控制聚类特征点的存储量）如何确定等理论。文献[3]选用常用的惩罚似然形式AIC和BIC准则确定高斯融合模型的分量个数，然后采用EM算法反复迭代得到最终收敛后的各个参数数值。文献[4]提出了一种核密度估计方法用于估计模型的分量个数K，然后对原始图像S的直方图分成取样得到对应的数据样本SX，计算SX的估计密度，由EM算法得到的参数和爬山算法共同估计模型个数K，然后对K个模型分类。

文献[5]为了减少有限融合模型中参数方法对先验知识的过度依赖问题和莫尼切比雪夫正交多项式仅仅能够处理灰度图像的问题，提出了一种多变量切比雪夫正交多项式的融合模型彩色图像分割方法。首先，由傅里叶分析和张量积理论得到多变量切比雪夫正交多项式，而后提出一种多变量正交多项式的非参数融合模型，期望积分平方误差用于估计每个模型的平滑参数。第二，解决密度融合模型的估计模型分量个数问题，使用随机非参最大期望算法估计作用该正交多项式，并得出每个模型的权重。

文献[6]提出了一种改进的基于密度分布函数的聚类方法，该方法使用K最近邻（KNN）的思想度量密度以寻找当前密度最大点，即中心点。并使用区域比例将类从中心点开始扩展，每次扩展的同时引入半径比例因子以发现核心点，再从该核心点的KNN扩展类，直至密度下降到中心点密度的给定比率时结束。

2 思路启发

文献[1-5]均是在基于高斯密度模型下采用爬山策略计算局部最大值，然后采用最大期望EM算法完成数据聚类，整个过程不涉及样本相似矩阵的构造。也可将聚类过程理解为概率模型下的最大似然样本类的划分。不涉及谱聚类。文献[6]在得出每个样本的高斯密度后，找到密度最大的那个核心点，然后以该点为中心点向其KNN扩展，将密度相差在一定阈值下的样本看成一类，不满足条件的样本做标记。当密度下降到中心点密度的给定的比率a时类延伸结束。该过程被循环直至聚类完成。整个过程也不涉及样本相似矩阵构造，也不涉及谱聚类。启发如下：

（1）采用对样本增加新属性的方式重新构造映射下的数据集合。比如：可以将各个样本的密度对应的密度向量看成样本的一个新属性，并带入聚类计算。当样本处于高维空间时，可以先采用降维技术先对对样本聚类结果影响最小或包含信息量最小的样本属性先排除，然后在添加样本新属性的方法对数据进行再处理。

（2）联系基于参数的密度估计模型（高斯核估计密度）和基于爬山算法得到密度局部最大值所在区域对应样本，如何构造样本相似矩阵。比如：首先如何确定样本x的密度，取哪些样本作为对该样本的影响，Near（x）如何取值得探讨。其次，一旦Near（x）确定，爬山后得到的局部密度最大值对应的区域个数K是多少，值得分析。即阈值epsilon如何取。取的大，则模型分量个数较少，极端情况下造成样本为一类。取的小，模型分量个数较多，极端下每个样本自成一类。

3 问题分析及探讨

假设分量模型个数K确定了，那么基于密度的极大似然估计的迭代算法的聚类结果优劣仅仅与密度及相关参数有关，密度的高低决定了样本划分的类别。尚若通过EM迭代能够得到满意的聚类结果，如何采用构造样本的相似矩阵，采用谱聚类算法聚类。倘若分量模型个数K确定了，则每个样本都有自己的模型归属。这K个模型的相似性如何确定。仅仅通过密度值的近邻来决定理论上本身就存在低密度区中的某一小区域是高密度区而被划到高密度区对应的类别。反过来也成立。所以，一次根据样本密度值近邻来构造样本相似矩阵存在很大风险。通过迭代呢？如何迭代？迭代时空复杂度如何控制，倘若存在一种迭代能够得到满意的相似矩阵，带入谱聚类能够得到满意的聚类结果。那尚若期望聚类的个数恰好等于模型个数K，那迭代后得到的样本模型其实就是一个划分好的类，样本相似矩阵的构造就是纯属多余，后面的谱聚类更是用不着。

4 结语

本文分别对文献研究的内容方向进行介绍描述，并分析所用方法及结果。在深入学习、科学研究之后，获得启发开阔思路，形成自己的想法和观点。最后对当前存在的问题加以分析探讨。通过本文学术论文研究能够对科研一线的工作人员提供帮助。

参考文献

[1]宋余庆，谢从华，朱玉全，李存华，陈健美，王立军.基于近似密度函数的医学图像聚类分析研究[J].计算机研究与发展，2006，43（11）： 1947-1952.

[2]陈建美.基于密度聚类和多特征融合的医学图像识别研究[D].苏州：苏州大学，2008.

[3]Yu-qing Song， Cong-hua Xie， Jian-mei Chen. Medical Image Segmentation using Characteristic Function of Gaussian Mixture Models [J]. In： 2010 3rd International Conference on Biomedical Engineering and Informatics （BMEI）， Yantai， China， 2010.

[4]Cong-Hua Xie， Yu-Qing Song， Jian-Mei Chen. Fast medical image mixture density clustering segmentation using strati cation sampling and kernel density estimation [J]. Signal， Image and Video Processing， 2011， 5（2）： 257-267.

[5]Zhe Liu， Yu-Qing Song， Jian-Mei Chen， Cong-Hua Xie， Feng Zhu. Color image segmentation using nonparametric mixture models with multivariate orthogonal polynomials [J]. Neural Comput and Application， 2012， 21：801-811.

[6]谭建豪，章兢，李伟雄.密度分布函数在聚类算法中的应用[J].控制理论与应用，2011，28（12）：1791-1796.