基于一维数据逐段均匀条件下的参考分布研究*

2019-08-27 12:09张乃今张正军赵慧秀

重庆工商大学学报（自然科学版） 2019年4期

张乃今，张正军，赵慧秀

(南京理工大学理学院，南京 210094)

0 引言

聚类分析是对样本观测值聚集分类的一种探索性分析，其基本思想是通过在研究对象在特征空间上的差异等方面依据相应指标对对象进行分类。虽然无法解释样本观测值分类的合理性，但可以解决很多实际问题，因此仍被广泛应用[1-3]。现如今已经产生很多种估计最佳聚类数的方法[4-7]， 2000年Hastie等提出了Gap Statistic(GS)方法，方法在k-means算法的基础上解决了其他聚类方法无法将数据分成一类的问题。随后几年，学者们在类内离散度的表示、参考分布的选取等方面对GS 方法进行了改进，或将其他方法结合起来处理问题[8-11]。

GS方法引入了一个参考分布，用Gap统计量刻画参考分布下样本观察值与期望值之间的差异，从统计角度解释了样本数据分类的合理性。由此可以看出，选择合适的参考分布对于GS方法十分重要。目前已经理论证明出在一维情况且成员(类)的分布函数形式(退化分布除外)为对数凹的情况下[12]，应选取均匀分布作为参考分布，但对于其他条件下的分布没有相关理论证明。

对此，提出在非对数凹及一维逐段均匀的条件下研究GS方法的参考分布。应用k-means算法对数据进行聚类，假设聚类后的数据是逐段均匀分布，计算不同聚类数下的类内平方和，在给定条件下通过理论证明在这种情况下，总体均匀分布仍是使得类内平方和最大的情况。