谭启军
【摘要】在科学技术、经济管理中常常要按一定的标准进行分类。模糊聚类分析广泛应用在气象预报、地质、农业、林业等方面。由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。最后本文通过实例说明了模糊聚类分析的有效性。
【关键词】 数据矩阵 闭包 矩阵 聚类分析
【中图分类号】G64 【文献标识码】A 【文章编号】2095-3089(2014)02-0251-02
1.引言
聚类分析是数理统计中的一種多元分析方法,它是用数学方法定量地确定样本的亲疏关系,从而客观地划分类型。对带有模糊特征的事物进行聚类分析,不仅要考虑事物之间有无关系,更要考虑事物之间关系的深浅程度,显然用模糊数学的方法处理更为自然。
事物之间的界限,有些是确切的,有些则是模糊的。例如,天气阴、晴之间的界限是模糊的。对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。通常把被聚类的事物称为样本,将被聚类的一组事物称为样本集。当聚类涉及事物之间的模糊界限时,需运用模糊聚类分析方法。
2.基础知识
2.1数据矩阵
2.2 数据标准化
通常不同的指标具有不同的量纲,为了充分利用原始信息并能客观真实的反映实际情况,需要对数据做适当的变换以消除量纲的影响。对数据作标准化处理,就是根据模糊矩阵的要求,将数据压缩到区间[0,1]上。
2.4 基于模糊等价矩阵聚类方法
2.4.1 传递闭包法
2.4.2 布尔矩阵法
2.4.3 直接聚类法
2.4.4 最佳阈值λ的确定
在模糊聚类分析中对于各个不同的λ∈[0,1],可得到不同的分类,许多实际问题需要根据具体情况选择某个阈值λ,以确定样本的一个具体分类。一般按实际需要,在动态聚类图中,调整λ的值以得到适当的分类,而不需要事先准确地估计好样本应分成几类,从而得出在λ水平上的等价分类。
3.实例分析
3.1问题的提出
某学校一年级有7个班级,学生成绩的好与差,没有明确的评定界限,并且班级间成绩好坏的表现具有一定的模糊不确定性。
3.2问题的分析
解决上述问题可运用模糊聚类分析方法。现以7个班级某次考试的四门课程成绩为依据,对各班成绩好坏的相关程度进行分类。
3.3问题的解决
3.3.1数据标准化
3.3.2用最大最小法建立相似矩阵
3.3.3改造相似关系为等价关系进行聚类分析
按不同的置信水平对7个班级进行模糊聚类,将会得到不同的分类结果。
参考文献:
[1]高慧璇编著.应用多元统计分析.北京大学出版社,2006
[2]胡则成,罗荣桂,宋德昌,等.随机存贮理论与应用【M】.武汉:华中理工大学出版社,1994