数据挖掘的主要技术

2017-02-28 22:01邢培胥家瑞
商情 2016年50期
关键词:聚类网格密度

邢培 胥家瑞

[摘要]:近几年来发展相当迅猛的数据挖掘技术,这种数据挖掘的一种主要技术聚类是本文主要研究的内容,目的是通过深入探索挖掘的方法,了解数据挖掘的应用前景,可以为用户更好地使用数据挖掘来解决实际问题提供了可行的操作方法和理论依据。

[关键词]:数据挖掘 聚类神经网络

数据挖掘,顾名思义就是从大量数据中挖掘出有用的信息,即从大量的、不完全的、由噪声的、模糊的、随机实际应用数据中发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。用于数据挖掘的很多方法都来源于两个研究分支,一个是机器学,另一个是统计学,特别是多元的计算统计学。 聚类是数据挖掘中的一种主要技术,是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类和分类根本不同的是:分类问题中,我们知道训练例的分类属性,而在聚类中,就需要我们在训练例中找到这个分类属性值。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。

在统计方法中聚类称聚类分析,它是多元数据分析的三大方法之一(其它两种是回归分析和判别分析)。它主要研究基于几何距离的聚类,如欧式距离、明考斯基距离等。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。

在机器学习中聚类称作无监督或无教师归纳。因为和分类学习相比,分类学习的例子或数据对象有类别标记,而聚类的例子则没有标记,需要由聚类学习算法来自动确定。机器学习领域中的概念聚类算法通过符号属性来进行聚类,并得出聚类的概念描述。当聚类对象可以动态增加时,概念聚类则称是概念形成。概念聚类由两部分组成:

(1)发现合适的类

(2)形成对每个类的描述。

聚类分析问题可描述为:给定m维空间Rm中的n个向量,把每个向量归属到S聚类中的某一个,使得每个向量与其聚类中心的“距离”最小。聚类分析问题的实质是一个全局最优问题。在这里,m可认为是样本参与聚类的属性个数,n是样本的个数,S是由用户预先设定的分类数目。

数据聚类正在蓬勃发展,有贡献的研究领域包括数据挖掘、统计学机器学习、空间数据库技术、生物学,以及市场营销。由于数据库中收集了大量的数据,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。

随着数据挖掘研究的深入,出现了很多的聚类算法。常见的聚类算法有五大类。即划分法、分层法、基于密度的方法、基于网格的方法和基于模型的方法。

1、划分方法(partitioning method)

给定要构建的划分的数目k,创建一个初始划分。每个划分表示一个簇, 每个簇至少包含一个数据对象,同时,每个数据对象只能属于一个簇(模糊聚类中可放宽约束)。然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分,直到以局部最优结束。一个好的划分的准则是:在同一类中的对象之间尽可能“接近”或相关,而不同类中的对象之间尽可能的远离或不同。

最著名与常用的划分方法是K-means、K-medoids以及它们的变种。

2、层次方法(hierarchical method)

层次式聚类算法对给定数据对象集合进行层次的分解,根据层次分解形成的方向又可以分成凝聚式和分列式两种。前者采用自底向上的方法,先将每个对象归为单独底组,然后逐渐合并相近的对象或组,直到所有的组合并为一个,或者达到一个中止条件。后者则采用自顶向下的方法, 初始将所有的对象置于一个组中,然后在迭代的过程中,每个组被分裂為更小的组,直到最终每个对象在单独的一个组中,或者达到一个中止条件。

层次式聚类算法的缺陷在于,一旦完成一个合并或分裂的步骤后,即使是错误的,也无法被撤销,且影响其后的聚类过程。

CURE算法就是采用了层次聚类算法,解决了绝大多数聚类算法偏好球形和相似大小的问题,在处理孤立点上也更加健壮。但CURE不能处理分类属性。

3、基于密度的方法(density-based method)

基于距离的聚类方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难,为此提出了基于密度的聚类。其中心思想是:只要临近区域的密度(对象或数据点的数目)超过某个阀值就继续聚类。也就是说,对类中的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。这种方法可以用来过滤噪声数据,发现任意形状的簇。

Ester Martin等人提出的DBSCAN算法是一种基于密度的空间数据聚类算法。该算法利用基于密度的聚类(或者类cluster)概念。这一算法的显著优点是聚类速度快,且能够有效处理噪声点(outliers)和发现任意形状的空间聚类。但是它又两个比较明显的弱点:(1)当数据量增大时,要求较大的内存支持,I/O消耗也很大;(2)当空间聚类的密度不均匀, 聚类间距离相差很大时,聚类质量较差。

4、基于网格的方法(grid-based method)

基于网格的方法把对象空间量化为有限数目的单元,形成一个网格结构,所有的聚类操作都在这个网格结构(即量化空间)上进行。

CLIQU算法综合了基于密度和基于网格的聚类方法,利用自顶向上方法求出各个子空间的聚类单元,主要用于找出高维数据空间中存在的低维聚类。但为了求出K维空间聚类,则必须组合给出所有K-1维子空间的聚类,导致其算法的空间和时间效率都很低,而且要求用户输入两个参数,数据聚值空间等间隔距离ξ和密度阀值τ。这些数据与样本数据紧密相关,用户一般难以确定。但它对数据的输入顺序不敏感。

5、基于模型的方法(model_based method)

基于模型的方法为每个聚类假定了一个模型,然后去寻找能够很好满足这个模型的数据集。一个基于模型的算法可以通过构造反映数据点空间分布的密度函数来定位聚类,也可以基于标准的统计数字自动决定聚类的数目。

现在人们又把数学中的模糊理论应用到聚类领域中。从而产生了模糊聚类算法。传统意义上的聚类分析是把每个样本严格地划分到某一类,属于硬划分的范畴,即硬聚类。随着模糊集理论的提出,硬聚类被推广为模糊聚类,即软聚类。在模糊聚类中,每个样本不再仅属于某一类,而是以一定的隶属度分别属于每一类。换句话说,通过模糊聚类分析得到了样本属于各个类别的不确定性程度,即建立起了样本对于类别的不确定性的描述。这样就能更准确地反映现实世界。

猜你喜欢
聚类网格密度
基于模糊聚类和支持向量回归的成绩预测
追逐
增加网格 以退求进
基于流形学习的自适应反馈聚类中心确定方法
基于密度的自适应搜索增量聚类法
“密度”练习
密度的应用趣谈
密度的不变性与可变性