数据挖掘浅析

2009-06-22 03:41于祥茹
新媒体研究 2009年20期
关键词:决策树聚类偏差

于祥茹

[摘要]数据挖掘是数据库领域中报有应用价值的课题,支持决镱系统,人工智能等领域。简要介绍数据挖掘的概念以及分类。另外。重点介绍数据挖掘的两种主要技术。

[关键词]数据挖掘人工神经网络决策树

中图分类号:TP3文献标识码:A文章编号:1671—7597(2009)1020081—01

随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关联和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象,应用的需求促使一门新的技术诞生数据挖掘。

一、数据挖掘的概念

数据挖掘的概念有多种的描述,其中常见的概念描述有如下的两种:

第一种,GPi atetsky Shapior,w.J.Frawley等定义数据挖掘为从数据库的大量数据中揭示出隐含的、先进未知的、潜在有用的信急的非平凡过程。

第二种,数据挖掘的广义观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。

二、数据挖掘的分类

从不同的视角看,数据挖掘技术有一下三种分类方法:

1、根据发现知识的种类分类。2、根据挖掘的数据库的种类分类。3、根据采用的技术分类。

三、数据挖掘的主要技术介绍

数据挖掘的技术主要分为两类:一类是预言,用历史来预测未来;另一类是描述,目的是了解数据中的潜在规律。具体来说主要可以分为人工神经网络技术、决策树、遗传算法、近邻算法、规则推导等。下面说一下人工神经网络与决策树[2]。

(一)人工神经网络。神经网络最早是由心理学家和神经生物学家提出的,旨在寻求开发和测试神经的计算模拟。粗略的说,神经网络是一组连接的输入/输出单元,其中每个连接都与一个权相相联。在学习阶段,通过调整神经网络的权,使得能够;预测输入样本的正确类标号来学习。由于单元之间的连接,神经网络学习又称连接者学习[3]。

(二)决策树。决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在贷款申请中,要对申请的风险太小做出判断,图1是为了解决这个问题而建立的一棵决策树,从中我们可以看到决策树的基本组成部分:决策节点、分支和叶子。

决策树的每个节点子节点的个数与决策树在用的算法有关。如CART算法得到的决策树每个节点有两个分支,这种树称为X树。允许节点含有多于两个子节点的树称为多叉树。

数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测(就像上面的银行官员用他来预测贷款风险)。常用的算法有CHAID、CART、Quest~C5,0[4]。

四、数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。

(一)自动预测趋势和行为。数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。

(二)关联分析。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

(三)聚类。数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

(四)概念描述。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

(五)偏差检测。数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。

五、数据挖掘热点

就目前来看,将来的几个热点包括网站的数据挖掘、生物信息或基因的数据挖掘及其文本的数据挖掘。下面就这几个方面加以简单介绍。

(一)网站的数据挖掘。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。

(二)生物信息或基因的数据挖掘。生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益匪浅。

(三)文本的数据挖掘。人们很关心的另外一个话题是文本数据挖掘。举个例子,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。

六、结束语

越来越多的例子可以证明数据挖掘在科学和商业领域中有越来越多的应用。从原来的概念,到数据挖掘应用的实现,而数据挖掘的灵活性也表现在,针对各种具体的案例,可以通过数据挖掘的不同侧面的功能去实现数据的挖掘。相信在不久的将来,会有更加的数据挖掘的实例出现在人们生活的各个需要处理数据信息的方面。但是由于它是一门综合性强的新兴领域,它的发展还会有很多的困难和需要进一步发展的地方。可以认为,它的应用会更加广泛,它的算法也会更加优化。

猜你喜欢
决策树聚类偏差
50种认知性偏差
基于模糊聚类和支持向量回归的成绩预测
加固轰炸机
简述一种基于C4.5的随机决策树集成分类算法设计
真相
基于流形学习的自适应反馈聚类中心确定方法
基于密度的自适应搜索增量聚类法
决策树学习的剪枝方法
决策树在施工项目管理中的应用
投资者认知偏差研究综述