孔洁+刘杨
摘要:随着时代的发展,人们对有价值的数据需求越来越迫切,因此,需要一种新的技术来处理大量的数据数据,并从中抽取我们需要的信息。数据挖掘技术是一门涉及面很广的学科,综合了统计学的方法,同时又超越了传统意义上的统计分析。数据挖掘就是从海量的数据当中,通过运用技术手段,提炼出我们所需要的有用的数据的过程。该文介绍了数据挖掘技术的基本概念、数据挖掘的功能以及数据挖掘的常用的技术。
关键词:数据挖掘;决策树;OLAP
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)32-0009-02
1 什么是数据挖掘
数据挖掘就是通过一定的技术来分析大量的数据,从中找出对我们有用的数据的过程,即从存放在数据库中的数据中获取有效的、有价值、最终能被我们所利用的数据。若我们在一个网站买书,系统会根据我们近期所购买的书的记录进行分析,然后在我们下次登录该网站时,自行向我们推荐其他类型的书籍,这里就是用到了数据挖掘的理论和方法。
2 数据挖掘的功能
1) 分类
所谓分类就是按照分析对象的特征,建立类组。也就是说分类就是它所预测的结果是一个类别而不是一个具体的数。比如:我猜你是四川人,这个就是分类问题。在商业案例中分类问题很多,再比如通过银行的一个客户信息,可以预测一下他是否会购买基金,大概的数额;他是否会办信用卡等等。
2) 聚类
面对海量的数据,首先分类,然后是聚类,属性接近的划归为一类,合理归类以后,每一类有自己的特征。聚类问题主要解决把一定范围内的对象划分为若干个组。它的特点是根据所选的目标来进行划分。比如:银行的客户,我们首先选定几个指标:年收入、年龄、性别等,然后对他们进行划分,特征相似的为一类,特征不同的分属不同的类。
3) 估计与预测
估计就是根据已有的长期积累的数据来推测未知的信息,例如银行根据信用卡申请人的单位性质、年龄、性别等信息推算他的消费水平。所使用的技术有统计方法中的相关分析、回归分析等等。所谓预测就是根据对象属性的过去值预测他的未来值。比如:通过查看一个持卡人以往的消费值来预测他今后的消费,使用的技术包括回归分析、时间序列分析等。
4) 关联
就是找出在一个事件中同时出现的事情,确定那些相关的对象应该放在一起。
5) 描述
描述的就是对复杂的数据库提供简单明了的说明,描述的主要目的是对数据先有个了解,这样有助于怎样去建模。
3 数据挖掘的主要方法
1) 决策树法
决策树是一种对实例进行分类的树形结构,由节点和有向边组成。节点的类型有2种:内部节点和叶子节点。内部节点一般表示一个特征或属性的测试条件,叶子节点则表示一个分类。
当我们构造了一个决策树模型,以它为基础来进行分类是很容易的。具体就是:从根节点开始,按照实例的某一特征进行测试,根据测试结构将实例分配到子节点,当沿着该分支可能到达叶子节点或到达另一个内部节点时,就使用新的测试条件递归执行下去,直到到达一个叶子节点。当到达叶子节点时,就得到了最终的分类结果。
决策树它是一种建立在信息论基础之上的对数据分类的一种方法。具体就是:通过已知的一批样本数据建立一棵决策树,然后利用已经建好的决策树来对数据进行预测。决策树的建立过程我们可以看做是数据规则的生成过程。决策树方法精确度高,效率也高,比较常用。
决策树法是目前应用非常广泛的一种逻辑方法,生成决策树一个著名的算法是C4.5算法。
2) 神经网络法
神经网络它是建立在数学模型之上的,我们通过对大量的、复杂的数据进行分析研究,可以完成非常复杂的趋势分析。神经网络系统它是由一系列类似于人脑神经元的处理单元构成的,我们称之为节点。这些节点可以通过网络进行互联。如果有数据输入,就可以确定数据模式的工作。
3) 关联规则法
关联规则是数据挖掘技术中的一种技术,它是一种非常简单但很实用的一种规则,描述了一个事物如果某些属性同时出现的规律。关联规则分析就是根据一定的可信度、支持度等建立相关规则,可以帮助很多商务决策的制定。
4) 聚类分析法
聚类分析就是把一组信息按照相似度归成若干类别。聚类方法包括统计方法、神经网络法和面向数据库法等方法。聚类分析具体说就是依据样本或变量之间关联的量度标准将其自动分为几个组,并且同一个群内样本相似,而不同组之间的样本相异。
5) 遗传算法
遗传算法它是一种基于生物进化论和分子遗传学的算法,第一步,将问题的所有可能解按照某种方式进行编码;第二步,从中随机地选取M个染色体作为初始种群;第三步,根据预定的评价函数对每个染色体计算适应值,然后选择适应值较高的染色体进行复制;最后通过遗传算子生成新的能够更好适应环境的染色体,从而生成新的种群,直到最后成为一个最适应环境的个体,得到问题的最优解。
6) 联机分析处理(OLAP)法
联机分析处理就是通过多维的方式对数据进行分析、查询和报表。它主要用来完成用户的事物处理,比如银行储蓄等。需要进行大量的更新操作,对响应时间要求高。
联机分析处理它的核心概念是“维”,它支持数据分析人员和决策人员从不同的角度、不同的级别对数据仓库中的数据进行复杂查询和多维分析处理,以直观形象的方式将查询和分析的結果反馈给决策人员。OLAP使用的模型是多维数据模型,主要用于分析大量的历史数据,提供汇总和聚集机制,访问多是只读操作。
随着计算机计算能力的发展,数据的类型越来越多,越来越复杂,尤其在商业方面,需要对大量的数据分析,需要精确定位潜在的价值所在,数据挖掘技术可以自动探测以前未发现的模式。随着数据挖掘技术的不断成熟和完善,它将在各行各业的各个领域发挥其越来越大的作用。
总之,数据挖掘技术的前景是非常好的,我们要充分利用它来为我们今后的生活提供更多的有用的信息。
参考文献:
[1] 李航.统计学习方法[M].清华大学出版社,2017.
[2] 陈志泊.数据仓库与数据挖掘[M].2版.清华大学出版社,2017.
[3] [美]Daniel T. Larose,Chantal D. Larose.数据挖掘与预测分析[M].2版,清华大学出版社,2017.
[4] 李春葆.数据仓库与数据挖掘应用教程[M].清华大学出版社,2016.
[5] 毛国君.数据挖掘原理与算法[M].3版.清华大学出版社,2016.endprint