罗阳倩子
[摘 要]此文主要阐述了数据挖掘的概念、本质和特征,深入分析了数据挖掘取样方法,以期为数据挖掘的计算流程的优化提供帮助。
[关键词]数据挖掘;取样方法;SAS数据
doi:10.3969/j.issn.1673 - 0194.2016.04.125
[中图分类号]TP311.13 [文献标识码]A [文章编号]1673-0194(2016)04-0-01
随着数据库技术的飞速发展和广泛使用,在数据库里,存储的数据越来越庞大。在数据挖掘的领域里,要使用科学的方式、方法降低挖掘算法的时间,使数据挖掘的效率更高。
1 数据的挖掘概念
数据库中的知识发现又称数据挖掘,数据库领域研究和人工智能是目前的热点问题。数据挖掘就是从拥有大量数据的数据库中找出先前未知的、有着潜在价值的信息过程。数据挖掘是决策支持过程,它基于模式识别、人工智能、机器学习、数据库、可视化、统计学等技术,自动分析企业数据进行推理,挖掘出潜在模式,帮助决策者调整策略,作出正确决策。
发现具有潜在价值信息的过程,包含三个步骤:第一是数据准备,第二是数据的挖掘,第三是挖掘的数据结果表达和解释。数据挖掘可以与知识库或用户交互。
数据挖掘是在大量数据中找其规律,准备数据、寻找规律和表达解释规律。准备数据就是从数据源中挑选需要的数据并合成用作数据挖掘的数据集;寻找规律就是从数据集中把它所含的规律找出来;挖掘数据结果表达和解释就是把找出的规律表示出来。
数据挖掘任务包括聚类分析、关联分析、特异群组分析、分类分析和演变分析等。
2 数据挖掘的特征和本质
按常规来说,狭义的观点认为常规数据分析区别于数据挖掘的关键点是,常规数据分析侧重于交叉报告、描述性统计、假设检验等,数据挖掘则侧重于预测、分类、聚类与关联等4类问题。广义的观点认为从数据库中挖掘的任何信息都叫做数据挖掘。这样看来,数据挖掘就是商业智能。如果从技术术语上说,数据挖掘指的是以前的数据经过清洗转换变成适合挖掘的数据集。数据挖掘就是在这种有着固定形式的数据集上完成了知识提炼,用合适的知识模式做下一步分析决策工作。通过以上分析,笔者把数据挖掘定义为:数据挖掘就是从数据集中挖掘和提炼知识的过程。
3 数据挖掘的取样方法
取样是一种成熟的统计技术,已被研究了上百年,随机抽样技术更是如此。在数据管理领域里,关于随机抽样的有效性已有很多描述,随机抽样能捕捉到数据基本特征的很小部分数据子集来代表总数据集,根据该样本集能获得相似的或近似的查询结果,这样的样本集还可以用于数据挖掘工作。近年来在很多领域中都采用了抽样技术,并达得了非常不错的效果,这充分说明了抽样技术的应用越来越广泛流行。
抽样的方法与分类:数据项根据在抽样技术中被选中的数据是否相同,抽样方法可以被分为偏倚抽样和均匀抽样两种。在偏倚抽样中,不一样的元素入选的概率也可能不一样。而在均匀抽样中各个元素入选的概率是相同的。相同的抽样概率能以相同尺寸的抽样产生互动类同。均匀抽样经典的两种设计是,伯努利抽样和水库抽样,这两种抽样方法是其他所有抽样方法的基础。伯努利抽样是均匀抽样,它的主要特点是所用的时间短、操作简单。生成的均匀抽样及大小为K,如果很多个元素到达时,数据流中的元素会以K/N的概率所选中,当样本集的大小超出了K,就会从中随机除去这个样本,各个元素的入选概率都是相同的。水库抽样方法是非常重要的随机均匀抽样方法,是由原来的传统方法拓展到数据库领域。大小空间固定、时间复杂度为零,更适合挖掘数据流的环境,成功的抽样技术确保了抽样的质量。从提高抽样质量的角度上说,采取了三个类型的抽样策略:第一,渐进抽样,渐进抽样就是先从一个小的抽样开始,慢慢再加大抽样的抽样率或抽样尺寸,直到抽样的正确性不随之改变为止;第二,从实验样本集中获取数据集的特征假定或预评估,在这样的基础上再进行抽样;第三,为具体的应用抽取特定的数据特征,而不是产生一个能适用于多种应用的取样集。
4 挖掘SAS数据的方法
SAS/EN可实现数据集市和同数据仓库,以及商务智能报表工具的无缝集成。它有着数据抽样工具、数据获取工具、数据挖掘工具、数据筛算工具、数据挖掘过程、数据变量转换工具和数据挖掘评价工具。
第一,数据抽样。进行数据抽样时,要从企业大量的数据里找出要探索问题的样板数据子集,并不是调用全部数据。在数据抽样的过程中,一定要确保数据的质量,保证抽样的数据的有效性、真实性、完整性和代表性。只有这样才能使以后的分析研究得出规律性的结果。
第二,探索数据特征,预处理分析和子处理分析。有了样本数据集后,看它是不是达到了以前的设想要求,趋势和规律是否明显,是否有没有设想过的数据状态,因素之间是否有关联性,这些内容是首先要探索的。分析探索数据的特征,可视化操作是最理想的操作方法。
第三,技术选择和数据调整、问题明确化。想让解决的问题更加明确时,尽可能把解决的问题进一步量化。在问题量化后的基础上,就能按问题要求审视数据集了,针对问题的需求看它是不是适应,必要时要对数据进行删除或增加,在数据挖掘过程会有新的认识,生成或组合新的变量,对状态的有效描述就得到充分体现。
5 结 语
随着计算机科学的快速发展,数据挖掘已成为重要工具,本文对数据挖掘的概念、特征和本质、取样方法等进行了详细分析,希望为数据挖掘的计算流程优化作出一定的贡献。
主要参考文献
[1]高彩霞.数据挖掘取样方法研究[J].电子技术与软件工程,2014(10).
[2]陈阳.数据挖掘取样方法研究[J/OL].城市建设理论研究:电子版,2013(22).
[3]胡文瑜,孙志挥,吴英杰.数据挖掘取样方法研究[J].计算机研究与发展,2011(1).