王翠红
摘 要:随着信息时代的发展变化,庞大的数据规模对于当前数据挖掘算法处理的要求也越来越高。数据挖掘技术指的是从大量不完全的、模糊的以及随机的数据中提取出具有潜在价值的信息的过程,其中的知识通常所指的有意义的规律。数据挖掘技术是随着数据库技术发展必然的产物,它能够实现据库信息管理系统智能化,还能够改善系统的实用性与有效性,为决策提供科学有效的依据。但是由于数据库规模仍在不断扩大,个人电脑硬件配置也受到很大的限制,数据挖掘算法的效率面临着较大的挑战。在这样的情况下,具有提高计算机效率的抽样技术被广泛应用。由于抽样技术需要计算科学、数据库与统计学相关学科的支持,所以在数据挖掘中应用抽样技术还有待进一步完善。本文首先论述数据挖掘及抽样技术的概念,分析在数据挖掘中应用抽样技术的重要性,最后结合相关实例探讨具体应用方式。
关键词:数据挖掘;抽样技术;统计学;数据库
计算机技术的高速发展使计算机的存储能力和处理能力得到很大的提高,不同类型的数据库应用也越来越广泛。由于计算机技术和信息技术的不断融合,全球快速进入信息化时代,产生兴趣的渠道越来越多、信息量越来越大、信息更新的频率也逐渐加快。面对如此庞大的信息量,人们获取有价值的信息变得较为困难,数据库应用而生,数据库知识发现(KDD)技术就是为了满足这样的需求发展而来。随后数据挖掘作为一门新兴的学科在企业决策、商业发展的沃土中快速成长起来。就当前的研究重点来看,人们普遍重视数据挖掘过程中使用的模型和算法,对于抽样技术却没有给予应有的关注。部分学者甚至认为抽样技术的应用会导致信息丢失,且有其他技术能够作为替代。尽管抽样技术在数据挖掘过程中起到的并非决定性作用,但是其优势对于数据挖掘的收益也不能忽视。
1.数据挖掘及抽样技术概述
1.1数据挖掘技术
数据挖掘指的是从存放在信息库的海量数据中挖掘出有价值信息的过程,该技术从兴起而来一直都是研究的热门,到今天已经有大量的实现算法支持。数据挖掘技术主要面对的对象是结构化数据为主的数据仓库,随着网络技术和数据库技术的发展,类型复杂的数据不断涌现,其中隐藏着具有较高价值的知识与信息,复杂数据的挖掘主要包括对多媒体数据的挖掘、空间数据的挖掘、文本数据挖掘、流数据挖掘、Web数据挖掘。数据挖掘技术不但可以查询以往数据,还能够对数据发展未来的趋势进行预测,探索以往数据挖掘终未发现的模式,为人们的决策提供很好的支持。被挖掘出来的信息主要用于信息管理、决策、查询处理、过程控制等应用。
1.2抽样技术
抽样技术是选择数据对象子集进行分析的方法之一,在统计学中通常用于数据的事先调查和最终分析。抽样调查是一种非全面性调查,从全部调查对象中抽取出部分样本进行调查,并根据结果对总体进行推断,其目的在于获得能够反映总体特性的信息,是统计学中非常重要的方法。
数据挖掘过程中,抽样技术同样具有较大的应用,但是与统计学中的应用动机与作用有较大区别。在数据挖掘中,抽样技术能够对整体特征进行推断,处理全部数据需要耗费太高的时间和费用,而应用抽样技术能够压缩数据量,很大的减少计算开销,并产生与总体挖掘效果相近的结果。抽样技术能够贯穿于数据挖掘的全过程,在数据准备阶段、算法实现阶段、效果评价阶段都能够看到抽样技术的身影。抽样技术的应用不但可以提高数据挖掘效率,同时还能保证结果准确性、给出具体的误差范围,从而获得良好的成效。
2.抽样技术在数据挖掘中的重要性
2.1提高数据挖掘的速度和效率
数据挖掘技术好坏的重要评价因素就是速度与效率,主要取决于系统软硬件的配置、应用的工具算法、数据的选择方式以及数据集的特点。就调查而结果来说,当前已经存在的数据挖掘软硬件系统进方案中,能够不使用统计抽样方法节约成本与时间的方式是不存在的。通过应用抽样技术能够确保大部分信息不发生丢失,与此同时提高计算速度、降低成本。数据挖掘工作人员将主要精力放在模型的建立和选择上,而不是浪费大把的时间等待系统运算。
2.2辅助特殊性问题的分析
特殊问题的性质与特点同样会影响数据处理,在某些商业问题中会涉及到破坏性试验,传统处理方法难以胜任。而选择抽样技术,抽取其中一小部分产品进行破坏性实验能够推算出整体结果,确保实验的经济和有效。
2.3满足数据处理的需要
某些数据在收集过程中,可能受到数据库中过期的、无效的、错误的以及缺省的信息干扰,造成结果不准确。因此在进行数据挖掘之前应当对这一部分资料信息进行删除或修正,这一步骤也就是数据挖掘的数据清理。但是对所有元数据进行清理同样需要耗费大量的时间和精力,在某些情况下,数据挖掘在已经进行预处理过的数据仓库中开展,但是在实际解决问题过程中,仍然需要根据问题进一步对数据信息进行调整,此时应用抽样技术显得非常必要。
3.抽样技术在数据挖掘中的具体应用
3.1关联规则中应用
在关联规则领域应用抽样技术首先由Toivonen提出来,该算法的基本原理是得到一个随机样本之后在这个样本基础上发现关联规则,将得到的关联规则作为整体数据规则,然后通过数据集中剩余的数据对规则进行验证。通常情况下,该算法通过扫描整个数据集能够发现所有的关联规则。
确定某一个事物的集合T,关联规则发现是指找到集合中支持度大于等于最小支持度、同时置信度大于等于最小置信度的全部规则。最原始的寻找关联规则算法是将全部规则的支持度与置信度计算出来,然后选择满足支持度阈值与置信度阈值的规则,由于该方法计算量大、但结果大多数无用。为了提高效率,通常情况下会对规则进行修剪,这也就是当前多数关联规则使用的Apriori算法。FAST算法也屬于关联规则算法,其方法为:首先通过抽样生成样本,然后通过数据样本快速对数据集中每一个项目的支持度进行估算;随后得到数据项的支持度,对初始样本中的离群数据进行调整,或者是选取更加具有代表性的数据形成最终的样板,这个最终样本能够很好地反映出数据集合的特性,并实现关联规则的发现。本文通过UCI机器学习裤中的部分数据作为实验数据,验证关联规则的有效性。该数据集中一共有448条记录,包含17中不同的属性,每天记录都表示不同的人对于16个不同问题的回答。也就是前16个属性对应问题、最后1个属性是人的身份(民主党派或者是共和党派),数据挖掘的目的在于找出问题属性与人的身份之间的关联性,最终得到的部分运算结果可见下表。
3.2分类中应用
常见的分类法主要包含决策树、统计学方法和神经网络法等,这些方法无疑都借助抽样思想,因此可知分类和抽样之间的密切联系。例如判定树归纳算法中使用的窗口就是一种典型的抽样策略,其步骤为:在全部训练数据中随机抽样得到初始窗口;然后在窗口上生成决策树,通过剩余的训练数据对决策树进行验证,直到满意。例如在数据库中进行人口调查,通过基础数据进行修改得到数据集,应用抽样技术能够很大程度上缩短分类时间,且不会影响分类结果的准确性。
3.3应用抽样技术注意事项
3.3.1样本量的问题
基于数据源中实际数据分布,通过给出的精度阈值可以对对样本容量以及挖掘结果的准确性进行分析,这一环节也被成为学习曲线逐步拟合的过程,在实施过程中能够确定出满徐精度需要的最小样本容量。再确定一次抽样样本容量期间,不能够以人的主观感受为依据,而是需要掌握数据分布特点,在进行深入学习之后进行考量。这样的方法确定的样本容量才是考虑整体样本分布的结果,才能够保证进行抽样的数据和原有的数据集之间的良好的对应关系。
3.3.2抽样效率的问题
在实际的应用过程中,不同的抽样技术相互之间也可以结合成为不同的抽样方案,如分层抽样和等距抽样结合起来,运用得当不同程度地提高抽样精度。但是在数据挖掘过程中,设计抽样方案期间不仅要考虑各种车辆技术对精度的影响,还应当结合抽样效率进行考虑。内容数据探索、样本的确定和分割等技术应用期间是否具备灵活性,是否能够提高抽样效率等。做好这一点需要注意以下两点:首先,数据挖掘工作者应当了解源数据集,做好数据準备阶段的探索工作;再者,还需要根据解决的实际问题选择合适的抽样技术才能够确保抽样效率。
结束语
数据挖掘是一个集合了多学科、多领域,融合了人工智能技术、数据库技术、工程技术、统计学、高性能计算、面向对象方法以及数据可视化等多种技术的研究成果。之所以将数据挖掘成为未来信息处理的干技术,其原因在于数据挖掘以及全新概念改变人们利用数据的方式。近年来,大规模数据库的挖掘工作界范围内的研究重点,而抽样技术是将工作者从海量数据挖掘工作中解放出来的重要手段。在数据挖掘中应用抽样技术,能够降低处理结果的规模、保证结果的准确性,为决策提供精确的资料依据。本文通过研究抽样技术在数据挖掘中的意义和重要性,探讨实际应用过程,证实了抽样技术对于提高数据挖掘效率产生的重要作用。(作者单位:北京当当网信息技术有限公司)
参考文献:
[1] 殷贤君.基于增量存储的商业数据流分类挖掘算法研究与应用[D].浙江工商大学,2011.
[2] 谢笑盈.数据挖掘中抽样技术的应用研究——方法改进与实证分析[D].浙江工商大学,2010.
[3] 汤晓超.基于数据挖掘技术的审计抽样系统开发和研究[D].江苏大学,2010.
[4] 琚春华,殷贤君,许翀寰等.结合自助抽样的动态数据流贝叶斯分类算法[J].计算机工程与应用,2011,47(8):118-121,142.