浅谈数据挖掘和自适应算法的应用

2016-12-21 10:20张晓东王斌
电脑知识与技术 2016年28期
关键词:扩展数据挖掘

张晓东+王斌

摘要:数据挖掘自从提出以来,已经得到了广泛的应用和发展。关系关联规则表示一种特定类型的关联规则,该规则描述了在数据集内描述实例的特征之间发生的频繁关系。该文研究的是重新挖掘一个数据集,这个数据集是之前已经被挖掘过的,但是描述数据库中的元素的属性集增加时,如何更高效的挖掘关联规则。

关键词:数据挖掘;数据属性集;自适应算法;扩展

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)28-0023-01

1 数据挖掘背景

自从人类进入信息社会以来,随着计算机和网络的普及,科学技术迅猛发展,产生的数据量越来越大,在各个领域都积累了大量的数据,如考试报名系统人员的报名信息、搜索引擎每天的海量搜索记录、购物平台产生的海量交易记录和银行系统每天繁杂的转账记录等等。显然在这些数据中蕴藏着丰富的可以加以利用的信息,但是传统的文件系统面对如此海量的数据显得无能为力。因此我们迫切需要一种工具和手段,从这些数据中挖掘出我们感兴趣的信息和知识。数据库技术的发展有力地加快了人类向信息化时代发展的脚步,但是数据库的统计和查询功能,根本无法满足人们对有趣知识和信息的挖掘需求。于是,人们将数据库技术、信息检索、算法、机器学习和统计学等技术相结合,数据挖掘应运而生。

数据挖掘是一门交叉学科,它融汇了不同学科的技术,具有分类、聚类、关联规则和序列模式的发现、预测、偏差的检测等多种功能,各项功能互相联系,共同发挥作用。

2 自适应算法在数据挖掘中的应用

自适应算法是一种崭新的关联规则挖掘算法。关联规则挖掘的传统方法是从一组已知的对象开始,在数据集内发现有趣的关系关联规则。在这组已知的对象中,每个对象是由一组属性来描述。例如,假设用D来表示一个数据集,则|D|表示这个数据集中对象的个数。D中每个对象都用n个属性{A1μ1A2,...μm-1Am}来描述,每个属性Ai(1≤i≤m)都有唯一的取值,μi表示一种大小关系,比如≤。但是在现实生活中,对象的属性集可能是要变化的,显然,为了获得在这些条件下的对象集的有趣的关联规则,也就是当描述对象的属性集增加的时候,传统的挖掘算法可以一次又一次从头开始应用。但这可能是低效的。于是我们提出一种自适应算法的思想。

自适应算法适用于在第一次挖掘结束,属性扩展之后需要进行第二次挖掘的时候。如果表示这些数据元素的属性集扩展s项,分别是m+1,m+2,...,m+s项。很显然,扩展之后,描述数据元素的向量变成m+s维。这个时候,我们应该充分利用第一次的挖掘结果。在一项集结合的时候,旧属性之间不能再进行结合,相结合的两个属性至少要有一个是新属性,这样结合,得出的结果一定是第一次挖掘的时候所没有的,是崭新的规则。

自适应算法识别有趣的关联规则是一个迭代的过程,首先是基于关联规则长度的迭代,然后验证的候选人的最小支持度和最小置信度。在开始阶段,它先计算长度为2的关联规则的支持度和置信度,选出有趣的关联规则,即验证关联规则的最小支持度和最小置信度。长度为k的关联规则挖掘过程分为两个阶段。第一个阶段是要产生候选项,长度为k的候选项的产生来源于两部分。一部分是属性集扩展之前的数据集中,另一部分是在属性集扩展之前的数据集中的两个长度为k-1的关联规则结合而成。第二个阶段是要扫描数据集,验证最小支持度和最小置信度,找出有趣的关联规则。

由上述可知,自适应算法对第一次挖掘的结果采取了“回避”的策略,并没有在已有的结果上花费时间,而是采用了一种新颖的属性结合方式,让那s个新属性和所有的m+s个属性相结合,这样就保证了结合出来的关联规则是新的关联规则,直观上可以看出效率更高。

3 结束语

在本文中,我们提出了挖掘关联规则的一种崭新的挖掘思想——自适应挖掘思想。这种思想是在第一次挖掘之后,如何利用已有的结果,尽快挖掘出所有有趣的关联规则。但这种算法仍然是顺序挖掘算法,并没有考虑到在多处理机系统的环境下,如何利用并行思想,更加高效的挖掘信息。在未来的工作中,我们准备把并行思想融入到自适应算法之中。

参考文献:

[1]韩家炜,裴健.数据挖掘概念与技术[M].3版.范明,孟小峰,译. 机械工业 出版时间,2012.

[2]纪希禹.数据挖掘技术应用实例[M].北京:机械工业出版社,2008.

[3]R. Agrawal, T. Imielinski, A. Swarmi, Mining association rules between sets of items in large databases[C]. Proceedings of the ACM SIGMOD Conference on Management of Data 1993:207–216.

[4]谭建豪.数据挖掘技术[M]. 水利水电出版社, 2009.

[5]R. Agrawal and R. Srikant. Fast algorithms for mining association rules in large databases. In VLDB, pages 487–499, 1994.

猜你喜欢
扩展数据挖掘
基于并行计算的大数据挖掘在电网中的应用
多维传播语境下的播音主持功能与拓展研究
财务管理内容扩展的路径与方法
浅谈小学英语教学中的情境教学法
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究