数据挖掘技术与关联规则挖掘算法研究

2014-04-17 09:12韦丽红
佳木斯职业学院学报 2014年1期
关键词:数据挖掘关联规则

韦丽红 陈 松

(呼伦贝尔学院计算机科学与技术学院 内蒙古海拉尔 021008;

呼伦贝尔市人力资源和社会保障局 内蒙古海拉尔 021008)

数据挖掘技术与关联规则挖掘算法研究

韦丽红 陈 松

(呼伦贝尔学院计算机科学与技术学院 内蒙古海拉尔 021008;

呼伦贝尔市人力资源和社会保障局 内蒙古海拉尔 021008)

探讨数据挖掘在现今关联规则算法中的使用情况,提出目前研究关联规则的研究现状,针对现状,总结出一种新的研究分析关联方法,指出关联规则算法在今后的出路以及进一步的研究方向。利用分析文献查询和比较分析方法,阐述各种方法对典型关联的影响,其中作为一个为基点是以核心Apriori的算法。结论是Apriori算法仍然有一些不能消除的缺点,这有待进一步研究,同时指出今后的研究方向需要提高大量数据的运算效率,并且能够与OLAP相互结合生产结果的可视化。

Apriori算法;研究;DM;技术

数据挖掘(DM)是在大量未知的、无规则的、偶然的现实数据当中提炼出隐含的关联信息或知识,这就是关联规则挖掘。关联规则挖掘是在20世纪90年代提出来的[1],这个问题提出了以后,很多研究人员和科学家对关联规则问题进行了深入的研究,从不同思考问题的角度提出了数十种关联规则挖掘算法,Apriori是最著名的关联规则算法,这个是由一个非常著名的美国统计学家提出的,Apriori算法影响了之后很多算法的建立。在很多科学家和研究人员的继承和发扬这个关联规则算法之后,现今的关联规则算法逐渐完善了以前的缺陷。

一、关联规则的种类

1.按照需要的数据变量进行处理分类,关联规则分为布尔型和数值型。布尔型[2]显示数据变量之间的关系,它无法处理关联规则中的连续的变量;而可以结合多维关联的是数值型的关联规则(或者多层关联),然后对数值型的数据进行处理,然后进行动态分析。

2.按照关联规则中的抽象层次,可以分为单层关联规则和多层关联规则。现实数据中单层关联规则对所有的变量都不考虑这些单层因素;而多层关联规则是会考虑现实数据中的多层因素,并且对多层进行了充分的考虑。

3.按照规则中涉及多的数据维数,可以分为单维关联规则和多维关联规则。如果数据只设计到一个维数,那就属于单维关联规则,反之则属于多维关联规则。在单维关联规则中,我们只处理单个属性,关系明了简单。在多维关联规则中则需要处理不同属性之间的某些联系,处理的关系较复杂。

二、关联规则中经典频集方法的算法

在20世纪90年代,挖掘交易数据中集间的关联规则问题是由一位非常著名的明国科学家首选提出的[3],频集理论的方法是当时的核心推算方法,之后所有研究数据挖掘方面的研究人员和科学家都在频集理论的方法上进一步优化。随着时代变迁,随机采样、并行等理论引进频集理论,然后对关联规则的应用进一步推广。

经典频集方法的核心算法分为两步:寻找频集的规则属于第一步,第二步的步骤如下。如一个给定的已知频集X=T1T2…Tn,n≥2,只有集合{T1T2…Tn}中的项的所有规则(最多n条)就产生了,其中每一条规则的右部只有一项。为了使所有的频集能够产生,接下来就使用递推的运算方法进行计算。

在经典频集方法中仍然有很多不足,所以后来的研究人员在经典频集的基础上进行了优化,优化是多方面的,主要在以下几个方面进行,如基于栈变换的算法;基于划分的方法;减少冗余规则的算法;基于采样的方法;基于Hash的方法等。在进行一系列的优化之后,经典频集方法得到完善和推广应用。

三、衡量关联规则价值的方法

1.系统方面。“支持度-可信度”的结构能够适用于很多算法,但是这种框架有时候会产生错误的信息。比如某些结果虽然更精确,但是支持度和可信度都较低。如果我们设置支持度和可信度的时候程度较低,这样就可能得到两个相互矛盾的结果。但是如果设置的过高,我们就无法得到准确的关联规则,不利于结果分析。所以,仅仅通过“支持度-可信度”这个准则来判断是不够准确的。从很多记录看出,支持度是很多用户信任的重要因素,如果把支持度设置足够低,不会丢失任一有意义的结果,但是计算效率可能不是很高,从用户观点上,这是可行的规则。

2.用户方面。一项规则有没有用,很重要一点是否取得用户的信任,用户的体验感受是很重要的。当用户觉得有效和可行,这个规则才可以继续存在和发展。所以在现实中,我们不仅考虑系统运算的结果,同时也要结合用户的需求。

四、讨论

关联规则的各种方法在数据挖掘的运用上已经逐渐成熟,如今很多大型IT公司或者金融公司的很多大型项目已经运用了关联规则中的某些研究成果,关联规则算法的应用前景可以说是非常的广泛。综上所述,在关联规则方面的数据挖掘,今后几年可以在关联规则相结合的问题、提高处理大量数据效率问题以及结果可视化方面进行研究和突破。

[1]李铭.关联规则的多支持度挖掘在销售数据中的应用[J].计算机工程,2012,29(8):92-93.

[2]李哲,杨兆中,庞炳章.大型数据库中关联规则的向量法挖掘[J].计算机工程,2010,32(5):47-49.

[3]惠晓滨,张凤鸣,虞健飞.一种基于栈变换的高效关联规则算法[J].计算机研究与发展,2011,40(2):30-35.

Data mining techniques and algorithms for mining association rules

Wei Li-hong, Chen Song

(Computer Science and Technology Institute, Hulunbeier University, Hailar Inner Mongolia, 021008, China;
Hulunbeier Human Resources and Social Security Bureau, Hailar Inner Mongolia,021008, China)

To explore the data used in the algorithm of association rules mining, proposes the research status, sums up a new research association analysis method according to the present situation, points out the algorithm of association rules in the future and further work. Using the analysis of literature search and comparative analysis method, to discuss the influence of various methods of typical connection, which serves as a basis for the Apriori algorithm. Conclusion still has some cannot eliminate the disadvantages of Apriori algorithm, which need further research, and points out the direction of future research to improve the computation efficiency of large amounts of data, can produce the visualization of results combined with OLAP.

Apriori algorithm; research; DM; technology

P413

A

1000-9795(2014)01-0498-01

[责任编辑:陈怀民]

2013-11-27

韦丽红(1982-),女,黑龙江人,讲师,从事语义web、文本挖掘、信息处理方向的研究。陈 松(1985-),男,内蒙古人,助理工程师,从事计算机科学与技术方向的研究。

猜你喜欢
数据挖掘关联规则
撑竿跳规则的制定
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
数独的规则和演变
探讨人工智能与数据挖掘发展趋势
“一带一路”递进,关联民生更紧
奇趣搭配
让规则不规则
基于并行计算的大数据挖掘在电网中的应用
智趣
TPP反腐败规则对我国的启示