张田佳
摘要:在现代信息技术的发展背景下,数据挖掘成为数据库中的重要知识发现,逐渐成为一个跨学科程度较深的研究领域。而对关联规则的分析是数据库挖掘中的重要课题。关联规则在有效的提升后,通过在各领域的发展中应用,为其发展提供可靠的技术保证。本文简单阐述关联规则的概念,探讨其相应分析的求解,检验其相应分析的适应性,了解相应分析适应性的具体应用。
关键词:数据挖掘;关联规则;提升;应用
在数据信息快速发展的背景下,在庞大的数据库中挖掘有效的信息变得越来越困难,一般的数据挖掘技术很难在同时保证精确地、及时性、广泛性,优化具体的数据挖掘技术逐渐成为数据挖掘工作中的一个难题。利用有效的数据挖掘工具以及相应的算法进行有效的数据挖掘工作成为目前行业的重点话题。数据挖掘是从大量的数据中,筛选出隐藏性较高,可信度较高,具有鲜明的特点的有效信息,是数据的一种高级处理的过程[1]。而数据挖掘中的关联规则是一种主要的挖掘技术,能够指导整个数据挖掘工作的进行,优化相应的数据挖掘工作,更好的适应于各个行业的数据挖掘需求。
1.关联规则的概念
关联规则是一种X→Y的一种蕴涵式,X和Y是关联规则的先导,关联规则的XY存在一定的支持度与信任度。
早在1993年,Agrawal等人提出了关联规则的概念。关联规则被认为是,假设I={I1,I2,…,Im}是项的集合,那么,给定一个用于交易的数据库D,其中每一个交易都会与一个唯一的符号对应。关联规则在数据库中的支持度应该是数据库中的事务,同时包含的X、Y的概率,而信任度则是数据库中的条件概率。一般情况下,如果能满足具有最小的支持度和信任度,就可以认为关联规则是成立的。而最小的支持度和信任度是人为而定的。关联规则,其核心的方法是频集理论的递推方法[2],它可以及时发现具体的交易中,数据库中不同的商品之间存在的联系,然后在后续的工作中,通过一定的规则找出客户购买行为模式。目前,利用关联规则挖掘数据的方法已经广泛应用在商业、电信等各个领域中,因此,对关联规则的研究显得尤为重要。
利用这样的简单例子来说明关联规则的概念,上述的表格是顾客在超市购买记录的具体数据库情况,包含了6个事务,项集为I={乒乓球拍、乒乓球、运动鞋、网球}。分析关联规则:乒乓球拍与乒乓球,事务1、2、3、4、6包含乒乓球拍,事务1、2、6同时包含乒乓球拍和乒乓球,X^Y=3, D=6,支持度(X^Y)/D=0.5;X=5, 置信度(X^Y)/X=0.6。若给定最小支持度A= 0.5,最小信任度B= 0.6,认为购买乒乓球拍和购买乒乓球之间存在关联。
2.相应分析的求解
在数据挖掘中,关联规则挖掘的对象一般是事务数据库。在具体的事务数据库中可以考察设计到众多属性的事务,在上述的关联规则概念的分析中,乒乓球拍与乒乓球等都是具有属性的事务[3]。通过具体的数据库分析,进行关联规则的统计描述,可以解决实际发展领域中的问题,使不同的行业通过关联规则在数据库中筛选有用的信息,促进其行业的发展。
在关联规则中,进行相应性的分析,简单来说就是分析两组或者多组变量之间关系的有效方法。一般的离散情况下,对相应性的分析要从资料出发,建立因素之间的列联表,这样的列联表可以是二维的也可以是三维的,然后对数据进行分析。这种分析方法在几维子空间上的建立如果是最优化的状态,则表示这种相应性的分析是完善合适的。
对相应性分析进行求解,明确各个要素之间的权重作用,分析权重矩阵,得到相应的数据处理方法。
具体的求解方法参考胡定国和张润楚在1990年提出的具体理论[4]。
(1)卡方距离意义下的总的信息变差
要在计算的过程中,针对不同的因素的轮廓矩阵引入卡方距离:
d2(i,i′)=∑cj=11f-jfijfi.-fi′jfi′.和
d2(j,j′)=∑ri=11fi.fijf.j-fij′f.j′2.
按照一定的配合优度的准则,求卡方意义下的总信息变差,
tr(s)=tr(Q)=tr(S*)=tr(Q*),
其中,
S=F′D-1rFD-1c,Q=FD-1cF′D-1r,
S*=D-12cF′D-1rFD-12c,Q*=D-12rF′D-1cFD-12r.
在变差信息损失达到最小的意义下,求解因素间关系的最优的联立表示,这样的求解要在低维空间中进行。
(2)最优的联立表示
求解特征值和特征向量,注意相同的非零特征值,通过设立不同的关系式将进行分析,得到空间中分析的对偶关系:
βαα=D-1cF′φα,βαφα=D-1cF′α, α=1,2,…,l0,
或
α=β-11αD-1cF′φα,φα=β-12αD-1rFα, α=1,2,…,l0.
这样就被称为相应分析的联立表示,当a值取1或2……时可以称为最优联立表示。
(3)进一步求解分析
在具体的相应性分析中,会给定常数,然后得到在维子空间的最优联立表示,最后在联立表示的基础上分析各个因素之间的关系。
3.相应分析的适应性检验
3.1适应性检验的主要思想
对相应分析的适应性检验首先要明确其检验的主要思想,在思想的指导下做进一步的检验。一般的检验要根据数理统计理论来进行,检验两个变量的独立性[5]。
用以下公式进行计算:
W0=k∑ri=1∑cj=1f2ijfi.f.j-1,
两个变量的独立性,与取样的大小以及小于1的特征值的和的大小有密切的关系,在给定水平a的情况下,如果在a水平下两组的因素是独立的,就不需要做相应的分析,也就是这样的相应分析没有任何意义。所有的列联表数据是反应随机误差的,不能有效的包含两组因素之间的关联。如果在分析的过程中不进行假设,就可以用相应分析来讨论两组因素之间的关联关系。
3.2相应分析的适应性检验和分析
对张润楚和朱建平在2002年提出的频率矩阵进行分析,根据相应分析的求解步骤和具体的公式,得到统计量。而针对独立性的检验,要在两组因素独立的假设下,根据拟合优度检验相关的理论。如果具体的假设被拒绝,要进行进一步的相应分析。
相应分析的检验程序为:对于给定的水平a,首先要进行零假设的禁烟,计算其统计量W0,判断W0是否大于临界值,如果大于,则检验结束,可以得出;两组因素之间没有关联关系,这种情况不需要做相应的分析。如果对零假设进行检验,计算的统计量小于临界值,就可以取一个特征值进行相应的分析[6]。最后,要重复上述的分析和检验,进而更好的描述各个因素之间的具体的关联关系。
4.相应分析适应性的应用
相应性分析适应性的应用体现在各个行业中,利用相应性分析来挖掘数据库中的有用信息,为行业发展提供有效的建议,促进其快速发展。
在数据挖掘中的关联规则,具体表现为相应分析适应性,因此,对相应分析适应性的应用也就是关联规则挖掘技术的应用。
随着数据挖掘技术以及各种挖掘工具的不断发展和应用,在诸如金融行业、超市零售行业、电信行业中,相应分析适应性的应用广泛而深入,通过积累的数据,进行有效的分析,能明确行业的发展情况,为具体行业的发展提出建设性的意见和参考。
以某地区中国电信移动手机用户缴费情况数据库为例,来分析相应分析适用性的应用。
2014年3月-2014年9月的用户缴费资料一共有189752条信息,基于用户信息会发生变化的情况,按照月份建立信息系统,根据消费的分类构建列联资料。为了具有一定的对比性,将2014年4月某地区电信移动通讯用户的本地与长途话费作为多度的关联相应分析。
在具体的应用中,首先对2014年3月资料提供的参数急性多度相应分析,得到电信用户2014年3月本地长途话费的适应性检验和多度关联图、三维关联相应分析。随后进行有效的分析。
3档长途话费和4档的本地话费,4档的长途话费与5档的本地话费之间的关联性较强,而且两种话费之间的其他类别的关联性也比较强。长途话费 5、6档与本地话费的6档有离群的现象发生,能充分说明,本地在电信引动通讯的消费上有一定的差距。利用三维关联相应分析,进一步的描述长途与本地话费在不同的档次之间的分布,把握两组因素之间的各种关联性。简单的举例就是,如果本地的话费1档,从不同的角度看到它的离群性,但是本地话费相比离群性,显然情况比较好,对于这种情况,可以借助高度的关联对其进行进一步的深入分析。
在数据挖掘中,关联规则的提升及其应用在具体的情况下,需要进行相应分析的适应性研究与检验。在原有相应分析结果具有纰漏时,要进行多度的关联分析,以及多个维度的可视化的分析,弥补原有分析的不足,从不同的角度,对因素之间的微妙的关联关系进行及时的把握,能起到描述因素之间的具体的关联程度的作用。
面对大量的市场数据,不同的数据挖掘单一整个行业的发展具有非常大的促进作用。不仅可以从电信消费的大量数据中得到整个行业发展的情况,为了解当地消费市场提供有效的资料。还可以利用数据挖掘中的关联规则对超市商品的销售数据进行相应分析,了解其商品之间的关联性关系,对商品进行分析和组合管理,可以更好的促进超市商品的销售,使整个超市的发展更加迅速。
结束语
数据挖掘中的关联规则是挖掘有效数据的重要方法,其应用领域非常广泛,在具体的数据分析中,应用关联规则对数据进行相应分析,明确其适应性,能为具体的工作提供可靠的信息,提高工作效率,促进整个行业的快速发展。现阶段,在数据挖掘的基础上,提升整个关联规则的效度,并将其应用到更多的领域中可为各领域发展提供可靠的技术保证。(作者单位:北京优购文化发展有限公司)
参考文献:
[1]王彦增,曹正.基于WEKA数据挖掘中关联规则的分析及应用举例[J].经济论坛,2013,01:165-167.
[2]王祥瑞.数据挖掘技术中关联规则挖掘的应用研究[J].煤炭技术,2011,08:205-207.
[3]杨帆,杜玮,陈经优.数据挖掘中关联规则算法的研究[J].电子技术与软件工程,2014,21:216-217.
[4]顿毅杰.数据挖掘中关联规则的频繁项集研究及算法设计[J].硅谷,2010,05:62+121.
[5]刘春,谭琨,安向明.数据挖掘中关联规则的研究与应用[J].电脑学习,2010,03:95-97.
[6]张成叔.数据挖掘中关联规则挖掘方法的研究及应用[J].软件,2013,09:138+140.