关联规则挖掘兴趣度模型研究

2014-09-10 07:41李佐军
电脑知识与技术 2014年6期
关键词:关联规则

李佐军

摘要:通过查阅相关文献资料,收集整理了基于概率兴趣度模型、差异思想兴趣度模型、相关性兴趣度模型、信息量兴趣度模型、影响兴趣度模型的计算公式,并利用Visual FoxPro编程语言实现这些兴趣度模型的关联规则挖掘算法。通过实验分析了各种兴趣度模型的取值与规则显示间的关系,并简要分析总结了各种兴趣度模型的基本特点。

关键词:关联规则;兴趣度;规则显示

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)06-1223-04

On Interest Measure Models of Mining Association Rules

LI Zuo-jun

(Department of Information Science &Technology,Lincang TeachersColleges, Lincang 677000,China)

Abstract: By reviewing the relevant literature, the author collected some computing formulas based on interest measure models of probability, diversity thought, correlation, information amount andinfluence and implemented the algorithm of mining association rules of those models by using programming language of Visual FoxPro. In the paper, the author also analyzed the relationships between value and rules-show of the models and gave a brief conclusion of the general features of the models through experimental analysis.

Key words: association rules; interest measure; rules show

判断关联规则挖掘结果是否有趣的标准分为客观兴趣度和主观兴趣度,其中客观感兴趣度主要根据模式或规则的形式和数据库中的数据进行定义,属于数据驱动;而主观兴趣度还要考虑用户的参与等人为因索的影响属于用户驱动[1]。目前所研究的兴趣度主要是指客观兴趣度,通过查阅相关文献资料,介绍几种经典的客观兴趣度模型,并作简要的解释和剖析。

在介绍兴趣度模型之前,先对关联规则的两个传统阈值作一个简单介绍:假设关联规则描述为(X?Y),X为规则前件,Y为规则后件,规则支持度S(X?Y)表示为(1)式,置信度C(X?Y)表示为(2)式,而兴趣度I(X?Y)正是本文讨论的内容。

[S(X?Y)=P(X?Y)=Count(X)N×100%] (1)

[C(X?Y)=P(X|Y)=S(X?Y)S(X)=Count(X?Y)Count(X)×100%] (2)

其中D表示事务数据库,N表示事务数据库D中各项事务数的总和,Count(X)表示事务X在事务数据库D中的出现次数,Count(X∪Y)表示事务X、Y在事务数据库D中同时出现的次数。

1 概率兴趣度

1.1 概率兴趣度模型

文献[2]提出了基于概率的关联规则兴趣度模型,其值表示为(3)式。

[IX?Y=1-PY1-PX1-PY|X] (3)

其中P(X)表示事务X在事务库中出现概率Count(X)/N,P(Y)表示事务Y在事务库中出现概率Count(Y)/N,P(Y|X)表示事务X出现条件下事务X和Y同时出现概率Count(X∪Y)/Count(X)。

1.2 概率兴趣度模型的特点分析

使用Visual FoxPro编程实现基于概率兴趣度模型的关联规则挖掘算法,并且在取不同兴趣度值情况下记录显示关联规则数,具体见表1所示。概率兴趣度与规则数关系如图1所示。

表1 概率兴趣度取值与规则显示数目表

图1 概率兴趣度与规则数关系图

从图1可看出,兴趣度I(X?Y)函数值越大,规则越有价值。在兴趣度I(X?Y)的定义中,考虑到了规则(X?Y)的前项X和后项Y的耦合,同时考虑到如果对大概率事件产生的原因知道得较多,而可能对大概率事件导致的结果更加感兴趣的特点;但是兴趣度与信任度C(X?Y)不同,兴趣度I(X?Y)重点对S(Y)小的规则赋予大的兴趣度[3]。基于概率兴趣度模型主要考虑规则的简洁性、支持度以及后项的影响,却没有考虑规则前项对规则的影响。

2 差异思想兴趣度

2.1差异思想兴趣度模型

文献【4】提出了一种基于差异思想的兴趣度模型,用以指导关联规则的发现,将关联规则(X?Y)的兴趣度表示为:

[IX?Y=CX?Y-SYmaxCX?Y,SY] (4)

其中,C(X?Y)为关联规则(X?Y)的置信度,其值为(2)式所示;S(Y)为关联规则(X?Y)中Y的支持度,其值为Count(X)/N。

2.2差异思想兴趣度模型特点分析

使用Visual FoxPro编程实现基于差异思想兴趣度模型的关联规则挖掘算法,并且在取不同兴趣度值情况下记录显示关联规则数,具体见表2所示。差异思想兴趣度与规则数关系如图2所示。

表2 差异思想兴趣度取值与规则显示数目表

图2 差异思想兴趣度与规则数关系图

max{C(X?Y),S(Y )}是一个标准,保证|I(X?Y)|<1。此兴趣度模型把支持度和信任度联系了起来,反映了在X影响下事务Y在发生的概率。 当Y支持度与规则(X?Y)的置信度的差异越大时,|I(X?Y)|大于阈值,规则(X?Y)使用价值大;反之则|I(X?Y)|小于阈值,规则(X?Y)使用价值小。基于差异思想的兴趣度模型是由规则信任度与后项支持度的差异来定义的,这种方法的好处是消除了后项高支持率导对规则高信任度的影响,达到删除不感兴趣规则的目的。

3 相关性兴趣度

3.1 相关性兴趣度模型

根据文献[5]描述,将基于相关性的兴趣度模型定义为:

[IX?Y=SX?YSXSY] (5)

其中,S(X∪Y)=Count(X∪Y)/N,S(X)=Count(X)/N,S(Y)=Count(Y)/N。

3.2 相关性兴趣度模型特点分析

使用Visual FoxPro编程实现基于相关性兴趣度模型的关联规则挖掘算法,并且在取不同兴趣度值情况下记录显示关联规则数,具体见表3所示。将相关性兴趣度与规则数如图3所示。

表3 相关性兴趣度取值与规则显示数目表

图3 相关性兴趣度与规则数关系图

兴趣度I(X?Y)反映了关联规则中X与Y间的关系,是X和Y密切程度的体现;而可信度和支持度分别体现了规则依赖方向和规则在事务集中出现的频率。基于相关性的兴趣度模型是从规则前项与后项相关性来定义的,从概率的角度分析规则前项和后项相关性,若前项与后项在概率上不相关,或者相关性小,则用户对规则没有兴趣或兴趣较小,反之则用户对规则有很大的兴趣。

4 信息量兴趣度

4.1 信息量兴趣度模型

早在1992年美国学者Padhaic Symth等人在论文《An Information Theoretie Approach to Rule Induction from Database》中将关联规则(X?Y)的兴趣度定义为:

[IX?Y=PXPY|XlogPY|XPY+1-PY|Xlog1-PY|X1-PY] (6)

其中,P(X)=Count(X)/N,P(Y)=Count(Y)/N,P(Y|X)=Count(X∪Y)/N。

4.2信息量兴趣度模型特点分析

使用Visual FoxPro编程实现基于信息量兴趣度模型的关联规则挖掘算法,并且在取不同兴趣度值情况下记录显示关联规则数,具体见表4所示。将信息量兴趣度与规则数关系如图4所示。

表4 信息量兴趣度取值与规则显示数目表

基于信息量兴趣度模型主要对规则的简洁性和信息量进行综合度量的,综合考虑了前件X和后件Y概率分布的相似程度,X出现的概率P(X)作为规则前项简洁程度的衡量。规则越简洁,则X数量越少,兴趣度也越高。这种兴趣度模型考虑了前项和后项的藕合度,藕合度越高,兴趣度也越高。

5 影响兴趣度

5.1 影响兴趣度模型

西南交通大学陈安龙的硕士论文《基于兴趣度的关联规则挖掘算法的研究》中将兴趣度描述为(7)式。

[IX?Y=logCX?Y/CX?YSY/SY=logN-CountXCount(X)-Count(X?Y)×CountX?YCountY] (7)

其中,C(X?Y)为关联规则(X?Y)的置信度,[CX?Y]=(N-Count(X∪Y))/Count(X),S(Y)=Count(Y)/N,[SY]=(N-Count(Y))/N。

5.2 影响兴趣度模型特点分析

使用Visual FoxPro编程实现基于影响兴趣度模型的关联规则挖掘算法,并且在取不同兴趣度值情况下记录显示关联规则数,具体见表5所示。将影响兴趣度与规则数关系如图5所示。

表5 影响兴趣度取值与规则显示数目表

图5 影响兴趣度与规则数关系图

在总事务数N和其它不变情况下,当Count(Y)增大时兴趣度将降低,反之则上升;当Count(X∪Y)增大时兴趣度将上升,反之则降低;当Count(X)增大时兴趣度将降低,反之则上升。这种兴趣度模型使用前项对规则的影响来确定规则兴趣度,考虑了接近于阀值的强关联规则和弱关联规则的选择。

除了以上介绍的5种兴趣度模型外,还有目标兴趣度、正负项目兴趣度、卡方独立性兴趣度、Symth函数兴趣度、Gimi指标兴趣度、Piantesky-Shapiro兴趣度模型等,在此就不一一介绍了。

本文通过查阅相关文献资料,收集整理了基于概率兴趣度、差异思想兴趣度、相关性兴趣度、信息量兴趣度、影响兴趣度模型的相关知识,并利用Visual FoxPro编程语言实现这些兴趣度的关联规则算法。通过实验分析了各种兴趣度模型的取值与规则显示的关系,并简要分析总结了各种兴趣度模型的基本特点。

参考文献:

[1] 吴杰.基于兴趣度的关联规则挖掘[D].哈尔滨:哈尔滨工业大学,2009:31.

[2] 周欣,沙朝锋,朱扬勇,等.兴趣度——关联规则的又一个阈值[J].计算机研究与发展,2000,5(2):627-633.

[3] 陈安龙.基于兴趣度的关联规则挖掘算法的研究[D].成都:西南交通大学,2003:26,24-33.

[4] 周皓峰,朱扬勇,施伯乐.一个基于兴趣度的关联规则的采掘算法[J].计算机研究与发展,2002,39(4):4450-457

[5] Wai-Ho Au,Keith C,Chan C.Mining changes in association rules: a fuzzy approach[J].Fuzzy Sets and Systems,2005,149:87-104.

猜你喜欢
关联规则
数据挖掘技术在电站设备故障分析中的应用
基于关联规则的数据挖掘技术的研究与应用
面向用户需求的自适应学习系统个性化学习路径推荐研究
工业大数据挖掘分析及应用前景研究
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于关联规则和时间阈值算法的5G基站部署研究
关联规则,数据分析的一把利器
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
基于关联规则的中医肺癌数据挖掘应用研究