基于粗糙集的可拓数据挖掘*

2014-05-30 05:11郭志强
阴山学刊(自然科学版) 2014年2期
关键词:约简粗糙集数据挖掘

郭志强

(山东工商学院数学与信息科学学院,山东烟台 264005)

基于粗糙集的可拓数据挖掘*

郭志强

(山东工商学院数学与信息科学学院,山东烟台 264005)

客户关系管理是数据挖掘中的一个重要方面,如何对现有客户的管理和对潜在客户的挖掘与培养是企业获得成功的关键,本文结合可拓学与粗糙集的方法对现有客户购买某种商品进行分类,并利用可拓学的方法对潜在客户的挖掘与培养做了初步的研究。

粗糙集;属性约简;可拓数据挖掘;关联函数

1 引言

数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database,KDD),它是指从大量数据中获取有效的、新颖的、潜在有用的、最终可被理解的模式的过程。简单来说,数据挖掘就是从海量的数据中提取信息[1]。客户关系管理是数据挖掘中的一个重要方面,客户关系管理(Customer Relationship Manage-merit,C R M)是以客户为中心的管理理念,是国内外近来关注的热点之一。企业要正确地实施 CRM,就必须根据自身的特点,通过对大量的客户数据进行综合分析,对客户进行有效的分类,并根据不同类别提供个性化的服务,以保持和吸引客户。因此从大量的客户数据中高效地提取客户知识具有重要意义。

2 粗糙集与可拓学

2.1 粗糙集的基本概念

定义1:设R是非空有限集合U上的一族等价关系,U/R表示R的所有等价类构成的集合,若P⊆R,且P≠φ,则∩P也是一个等价关系,称P为U上的不可分辨关系,用 ind(P)来表示,并有ind(P)={(x,y)∈UXU:f(x,a)=f(y,a),∀a⊆P}.ind(P)的等价类称为P的基本概念或基本范畴。

定义2:设y∈D是决策表(U,A)中的一个决策属性,A=C∪D,C∩D=φ决策属性y∈D关于条件属性 a∈C的支持子集为 Sa(y)

设U为论域,C为条件属性集,D为决策属性集,A=C∪D,C∩D=Φ,则(U,A)构成一个决策表,下面我们先定义D关于C的支持度与近似度。

定义3:设W⊆U,对于分类U/a,定义W的下近似为

类似,定义W的上近似为

定义4:决策表(U,A)决策属性D关于条件属性C的支持子集为

称为D关于C的支持度;

称为D关于C的近似度

定义5:令Φ⊂X⊂C,Φ⊂Y⊆D,U/Y≠U/δ={U},如果X0⊆X满足

(2)如果X'⊂ X0,则 SX(Y)⊃ SX'(Y)则称X0是X的一个约简(对于Y而言)。

定义6:给定 c∈C。如果SC(Y)⊃SC-{c}(Y),则称c在C中是重要的(相对于Y而言);如果SC(Y)=SC-{c}(Y),则称c在C中是不重要的(相对于Y而言);从而定义c在C中重要度(相对于Y而言)为

2.2 可拓学与关联函数

物元是可拓学的基本细胞,每个客户的信息都可以用一个多维物元来表示,如

为条件属性特征,d为决策属性特征。

定义7:设U为论域,k是U到实域I的一个映射,T为给定的对U中元素的变换,称

为论域U上关于元素变换T的一个可拓集合,其中y=k(u)为的关联函数。

定义8:设X0=(a,b),X=(c,d),X0⊂X ,令

称k(x)为点x关于X0和X在X0的中点取得最大值的初等关联函数。其中

定理1:对于两类规则:A→P,B→N,一般情况A= ∧ ai,B= ∧ bj。

若存在条件的可拓变换T条件:T条件(B)=A,并存在结论的可拓变换T结论(它为T条件的传导变换):T结论(N)=P,则成立可拓变换规则知识(变化知识)

即:i fT(B)=A,thenT(N)=P。

定理2:对于两条同类规则:A→P,C∧B→P,

若存在可拓变换:T(B)=A,则成立可拓变换规则知识:T(B)=A→P,即:

3 基于粗糙集的可拓数据挖掘步骤

从某一商品P销售数据库中随机选择n个顾客的数据信息,设顾客条件特征集合为A=(c1,c2,…cm),d为决策特征,即是否购买商品P,一般来说,我们对购买商品P的客户(即d为yes,简称d为Y)做研究。文献[5]中虽然对购买某种商品进行了分类,由于缺少全局支持度与近似度的约束,使得分类不够精细;文献[6]中对顾客进行了比较全面的分类,但不是针对是否购买商品P来进行分类,缺乏针对性。下面,本文结合上述文献就对于购买该商品P的客户进行分类,以及对潜在客户进行培养与挖掘提出了一个方法。

步骤1:利用定义5对条件属性C(相对于Y而言)进行属性约简,得到C的约简集为Pi,1≤i≤2m-1。

步骤3:给定属性约简集Pi中每个属性pij对决策属性d为yes的最小支持度sup与最小近似度conf,提取出Pi中各属性值对d为yes的支持度与近似度大于最小支持度与近似度的规则,以它为基础,

步骤4:Pi中各属性关联函数构成一个关联函数向量。结合Pi中各属性的权值构造全局关联函数

步骤5:计算U中每个物元在约简集Pi上的关联向量函数和全局关联函数且,则此客户为优质客户。若<0,则此客户为潜在客户;若,则此客户为非此商品客户源。

步骤6:,利用定理1或定理2构造一个可拓变换T,可以使潜在客户变成为优质客户。为企业挖掘培养新客户找到一个新的方法。

4 应用实例

下面是从顾客一年中对商场中某品牌家电是否购买的2000条统计记录中抽取了15条信息进行说明:如表1所示。

表1:客户原始数据信息表

运用粗糙集理论处理信息系统时,要求系统的值用离散(如整型、字符串型、枚举型)数表示.如果某些条件属性或决策属性的值域连续值 (如浮点型),则在处理前必须进行离化处理,如表2所示。

其中 D={d}为决策属性集。C={C1,C2,C3,C4}为条件属性集。其中各属性及属性值表示为

C1表示年龄,1 为(20,30);2 为(30,40);3 为(40,50),

C2表示月收入(元),1为(0,2000);2为(2000,4000);3为(4000,6000);4为6000以上,

C3表示月消费(元),1为(0,1000);2为(1000,3000);3为(3000,5000);4为5000以上,

C4表示性别,1为男性;2为女性,

d表示是否购买,1为购买;0为不购买。

表2:离散化后的信息表

根据步骤1得条件属性集C(相对于Y为d=1而言)的相对约简集为P=(C1,C2,C3),从而可以去掉冗余属性C4;表3所示。

表3:约简后的客户信息表

下面我们计算C1在P中相对于Y的重要性为

同理,可以计算出C2,C3在P中相对于Y的重要性为,则各属性的客观权值为;取各属性的主观权值为β1=0.3,β2=0.4β3=0.3 ,(这个可以根据实际情况取值),一般情况下,主客观的权重比例为6:4即a=0.6;b=0.4则各属性的综合权值为

然后,给定最小支持度sup与最小近似度conf分别为20%与80%;提取出大于最小支持度与最小近似度的规则如下:

规则1:(C1,1)∧(C2,2)∧(C3,3)→(d,1);

规则2:(C1,2)∧ (C2,2)∧ (C3,2)→ (d,1)以上面规则为基础,建立两个标准物元分别为

分别在R1,R2对每个属性Ci在值域上上建立关联函数

下面以3个客户的信息为例,计算其在R1模型下的关联函数向量与全局关联函数,从而对其进行分类。

表4:客户信息

类似像客户2型的潜在客户,我们可以利用定理1或定理2构造一个可拓变换T,可以使潜在客户变成为优质客户。例如,本例中某商品进行促销活动,使其对月消费要求下降500元,其他不变;也就是说,我们可以对其月消费进行可拓变换,本文中,利用移动变换:TX=X-l,即:

然后计算其关联函数向量与全局关联函数分别为

从而使其类型由潜在客户变为优质客户。

5 结束语

本文首先利用粗糙集的性质对其属性进行约简,然后利用粗糙集重要性和相关经验确定各属性的权值系数,从而对其购买某商品的客户进行分类,为企业决策者提供支持;同时,利用可拓变换,使潜在客户变换为优质客户,为企业挖掘新的客户群提供了一个新的方法。

[1]Agrawal R,Imielienski T,Swami A.Mining Associa-tion Rules between Sets of Items in Large Databases[C].Proceeding of Conference on Man-agement of Da-ta,1993:207-216.

[2]蔡文.物元模型及其应用[M].北京:科学文献出版社,1994.

[3]张文修,等.粗糙集理论与方法[M].北京:科学出版社,2001.

[4]陈文伟,黄金才.可拓知识与可拓数据挖掘[J].广西师范大学学报(自然科学版)2006,12(4):159-162.

[5]孙燕,刘巍.基于粗糙属性约简和物之属性关联分析的新客户发掘方法[J].大连海事大学学报,2003,11(4):87-90.

[6]唐志航.可拓数据挖掘方法及其应用研究[D].东华大学博士学位论文,2009.

[7]王家星,牛玉刚.基于粗糙集理论的客户关系管理[J].计算机与现代化.2008,6(156):1 -3.

Extension of Rough Set Based on Data Mining

GUO Zhi-qiang
(College of Mathematics and Information Science,Shandaug Institute of Business and Technology;Yantai 264005)

Customer relationship management is an important aspect in data mining,and how to cultivate the management of existing customers andpotential customers mining is the key to success for an enterprise,this paper combines extenics method and rough set for existing customers to buy a commodity classification,and the use of extenics method and cultivation mining the potential customers to do a preliminary study.

rough set;attribute reduction;extension of data mining;correlation function

TP311.13

A

1004-1869(2014)02-0037-04

10.13388/j.cnki.ysajs.2014.02.010

2014-03-12

资金项目:山东工商学院青年科研基金项目(编号:2011QN071)

郭志强(1978-),男,内蒙古包头人,硕士,讲师,研究方向:可拓学及其应用。

猜你喜欢
约简粗糙集数据挖掘
基于粗糙集不确定度的特定类属性约简
基于Pawlak粗糙集模型的集合运算关系
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于二进制链表的粗糙集属性约简
优势直觉模糊粗糙集决策方法及其应用
实值多变量维数约简:综述
广义分布保持属性约简研究
多粒化粗糙集性质的几个充分条件
一种基于Hadoop的大数据挖掘云服务及应用