王 锐,王 虎,熊亚洲,李 荻
(武汉理工大学管理学院,湖北武汉430070)
电信客户的流失是一个受经济、客户等诸多因素影响的复杂系统,如何在数据来源众多、数据属性各异的情形下选取对电信客户的流失有显著影响的数据属性成为了客户流失预测的一个难题。有关特征属性选取的方法主要有相关性分析法[1]、核主成分分析法[2]及神经网络分析法[3]。其中相关性分析法原理较为简单,只能消除线性相关性较高的属性,不能完全消除掉冗余属性。神经网络分析法能解析变量之间的非线性关系,但计算复杂度对属性的个数较为敏感。在电信客户行为预测方法研究方面,较多采用回归决策树[4-6]、Logistic 回归[7]和支持向量机[8-10]等方法。这些方法虽然预测效果较好,但存在计算过程复杂、普适性差等问题,同时这些预测方法中对客户状态只有流失与非流失两种状态的预测。对处于潜在流失状态客户的预测不太理想。因此,针对电信客户消费行为数据项较多的特点,采用相关性分析剔除相关性较高的属性,用粗糙集从剩下的属性中提取对用户状态有显著影响的属性为特征属性,并以此为证据,利用DS证据理论结合具体用户的行为数据对该用户所处的状态进行知识推理,从而对该用户流失的可能性进行判定。
客户的状态d可分为:正常客户、潜在流失客户和流失客户。客户的消费行为属性C主要有:c1为在客户通话记录中重复出现3次以上的电话号码数;c2为客户所选套餐的类型;c3为套餐的最低消费额;c4为用户月平均消费额;c5为日平均主叫次数;c6为日平均被叫次数;c7为月平均成功通话率;c8为月平均漫游费用比;c9为月平均长途费用比。
定义1 知识P的信息熵为:
其中,P(xi)=|xi|/|U|,i=1,2,…,n。
定义2 知识Q相对知识P的条件信息熵为:
其中,P(yj|xi)=|yj∩xi|/|xi|,i=1,2,…,n;j=1,2,…,m。
定义3 知识P与Q的互信息为:
设决策表 T={U,C∪D,V,f},U 为论域,C为U的条件属性集,D为决策属性集,令a∈C,若互信息I(C,D)>I(C-{a},D),则属性a为核属性。由所有的核属性构成的集合C0称为核属性集。算法的主要思路如下:
(1)计算出不相容决策表T中条件属性集C与决策属性集D的互信息I(C,D)。
(2)计算出所有的核属性a,得到核属性集C0,令 B=C0。
(3) 计算 I(B,D),若 I(B,D)=I(C,D),则算法结束,B为相对约简。否则继续步骤(4)。
(4)从条件属性集C中依次选取属性p,p∉B,计算I(B∪{p},D),从中选取I(B∪{p},D)最大时的属性,若有多个属性使互信息同时达到最大,则从中选取与B的属性值最少组合的属性,同时B=B∪{p}。最后转至步骤(3)。
定义4 (规则强度)决策表DS={U,C∪D,V,f},C和D分别为条件属性集和决策属性集,∀x∈U,x关于C的上近似集为关于D的上,则规则 f (x,C)→f(x,D)的强度为:
定义5 (扩充规则强度)决策表DS={U,C∪D,V,f},a∈C,x,y∈U,∀f(x,a)→f(x,D),f(y,a)→f(y,D),若 f(x,a)=f(y,a)且 f(x,D)≠f(y,D),则扩充规则为:f(x,a)→{f(x,D),f(y,D)}。扩充规则 f(x,a)→{f(x,D),f(y,D)}的强度为:
由式(4)和式(5)可计算出任一对象的规则强度ui,此时设P为识别框架Θ上的一个命题,P∈2Θ,则命题P的基本概率赋值为:
设有m1,m2两个基于相同辨识框架Θ上的基本概率赋值,如果 Bel1的焦元为 A1,A2,…,Ak;Bel2的焦元为B1,B2,…,Bn,按如下合成规则进行合成。
设定一个阈值 ε,假设存在 P1,P2⊂Θ,其中 m(P1)=max{m(Pi),Pi⊂Θ},m(P2)=max{m(Pi),Pi⊂ Θ,Pi≠ P1},若 m(P1) -m(P2)>ε,则P1为推断结果。
笔者选取湖北省武汉市某电信运营商681名电信客户在2013年3—6月的行为数据,选取上述消费行为属性指标作为条件属性,将客户所处的状态作为决策属性。先采用Person相关系数来检验属性之间的相关性。检验结果如表1所示。
表1 Person相关系数表
由表1可知,C2与C3之间的相关系数、C2与C4之间的相关系数、C3与C4之间的相关系数,以及C8与C9之间的相关系数都远高于0.400,这意味着这些行为属性之间存在着较高的线性相关性。因此,笔者在C2、C3和C4这3个行为属性之间保留C4,剔除C2与C3。在属性C8与C9之间保留C8,剔除C9。此时,剩下的行为属性之间的相关系数均小于0.400,这也就意味着这些行为属性之间是弱相关。由于粗糙集理论无法直接处理连续性数据,因此将 C1、C4、C5、C6、C7和 C8这些属性的取值按表2进行离散化处理可得到表3。
表2 离散等级表
表3 决策信息表
依据式(1)可得:
依据式(2)可得:
依据式(3)可得:
I(C,D)=H(D) - H(D|C)=1.371
同理可得:I(C -{c1},D)=1.171,I(C -{c4},D)=1.371,I(C - {c5},D)=1.371,I(C -{c6},D)=1.371,I(C - {c7},D)=1.171,I(C -{c8},D)=1.171
因I(C,D) >I(C -{c1},D),I(C,D) >I(C -{c7},D),I(C,D) > I(C - {c8},D),故 c1,c7,c8为核属性。核属性集 C0={c1,c7,c8},令 B=C0,计算可得 I(B,D)=1.371。由于 I(B,D)=I(C,D),因而根据上述约简算法,相对约简B={c1,c7,c8}为电信客户的特征行为属性。将表3中不属于B的行为属性剔除,此时表3中的行为属性集C剩下c1、c7和c8这3列。
现有客户A的c1、c7及c8行为属性取值分别为c1=3,c7=2,c8=2,需要对用户的状态进行推断。以c1、c7及c8为证据按上述规则强度的方法分别计算c1、c7及c8所对应的BPA,具体过程为:U/{c1,D}={U1,(U2,U4),U3,(U5,U9),(U6,U10),(U7,U8)}。
结合A的c1=3的基本情形,可得B1={U1,U3}={d1,d2},虽然对象集U1和U3的c1的取值均为3,但是它们所对应的d值却不同,对象集U1对应的d的取值为1,而对象集U3对应的d的取值则为2。按定义4可计算出对象集U1所对应的规则强度为v1=|d1∩B1|/|B1|=83/(83+67)=0.55。
同理可计算出对象集U3所对应的规则强度v2=0.45,依据定义5可计算出扩充规则强度v3=v1·v2=0.247 5。依据式(7)可得到下面的证据BPA。
mc1(1)=v1/(1+v1v2)=0.441
同理可得:mc1(2)=0.361,mc1(1,2)=0.198。
对于证据c7而言,结合B的c7=2的情形,同理可得:mc7(1)=0.295,mc7(2)=0.516,mc7(1,2)=0.188。
对于证据c8而言,结合B的c8=2的基本情形,经计算得到:mc8(1)=0.190,mc8(2)=0.545,mc8(3)=0.238,mc8(1,2,3)=0.026。
按照证据合成的思想首先将c1与c7进行合成可得到证据c',然后再将c'与证据c8进行合成。过程如下:首先将c1与c7进行合成,依据式(7)计算:
同理可得:m'(2)=0.560,m'(1,2)=0.055。
然后,将c'与证据c8进行合成可得:m(1)=0.231,m(2)=0.748,m(1,2)=0.003。
由此可知,客户A处于正常状态的信任度为0.231,B类客户处于潜在流失状态的信任度为0.748,处于不确定是正常还是潜在流失状态的信任度为0.003。依据推断方法设置ε=0.3,由m(P1)=max{m(Pi),Pi⊂Θ}可知:m(P1)=m(2)=0.748,根据 m(P2)=max{m(Pi),Pi⊂Θ,Pi≠P1}可知:m(P2)=m(1)=0.231,因为 m(P1) -m(P2)=m(2) -m(1)=0.517 远大于 0.3,因此推断客户所处的状态应为潜在流失状态。
笔者针对电信客户消费行为数据项较多且较为复杂的特点,首先运用相关分析剔除客户消费行为数据中相关性较高的数据项,然后运用粗糙集理论在剩下的属性中提取出对客户状态有显著影响的特征行为属性,以此形成基本推理证据,并应用决策规则强度确定证据所对应的BPA,然后结合客户的实际情形,使用DS证据合成方法对客户的状态进行知识推理,最后通过实证分析证明了该方法的有效性。
[1]T SAIC F,CHEN MY.Variable selection by association rules for customer churn prediction ofmultimedia on demand[J].Expert Systems with Applications,2010,37(3):2006 -2015.
[2]夏 国恩.基于核主成分分析特征提取的客户流失预测[J].计算机应用,2008,28(1):149-151.
[3]王雷,陈松林,顾学道.客户流失预警模型及其在电信企业的应用[J].电信科学,2006,(11):47 -51.
[4]HUNG SY,YEN D C,WANG H Y.Applying data mining to telecom churn management[J].Expert Systemswith Applications,2006,31(3):515 -524.
[5]AHN JH,HAN SP,LEE Y S.Customer churn analysis:churn determinants andmediation effects of partial defection in the Korean mobile telecommunications service industry[J]. Telecommunications Policy,2006,30(10):552 -568.
[6]JOHN,ASHUTOSH T,RAJKUMAR R.Churn prediction using complaints data[J].Trans on Engineering Computing and Technology,2006(13):158 -163.
[7]顾光同,王力宾,费宇.电信客户流失预警规则及其信度测定实证研究[J].云南财经大学学报,2010(6):94-98.
[8]夏国恩,金炜东.基于支持向量机的客户流失预测模型[J].系统工程理论与实践,2008,28(1):71 -77.
[9]夏国恩,陈云,金炜东.电信企业客户流失预测模型[J].统计与决策,2006(20):163 -165.
[10]王月敏.电信客户流失量估计组合模型的仿真研究[J].计算机仿真,2013,30(3):209 -212.