基于数据挖掘的高校手机资费套餐研究

2014-12-28 02:09秦晓安
关键词:信息熵套餐决策树

秦晓安

(安徽商贸职业技术学院,安徽芜湖 241003)

1 高校手机资费套餐现状

随着移动通信行业的飞速发展,通信企业之间的竞争日趋激烈,随着高校招生规模的不断扩大,高校逐渐成为各大移动通讯公司抢占的高地。在不断压缩成本,降低价格之后,推出何种深受欢迎的校园套餐,成为各运营商思考的问题。

资费套餐是运营商根据客户的市场需要,将各种业务进行整合,以获得最大经济利益的营销方式。通过满足各种消费群体的需要,与此同时以优厚的价格使消费者得到了实际的利益,这样不仅提升了自身业务的吸引力,也在一定程度上提升了消费者的满意度和忠诚度,有效避免了消费者的离网,增强了企业客户的健壮性;同时也使企业的各项业务得到应用,提高了企业的盈利能力[1]。随着科技的不断发展和日新月异的3G技术,高校大学生的消费群体呈现出了多元化的特征,从普通的话音通话和发送短信转变为对上网、购物、交友等更深层次的需求。当前一些地区推出的校园资费套餐基本上可以满足大学生消费者的需求。但是,套餐设计还是存在着一些不合理的因素,一方面没有做好学生市场的调研,套餐设计简单,没有和大学生的实际需要结合起来;另一方面资费套餐细节内容固定,各套餐价格档位相差过大,有些超出了学生承受的能力,导致大学生没有自由组合套餐内容的权利。

本文将以安徽校园套餐为例,通过数据挖掘中决策树ID3算法技术,分析提出合理化建议来改进套餐内容以便于更贴近学生需要。

2 决策树分类ID3算法

业内有很多关于决策树数据的分类方法,通常可分为4种:贝叶斯分类方法、基于距离的分类方法、决策树分类方法和规则归纳方法。其中决策树分类方法是大部分人经常使用的一种方法[2]。当前决策树的构造方法有很多种,其中最具代表性的是著名学者J.R.Quinlan提出的ID3算法,该算法的优点是在进行非叶子结点求值时,能够得出被测试属性中谁是具有最大信息增益的那一个。ID3算法操作起来较简单,容易掌握。

ID3算法的选择标准主要是关于信息增益,而信息增益理论主要基于熵的概念,ID3算法在实施的过程中通常选那些具有最高信息增益的属性作为测试属性的节点。下面介绍属性信息增益的计算,通过得出的结果找出规律并相互比较大小,目的是为了得到一个属性具有最大信息增益。

假定集合S中包含有s个数据样本,其中类标号属性包含m个不一样的值,这样就能够定义m个不同类Ci。由此可以设Si是其类Ci中的样本数,通过式(1)得出给定样本分类所需要的信息熵或期望信息:

式中pi是任一个样本属于Ci的概率,通常可以用Si/S来进行估计。由于计算机中信息数据的存储是二进制编码,所以用以2为底的对数函数。

假定信息属性A包含有n个不一样的值{a1,a2,…,an},该属性就可以把S划分成为n个不同的子集{S0,S1,… ,Sn},其Sj样本在信息属性A上有了一样的值 aj(j=1,2,…,n)。假定Sij是Sj中类Ci的样本个数,那么通过A所进一步细分的子集中的期望信息熵可由式(2)得到:

式中:pij=Sij/Sj,是Sj样本属于Ci的概率。

同样,相应信息增益值可由熵值和期望信息得出,由式(4)可以计算出属性A上分支部分得到的信息增益:

由此可见,ID3算法的首要步骤就是得出各个属性的信息增益,并找出其中信息增益值最高的作为未来决策树的根结点,根据该属性的其他值创建出其分支节点,最终完成完整的决策树[3]。

3 ID3算法在校园套餐中的应用

3.1 样本分析

目前安徽校园套餐主要以19、39元套餐为主(表1),其他档次套餐不适合学生消费,故不做分析。

表1 19、39元套餐的详情

学生群体选择套餐都希望套餐内的服务够用,以显实惠,故套餐外不做考虑分析。在套餐内随机挑选若干学生样本,主要考虑本地长市主叫、短信、国内Wifi、手机上网这4项数据作为分析的属性依据。

将4项的属性值分为3大类,其中国内Wifi和手机上网归为一类,分别称之为主叫、短信、上网。接着每类按区间划分成几个部分,比如主叫按0~100、100~200、200以上划分成少、一般、多 3种类型,以此类推划分其他几项属性数据,目的是为了便于分析套餐的使用情况。

从数据仓库中选取7个班共326名学生,即326个样本,其中选择19元套餐有152个样本,39元套餐有174个样本,即 S1=152,S2=174,总计 S=326。

3.2 生成决策树

根据样本计算每个属性的信息增益,得出“是否超出套餐”字段所需要的信息熵:

下面计算每一个属性的信息熵,首先从主叫属性开始,观察主叫每个样本值之间的分布,求出它们的信息熵。

对于主叫为“多”,其中结果“是否超出套餐”为“是”的有104个样本,为“否”的有36个样本,即S11=104,S21=36,总计 S=140,由式(3)计算出:

对于主叫为“一般”,其中结果“是否超出套餐”为“是”的有33个样本,为“否”的有127个样本,即S12=33,S22=127,总计 S=160,由式(3)计算出:

对于主叫为“少”,其中结果“是否超出套餐”为“是”的有2个样本,为“否”的有24个样本,即S13=2,S23=24,总计 S=26,由式(3)计算出:

如果样本按主叫得出期望信息,可由式(2)计算出:

最后得出这种划分的信息增益是:

类似可以计算出其他属性数据的信息增益。剪枝后决策树见图1。

图1 剪枝后决策树

分析可知,由于主叫属性具备最高的增益信息,接下来将由它作为测试属性。以主叫属性作为决策树的根结点,进一步划出其他分支结点,每个分支结点以此类推最终得到一棵完整的决策树。

4 结语

通过对决策树的分析,可以看出主叫少,短信用量较少的基本上都没有超过套餐用量;主叫少,短信多,上网较少的也没有超过套餐用量;主叫一般,短信、上网较少的同样没有超过套餐用量;其余使用均超过了套餐用量。

对于超过套餐用量的,其中有一部分是可以通过改进套餐加以解决,具体解决方案有2种:(1)将19元套餐分为2个版本,分别为语音聊天和短信上网,适当增加各自的权重。主要解决主叫多、上网短信少或上网短信多、主叫少而超出套餐的问题。(2)增加29元套餐,适当分配套餐内容,主要解决主叫较多、上网短信较多而超出套餐的问题。

高校手机套餐的制定具体还应根据公司营销策略和受众群体不同而有所不同。

[1]吕志国.基于数据挖掘的移动资费套餐设计模型的建立与实现[J].中国管理信息化,2007,10(12):23-27.

[2]胡运发.数据与知识工程导论[M].北京:清华大学出版社,2003:128-129.

[3]姜红艳.决策树ID3算法在学生成绩中的应用[J].鞍山师范学院学报,2008,10(4):55-58.

[4]罗海蛟,刘显.数据挖掘中分类算法的研究及其应用[J].微机发展,2003(s2):49-50.

[5]桂现才,彭宏,王小华.C4.5算法在保险客户流失分析中的应用[J].计算机工程与应用,2005(17):197-199.

猜你喜欢
信息熵套餐决策树
基于信息熵可信度的测试点选择方法研究
《加什么不要钱》
一种针对不均衡数据集的SVM决策树算法
儿童套餐
决策树和随机森林方法在管理决策中的应用
一种基于信息熵的雷达动态自适应选择跟踪方法
基于决策树的出租车乘客出行目的识别
婚姻是一份套餐
老了也要有尊严地吃饭 你家老人需要这套餐具吗
基于信息熵的IITFN多属性决策方法