电信客户欠费模型评估

2015-02-23 07:56包志强
西安邮电大学学报 2015年4期
关键词:神经网络误差样本

包志强, 崔 妍

(西安邮电大学 通信与信息工程学院,陕西 西安 710121)

电信客户欠费模型评估

包志强, 崔 妍

(西安邮电大学 通信与信息工程学院,陕西 西安 710121)

针对客户恶意欠费对电信运营商造成的经济损失问题,提出一种基于BP人工神经网络的客户欠费模型,为新客户的欠费情况做出预测。以某电信运营商客户服务部数据为研究对象,CRISP-DM(跨行业数据挖掘过程标准)方法论为建模流程,采集2 500个样本进行网络训练测试,在允许误差为0.001时,预测率达到92.33%。实验结果表明,该模型能够较准确的预测客户欠费情况,提高了预测的有效性和实用性。

BP人工神经网络;客户欠费预测;大数据

随着中国4G牌照的发放,电信行业规模不断扩大、业务种类不断增多,与此同时如何为企业赢得利益,避免客户恶意欠费所带来的经济损失问题也日益突出。尽管预付费业务的推出在一定程度上改善了用户欠费问题,但传统的“先消费,后缴费”仍然是电信企业与用户采用的主要结算方式,话费拖欠造成的企业资金周转问题严重影响到电信行业的稳步发展[1]。运营商是互联网产业链的核心以及最主要的驱动力量,为用户提供网络服务的本职业务使其拥有天然的大数据资源,这为开展基于用户行为分析的商业创新模式打下坚实基础[2]。一些国外电信运营商已经在大数据领域有所突破,西班牙电信2012年成立了名为“动态洞察”的大数据业务部门,推出首款产品Smart Steps,已成功为零售商新店选址提供决策支持;美国Verizon成立了精准营销部门,基于运营商收集公开场合手机用户下载数据、APP数据,提供精准营销、移动商务等业务[3-4]。合理利用大数据资源,建立一套客户欠费评估体系,完善企业CRM,准确地分析客户行为成为预防欠费的有效方法[5]。

目前,关于电信客户行为分析问题,常用的预测及评价方法有K-均值聚类、贝叶斯和决策树等方法。K-均值算法用于没有先验知识的多变量分类,但其处理大规模高维数据的能力还需提高;贝叶斯算法适用于处理大型数据库,但数据集必须满足各属性之间互相独立的前提条件,实际中分类准确率较低;决策树算法通过直观的树型分支形式表示挖掘模型,便于人们理解[6]。文献[7]以客户价值为依据,研究了移动数据业务发展背景下基于聚类的电信客户细分;文献[8]采用贝叶斯算法与已有的客户心理、服务质量等先验知识相结合建立客户流失预测模型;文献[9]将贝叶斯分类的先验信息方法与决策树分类的信息熵增益方法相结合应用到电信客户流失分析中。然而,客户欠费问题中大量高维的客户基本属性、行为属性、价值属性等数据之间呈现非线性关系,上述方法在处理高维、复杂、非线性问题时有一定的局限性,不能高效、准确预测出客户欠费情况。人工神经网络是一种有效非线性问题处理工具,其无需先验知识,在数据规模大的情况下也可以很好的拟合数据进行建模。

本文基于某电信公司数据仓库系统,采用BP人工神经网络方法,以MATLAB 2010b神经网络工具箱为建模工具,按照CRISP-DM[10]流程逐步以商业理解、数据收集与数据准备、数据建模、模型评估与应用的步骤来建立欠费模型。

1 BP人工神经网络基本原理

BP人工神经网络(Back Propagation Neural Networks,简称BP),20世纪80年代由Rumelhart、McCelland等科学家提出, BP神经网络具有自适应、自组织的高速并行运算能力,被广泛应用于科学与工程领域[11]。BP网络又称为误差反向传播网络,是一种多层前馈神经网络,通常其拓扑结构包含输入层、输出层以及一个或多个隐层,如图1所示。

图1中,X1,Xi…Xn表示BP网络输入层有n个节点;Z1,Zk…Zp表示隐层有q个节点;y1,yj…ym表示输出层有m个节点;V表示输入层与隐层之间的权值;W表示隐层与输出层之间的权值。

图1 三层BP人工神经网络模型

在BP网络中,数据流是正向传播的,而误差信号是反向传播的。数据由输入层经过隐层、输出层各处神经元的激活函数,计算后向外界输出信息处理结果,完成一次信息的正向传播过程。当输出层的实际输出与样本数据中的目标输出不一致时,则由输出层开始向前计算各层神经元处的误差并修正连接权值和阈值。

(1)

对于p个样本,全局误差函数

(2)

各层权值调整量为

(3)

采用误差函数梯度下降法反复交替执行正向传播和反向传播两个过程,直到全局误差趋于最小完成学习过程。

2 电信客户欠费模型评估

2.1 建模流程

电信运营商客户服务部后台监测系统记录了大量的客户消费行为数据,可以通过分析样本客户的基本属性、行为属性、价值属性及欠费金额之间的关联关系建立客户欠费预测模型。BP神经网络具有良好的非线性处理能力,通过对客户消费历史行为数据进行网络训练,不断拟合欠费金额属性的期望值,从而建立一种能够准确描述客户欠费主要属性非线性变化规律的预测模型。其建模流程如下。

(1) 收集客户基本属性、行为属性、价值属性等历史数据,并对数据进行整理。

(2) 将数据分成训练样本和测试样本两部分。抽取一定的样本中,共一定的正例(未欠费),负例(欠费)。划分时取一定的正例和前100个负例作为训练集,其余样本平均分配作为5组测试集。

(3) 运用公式对数据进行归一化处理,减小数据量纲之间的差别。

(4) 采用BP人工神经网络对训练样本进行训练。

(5) 根据训练结果,调整参数直到训练结束。当样本误差达到设置的目标误差时网络收敛,否则根据误差调整权值直到训练结束,建立电信客户欠费预测模型。

(6) 将测试样本输入模型,预测客户是否欠费。

具体流程,如图2所示。

图2 基于BP网络的电信客户欠费预测流程

图2中首先将历史数据导入,经过归一化处理后进行BP网络训练,当网络实际输出与样本数据中的目标输出一致时建立客户欠费预测模型,否则调整参数直到模型训练结束。建模后将具有基本属性、行为属性、价值属性的测试样本输入模型,预测客户是否欠费。

2.2 数据收集与准备

2.2.1 数据选取

结合业务经验,以某电信运营商客户服务部2014年8月客户消费和信用数据为对象对模型进行应用评估,从数据仓库中抽取2 500个样本,其中正例(未欠费)有2 250个, 负例(欠费)250个。将样本划分为训练集和测试集两部分,取900个正例,100个负例共1 000个作为训练集进行BP网络训练,剩余1 500个样本平均分配作为5组测试集对得到的模型进行测试验证网络的准确率。

抽取的2 500个训练和测试样本,取22个属性作为输入属性,其中数值属性可以直接使用,二值属性、类别属性经过整数编码后可以使用。二值属性:用户属性取值为公众(0)、集团(1);付费方式取值为后付费(0)、预付费(1);是否离网、是否主动离网、是否被动离网、是否主动停机、是否被动停机取值为是(1)、否(0)。类别属性:套餐月费取值为46元(0)、66元(1)、96元(2)、126元(3)、156元(4)、186元(5)、226元(6)、286元(7)、386元(8)、586元(9)。取欠费金额作为目标属性,整数编码取值为欠费(1)、未欠费(0)。部分处理后的样本数据格式,如表1所示。

表1 客户消费行为样本数据

2.2.2 数据标准化

由于原始输入数据数量级相差较大,例如通话时长为47 431秒,对应的彩信费用为0.6元,这样会影响BP神经网络在学习过程中的收敛速度和预测精度,因此需要对原始数据预处理以提高学习速率和预测准确率。处理方法为

(4)

式中x′为归一化后的数据,x为属性的实际值,xmax、xmin分别为样本属性的最大值和最小值。参数ymin和ymax默认为-1,1,原始数据预处理后均处于[-1,1]之间。

2.3 数据建模

2.3.1 创建BP神经网络

在MATLAB 2010b平台环境下,采用神经网络工具箱创建BP网络。

1998年Robert Hecht-Nielson理论证明了单个隐含层的BP网络可以通过适当增加神经元节点的个数实现任意n维到m维的非线性映射[12]。根据客户欠费问题涉及的特点,本文选用含有一个隐层的网络,也就是三层BP神经网络进行训练。

BP网络隐层的传递函数通常采用log-sigmoid和tan-sigmoid型激活函数,样本训练BP网络时发现,只改变传递函数而其余参数均固定的情况下,使用tansig函数时要比logsig函数的误差小,因此选用tansig函数;输出层选用purelin线性函数输出任意值完成值域扩展。

隐层节点个数的合理选择对于多层前馈网络的预测率至关重要,具体可采用网络结构增长型方法,即先设定少量的节点个数,查看网络训练误差,然后逐渐增加节点个数,选取学习误差最小状态所对应的节点数。模型中输入层节点数为n=22维的客户行为属性,输出层节点数为m=1维的欠费类别属性,根据公式

(5)

式中a是 [1,10]之间的常数。

网络所用学习算法为trainlm。

2.3.2 BP网络的训练与测试

将1 000个训练样本导入MATLAB,为了较好的预测结果,防止过拟合现象的出现,设置最大训练次数为1 000,目标误差为0.001,其它参数均为默认,运行程序得到训练好的BP网络,再将5组测试样本导入MATLAB,测试模型的准确率。

经多次实验验证,隐层节点数为12时,训练误差和测试误差最小,因此确立BP网络拓扑结构为22-12-1型。取5组测试样本运算中的一次误差下降图,如图3所示。

图3 误差下降曲线

图3误差下降曲线图中,训练样本、测试样本的误差曲线呈现良好的相关性,即网络的输出误差随着样本的训练呈下降趋势。

由横坐标可以看出,网络进行14次迭代后收敛了,即系统验证样本判断到误差在连续14次检验后不再下降甚至上升,说明训练样本误差已经不再减小达到最优。当迭代次数为8时,模型误差达到最小值0.028 616。

2.4 模型评估与应用

对客户是否欠费做出预测后,还要根据一些能量化的指标对该模型进行精确性分析以确保其是否符合实际情况。

评价指标为模型预测出客户是否欠费的正确率,即“正确率=正确预测样本/测试样本”。统计5组测试样本的网络拟合准确率,如表2所示,平均正确率92.33%,最低正确率90.67%。

表2 BP网络拟合准确率

使用BP神经网络对实际客户消费信用数据实现了较好的预测,将此模型可以运用到电信企业的CRM、营销支撑系统,通过预测客户次月欠费状况来调整思路制定相应政策避免不必要的经济损失,具体有系统短信提醒、人工接入一对一询问提示缴费、“预存100送50”等措施。

3 结语

运用MATLAB 2010b神经网络工具箱,采用BP神经网络方法对电信企业中的客户基本属性、价值属性、行为属性之间的关系进行分析建立客户欠费预测模型。实验结果表明,BP网络对实际数据拟合得出平均正确率为92.33%的客户欠费预测模型,该模型将预测出客户次月的行为变化趋势。

相对于传统的人为分析统计建模,神经网络减少了预测中主观随意性及思维不定性因素的影响,以简单、高效的优点实现了电信客户欠费预测。但同时需注意到,对于隐层中如何选取参数减小误差仍然是目前BP神经网络领域的重要课题,值得进一步的研究。

[1] 夏国恩,陈云,金炜东.基于支持向量机的电信客户欠费评估[J].科技管理研究,2006 (2):76-78.

[2] Emeka Obiodu.Readying for Big Data: Telefonica and Verizon show the way[R]. America: OVUM, 2012.

[3] 李政,李继兵,丁伟.基于大数据的电信运营商业务模式研究[J].移动通信,2013 (5):64-67.

[4] 左超,耿庆鹏,刘旭峰.基于大数据的电信业务发展策略研究[J].邮电设计技术,2013 (10):1-4.

[5] 刘洁,王哲.基于大数据的电信运营商业务精确运营平台的构建[J].电信科学,2013 (3):22-26.

[6] 邓权.决策树算法与客户流失分析[J].西安邮电大学学报,2013,18(3):49-51.

[7] 褚格林.基于聚类模型的电信客户细分研究[J].统计与决策,2014(8):176-179.

[8] 叶进,程泽凯,林士敏.基于贝叶斯网络的电信客户流失预测分析[J].计算机工程与应用,2005(14):212-214.

[9] 尹婷,马军,覃锡忠,等.贝叶斯决策树在客户流失预测中的应用[J].计算机工程与应用,2014,50(7):125-128.

[10] 薛薇,陈欢歌.基于Clementine的数据挖掘[M].北京:中国人民大学出版社,2012:401-412.

[11] 陈明.MATLAB神经网络原理与实例精解[M].北京:清华大学出版社,2014:156-166.

[12] 王志君.基于神经网络的客户流失预警研究[D].长春:吉林大学,2013:27-30.

[责任编辑:汪湘]

Telecom customer arrearages model evaluation

BAO Zhiqiang, CUI Yan

(School of Communication and Information Engineering, Xi’an University of Posts and Telecommunications, Xi’an 710121,China)

A customers’ arrearages model based on BP artificial neural network is proposed in the paper to target at the problem of customers’ malicious arrearages resulting in economic losses for telecom operators. It provides prediction of the arrearage situation for the new customers. By using the data from a telecom operator customer service department and by CRISP-DM (Cross-Industry Standard Process for Data Mining) methodology for modeling process, a BP network model is set up. In this model, 2 500 samples are collected for network training and test, and with the allowing error 0.001, the model’s prediction rate can reach 92.33%. Experimental results show that the model can accurately predict the new customers’ arrearages situation and improve the validity and practicability of the prediction.

BP artificial neural network, customers’ arrearages prediction, big data

10.13682/j.issn.2095-6533.2015.04.020

2015-05-12

国家自然科学基金资助项目(61271276);陕西省自然科学基金资助项目(2012JQ8011)

包志强(1978-),男,博士,副教授,从事数据挖掘,阵列信号处理研究。E-mail:baozhiqiang@xupt.edu.cn 崔妍(1991-),女,硕士研究生,研究方向为人工智能与数据挖掘。E-mail:876342650@qq.com

TP183

A

2095-6533(2015)04-0097-05

猜你喜欢
神经网络误差样本
用样本估计总体复习点拨
角接触球轴承接触角误差控制
Beidou, le système de navigation par satellite compatible et interopérable
神经网络抑制无线通信干扰探究
压力容器制造误差探究
基于神经网络的中小学生情感分析
推动医改的“直销样本”
随机微分方程的样本Lyapunov二次型估计
基于神经网络的拉矫机控制模型建立
九十亿分之一的“生死”误差