基于BP神经网络的客户特征属性约简

2011-12-31 00:00:00颜昌
电脑知识与技术 2011年11期


  摘要:针对数据收集中的海量数据,该文提出了一种基于BP神经网络的属性约简。通过神经网络计算分析原始数据中的各属性权值,从原始数据的众多属性中提炼出与客户流失度相关性较大的属性,找出对最终结果有关联的变量,删除那些不相关或不重要的属性,从而提高模型的效率和准确率。
  关键词:客户;神经网络;属性约简;数据挖掘。
  中图分类号:TP183文献标识码:A文章编号:1009-3044(2011)11-2640-02
  1 特征属性约简的意义
  在数据挖掘中,我们要面对海量的原始数据,在这些数据中,并不是所有的信息都是有用的,如何在其中找到最关键最有用的属性,从而提高模型的效率和准确率,是我们研究的一个重点。把源表的信息原封不动的汇总起来没有太大意义,必须关注用户某些关键指标的波动情况。如在电信用户的挖掘中我们要关注:用户本月话费与往月话费相比是上升还是下降了,幅度有多大?用户通话时长怎样变化?当月的短信费用占总体费用的比例是多少等等。这些衍生的分析信息是数据挖掘不可缺少的输入变量,那么与用户有关的特征就变得更多了。大致有如下几个方面:客户个人属性(包括客户ID、性别、年龄、职业、是否离网、收入等),客户合同属性(包括入网时长、付费类型、入网渠道、资费标识、消费限额等级等),客户缴费属性(包括缴费方式、欠费次数、当月金额、当月欠费金额、连续三个月平均消费额、最近三个月消费情况等),客户通话及短信属性(包括通话时长、通话次数、长途次数比例、拨打客服电话次数等等)。
  客户属性如此之多,而且很多属性还需要进一步细化,因此将所有属性都应用于挖掘模型中是不现实的。属性约简是数据挖掘的一个关键步骤,在数据收集阶段,很难确切知道哪些属性是相关的,哪些属性是不重要的,所有的属性都被认为是有用的,全部存在数据库。实际上,数据库中的属性并不是同等重要,有些甚至是冗余的,而且对于特定的数据挖掘任务,用户往往只对属性的某个子集感兴趣。因此要对众多属性进行约简,即在尽量保持数据库分类能力不变的条件下,删除那些不相关或不重要的属性。本文就是利用神经网络的属性约简方法对客户属性进行有效的选择,提高挖掘的效率。
  2 BP神经网络
  神经网络(Neural Network,NN),亦称人工神经网络(Artificial Neural Network,ANN),是由大量处理单元(即神经元)互联而成的网络,是对人脑的抽象、简化和模拟,反映人脑的基本特性。神经网络从人脑的生理结构来研究人的智能行为,从而模拟人脑信息处理的功能。BP神经网络即误差反向传播(Error Back Proporgation)网络因为其逼近能力好和成熟的训练方法而成为应用最广泛的神经网络之一。它是一种多层前馈神经网络,由输入层、输出层和隐含层组成,其神经元激励函数是S型函数,输出量为0到1之间的连续量,可实现从输入到输出的非线性映射。BP算法是用于前馈多层网络的学习算法,它含有输入层、输出层以及处于输入输出层之间的中间层。在中间层(也称为隐层)的神经元也称隐单元。输入输出之间的关系会受隐层状态