基于逻辑回归模型的电力客户停电敏感度评分卡研究与实现

2018-06-06 07:08耿俊成张小斐袁少光万迪明
电力需求侧管理 2018年3期
关键词:敏感度分值逻辑

耿俊成,张小斐,袁少光,万迪明

(国网河南省电力公司 电力科学研究院,郑州 450052)

电网公司客户规模大,生产经营情况复杂,长期以来在故障处理、客户服务方面面临较大压力。通过对近年来客户咨询、投诉记录的统计分析,发现客户的诉求主要集中在“停电”、“电能质量”、“服务态度”等方面。对停电有着强烈反应,进而通过95598服务热线、营业厅、在线客服等方式进行报修、咨询或者投诉的客户,可称其为停电敏感客户。开展电力客户停电敏感度分析,准确识别停电高敏感客户,及时做好用电服务,既可以提升客户满意度,也有助于减少95598服务热线的呼入量。

目前,针对电力客户咨询、投诉行为的分析预警,一些专家学者提出了较好的研究思路。文献[1]、文献[2]提出采用数据挖掘技术中的逻辑回归算法模型构建客户停电敏感度分析模型,并对客户停电敏感度进行分析预测,但是逻辑回归模型输出结果比较复杂,营销业务人员不容易理解与应用。本文提出基于逻辑回归模型构建电力客户停电敏感度评分卡,通过表格形式直观展示停电敏感度主要影响因素以及影响程度,方便计算每个客户停电敏感度评分以预测其敏感程度。该方法在某地市公司营销服务工作中进行了试点应用,取得了良好效果。

1 基于逻辑回归模型评分卡实施原理

1.1 逻辑回归模型

逻辑回归模型是当前业界比较常用的机器学习方法,用来估计某种事物发生的可能性。例如:某用户购买某种商品的可能性;某病人患有某种疾病的可能性。它源于多元线性回归,是一种研究目标变量Y与一系列影响因素X1,X2,...,Xm之间关系的多变量分析方法。逻辑回归的目标变量Y是二值变量,表示事件的发生或不发生,通常编码为1和0。用逻辑回归模型计算事件发生的概率为

式中:e为自然数,约等于2.718 28;β0,β1,...,βm为模型参数,β0也称为截距。

对公式(1)进行简单转换,可以得到

逻辑回归模型学习时,对于给定的训练数据集T={(x1,y1),(x2,y2),...,(xn,yn)},通常应用最大似然估计法计算模型参数值,即β0,β1,...,βm,从而得到逻辑回归模型[3—4]。

电网公司营销业务人员根据逻辑回归模型输出结果计算某个客户发生停电投诉的概率时,公式(1)计算过程仍然比较复杂。

1.2 证据权重转换

证据权重转换(weight of evidence,WOE)用于衡量同一属性变量的各个取值对分类结果的贡献。它可以将分类属性变量转化为数值型变量,以降低建模过程的复杂性,其计算公式如下

式中:p(Y=yk|Xi=xij)、p(Y≠yk|Xi=xij)表示属性变量Xi=xij时,样本类别分别为Y=yk及Y≠yk的概率值。可以看出,WOE越大,Y=yk实例越多,权重越大。因此可以使用WOE作为判断属性的某种取值对分类结果导向性的一种度量[5]。

假设分类变量Xi可以分为ni类,对Xi进行WOE转换,可得

式中:δi1,...,δini为二元虚拟变量,即对于所有的j=1,...,ni,如果Xi的取值为第j类即Xi=xij,则δij=1,否则δij=0。

采用经WOE转换后WOE(X1),...,WOE(Xm)替代原变量X1,X2,...,Xm,公式(2)可表示为

接着,合并公式(4)和公式(5)可得

公式(6)表现形式就是评分卡。首先,赋予每个客户一个基础分值β0;接着,如果X1取值为x11将增加β1WOE(x11)分;如果X1取值为X12将增加β1WOE(X12)分,依次类推。

经过WOE转换,分类变量被转化为数值型变量,同时可以将逻辑回归模型输出结果转变为评分卡形式,以利于后续模型结果的理解与应用。

1.3 评分卡实施原理

评分卡是一种对逻辑回归模型输出结果进行转化的技术。通过制作评分卡,逻辑回归模型输出结果变得容易理解与应用。

评分卡的分值刻度可以通过将分值表示为比率对数的线性表达式来定义,具体形式如下

式中:Sbase、K为常数。可以通过将2个已知或假设的分值代入公式计算得到。通常假设:①在某个特定比率设置特定的预期分值;②制定比率翻番的分数(Sdouble)。

首先,设定比率为θ0的特定点的分值为Sθ0,比率 2θ0的分值为Sθ0+Sdouble。代入式(7)可以得到如下2个方程

解上述2个方程中的常数Sbase和K,可得到

例如:如果设定评分卡比率为(某电网公司停电敏感客户与非敏感客户的实际比率)时的分值为60分,且Sdouble=10,则计算出的K=14.43,Sbase=91.84。

合并公式(6)和公式(7),基于逻辑回归的评分卡形式如下

式中:Sbase+Kβ0称为基准点。可以通过给每一个评分卡变量都增加将基准点分值平均分配到各变量之间,以消除基础分值,从而得到零基准点的评分卡。具体形式如表1。

表1 零基准点评分卡

2 电力客户停电敏感度评分卡的实施

依据停电敏感客户的定义,提取某省级电网公司6.3万户高压客户2016年全年敏感客户及全量正常客户的相关数据构建停电敏感度评分卡。考虑到高压客户、低压非居民客户、低压居民客户在停电敏感度影响因素差异显著,在停电敏感度评分卡实施时分别对它们进行建模。电力客户停电敏感度评分卡实施的流程如图1。

图1 电力客户停电敏感度评分卡实施流程

2.1 客户停电敏感相关数据获取

从电网公司营销业务系统、95598系统提取客户停电敏感相关属性数据。以高压客户停电敏感度分析为例,主要数据包括以下几类。

(1)基本属性:用电类型、行业分类、立户日期、供电电压、城农网标志、城乡类别、供电单位等。

(2)用电行为:停电次数、停电时长、停电通知方式、用电量、电价等。

(3)95598信息:咨询、报修、投诉、举报记录等。

获取数据后,首先需要对数据记录的离群点、缺失值、异常值进行清洗;其次是构建衍生变量,即对原始数据进行处理和加工以获取更有预测力和解释性的变量,例如:历史拨打95598次数等。

2.2 模型变量筛选

模型的变量筛选是比较复杂的过程,需要考虑的因素很多,例如:变量的预测能力,变量之间的相关性,变量在业务上的可解释性等,其中最主要和最直接的衡量标准是变量的预测能力。通常可以通过输入变量与输出变量之间的关联分析筛选出最有预测力的变量。

信息值(Information value,IV)是衡量2个分类变量Xi和Y(其中变量Y为二元变量)之间关联性的指标[6],它的定义如下

式中:n为变量Xi的类别数;pj=p(Y=yk|Xi=xij)表示属性变量Xi=xij时样本类别为Y=yk的概率值;qj=(Y≠yk|Xi=xij)表示属性变量Xi=xij时,样本类别为Y≠yk的概率值。高压客户模型各变量的IV值如表2所示。

表2 高压客户模型各变量的IV值

一般情况下,若某个属性与目标属性之间信息值小于0.02,可认为该属性不具备预测能力,因此舍弃电压等级和客户重要性等级2个属性变量。

2.3 计算各属性的证据权重转换值

筛选出模型变量后,需要将数值变量转化为分类变量以进行证据权重转换。通常可以采用等频/等距直方图分析方法将数值变量转化为分类变量。以“平均停电时长”为例,该变量区间为[0,422](单位:h),采用等距直方图分析方法,以0.5为步长构建该变量的等差数列,共有845个分组[7]。该变量分组数量过多,将会导致模型计算复杂度急剧增长,还需要将其分组合并以减少属性类别数量;若将其类别缩减至9个类别,共有种合并方式,可按照信息值计算公式(13)计算每一种方式的信息值,最终选择信息值最大的合并方式。

将各数值变量转换为分类变量后,依据公式(3)计算各属性变量的证据权重转换值。“平均停电时长”的变量类别以及证据权重转换值如表3所示。

2.4 构建客户停电敏感度分析模型

计算每个样本用户分析时间范围内各个属性的证据权重转换值,运用逻辑回归模型构建客户停电敏感度模型,形式如下

表3 平均停电时长分组情况及WOE值

模型训练时采用最大似然估计法计算β0和各属性模型参数值,其中β0=-4.089 4,各属性模型参数即β1,...,βm如表4所示。

表4 高压客户各属性模型参数值

2.5 构建客户停电敏感度评分卡

基于客户停电敏感度模型输出的模型参数和各属性证据权重转换值构建客户停电敏感度评分卡。通过将分值表示为比率对数的线性表达式来定义评分卡的分值刻度,具体形式如下

设(0.47%是高压用户中停电敏感客户的实际占比)时,时,Score=65;代入公式(7)得Sbase=98.67;K=7.21。

参照表1电力客户停电敏感度零基准点评分卡形式,最终可得到高压用户停电敏感度的评分卡如表5所示。

基于高压客户停电敏感度评分卡,在获取某一高压客户相关信息后,营销业务人员可以很方便计算出该客户的敏感度评分。

表5 高压客户停电敏感度模型评分卡

3 电力客户停电敏感度评分卡评估

依据停电敏感客户的定义,提取某省级电网公司6.3万户高压客户2016年全年敏感客户及全量正常客户的相关数据构建客户停电敏感度评分卡,然后根据其2017年1月停电敏感客户实际数据验证模型准确性。模型验证结果如下图2所示。

图2 客户停电敏感度评分卡评估

图2中命中率为模型判断为敏感客户且实际为敏感客户数与模型判断为敏感客户数的比值;覆盖率为模型判断为敏感客户且实际为敏感客户数与全量实际停电敏感客户数的比值;提升度为命中率与停电实际敏感客户占比的比值。

1月份高压客户中,实际产生的、有户号可查的有关停电的咨询、投诉客户占比是2.71%。停电敏感度评分在前5%的客户中高敏感客户的命中率31%,覆盖率为57.0%,提升度为11.4。

依据该停电敏感度评分卡,该电网公司可以更精准的定位停电高敏感客户,针对不同程度的敏感客户采取个性化的措施,以降低客户投诉,提升客户满意度。

4 结束语

针对当前基于逻辑回归的客户敏感度分析模型输出结果复杂、不易理解与应用问题,本文提出了一种基于逻辑回归模型的客户停电敏感度评分卡实施方法。首先,从电网公司营销业务系统、95598系统提取客户停电敏感相关属性数据,通过信息值筛选出具有高预测力的属性;接着,计算各属性的证据权重转换值,运用逻辑回归模型构建客户停电敏感度分析模型;最后,基于停电敏感度分析模型的输出参数和各属性证据权重转换值构建客户停电敏感度评分卡。通过客户停电敏感度评分卡电网公司营销业务人员可以方便地计算每一个客户的停电敏感度,进而为精准营销和差异化服务提供数据支撑。D

[1] 严宇平,吴广财.基于数据挖掘技术的客户停电敏感度研究与应用[J].新技术新工艺,2015(9):89-93.

[2] 郑芒英.用电客户停电敏感度分析[D].广州:华南理工大学,2014.

[3] 涂莹,林士勇,欧阳柳,等.基于市场细分的逻辑回归模型在电费回收风险预测中的应用研究[J].电力需求侧管理,2016,18(4):46-49.

[4] 赵永良,秦萱,吴尚远,等.基于数据挖掘的高压用户电费回收风险预测[J].电力信息与通信技术,2015,13(9):57-61.

[5] Mamdouh Refaat.信用风险评分卡研究:基于SAS的开发与实施[M].王松奇,林治乾,译.北京:社会科学文献出版社,2013:181-191.

[6] 杨秋洁.基于Ⅳ属性选择的随机森林模型研究[D].合肥:合肥工业大学,2010.

[7] 刘业政,焦宁,姜元春.连续属性离散化算法比较研究[J].计算机应用研究,2007,24(9):28-30.

猜你喜欢
敏感度分值逻辑
刑事印证证明准确达成的逻辑反思
一起来看看交通违法记分分值有什么变化
逻辑
创新的逻辑
全体外预应力节段梁动力特性对于接缝的敏感度研究
电视台记者新闻敏感度培养策略
体育考核新方案出炉 项目分值变化大
按病种(病组)分值结算:现状、做法和评价
女人买买买的神逻辑
在京韩国留学生跨文化敏感度实证研究