赵洪 沈建忠 王俊 张骋 瞿青
摘 要: 基于供电企业海量数据,提炼客户特征标签,多维呈现客户画像。并甄选影响电费回收风险的特征指标,利用机器学习方法,构建电费回收风险预测模型,判断用户的电费逾期风险等级。将模型结果及中间结果标签化,丰富客户画像,为业务人员提供全新认知客户的手段。
关键词: 客户画像; 电费回收风险; 机器学习; 特征标签
中图分类号: TG4 文献标志码: A
Prediction Model of Electric Charge Recycling Risk Based on Customer
Portrait and Machine Learning Algorithm and Its Application
ZHAO Hong, SHEN Jianzhong, WANG Jun, ZHANG Cheng, ZHAI Qing
(State Grid Shanghai Electric Power Company, Shanghai 200122)
Abstract: Based on massive data of power supply companies, customer feature labels are extracted, and the customer portrait is presented in a multi-dimension. Features affecting the risk of recovering electric fees are selected to build a model which can evaluate the risk. Application of the model is tagged to enrich the customer portrait. It provides a new tool to understand customers.
Key words: Customer portrait; Recovering electric risk; Machine learning; Feature label
0 引言
国家电网《关于坚持以客户为中心进一步提升优质服务水平的意见》明确提出客户是电网服务的核心。在新阶段利用新方法解决服务短板,持续服务创新,是供电企业发展的必由之路。因此如何依托海量業务数据,以客户为中心整合信息、抽象需求、挖掘数据价值、开展数字化营销,成为供电企业提升客户体验、拓展市场份额的关键。
标签提取是客户画像的重要技术手段,其将客户行为及属性在企业关注的业务维度上进行投影并系统固化,实现客户隐形特征的显性化、标准化抽象。电费回收业务是供电企业营销的重点业务。本文以客户画像理论结合机器学习算法为技术路线,开展电费回收风险防控研究实践。
1 数字化营销环境下的客户画像应用概述
近年来,以互联网为代表的各项新技术蓬勃发展,各行业数据呈现海量化、多样化、价值化等趋势,数字化营销成为各个行业的必然选择。数字化营销的核心是实现营销的精准化,而以客户为中心的客户画像体系,则是挖掘客户特征、发现潜在价值、识别隐性风险,开展精准营销的重要基础。
国内已有多领域开展了基于客户画像的实践应用:中国移动通过分析客户消费行为建立客户画像,实现客户分层,开展有针对性的营销活动;淘宝通过买家与平台的各项交互信息建立买家特征标签,为卖家提供时段、地域、消费层次等多角度客户立体画像,支撑平台卖家各项运营活动。
对于电网行业,构建电力客户画像应用即为:结合电网业务特点及其他行业客户标签实践经验,利用数据挖掘手段,从企业内沉淀的海量业务数据中提炼价值信息,固化为用户标签,方便业务人员快速、客观的感知客户特征,精准有效地展开相关营销活动。
2 电费风险防控背景及现状分析
电费回收是电力营销重点业务,是供电企业主要利润来源,直接影响企业的经济效益。而在实际工作流程中,先用电后付费的业务模式使电费回收成为电力营销的最末一环;同时供电企业承担着保障民生的重大社会责任,对违约客户的制裁手段有严格的控制。客观上造成了用户电费违约成本过低的现状,增大电费回收的难度和风险。
随着市场经济发展,用电需求增大,为降低经营风险,供电企业采取各项措施加强电费回收工作,如:创新线上缴费方式、预付费表推广、成立专门电费催缴班组等,在很大程度上改善了电费回收情况。但电费风险识别仍然依赖业务人员主观感知,缺乏以数据为基础的客观、标准化手段,严重影响电费回收工作的进一步提升。
随着新技术的推广,供电企业逐渐引进多种先进手段深化各项工作。如,利用数据挖掘分析用户用电消费习惯、异常行为[1-2],基于用户特征进行客户信用评估等[3]。本文以标签分析手段及数据挖掘技术为支撑,以业务系统现有的数据为基础,结合专家经验,利用机器学习方法构建电费风险预测模型,预测用户未来电费逾期概率,生成客户电费回收风险评价标签,提出风险用户清单;支撑催费资源优化配置,为电费风险防控等业务深化提供现实指导。
3 电费风险预测建模
电费风险预测模型是对客户能否按时、足额缴纳电费风险的预测,主要根据客户的缴费行为评估电费缴费风险。首先结合业务调研梳理能够反映客户缴费、欠费的业务指标作为模型的指标体系;其后运用数据挖掘手段进行数据准备,提炼有效的样本集;而后利用机器学习方法建模,模拟电费风险影响指标与是否逾期之间的规律;最后通过该模型识别客户未来的电费逾期风险。
由于不同类型客户的用电、缴费行为差异较大,结合业务实践经验,以A、B区域用电客户为研究对象,预先基于电压、容量、地区等特征进行分层,并选定高压用户和低压且容量100 kW以上用户(以下简称低压大量用户)作为电费回收风险研究的重点用户群。
3.1 电费风险指标体系
通过业务调研、规则归纳等途径,深入理解电费回收的营销机制与业务逻辑,最终确立衡量客户电费风险的特征维度如表1所示。
除高压客户和低压大量客户需分别建模外,还需对不同缴费类型(分次划拨或按月结算)用户分别建模。因为:一、两类用户模型入参不同。相对按月结算用户,分次划拨用户还需考察计划电费的缴费和逾期行为特征。二、不同缴费类型下,部分指标对用户逾期行为的影响程度差异较大。以缴费方式为例,当是金融机构代扣时,A地区高压按月结算用户逾期率65%,分次划拨用户逾期率47%。
3.2 数据准备
3.2.1 数据预处理
表1中大部分指标不能从业务系统的直接提取,需根据业务基础数据加工合成,其中涉及的基础信息如表2所示。
获取以上数据后,需进行数据预处理。包括数据校验、缺失值和异常值处理,指标加工。
数据校验:数据质量检验如完整性,有效性。如检查客户编号是否唯一,指标数据范围是否在预期范围内等。
缺失值处理:对缺失信息严重的样本,缺失个数占总指标数的一半以上,可以直接剔除。在缺失信息不严重的样本中,需结合业务具体分析。
离群值/异常值处理:根据指标数据分布进行识别。可通过对数变换等方式消除异常值。其他情况,或用3个标准差的最大值或最小值替换。
指标加工:数值型指标,遵循规则计算。分类型指标如行业、地理分布等分组过多,直接输入模型,将导致信息稀释,指标预测能力削弱。因此需减少组别,具体方法有:业务相似项合并、聚类、WOE化等。在指标加工过程中,可能生成新的缺失值、异常值,具体处理规则参考上文方法。
3.2.2 特征选择
根据表1可合成特征维度50余个。为避免信息冗余,提高模型计算复杂度,需开展特征选择,生成相对小而优的特征集,本文以IV值为主要特征筛选方法。IV值即信息的价值指标,反映特征对目标的影响程度,值越大对目标的预测能力越强,如式(1)、式(2)。WOEi=ln(pyipni)
(1)
IV=∑(pyi-pni)·WOEi
(2)其中,pyi表示分组i中逾期客户占所有逾期客户的比例,pni表示分组i中正常客户占所有正常客户的比例。从公式1、2可知,WOEi描述了变量在分组i,判断个体是否会逾期所起到影响方向和大小,IV值能避免WOE中負值的出现,还能体现各分组在整体中的占比,较全面衡量指标对目标变量的预测能力。
同时在模型训练过程中配合逐步回归法和信息增益法筛选特征变量,比如对高压按月结算用户进行特征选择后,最终将入参变量由55个减到13个,极大降低了模型复杂度。
3.3 建模和性能评估
3.3.1 建模方法选择
电费风险预测模型判断用户是否逾期缴费的过程是典型的二分类模型。逻辑斯特模型是应用最广泛的分类模型,式见(3)。当Y为0时表示未逾期,逾期风险概率为0;当Y为1时表示电费逾期缴费,逾期风险概率为1。模型根据历史缴费行为判断客户逾期的概率。该概率可根据设定阈值判定是否逾期,也可将逾期概率转化为风险评分,风险评分越高逾期风险等级越高,反之越低,如式(3)。p(Y=1|X)=11+e-(β0+β1x1+…+βnxn)
(3) 常用的分类模型除逻辑斯特模型外还有:决策树、神经网络、支持向量机、朴素贝叶斯等。为避免单一分类器可能陷入的泛化能力不强、局部拟合等问题,尽量保证预测结果的准确性和稳定性,本文选择决策树、随机森林、支持向量机等模型作为性能比较的参考模型。
3.3.2 模型评价标准
评价模型的拟合效果,通过伪R方统计量表示,其含义为因变量的总变异被模型的自变量解释的比例。
Nagelkerke-R2是对Cox&Snell-R2的修正,取值范围在[0,1],越接近1模型的拟合程度越高。Nagelkerke-R2大于0.4,表示模型拟合效果好,Nagelkerke-R2大于0.5,表示模型拟合效果非常好,如式(4)、式(5)。
Cox&Snell-R2=1-Ln(L0)Ln(L)2n=1-e2nLn(Ln(L0))-Ln(Ln(L))
(4)
Nagelkerke-R2=Cox&Snell-R21-(Ln(L0))2n
(5)
其中L0为仅含截距项模型的似然值,L为包含截距项与相关变量模型的似然值,取对数后分别表示模型的总平方和与残差平方和。
评价模型对目标客户的预测能力,通过混淆矩阵来计算。实际工作中,希望知道目标样本实际预测对了多少。为此引入混淆矩阵,即预测结果与实际结果对比矩阵如表3所示。
实际业务中,TPR越大越好,FPR越小越好。反映如图1所示。
即曲线越在红线上方越好。AUC值为ROC曲线下的区域面积,AUC值越大分类效果越好,一般认为AUC值大于0.75时,拟合模型是有效的。
3.4 模型训练和结果分析
3.4.1 模型性能比较
以某市A地区2016年6-12月的历史数据为训练集,以逻辑斯特、决策树、随机森林、支持向量机为模型,预测2017年的各月份客户电费逾期情况。评价标准参考预测逾期客户的覆盖率和精确率。
以高压分次划拨用户的预测效果对比为例,从覆盖率看,决策树表现最好,平均为0.70,明显高于其他模型。其次是逻辑斯特模型,平均覆盖率为0.62,随机森林和支持向量机表现一般。从精确率方面看,决策树表现最差,平均低于0.60。而其他模型的精确率变化趋同,平均在0.80左右。
在精确率和覆盖率的取值方面,更看重精确率。因此,决策树的总体预测效果最差。逻辑斯特模型,随机森林,支持向量机的预测效果大致在相似水平,表明逻辑斯特模型的没有陷入明显的局部拟合。此外逻辑斯特模型解释能力强,最终选择其作为本文的应用模型,如图2所示。
3.4.2 预测结果分析
A地区高压用户
以某市A地区2016年6-12月的高压按月结算用户和分次划拨用户的历史数据生成训练样本,分别建立逻辑斯特模型,预测2017年各月份的客户电费逾期情况。从结果来看,按月结算用户和分次划拨用户的模型的Nagelkerke-R2值分别为0.72和0.56,均在0.5以上,表明模型的拟合效果非常好。预测结果的AUC值分别为0.96和0.94,表明模型非常准确,结果的覆盖率和精确率如图2所示。
其中高压按月结算用户的预测效果较好,对逾期客户的覆盖率和精确率的取值基本都在0.82以上。分次划拨用户的预测效果相对较差,平均覆盖率和精确率分别为0.61和0.8。
在综合统计两模型的预测结果后得到高压用户(包括按月结算用户和分次划拨用户)的预测精度:平均覆盖率和精确率为0.74和0.85,总体效果已达到较高水平。
A地区低压大量用户
同样梳理A区低压大量中按月结算用户和分次划拨用户的历史数据,预测2017年各月的客户电费逾期情况。两类用户数据分别用逻辑斯特模型训练可得:按月结算用户和分次划拨用户的模型的Nagelkerke-R2值分别为0.65和0.55,表明模型拟合效果很好。预测结果的AUC值都为0.93,表明模型非常准确,结果的覆盖率和精确率见图4。其中低压大量按月结算用户的预测效果较好,覆盖率和精确率的取值基本都在0.83以上。分次划拨用户的预测效果相对较差,平均覆盖率约0.52,平均精确率约0.77。
与高压用户的情况类似,低压大量用户分次划拨用户也相对较差,综合统计两模型的预测结果,得到低压大量用户的结果并没有因此而严重降低。低压大量用户的平均覆盖率为精确率分别为0.75和 0.87,与 A区高压用户的预测结果在相似水平,如图4所示。
综上可知,模型对高压用户和低压大量用电用户的综合预测能力优秀,平均精确率都在0.8以上,覆盖率在0.75左右。在不同类型用户的模型中,分次划拨用户的模型拟合效果明显差于按月结算用户,分次划拨用户训练模型的Nagelkerke-R2值在0.55左右,而按月结算用户的均在0.65左右,有的超过0.7。
结果汇总和分析
对B地区用户也进行上述训练,最后对A、B地区高压客户预测结果汇总统计如表4所示。
平均覆盖率和精确率分别为0.67和0.8,总体水平较好。
同样对A、B地区的低压大量用户的预测结果进行汇总见表4。平均覆盖率和精确率分别为0.69和0.82。总体覆盖率中等偏上,精确率仍保持较高水平。
4 模型成果输出及应用
通过主题研究实践,剖析客户深层业务特征,生成:缴费渠道偏好、高频逾期行业、异常电量波动、回款时长异动、区域聚类、客户逾期风险等级等复杂标签,服务于多类业务场景。如:在客户电费回收风险管理中,客户逾期风险等级标签有效提高电费回收风险识别速度及精确率,将原有事中、事后风控提升为事前、事中、事后的全过程风控,支撑催费等业务资源优化配置;在业务定向推广中,利用客户属性及渠道标签,细化客户分层,有利于建立客户与线上缴费渠道、电子账单订阅等业务的关联关系,便于相关业务的目标客户群选取;在营业客服业务中,集成客户画像信息于营业受理界面,对客户历史业务、电量波动、缴费渠道偏好等标签进行展现,帮助业务受理人员快速把握客户特点,提升客户的服务体验。
5 总结
通过实践研究,证明数据挖掘及客户画像技术在电费回收业务方向应用的可行性和有效性。
在建模过程中,基于业务实践开展了诸如专家调研等多种方式的数据特征工程,并依托业务数据通过机器学习方法建模。实现专家经验、业务数据、算法的结合及业务经验的模型固化及沉淀。
以标准化模型开展客户电费回收风险评估,使科学化、自动化的系统评估替代传统人工评估。极大的提升了风险判别效率,实现了重点客户群体的电费风险评估的标准化高效全覆盖。
通过主题研究,运用数据挖掘技术,提炼了公司数据价值,实现了客户消费行为和需求特征等隐性信息的显性“标签化”。为业务人员提供了全新的认知客户手段和工具。
参考文献
[1] 肖乃慎,李博,等. 大数据背景下的电网客户用电行为分析系统设计[J].电子设计工程,2016(9):61-63.
[2] 魏瑶,朱伟义,等. 基于数据挖掘技术的用电异常分析系统设计[J].电力信息与通信,2014(5):.
[3] 裘华东,徐莹,等,基于标签库系统的电力企业客户画像构建与信用评估及电费风险防控应用[J].电信科学,2017,6:206-213.
[4] 马姆杜·雷法特. 信用风险评分卡研究:基于SAS的开发与实施[M]. 出版社及城市,2013.
[5] 刘彪,刘金長. 基于用户画像分析预测电费敏感型客户的建模实践[J]. 电力大数据,2017(8):19-24.
[6] 姚旭,王晓丹. 特征选择方法综述[J]. 控制与决策,2012(2):161-165;
[7] 张诗军,陈丰,等. 基于电力大数据的客户立体画像构建及应用研究[J]. 电力系统,2018(4):18-25.
[8] 赖成光,陈晓宏. 基于随机森林的洪灾风险评价模型及其应用[J]. 水利学报,2015(1):58-65.
[9] 张宇,张之明. 一种基于C5.0决策树的客户流失预测模型研究[J]. 统计与信息论坛,2015(1):89-94.
[10] 孙丽弘. 基于移动数据业务大数据应用的用户行为标签库模型[J]. 现代电信科技,2016(8):5-9.
(收稿日期: 2018.10.31)
作者简介:赵 洪(1976-),女,研究方向:电力营销管理。
沈建忠(1973-),男,研究方向:营销管理与现代服务体系。
王 俊(1980-),男,研究方向:电力营销。
张 骋(1972-),男,研究方向:营销管理、客户服务。
瞿 青(1979-),女,研究方向:“互联网+”营销服务。文章编号:1007-757X(2020)02-0093-04