王庆娟,张 维,吕诗宁
(国网浙江省电力科学研究院 客户服务中心,杭州 310014)
出租房客户定位分析及电费回收策略
王庆娟,张 维,吕诗宁
(国网浙江省电力科学研究院 客户服务中心,杭州 310014)
在“租售同权”的新形势下,出租房人数将迎来新高峰。由于对于流动人口难以管理,电力公司在回收出租房电费过程中常常存在信息沟通不畅、欠费高发、投诉纠纷高发、用电不稳定、用电安全隐患大等问题,为能准确定位出租房客户并采取相对应的电费回收服务策略,规范出租房客户用电行为,基于电力公司用户用电数据,运用大数据挖掘算法定位出租房用户。首先对出租房客户的基础信息、用电行为和缴费特征进行分析,根据分析结果提炼出对出租房分析影响较大的指标作为指标集,然后通过C5.0决策树算法进行机器自学习和训练,构建出租房用户判别模型。
大数据平台;数据挖掘;C5.0决策树算法;电费回收
据国家有关部门统计数据显示,我国现有出租房已超亿户。如何对庞大的出租房进行管理,一直是社会关注的热点与难点,而出租房客户用电安全隐患大、电费回收难等问题是长期困扰公司营销工作的痛点。近期,部分地区政府已实施“租售同权”,出租房客户数量将持续攀升,对社会治安、企业服务成本、房东个人征信等带来更大压力。因此,精准定位出租房客户,并配合服务策略规范其用电行为,实现精准营销,刻不容缓。
本项目基于电力公司营销业务系统、用电信息采集系统中的明细数据,结合95598工单,一体化缴费平台数据,首先对出租房客户进行特征分析,从基础信息、缴费行为、用电特征三大维度出发,提炼出多个影响出租房客户分析的指标作为预测指标集,通过C5.0决策树算法构建出租房用户预测模型[1],准确定位出租房用户,实现精准营销,规范出租房客户用电行为,提高电费回收效率、降低安全隐患。
基于实地考察、业务专家访谈以及资料查询,结合电力公司现有用户用电数据信息情况[2],以浙江省绍兴袍江地区12 000户用电客户为研究对象,包括2 000户租户和10 000户普通用户,分析出租户与普通用户的差异,其中,普通用户包括租户和非租户。结合实际情况,考虑到出租房客户可能在用电行为、缴费方式等方面与非出租房客户会存在一定的差异性,如:由于出租房客户的群租性,其用电量较非出租房客户可能会偏高;出租房客户在过年期间及节假日,用电量较平时用电量可能会出现偏少现象;出租房客户晚上用电量可能比白天用电量多,即谷电量占比可能会偏高。经过分析,最终从基础信息、缴费行为、用电特征3个维度提炼出租房用户特征[3—4],模型影响变量如表1所示。
表1 模型影响变量表
经过多次调整,最终从基础信息、缴费行为、用电特征3个维度提炼出8个指标进行模型构建,分别为城乡类别、年用电量、春节期间电量占比、清明节假期电量占比、端午节假期电量占比、4—5月份谷电量占比、近一年不同收款部门数、近一年支付宝缴费次数。
(1)城乡类别:城镇、农村。(2)年用电量:2016年8月—2017年7月的用电量。(3)春节期间电量占比:春节期间用电量/全年用电量×100%。
(4)清明节假期电量占比:清明假期用电量/4月用电量×100%。
(5)端午节假期用电量占比:端午假期用电量/5月用电量×100%。
(6)4—5月份谷电量占比:4—5月份谷电量/4—5月份用电总量×100%,考虑到天气影响因素,所以选择了4月份和5月份非空调使用季节进行谷电量分析。
(7)近一年不同收款部门数:2016年8月—2017年7月近一年不同收款部门数。由于出租房客户的流动性,缴费方式会具有多样性,所以收款单位较普通用户可能也会偏多。
(8)近一年支付宝缴费次数:2016年8月—2017年7月近一年支付宝缴费次数。
(1)连续变量分析
对于出租户和普通用户年用电量、春节期间电量占比、清明节假期电量占比、端午节假期电量占比、4—5月份谷电量占比这5个连续变量的均值进行分析,其结果如表2所示。
表2 租户与普通用户连续变量均值对比表
通过对以上指标进行分析发现,①出租户的近一年平均用电量较高,是普通用户的1.65倍;②出租房客户在春节期间、清明节、端午节假期用电量占比均远低于普通用户的用电占比;③租户与普通用户在4—5月份谷电用电量占相差不大,在建模的时候可能也并没有重要影响。
(2)离散变量分析
对出租户和普通用户的近一年不同收款部门数这一指标进行分析,租户和普通用户不同收款部门个数客户数占比如表3。
表3 租户与普通用户不同收款部门占比对比表%
其中,租户各收款部门变化次数客户数占比=各收款部门变化次数客户数/出租房总数×100%;普通用户各收款部门变化次数客户数占比=各收款部门变化次数客户数/普通用户总数×100%。
通过对近一年不同收款部门数这一指标进行分析发现,67.47%的普通客户一年内收款部门没有发生,而租户收款部门一年内没有发生变化的比例为30.47%。
在有监督学习的二分类模型中,决策树模型可读性好,效率高,特别是在数据量不大的情况下,往往能获得较高的准确度,且利用C5.0决策树算法、Logistic逻辑回归算法和神经网络算法分别对样本进行分类预测,通过对比发现利用Logistic逻辑回归算法和神经网络算法构建的出租房预测模型准确率和命中率均低于C5.0决策树模型的预测准确率和命中率,因此本项目采用C5.0决策树算法构建出租房客户预测模型[5]。
C5.0决策树算法通过最大信息增益率来选择属性进行节点拆分。第一次拆分确定的样本子集随后再次拆分,通常根据另一个字段进行拆分,这一过程重复进行直到样本子集不能再被拆分为止。最后,重新检验最低层次的拆分,那些对模型值没有显著贡献的样本子集被剔除或者修剪[6]。信息增益率计算规则如下:
设T为数据集,类别集合为{C1,C2,…,Ck} ,选择一个属性V把T分为多个子集。
设V有互不重合的n个取值{V1,V2,…,Vn} ,则T被分为n个子集T1,T2,…,Tn,这里Ti中的所有实例的取值均为Vi。
令: ||T为数据集的T例子数, ||Ti为V=Vi的例子数, ||Cj=freq(Cj,T)为Cj的例子数, ||CjV是V=Vi例子中具有Cj类别的例子数。
则有
①类别Cj的发生率
②属性V=Vi的发生概率
③属性V=Vi的例子中,具有类别Cj的条件概率
④类别的信息熵
⑤类别的条件熵
按照属性V把集合T分割,分割后的类别条件熵为
⑥信息增益,即互信息
⑦属性V的信息熵
⑧信息增益率
最大信息增益率是属性选择及样本分区的准则,通过最大信息增益率来选择属性进行节点拆分,过程重复进行直到样本子集不能再被拆分为止。最后,重新检验最低层次的拆分,那些对模型值没有显著贡献的样本子集被剔除或者修剪。
本次建模利用C5.0决策树算法,将绍兴袍江的12 000户用户作为样本集,随机筛选样本集中70%作为训练集,30%作为测试集构建出租房客户预测模型。
3.2.1 模型规则输出结果
3.2.2 变量重要性输出结果
图2为变量重要性结果。
图2 变量重要性结果图
由图2变量重要性结果可知,城乡类别、近一年不同收款部门数、春节期间电量占比、年总电量4个指标对模型影响较大;结合规则集可知,年总用电量较高、春节期间用电量占比较小且一年内收款部门变化较多的城镇用户为出租房客户的可能性较大。变化较多的城镇用户为出租房客户的可能性较大。
3.2.3 样本集结果分析
由样本集输出结果可知,对训练集和测试集的预测正确率都达到了90%以上,预测准确率已经比较理想,训练集预测结果见表4。
其中,行值为实际值,列值为预测值,由混淆矩阵可以得出,训练集实际为出租房客户的数量为1 007户,其中正确预测为出租房客户的户数为594户,错误预测为普通用户的户数为413户,训练集具体正确预测率、命中率和覆盖率如表5。
表4 训练集预测混淆矩阵表户
表5 训练集预测准确率、命中率和覆盖率表%
其中,测试集预测结果见表6。
表6 测试集预测混淆矩阵户
其中,行值为实际值,列值为预测值,由混淆矩阵可以得出,测试集实际为出租房客户的数量为502户,其中正确预测为出租户的户数为274户,错误预测为出租户的户数为228户,测试集具体正确预测率、命中率和覆盖率如表7。
表7 测试集预测准确率、命中率和覆盖率表%
对于实际为普通用户,却被预测为出租房客户(其中训练集为374户,测试集为132户)原因是:①因为普通用户包括出租房和非出租房,被预测为出租房的这部分客户很可能实际就是出租房,这部分其实就是我们通过模型挖掘出的出租房客户;②这部分客户可能会出差或者在假期期间会旅游、探亲等活动,所以这部分客户的用电行为、缴费特征等与出租房客户类似,偏向于不稳定,在下一步模型优化时会考虑加入房屋类型,如:高档小区、学区房、酒店式公寓、回迁房等,根据房屋类型进行进一步分析。
对于实际为出租房客户,却被预测为普通用户(其中训练集为413户,测试集为228户)原因是:这部分客户可能是家庭、收入等比较稳定,以家庭为单位的长期租房客户,所以这部分客户会与普通非出租房客户用电特征、缴费行为等类似,这一部分客户的欠费可能性低、信用较好、用电安全隐患小,所以对这一部分出租房客户可以放宽管理。
研究表明,出租房客户预测模型的准确率达到了90%以上,预测效果较好,所选取的指标城乡类别、近一年不同收款部门数、春节期间电量占比以及年总用电量对出租房客户预测模型影响较大。下一步计划对模型做进一步的优化工作,根据模型结果进一步完善变量指标及模型参数,保留城乡类别、近一年不同收款部门数、春节期间电量占比以及年总用电量4个变量,同时考虑增加用电量波动、春节期间是否有空窗期以及房屋类型(如:回迁房、酒店式公寓、学区房等)等变量,以提高模型的准确率和命中率,在模型优化的基础上,适时扩大活动运营的范围,采用多种营销方式,提高应用成效。同时,结合出租户用户实际情况生成特征标签,利用衍生标签信息,为其他主题场景的精准营销活动做支撑。
[1] 张素香,刘建明,赵丙镇.基于云计算的居民用电行为分析模型研究[J].电网技术,2013,37(6):1 542-1 546.
[2] 薛禹胜,赖业宁.大能源思维与大数据思维的融合(一)大数据与电力大数据[J].电力系统自动化,2016,40(1):1-8.
[3] 刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报(工学版),2014,48(6):957-972.
[4] 黄文思,郝悍勇,李金湖,等.基于决策树算法的电力客户欠费预测[J].电力信息与通信技术,2016,14(1):19-22.
[5] 路祤,徐辉,杨永春.基于决策树分类算法的研究与应用[J].电子设计工程,2016,24(18)1-3.
[6] 段军红,张乃丹,赵博,等.电力大数据基础体系架构与应用研究[J].电力信息与通信技术,2015,13(2):92-95.
Analysis of locating the rental housing customers and strategy of tariff charging
WANGQing-juan,ZHANGWei,LVShi-ning
(Customer ServiceCenter,StateGrid ZhejiangElectric Powerand ScienceResearch Institute,Hangzhou 310014,China)
In the new situation of the"rental right",the number of rental housing will usher in a new peak.Due to the difficuty to management of the floating population,there are often poor communication of information,high arrears,high complaints,electricity instability,power security risks and other characteristics.In order to accurately locate the rental housing customers and with the service strategy,room customer electricity behavior,this paper uses the C5.0 decision tree algorithmapplied to the rental housing to predict rental customers.
big data platform;data mining;C5.0 decision treealgorithm;tariff charging
F407.61
B
1009-1831(2017)06-0045-04
10.3969/j.issn.1009-1831.2017.06.011
2017-08-21