燕跃豪 尚继武 鲍 薇 王 莹 师 杨
(国网河南省电力公司郑州供电公司)
随着大数据技术的迅猛发展,电力企业积累了大量用户数据,且数量呈指数型增长。目前,电力企业对用户数据分析过程中存在不足:数据分析手段有待提升,人为主观因素影响较大,对用户行为产生的内在原因分析较浅,无法快速分析大量用户投诉的工单数据。利用大数据技术来分析用户的用电行为,生成客户画像,可以指导企业决策,同时提高用户满意度。基于大数据技术生成客户画像,可以全面、准确地量化处理电力用户数据,将用户的兴趣、特征、行为等多方面具象化数据分类描述,并在此基础上预测用户短期内的用电行为。
本研究对电力客户服务呼叫中心、营销系统等其他方式获得的用户数据进行统计、分析,将复杂、具象的信息加工量化,形成简单的基本行为标签,同时经过K-means聚类分析、分类分析、归类分析和回归分析挖掘出数据中的复杂标签,进而建立电力用户标签库,再利用标签库的标签生成客户画像,将用户信息结构化集中展示帮助电力企业直观、系统地认识客户。画像的种类包括个体画像和群体画像,这些画像结果将在精益管理、提升服务、营销智能等方面辅助决策,指导生产实践。
本文主要从以下三个渠道采集数据来构建模型:
1)电力客户服务呼叫中心,该中心存储了用户对电力公司的所有通话记录,包含用户的户号、住址、投诉内容等个人信息数据。
2)由营销系统提供的用户用电信息档案。
3)用电信息采集系统的数据,主要包括:电表每日抄表数据、负荷数据变化及配变数据等。
数据核对就是对不同的数据属性进行统一的规划,将数据进行分词,选取有效且合理的关联字段,删除异常、无意义字段。为下一步的生成标签创造条件,主要从如图1所示四个方面进行核对。
图1 数据核对示意图
本文数据清洗主要针对数据异常值清洗,采用箱线图法对数据的异常值进行处理,如图2所示。
图2 箱线图法原理示意
其中,Z为数据的中位数,A1为上四位数,A2为下四位数,B=(A1-A2)。在(A2-1.5B)至A2和A1至(1.5B+A1)的数据为温和异常值,在上下边缘之外的数据为极端异常值。
电力用户标签主要根据电力用户的基础信息和行为属性去构建,基础信息一般指用户的性别、年龄、城乡户口、住址和电压等级和用电规模等信息,行为属性即随用户行为不断变化的时序信息。电力企业要想利用电力用户数据辅助决策,就要识别用户发生的行为、描述行为的时序特性,并且挖掘出各个行为之间的相关性,据此实现用户分类和行为预测。本文根据标签的属性将用户标签主要分为:基础属性标签、行为标签、行为预测标签。如图3所示。
图3 客户画像技术架构
基本属性标签一般包括用户的性别、年龄、行业属性、城乡户口、住址、电压等级和用电规模等基础信息,可利用处理后的数据直接分类生成。
生成行为标签、行为描述标签和行为预测标签这些复杂的标签时,本文采用了改进的K-means聚类算法。本文结合电力用户行为标签的特性对K-means算法进行一定程度的改进,以提高算法在电力用户行为聚类中的效果。本文采用聚类有效性指标控制K值的选取,通过建立聚类有效性指标,评价聚类质量并确定最佳聚类数,思想简单,受样本分布的影响不大,且不需要人为设定阈值。K-means聚类分析流程图如图4所示。
图4 K-means聚类分析流程图
行为标签生成时,需离散化处理行为发生的时间特征,将时间特征分层,进而对行为的频次、频率及行为产生的时间间隔进行聚类。
某用户i在某段时间内用户行为标签A发生的频率P计算公式为:
式中,sum(Aj,i)E-S为用户i在该时间段内发生标签A行为的次数总和,E为终止时间,S为起始时间。
行为发生的时间间隔用d表示,则行为产生的平均时间间隔为:
偏离度计算公式如下:
电力用户画像的行为预测标签要利用已生成的行为标签对用户行为进行短期预测。梯度提升树算法可以嵌入各种不同的分类算法,通过不断迭代改进上一次分类结果来提高分类准确度,该方法预测用户行为具有速度快、结果准确的优点。行为预测主要步骤为:
1)输入:T={(x1,y1),(x2,y2),…,(xN,yN)},xi,yi∈R。T为训练样本数据集,x为自变量,y为因变量,N为数据集大小。
2)初始化:
3)对m=1,2,3,…,M,M为迭代次数。
a)对i=1,2,3,…,N,计算:
式中,rim为梯度方向。
b)对j=1,2,3,…,Jm,计算:
c)更新:
4)得到回归树:
据此生成用户行为预测标签。经过以上数据聚类分析、分类分析后,将客户行为预测标签纳入标签库,用来生成客户画象。
对某个具体用户的数据分析后,生成该用户的个体画像,以标签化的形式来展现该用户的基础属性、行为特征。电力企业可以根据该画像快速了解用户行为偏好,适用于对个人进行电力业务的个性化推荐。
基于画像标签,可利用矩阵分析法实现客户画像的细分,筛选一个或若干标签,提取出具有某一共性的用户群体,形成某一类群体画像。据此,电力企业可以直观地观察出一类客户特征,并针对这一群体提供差异化服务、针对性营销等辅助决策,为企业运营提供帮助,提升电力企业服务质量与供电质量,同时提高客户满意度与用电感知。
本文利用95598呼叫中心、营销部门等电力客户的用户数据,基于K-means聚类建立了客户标签数据库,并利用这些标签生成个体画像及各类群体画像。根据标签对电力用户进行分类和行为预测,制定精细化营销与服务方案,利用大数据促进电力企业的发展。