苏华权, 钱正浩, 冯志鹏, 余恒祥, 杜礼锋
(1.广东电网有限责任公司信息中心, 广东,广州,510600;2.广东电网有限责任公司数字化部, 广东,广州,510600;3.广东电力信息科技有限公司, 广东,广州,510600;4.广东电网有限责任公司市场营销部, 广东,广州,510600;5.广东电网公司中山供电局, 广东,中山,528400)
国内外相关专家在客户画像构建方面取得了一些较好的研究成果[1-3],例如张亚楠等[4]通过深度学习方法在数据中提取高度抽象特征的特点,并提取客户的局部画像结合全局信息组建全局的立体精准画像。王成亮等[5]结合用户用电特征组建客户用电行为标签,同时采用模糊聚类算法进行客户用电模式分析,完成不同类型客户的用电行为模式画像。虽然以上两种方法现阶段已经取得了较为满意的研究成果,但由于未能考虑客户画像预测建模问题,导致多维客户画像精准构建准确性以及运行效率下降。为了有效解决上述问题,本文提出一种考虑电力营销能力的多维客户画像精准构建方法。仿真实验结果表明,所提方法不仅能够有效增强多维客户画像精准构建准确性,还能有效提升整个方法的运行效率。
为了全面捕捉电费敏感客户的特点,需要从三个方面进行分析,并组建对应的特征群[6]。结合多种不同类型的特征,针对电力营销系统的敏感客户进行客户特征分析,利用表1给出具体的特征体系。
表1 特征体系示意表
整合表1,敏感度的计算式表示为
topic-score-T=topic-count-positivet+αtopic-count-sumt+2α
(1)
式中,topic-count-positivet代表主题t在正例中出现的次数,topic-count-sumt代表主题t出现的总次数,α代表平滑因子,T代表特征群个数。
(1) 统计特征:
为了准确描述不同类型客户的敏感度,需要在设定的场景下,衍生出一系列对应的统计特征准则。
(2) 数值特征:
针对于数据值数据,通过采用统计向量反映数据的深层信息。
分析1.1小节组建的多维客户多源特征体系可知,客户的大部分特征均来源于不同的数据以及多个视角。为了有效地充分利用多源特征体系中的特征[7-8],需要解决高维特征问题。但是,首先需要构建一个基于双层XGBoost的多视角融合模型,模型的具体结构如图1所示。
图1 多视角融合模型
XGBoost是一种经过优化的提升树模型,它具有计算速度快以及适应性等特点,被应用于各个研究领域中。XGBoost是梯度提升算法的一种高效系统实现,在计算的过程中进行了大量的优化,促使计算结果更加准确,其中XGBoost的基学习器能够划分为以下两种形式。
(1) CART决策树模型;
(2) 线性模型。
XGBoost主要是将树模型中的复杂度加入到Loss Function的正则化项中,当基学习器为CART树时,Loss Function能够表示为以下的形式:
LΦ=∑ilxi,yi+∑iΩfk
(2)
whereΩf=γT+12λω2
(3)
其中,正化则项和树模型的叶子节点的值和数量存在关联。
XGBoost中运用了二阶导数,第t次的Loss能够表示为
L(t)=∑ni=1lxi,y(t-1)i+fiXi+Ωfi
(4)
将式(4)进行二级泰勒展开,则有:
L(t)=∑ni=1lxi,y(t-1)i+gifixi+
12hifixi+Ωfil
(5)
在以此基础上,进行模型的搭建。具体的操作过程中:
(1) 第一层采用单一XGBoost模型完成迭代,在进行迭代前,需要设定好迭代次数。在模型进行分裂的过程中,需要将分裂获取的全部特征进行存储,同时作为模型第二层的输入;
(2) 第二层将XGBoost模型以及Bagging模型两者融合,以实现多源特征融合,同时有效加强模型的精确度以及泛化能力。
通过信息的主体将客户画像划分为用户信息标签、资源信息标签以及上下文信息标签,具体如图2所示。
图2 客户画像的标签分类
在此基础上,结合1.2小节中的多源特征,组建基于机器学习的多视角融合模型,即:
ht=fUxt+Wht-1
(6)
以模型输出多视角融合结果为基础,完成多维客户画像精准构建,以下给出具体的操作流程,如图3所示。
(1) 客户基础数据采集
对客户个人采集信息而言,可以利用注册信息以及上传含有个人信息的文件获取。客户的行为信息能够利用客户网上行为得到,客户的偏好信息能够从客户订阅内容的标签或者个性化定制中得到。信息资源可以在信息本身的介绍信息获取。上下文信息的获取需要结合业务场景分析,其中上下文信息和客户行为存在关联,所以需要结合具体应用场景完成行为分析。
(2) 数据分析与处理
由于采集到的初始数据并不十分规范,还会存在数值缺失、数据异常以及格式不规范等问题,导致数据无法直接用来建模,所以需要对采集到的数据进行统计分析、数据分析以及归一化处理等操作。
(3) 用户标签建模
针对步骤(2)中经过处理的数据进行建模,抽象出客户的标签,进而预测出客户潜在的行为以及偏好。在整个研究的过程中,需要采用多种不同的算法为客户贴标签。
(4) 输出客户画像
通过客户的基本信息、行为信息以及兴趣偏好结合资源以及上下文等信息对用户进行标签化处理,基于业务需求,分层用户标签,输出最终的客户画像。
图3 客户画像流程图
为了验证所提考虑电力营销能力的多维客户画像精准构建方法的有效性,在操作系统为Windows 10,运行内存为8 G,CPU为Core i5-7400,编程代码为Python 3.6的配置下进行仿真实验测试。
为了验证多维客户画像精准构建的准确性,实验将相对误差和平均误差设定为测试指标,其中两项测试指标的取值越高,则说明多维客户画像精准构建的准确性越低;反之,则说明多维客户画像精准构建的准确性越高。将本文所提方法与文献[4]和文献[5]进行比较,实验对比结果如表2、表3所示。
表2 不同方法的相对误差对比
综合分析表2和表3中的实验数据可知,所提方法的相对误差以及平均误差取值明显低于其他两种方法,这说明所提方法具有较高的准确性。
为了更加全面验证所提方法的有效性,将各个方法的运行效率设定为评价指标,具体实验对比结果如图4所示。
分析图4中的实验数据可知,不同方法的运行效率会受到测试样本数量的影响,其中所提方法的运行效率在三种方法中为最高,文献[4]方法的运行效率次之,文献[5]方法的运行效率最低。
针对传统方法存在的一系列问题,本文设计并提出一种考虑电力营销能力的多维客户画像精准构建方法。仿真实验结果表明,本文所提方法能够有效降低平均误差以及相对误差,提升多维客户画像精准构建准确性,同时还能够有效增强整个方法的运行效率。
表3 不同方法的平均误差对比
图4 不同方法的运行效率对比结果