基于局部线性嵌入和深度森林算法的电力客户投诉预测模型

2024-01-19 08:16:52张梅保富
电测与仪表 2024年1期
关键词:工单降维级联

张梅,保富

(云南电网有限责任公司信息中心, 昆明 650217)

0 引 言

近年来,随着供电企业管理水平的持续提升,客户对优质服务的要求也逐渐提高。特别是95598电力服务监管水平的不断提高,如何提高客户满意度,减少投诉,已成为电力公司重要的研究课题之一[1]。随着人工智能技术的发展,使复杂的投诉工单预测成为可能。促进了事前预警、事中管控、事后分析等综合投诉管理系统的建设,对客户需求进行详细的专门管理和分级管理,从预防的角度有效管理投诉[2]。因此,利用95598历史工单数据建立投诉预测模型,对提升供电企业的服务水平具有重要意义。

目前,国内外许多学者对电力客户投诉预测技术进行了研究。文献[3]通过深度学习的方法构建用户投诉预测模型,该模型使用深度网络模型的深度置信网络来自动学习用户功能的非线性组合,并通过实验验证了该模型的自动学习能力。文献[4]通过随机森林算法构建用户投诉预测模型,可以实现95598工单的直接投诉预测和转化投诉预测。文献[5]中通过随机森林算法构建用户投诉预测模型,从数据、指标、参数三个方面对模型进行优化,投诉预警模型已经进行了试点应用。文献[6]中通过自然语言处理技术对投诉文本进行挖掘,采用隐马尔可夫模型对投诉工单进行词频统计,并计算关键词的权重,根据权重对服务策略进行调整,以客户满意为最终目的。文献[7]构建了基于遗传算法和BP神经网络的客户投诉预测模型,实现了较高准确率的客户投诉预测。上述预测模型虽然取得了一定的效果,但是预测结果可能会陷入局部最优解的情况,预测准确度有待提高。

文章提出了一种基于局部线性嵌入和深度森林算法的客户投诉智能预测模型,用于预测一周的投诉量,促进了事前预警、事中管控和事后分析的投诉综合管理系统的建设。通过仿真对模型改进前后的有效性进行验证。

1 系统结构

基于大数据的客户投诉智能预测模型的体系结构如图1所示。其由三层组成,分别为数据采集层、数据挖掘建模层、模型应用层。

图1 基于大数据的客户投诉预测模型结构

数据采集层把多个电力系统信息(用户信息、业务信息、投诉信息等)作为输入数据[8-10]。数据挖掘建模层基于数据采集层信息应用局部线性嵌入和深度森林算法建立投诉预测模型,预测一周的投诉量,促进事前预警,事中管控和事后分析的综合投诉管理系统建设。模型应用程序层显示并发布预测数据,制定相关计划,然后对其进行评估。

2 建立模型

在建立客户投诉模型的过程中,采用电力系统信息中的用户信息、业务信息、投诉信息等作为输入特征向量。这些信息主要包括用户所在地区、工单成单时间、工单成单原因、工单业务类型、天气因素、系统检修计划、设备检修计划等。这样导致训练模型的训练集数据量大、特征向量维度高,使所建立的模型会出现以下问题:1)模型建立计算时间长,计算量大;2)类似数据的特征向量较多,导致模型陷入局部最优解[11-13]。其中陷入局部最优解的模型,当输入特征向量中某一个特征参数发生变化时,无法准确输出正确预测值[14-16]。比如当用户信息、业务信息、投诉信息等特征向量不发生变化,仅业务日期发生变化改为节假日时,投诉数量会降低。但是由于非节假日特征向量数据过多,导致陷入局部最优解的模型依然会输出预测较高的投诉数量。因此,首先需要对客户投诉预测模型的输入特征向量进行降维处理,将类似特征向量进行合并,不仅可以减少建模计算量,还可以提高预测准确度[17]。

2.1 局部线性嵌入算法

文中客户投诉预测模型的输入特征向量设为X,其可以表述为:

X= (DR,TI,RE,KI,WE,TM,RC,SRP,ERP,TS)

(1)

式中DR为用户所在地区向量;TI为工单成单时间向量;RE为工单成单原因向量;KI为工单业务类型向量;WE为天气因素向量;TM为成单时温度向量、为成单时风速向量;RC为用户重复来电向量;SRP为系统检修计划向量;ERP为设备检修计划向量;TS为用户投诉心态向量。一般一个省份一天的投诉工单约100~200件,且需要提取1~2年的投诉工单的特征向量训练投诉预测模型。因此首先需要进行降维处理。

文中采用局部线性嵌入算法对原始数据进行降维处理。该算法属于流形学习算法,降维时可以有效保留特征参数样本局部的线性特征[18]。由于文中设置的客户投诉预测模型的输入特征向量X为非全局线性,且局部线性嵌入算法具有全局最优无需迭代的优点,因此文中采用局部线性嵌入算法对投诉预测输入特征向量X进行降维处理。

局部线性嵌入算法可以将高维空间的特征向量投影至低维空间,在完成特征向量降维处理的同时,使计算前后相邻特征参数之间的线性结构基本不变[19]。文章将N个特征参数组成的客户投诉预测模型的输入特征向量矩阵X=(x1,x2,…,xN)通过局部线性嵌入算法降维得到由D个特征参数组成的特征向量Y=(y1,y2,…,yD)[20-21],局部线性嵌入算法主要步骤包括:

步骤1:根据度量空间距离xij和xjk计算每个样本点的邻近点之间的欧式距离dij,如下所示:

(2)

式中p=2,最终可计算得到离样本点距离最近的K个点作为邻近点。

步骤2:计算重构权值矩阵,利用对误差函数ε(W)进行定义,使重构误差最小,如下所示:

(3)

式中xij(j=1,2,…,K)为样本点xi的邻近点;wij为xi与xij间的权值,wij满足式(4)中的定义:

(4)

式(3)和式(4)可以合并,得到:

(5)

式中Xi=(xi-xi1,xi-xi2,…,xi-xk),Zi=XT。iXi是第i个样本点的局部协方差矩阵。wi=[wi1,wi2,…,wik]T为第i个样本点的局部重建权值向量。这样求解式(5)成为了一个约束最小乘方问题,可以采用拉格朗日乘子的方法来解决该问题:

步骤3:将所有样本点映射到低维空间,此时需要满足如式(6)中的要求:

(6)

式中φ(Y)为输出函数,yi为xi的输出向量,yij(j=1,2,…,k)为yi的k个邻近点,并可以满足:

(7)

(8)

式中wij(i=1,2,…,N)可以放置在N×N的矩阵W中,且满足:

(9)

式中Wi为矩阵W的第i列,Ii为N×N的单位矩阵第i列,Y为输出向量,即Y=(y1,y2,…,yN),可以得出:

(10)

若需要误差函数ε(W)趋近于0,则Y应为M的从小到大排列的d个非零特征值构成的特征向量。由于最小非零特征值已无限接近于0,文中选择第2至第d+1个的非零特征值构成的特征向量作为降维处理后的输出结果Y=(y1,y2,…,yd-1)。文中Y为降维后输入到训练模型中的客户投诉预测特征向量。

2.2 深度森林预测模型

国内学者周志华于2017年提出了深度森林算法,该算法模型属于深度学习模型,其将传统的随机森林算法模型进行集成,可以有效进行预测[22]。深度森林算法又称为多粒度级联森林(gcForest,multi-grained cascade forest)算法,该算法可以在各层自动训练模型参数,无需反向传播,训练时间短,适用于如投诉预测、负荷预测等具有较大数据量的预测模型建立。此外,由于深度森林模型的基本单元为随机森林中的决策树,需要人工设置参数数量较少,泛化能力较好。

gcForest算法模型主要由多粒度扫描和级联森林组成[23]。其中,多粒度扫描为采用不同尺寸(粒度)的滑窗在原始特征向量上滑动取值采用,从而获得更好的特征学习效果;级联森林由多个随机森林构成,对输入的特征向量进行表征学习。这两个部分的算法模型基础均为随机森林算法模型。

2.2.1 随机森林算法

随机森林算法为有监督算法,可用于数据分类和回归预测[24]。在训练模型时构建决策树,通过提高决策树的数量进行多次决策,输出回归预测概率或结果。该算法对多元线性特征向量具有较好的应用效果,可以有效解释投诉预测这种大量数据的特征变量。

在该随机森林算法中,对于设定好的训练集数据XTi(i=1,2,3,…),响应变量为YTi(i=1,2,3,…),对训练集生成的随机数据样本进行切割,利用决策树进行拟合。若XTb和YTb为训练集XTi和YTi的n个训练样本,对其训练回归树fb,则输出样本xt的预测值为:

(11)

式中M为落袋次数。文中选用基尼指数(gini index,GI)作为构建随机森林算法模型中的准则。在投诉预测中,对于投诉与非投诉而言,即为二分类问题,GI为:

(12)

式中pk为样本,属于k类别的概率。对他投诉预测特征向量数据集X,GI为:

(13)

式中Xk为第k类样本数量。因此,根据特征向量T划分的数据集GI为:

(14)

随机森林算法模型通过重复采样随机生成多个训练子集,将未采样到的样本组成袋外数据,并在各训练子集上训练预测决策树。各决策树的内部节点被抽取所有的特征参数作为该节点的分裂属性集。文中各决策树深度被设为4,内部节点和叶子节点最小样本分裂值分别被设为2和1。在训练集中,训练特征向量数据如果超过分裂阈值,会被进行剪枝处理。

2.2.2 多粒度扫描

在多粒度扫描计算中,采用多个不同尺度的滑动窗口对原有特征进行重新表示。该方法不同于卷积操作的是滑动窗口只进行扫描特征,不涉及参数跳闸,所扫描的特征向量作为新的数据样本。例如,初始投诉预测特征向量的维数为400,滑动窗口尺寸为100,则可以得到301个维数为100的特征向量,并作为新的预测特征向量数据样本输入到随机森林中。对投诉预测特征向量进行多粒度扫描,可以提高其表征学习能力。具体算法过程如图2所示,具体步骤如下:

步骤1:输入完整的P维投诉预测特征向量数据样本;

步骤2:采用长度为k的滑动窗口采样,滑动步长为λ,可以得到S个k维特征子样本向量,S的计算公式为:

S=(P-k)/λ+1

(15)

步骤3:将子样本用于训练随机森林,并在每个森林获得长度为C的概率向量和长度为S×C的表征向量;

步骤4:将各层的F个森林的输出结果组合成为本层输出向量。

图2 多粒度扫描计算过程

2.2.3 级联森林

级联森林是深度森林算法模型的核心,即使不继续多粒度扫描也可以用级联森林计算,从而进行预测[25]。多粒度扫描的输出结果作为级联森林的输入特征,各尺度的扫描结果输入到级联森林的第一级森林。级联森林由多种随机森林组成,其作用为对输入特征进行表征学习。级联森林的结构如图3所示,每个级联层均包括两个随机森林完全随机森林,其中各随机森林均含有若干棵决策树,因此每个随机森林或者完全随机森林都会输出一个特征向量预测结果。在级联森林中,上一个级联层的输出结果作为下一个级联层的输入,可以将特征向量的特征信息传至下一层,每一层都可以接收到上一层的特征信息和原始特征信息,提高了预测准确度。

文中将交叉验证方法应用在级联层的随机森林中,从而实现自适应调节级联森林的层数。即在某个级联层训练完毕后,将输入特征向量作为验证集进行预测结果计算,若该级联层的预测准确率高于上个级联层的预测准确率,则继续进行级联森林的构建,反之级联森林构建结束。因此,级联森林模型的层数可以实现自动收敛,且最后一层级联层的输出类向量为预测结果。

图3 级联森林结构图

3 仿真结果与分析

3.1 数据设置

采用MATLAB 2014a作为仿真软件进行仿真测试,操作系统为Windows 10。计算机配置为:处理器为Inter i5-7200U,处理器主频为2.7 GHz,计算机内存为8 GB。

使用某地2015年7月至2017年11月的数据作为训练集,共计131 837个投诉工单;使用2017年12月至2018年9月的数据作为测试集,共计69 376个投诉工单。由于时间跨越较长,数据量较大且特征向量维度较高,通过局部线性嵌入算法对原始数据进行降维处理。然后对降维后的投诉预测特征向量进行多粒度扫描。最后基于级联森林建立深度森林算法模型,建立基于局部线性嵌入和深度森林算法的电力客户投诉预测模型,输出一周后的投诉量预测值。

3.2 预测结果

对2019年9月至2019年12月之间选取10周数据进行预测。将文献[7]提出的GA-BP网络预测模型和不采用降维处理建立的深度森林预测模型进行比较,对深度森林预测模型的有效性进行验证。图4为一周后投诉量预测结果与实际值之间的比较。

图4 预测结果与真实值对比

从图4可以看出,基于深度森林算法预测结果相对于基于GA-BP神经网络算法的预测结果更接近于真实值。但是深度森林预测模型在三个时间间隔的预测效果相对较低。图5所示预测误差较大的区域。

对误差较大区域进行分析,从图5中可以看出,误差变大的时段是2019年10月1日至2019年10月7日,也就是国庆节期间。国家电网公司规定,国庆长假期间欠费的用户不予停电处理,长假对电力相关业务也有一定影响。大大减少了国定假日投诉数量,所以预测误差较大。从10月15日到10月18日,由于工单系统计划维护,未将投诉量纳入系统,所以预测误差很大。从11月21日到12月1日,由于缴费系统较大,无法付款,投诉迅速增加,所以造成很大的预测误差。

图5 预测误差较大区域

3.3 误差分析

由于长假期影响、短假期影响和系统维护和故障影响持续时间相比于正常工作日的特征向量数据过少,导致不采用局部线性嵌入降维的深度森林预测模型会陷入局部最优解,而陷入局部最优解的模型依然会输出预测较高的投诉数量。此外,在工单系统故障或者维护时,该系统无法获得任何投诉共度。因此,根据此特殊事件的影响,需要采用局部线性嵌入算法对客户投诉预测模型的输入特征向量进行降维处理,将类似特征向量进行合并,不仅可以减少建模计算量,还可以避免陷入局部最优解,从而提高预测准确度。

将文中所提出投诉预测模型计算得到的一周后投诉量仿真结果与投诉量实际值进行比较,如图6所示。

图6 优化后的预测结果与真实值对比

对优化前和后的仿真试验结果与实际值之间的相对误差进行了计算,计算公式如式(16)所示,其中相对误差小于10%、20%和30%的数据占比百分比,如表1所示。

(16)

由图6和表1中数据可知,采用局部线性嵌入算法对高维投诉预测特征向量进行降维处理,预测效果更为接近真实值,验证了基于深度森林算法的客户投诉预测模型的准确性和实用性。文中模型可以实现电力公司一周投诉量的预测。也可应用于其他类型的工单及其他领域,具有一定的推广应用价值。

表1 优化前后误差对比

4 结束语

文中在电力客户投诉预测模型结构的基础上,提出了一种将局部线性嵌入和深度森林算法相结合的电力客户投诉预测模型。局部线性嵌入算法对高维特征向量进行降维处理,可以避免深度森林预测模型陷入局部最优解;多粒度扫描可以提高深度森林的表征学习能力。采用MATLAB仿真软件进行测试,验证了预测模型的参考价值。结果表明,该预测模型可以更准确地预测客户投诉趋势。考虑到当前的实验设备和数据规模,文中所做工作仍处于起步阶段。下一步研究工作的重点是不断改进和完善基于改进BP神经网络电力客户投诉预测模型。

猜你喜欢
工单降维级联
混动成为降维打击的实力 东风风神皓极
车主之友(2022年4期)2022-08-27 00:57:12
基于量化考核的基层班组管理系统的设计与应用
电子测试(2022年7期)2022-04-22 00:13:16
基于transformer的工单智能判责方法研究
高技术通讯(2021年6期)2021-07-28 07:39:20
降维打击
海峡姐妹(2019年12期)2020-01-14 03:24:40
基于HANA的工单备件采购联合报表的研究与实现
中国核电(2017年1期)2017-05-17 06:09:55
级联LDPC码的STBC-OFDM系统
电子制作(2016年15期)2017-01-15 13:39:09
基于级联MUSIC的面阵中的二维DOA估计算法
电力95598热线全业务集中后的工单预警机制
LCL滤波器在6kV级联STATCOM中的应用
电测与仪表(2014年1期)2014-04-04 12:00:34
H桥级联型STATCOM的控制策略研究
电测与仪表(2014年1期)2014-04-04 12:00:28