基于数据挖掘的95598负面工单成因提取方法研究

2020-11-17 08:04周丹阳李鹏鹏施聚辉
江西电力 2020年10期
关键词:项集工单负面

周丹阳,李鹏鹏,王 莺,施聚辉

(国网浙江省电力有限公司台州供电公司,浙江 台州 318000)

0 引言

随着经济技术的快速发展,企业越来越关注自身的服务水平。对于以“基数大,用户复杂”为特点的供电企业,从历史服务工单数据中挖掘出负面工单的成因机理对于提升电力服务水平意义重大。由于时间因素、地区因素、客观天气因素等都会对工单的形成产生巨大影响,导致历史服务工单的成因复杂。因此,如何挖掘多种实际工单因素对负面工单形成的影响是亟待解决的问题。

数据挖掘技术[1]的快速发展为深度挖掘负面工单成因机理,保障供电企业服务水平提供了技术可能。目前,针对95598 电力服务水平提升,已有专家、学者们开展了相关研究并产生了一系列研究成果。文献[2]采用了长短期记忆神经网络方法进行95598话务工单异动预测预警,但该文献仅能预测不同时期的工单数量,并未挖掘这些工单潜在的成因机制。文献[3]采用了主成分分析法对95598 话务工单进行了分析,揭示了多种类型工单数量与时间之间的明显关联。文献[4]从统计学角度出发,建立了一种简单的95598 话务预测模型,但尚未深度挖掘95598 负面工单的成因因素。

基于此,文中提出一种基于Apriori 算法的负面工单成因提取方法。首先,采用数据挖掘中的数据预处理方法对95598 历史工单数据进行预处理;然后,建立基于关联规则的95598 负面工单成因模型,并采用Apriori 算法求解获得95598 负面工单成单因素的强关联规则;最后,利用挖掘出的强关联规则与负面工单关键词制定电力服务提升措施,明确电力服务工作重点方向。

1 关联规则与Apriori算法

1.1 关联规则

关联规则[5]旨在从数据样本中发掘数据项集之间的关联关系,其能够反应事物与事物之间的相互依存关系,甚至可以用一项事物去预测另一项事物的发生[6],是数据挖掘技术中重要的手段。

定义1:设D是一个事务数据库,D中的各个事务t可用集合用表示,其中n表示D中的最大事务个数。D中事务的各个项目i可用集合用表示,也称为k-项集,其中k表示D中事务的最大项数。在文中模型中,D为工单记录数据库,n为工单记录的最大个数,k为工单成因与工单类型的最大个数。

定义2:设项集I的子集项X,Y中,有X⊂I,Y⊂I且X⇒Y=φ。则二者的关联关系可表示为:R:X⇒Y。在文中就是要通过算法1 求取该关联关系R:X⇒Y,其中X为导致负面工单的成因,Y为工单类型。

定义3:设项集X的支持度为:

则规则R:X⇒Y的支持度为:

其中count(X⋃Y)表示D中项目X⋃Y的事务个数为D中的事务总数。

则规则R:X⇒Y的可信度为:

在文中,用定义3 中公式(2)与(3)来度量挖掘出的关联关系的可接受程度。支持度用于确定规则可以用于数据集的频繁程度:若X与Y的支持度非常低,说明在所有事务中同时出现X与Y的概率低,反之则说明同时出现X与Y的概率高;可信度确定Y在包含X的事务中出现的频繁程度:若X与Y的可信度非常低,说明X的出现与Y的出现关系不大,反之则说明X的出现与Y的出现关系密切。

定义4:关联规则的最小支持度记为min_sup,它用于衡量规则需要满足的最低重要性;关联规则的最小可信度记为min_conf,它表示关联规则需要满足的最低可靠性。如果规则R满足sup(R)≥min_sup 且conf(R)≥min_conf则称关联规则R为强关联规则。

1.2 Apriori算法

Apriori 算法[7]是一种以概率为理论基础的挖掘频繁项集的算法。Apriori 算法中有两个关键步骤为连接步和剪枝步。连接步:通过Lk-1与自身连接,产生候选k-项集,该候选项集记为Ck。剪枝步:通过候选k-项集的集合确定频繁k-项集。Apriori 算法的实现过程如算法1所示。

算法1:Apriori算法

输入:事务数据库,最小支持度

输出:频繁项集

开始

步骤1:根据D产生候选1-项集的集合C1

步骤2:根据最小支持度,由候选1-项集的集合C1产生频繁项集1-项集的集合L1;

步骤3:令k>2,并重复执行步骤4-6;

步骤4:由Lk执行连接和剪枝操作,产生候选k+1-项集的集合Ck+1;

步骤5:根据最小支持度,由候选(k+1)-项集的集合Ck+1,产生频繁(k+1)-项集的集合Lk+1;

步骤6:如果频繁项集不为空集,则

k=k+1;跳至步骤4;

否则

跳至步骤7

步骤7:根据最小可信度,产生强关联规则R:X⇒Y

结束

2 基于Apriori 算法的95598 负面工单成因提取方法

95598 负面工单主要包含意见工单和投诉工单。为有效提升电力服务水平,有必要从大量的历史95598 工单数据中深度挖掘出负面工单成因机理。本节基于95598 历史工单数据的实际特点,提出一种基于Apriori 算法的95598 负面工单成因提取方法,其流程图见图1,该方法的主要步骤如下:

1)95598 历史工单数据预处理。对历史工单数据进行数据预处理,其主要步骤包括:数据转化、数据清洗、数据规约和数据集成。通过对历史工单数据进行预处理,为负面工单成因挖掘模型的建立提供数据基础;

2)建立负面工单成因挖掘模型。将步骤(1)中得到的历史工单数据进行项提取,并以历史工单数据集中各事务的共有项建立基于Apriori 算法的目标城市负面工单成因挖掘模型;

3)提取强关联规则,分析负面工单成因。对步骤2)所获模型执行算法1,得到频繁项集。根据频繁项集得到负面工单成因关联规则;

4)根据步骤3)中获得负面工单成因关联关系,提出相应的电力服务提升策略。

为便于理解,下面用2.1节与2.2节分别阐述所提方法的步骤1)与步骤2)的具体过程。

图1 基于Apriori算法的95598负面工单成因提取方法流程图

2.1 95598工单数据预处理

数据转化是数据预处理中的重要一环,其旨在将不同数据类型统一为计算机可识别的数据;数据清洗将历史工单数据中的无效工单删除;数据集成将投诉工单已有的成单时间、事由、地区、业务类型等因素与外部天气数据进行集成,其所有成单因素作为一个数据库参与后续建模。

具体地,95598 历史工单数据包含描述服务区域、工单事由等文字数据,以及工单受理日期的时间数据。此外,分析天气因素对负面工单的影响时,还应提取与工单受理时间相近的天气数据。因此,数据转化的对象主要包括工单中计算机无法直接识别的文字数据,无法直接识别的日期数据和成单时间相关的天气数据。对服务区域、工单事由等信息的文字数据均采用数字编码的方法将有效数据信息提取出来。对描述工单成单时间的日期数据,采用时间距离法将1900 年1 月1 日作为基准时间,且记为1;将当前时间与基准时间的数学距离作为时间数据。对于天气数据,一方面高温、低温、强风、雷电、大雨均可能导致电力设备出现故障从而导致故障报修工单形成,另一方面由于投诉时间的滞后性存在,投诉工单的成单时间与成单时间近几天的天气状况息息相关。因此,综合考虑上述情况,文中将成单时间近5天中对电网设施影响最严重的天气情况作为成单的天气因素。具体地,文中所设定天气类型情况及其对电网设施的影响权重见表1。

表1 各天气情况及对电网设施的影响权重

然后,将上述已完成粗处理的数据进行数据清洗与数据集成。数据清洗主要删除历史工单数据中的无效工单。数据集成则集成外部天气数据与投诉工单的成单时间、事由、地区、业务类型等因素。

2.2 95598电力服务负面工单成因挖掘模型

通过对历史工单数据的预处理结果,可以初步发现95598 电力服务负面工单的成因可能与成单时间、成单事由、服务区域、业务类型、天气情况等密切相关,但是关联程度依然有待挖掘。基于此,文中提出基于关联规则的95598 电力服务负面工单成因挖掘模型M,表示为:

其中A表示负面工单的服务区域向量,T表示负面工单的成单时间向量,V表示负面工单的业务类型向量,W表示负面工单的天气情况向量,C表示负面工单的温度情况向量,F表示负面工单的风速情况向量。假设电力服务工单共有m个服务区域、n个时间单位、p个业务类型、q个天气类型、i个温度类型,j个风速类型,则负面工单成因项集共6 个,其初始候选子项集总数为m+n+p+q+i+j个。在此基础上执行Apriori 算法进行频繁项集的筛选以及关联规则R:X⇒Y的挖掘。

3 实例分析

以浙江省某市供电公司2018年全年的95598电力服务负面工单数据为例,建立95598 负面工单成因提取模型,然后基于Apriori 算法对其进行关联规则挖掘,并根据挖掘出的规则建立电力服务水平提升策略。

3.1 负面工单成因项集分布提取

对该市供电公司2018 年全年的95598 电力服务负面工单数据进行预处理后,共获得数据样本5489例。该市有供电辖区10 个;成单时间类型共有12 个月;工单业务类型共36类;天气类型有8类,即阴、晴、多云、阵雨、小雨、中雨、大雨、暴雨;气温类型有2类,即高温、低温;风速类型有1类,即强风;雷电类型有1类,即雷电。

基于关联规则的95598电力服务负面工单成因挖掘模型M见公式(4),其负面工单成因项集分布,见表2。

表2 负面工单成因项集分布

3.2 强关联规则提取及关联分析

对上述模型执行Apriori 算法,为了充分分析不同因素对负面工单的影响。本节分别对单因素和多因素情况进行了关联分析,其中单因素分析需要将对应单因素项集划分为多个子项集再进行关联分析。

3.2.1 单因素关联规则

对于单因素的关联规则分析,主要考虑服务区域、投诉类型、成单时间与投诉工单的关联关系.因此根据上述模型,分别给定事务数据库为项集S1-S3,执行Apriori算法,获得频繁项集,其结果见图2-图4。

图2 揭示了服务区域与投诉工单的关联关系,图中显示目标城市所辖服务区域3与服务区域8的投诉工单较大,即服务区域3、服务区域8与投诉工单的关系密切,故服务区域3 和8 是未来提高电力服务水平工作的重点区域。而服务区域6 与投诉工单的关联关系并不明显,因此可以继续保持现有服务。

图2 服务区域与投诉工单的关联关系

图3 成单时间与投诉工单的关联关系

图3 显示了成单时间与投诉工单的关联关系,由图可知,就成单时间内来看,投诉工单成单时间多发于 8 月、9 月与 12 月。经过分析发现,该市在 8-9 月与12 月分别处于夏季与冬季,其投诉工单可能由高温、雨水或冬季冰霜等恶劣天气及用电负荷增长造成的停电事故有关。因此该市电网公司要在这些月份到来之前做好积极应对,对电网薄弱点进行检修,确保尽量降低投诉率。

通过对S3项集包含的子项集再进行关联分析,可以得到图4,图中显示投诉类型16(频繁停电)与投诉工单的关联度最高,因此频繁停电与投诉关系密切,其次投诉类型11(环节处理问题)与类型23(施工人员服务规范)的投诉关联度仅次于投诉类型16,也与投诉工单的形成之间有一定关系。因此,减少频繁停电是提升电力服务水平的重要对象。此外,仍要继续保证工作人员环节处理规范得体与施工人员服务规范。

图4 投诉类型与投诉工单的关联关系

3.2.2 多因素关联规则

为分析各个服务区域、投诉类型与目标城市的投诉工单关系,首先得到了各服务区域中投诉类型与投诉工单的关联关系,如图5所示。

通过图5中服务区域与投诉类型的关联关系可以看出,临海市发生投诉类型16 最多,即临海供电公司发生频繁停电时造成的投诉关联度最高。其次,温岭公司造成频繁停电与投诉工单关联度较高。经分析发现,仅临海供电公司与温岭供电公司所在供电辖区人口占比就约为全市总人口的35.7%。由于其具有较大的用户比重,因此,其投诉满意度较其他公司明显偏高。但该关联规则挖掘结果仍然表明,未来应将临海公司与温岭公司作为提升电力服务的重点区域。

图5 服务区域、投诉类型与投诉工单的关联关系

为了挖掘各项集与负面工单的关联关系,综合考虑服务区域、投诉类型、成单时间、天气等因素,提取出相应的频繁项集,如表3所示。由于挖掘出的规则较多,故图3 中只给出了可信度为100%的关联规则结果。根据表3 可以得出投诉工单关联关系示意图(见图6)与投诉关键词表(见表4)。

表3 目标城市负面工单的多因素关联规则挖掘结果

分析图6 可知:1)该市导致负面工单的所有因素中,影响最大的是频繁停电。因此,可靠供电仍是电网公司最紧迫的任务;2)当时间处于7 月、8 月和12 月份时,目标城市所在的供电公司应制定合理的停电应对措施,抓紧抢修和主动抢修;3)该目标城市辖区内3 号,8 号供电公司(即:临海公司,温岭公司)均与频繁停电及高温天气相关。因此,务必要在夏季用电高峰时段保证电力的可靠供应,完善服务环节漏洞,以提升目标城市的电力服务水平。由表4 可知:导致意见工单产生的主要原因是电力短信扣费问题及错发短信问题。因此,电网公司应及时维护短信平台,避免意见工单转为投诉工单。

图6 目标城市投诉工单关联示意图

表4 目标城市挖掘出的负面工单关键词

3.2.3 目标城市电力服务提升策略

综合上述分析,为提升电力服务水平,可对目标城市制定如下针对性较强的电力服务提升策略:

1)因为挖掘出的关联规则表明了3 号和8 号服务区域(临海供电公司、温岭供电公司)与负面工单成单有密切联系,因此在未来服务工作中,这两地应作为改善电力服务水平的重点工作区域,尤其是在8-9月时,要特别关注他们的供电情况;

2)频繁停电是导致投诉的主要因素,相应可改善的地方有:(1)计划停电应在保证覆盖面的情况下,在各大平台及时发布停电信息;(2)不可预见性停电的抢修工作应及时彻底;(3)针对多次跳闸的地点,可开展相应的技术攻关,分析跳闸原因,制定改善措施;

3)为减少由于8-9 月及12 月的极端天气导致不可预测停电状况的出现,供电公司应在春秋检修季积极开展电网脆弱点排查,消除潜在隐患,尽量减少频繁停电事故发生;

4)电力短信平台应当继续引起重视,尽量避免错发扣费短信或者短信通知不及时导致投诉情况的发生;

5)服务态度与服务规范仍是影响电力服务评价的重要环节,且是较易改善的一环。供电公司应继续加强人员服务规范,供电公司员工应与客户保持良好的沟通,向客户展现供电公司的积极面貌。

4 结语

为深度挖掘95598 负面工单成因,明确提升电力服务水平的重点工作方向,文中提出了一种基于数据挖掘的95598 负面工单成因提取方法,提取出了目标城市的负面工单成因规则及其关键词,并依据挖掘出的规则制定了电力服务水平提升策略。文中方法具有如下优点:1)过程简单,易于实现;2)目标性强,能够针对负面工单挖掘出潜在关键词;3)挖掘内容丰富,可根据实际需要选择单因素或多因素关联规则挖掘。此外,实验过程中也发现由于文本数据难以被计算机识别,文中方法在数据预处理方面工作量较大。因此,如何提高关联规则方法的文本挖掘能力是未来研究工作的重点。

猜你喜欢
项集工单负面
客服工单监控技术的开发与研究
基于量化考核的基层班组管理系统的设计与应用
建议在直销业推行负面清单管理模式
基于矩阵相乘的Apriori改进算法
负面清单之后的电改
不确定数据的约束频繁闭项集挖掘算法
远离负面情绪
正面的人和负面的人
一种自底向上的最大频繁项集挖掘方法
基于HANA的工单备件采购联合报表的研究与实现