曹晋彰 赵少东 庞 宁 冯 斌
(深圳供电局有限公司信息部 广东深圳 518048)
基于文本挖掘技术的电网企业客户抱怨分析应用研究
曹晋彰 赵少东 庞 宁 冯 斌
(深圳供电局有限公司信息部 广东深圳 518048)
文本挖掘是指在大量文本数据中获得可理解、可应用知识的过程,涉及数据挖掘、模式识别等多个领域。本文对比传统分析方法和文本挖掘技术,将文本挖掘用于电力行业客服工单分析和特征抽取(关键词抽取),最后对深圳供电局客服中心的抱怨类工单进行文本挖掘分析,为业务部门提供更深入的客户抱怨解读及用户感知。
文本挖掘;客户抱怨;关键词抽取;TF-IDF
深圳供电局95598渠道收集大量客户投诉、抱怨类信息,是进行客户全方位服务水平分析重要数据来源。由于工单文本多为非结构化文本,早期的客户抱怨研究中对客户文本诉求信息认知存在不足:
在分析方法方面:主要根据业务分类进行占比、同比、环比等分析,存在进一步细化深入空间;其次,未形成关键词词典,客户诉求细化分析主要依靠人工阅读,对业务人员的经验依赖度高,工作量过大。
2.1 文本挖掘方法
文本挖掘(TextMining)作为数据挖掘领域一个重要分支[1~2],是从大量未经处理的文本集合中抽取实现未知的、可理解的、最终可用的知识的过程,同时能够运用这些知识更好地组织信息以支持业务分析决策。
2.2 关键词抽取技术
关键词提取是文本挖掘过程中重要的步骤之一,无指导关键词抽取主流方法共有三种:基于主题模型的关键词抽取、基于词图模型的关键词抽取方法和基于TF-IDF统计特征的关键词抽取。
主题模型关键词抽取方法是运用一种无指导机器学习技术LDA,是通过大量已知“词语-文档”矩阵和系列训练推理出隐藏在内容部的“文档-主题”分布和“主题-词语”分布。词图模型关键词抽取方法是通过把文本分割成若干组成单元并建立图模型,利用投票机制对文本中重要成分进行排序从而确定关键词。
电网企业客服工单记录了客户用电咨询、用电报装、电量电费查询、停电信息咨询、停电通知、故障报修、投诉举报以及发布用电信息等服务过程信息。通常,针对电网企业客服工单包含两种数据类型:结构化数据和半/非结构化数据。
传统客服工单分析偏向于对结构化数据的分析,主要根据来电数量、业务类型、时间等维度进行客户来电量的统计,分析方法包括:数据库查询,占比统计,同比环比等。常见统计指标包括:百万客户投诉率、投诉处理及时率等。
根据电网企业客服工单分析现状和文本挖掘的步骤,将电力客户抱怨类工单文本挖掘过程细化为五个步骤:①文本数据收集;②建立分词词典;③词频分析及关键词确认;④分析维度确认;⑤统计分析。
本文以深圳供电局客服中心客户抱怨类工单为研究对象,从客户抱怨内容出发,剖析停电具体情况,从而提高客户服务质量。研究范围包括:2014年全年有关“供电质量-频繁停电”、“计划停电-未按时停送电”和“供电故障-处理时间较长”三类二级业务工单。
4.1 文本数据收集
根据深圳供电局客户服务中心业务规范,将客户抱怨的文本数据按照二级业务分类进行划分,确定客户抱怨类的业务分类,提取相应业务工单,完成数据收集工作。
4.2 建立分词词典
验证自定义分词库(埃森哲电网企业关键词文本词典包含562个分词及相关同义词),对文本进行初步分词处理。根据各业务类型不同,需要分别建立包含专有词汇及自定义词汇的分词库。
以“供电质量-频繁停电”为例,利用埃森哲电力行业关键词文本词典对1257个业务样本进行初步分词,并根据数据样本解读和多次试验性分词,添加如下两类分词:
(1)客户抱怨类:“严重影响”“正常生活”。
(2)客户期望类:“尽快改善供电”。
4.3 词频分析及关键词确认
运用词频统计软件进行分词、词频统计。根据TF-IDF加权技术确定能反映本文内容的关键词,并将分词进行分类分析、关联分析找出用户的主要关注点和趋势变化等。例如:根据TF-IDF加权技术对“供电质量-频繁停电”客服工单“受理内容”和“办理意见”进行高频分词统计。
将“受理内容”高频分词进行分类,得出三个主要信息分类,确定各类信息的关键词如下:
(1)停电时间类:时间、时至、再次、次日;
(2)频率表达类:每日、每周、每月、共停电、已停电、累计停电。
将“办理意见”高频分词进行分类,得出频繁停电的不同原因:
(1)设备故障:故障、低压、公变、开关、跳闸、变压器;
(2)设备损坏:烧坏、老化;
(3)配电:配电;
(4)天气原因:夏季、天气炎热、负荷、过载;
(5)用户资产故障;
(6)无具体说明。
4.4 分析维度确认
分列整理客服工单内容(如:受理内容、办理意见等),根据实际业务特点分析各列信息的重要性和可行性,并结合关键词确定合理有效的分析维度。
4.5 统计分析
分别统计各维度的业务数据,并通过图形表格的形式展示统计结果,以达到指导实际工作的作用。
(1)原因类信息统计
根据“供电质量-频繁停电”类投诉的办理意见分析得出:80%的频繁停电是由于开关、公变等设备问题引起,其中,跳闸等设备故障是82%、老化、烧坏等设备损坏是18%。
根据“计划停电-未按时停送电”类投诉的办理意见分析得出延迟送电原因,超过半数(68宗)的未按时送电是因工作量大导致的;如“经查,由于该处计划工作量大,线路较复杂,未能按计划及时恢复供电。已于19:22恢复供电”。
(2)诉求类信息统计
根据“计划停电-未按时停送电”类投诉的受理内容能够反映出客户对停送电情况的诉求,“未按时送电”引起的客户诉求占比最大(73%,164宗);其他三类诉求量较少,共占27%。
在本课题中,运用文本挖掘技术对深圳供电局客服中心95598客服工单分析后发现,工单受理内容及办理意见中包含供电服务诉求、期望、抱怨和停电原因等方面的信息,通过对这些重要信息的有效统计能够明确引起客户抱怨的问题点,把握问题严重程度。
[1]查凯莱巴蒂.Web数据挖掘[M].人民邮电出版社,2009.
[2]杨霞,黄陈英.文本挖掘综述[J].科技信息,2009(33):82~99.
TP311.1
A
1004-7344(2016)03-0266-01
2016-1-10
曹晋彰(1983-),男,湖南郴州人,工程师,从事电力信息化建设和数据分析工作。