田 晓,刘勇超,王婧,于相洁,代岩岩国网山东省电力公司电力科学研究院
基于文本挖掘的95598客服重复来电专题分析
田晓,刘勇超,王婧,于相洁,代岩岩
国网山东省电力公司电力科学研究院
重复来电工单的挖掘与分析,对热点问题的及时发现与追踪,起到很重要的作用。目前重复工单的发现,主要依靠人工,费时费力,效率低。本文提出了一种基于文本挖掘的重复来电模型,该模型能利用智能高效的算法筛选出重复来电工单,对准确有效地提高客服的服务质量具有十分重要的现实意义。
语义分析;文本挖掘;重复来电;聚类
近年来,随着电力业务的迅猛发展,其客户数量与业务类型随之增长,客户来电反映的内容庞杂多样,如何从巨大的话务量中寻找有用信息,是客服工作面临的巨大挑战。根据重复来电信息分析,对来电信息中隐含的语义特征进行挖掘,重点关注重复来电次数多的客户,对来电出现的热点问题及时发现与跟踪,以便能把握处理问题的最佳时机,从而提高处理热点问题的能力和监测能力。
重复来电,是指同一用户(户号相同)对同一事件重复致电两次及以上的事件集合。具体描述如下:在查询周期内,除表扬、订阅和一次办结咨询、受理内容为空的所有非用户号码来电(例如12345、内部拨测等)以外的业务工单,按照来电号码、用户编号、受理内容等进行重复筛查所得到的重复事件数、工单数、电话数。
文本挖掘,是指从大量文本中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识能更好地组织信息以便将来参考。本文主要利用文本挖掘技术,对工单的受理内容进行文本聚类。首先将工单文本中的受理内容进行分词,转换成一个个词条。
2.1文本建模
由于工单信息大部分为中文文本,属于非结构化文本,要进行挖掘就必须将文本词汇转换成计算机能够识别的语言,所以必须对文本词汇进行建模,本文使用的是向量空间模型(Vector Space Model,VSM)。
2.2文本相似度计算
文档表示成向量后,文本之间的语义相似度就可以通过空间中的这两个向量间的几何关系来度量。在V S M模型中,用空间中的两个向量的夹角余弦来度量文档之间的相似度,夹角余弦值越大,两个向量的夹角越小,表示文档越相似。
2.3文本聚类
通过文本之间两两相似度计算,每条文档都被映射到一个R维空间的向量中,而R为词典中词语的数量。在此,我们需要使用相似度矩阵来计算文档之间的相似度,并进行聚类分组。
本文在提取重复来电工单过程中,首先进行数据清理,即对95598工单文本清除异常来电号码,比如[无故挂断]、[内部拨测]、[12345]等异常来电。其次进行数据预处理,即根据关联规则来提取来电相同的工单。再次进行文本语义分析,包括中文分词、特征向量矩阵,相似度计算,聚类等步骤,对来电相同的工单的受理内容进行文本聚类,提取出同一用户,来电内容相似的重复来电工单,并对语义特征进行分析。
本文利用文本挖掘技术,结合客服业务需求,开展重复来电专题研究,大大改善目前人工进行重复来电分析效率较低的状况,达到95598重复来电问题的智能挖掘与分析的目的。
目前重复来电专题,只是从全量工单中通过词语相似度计算分析出重复来电工单,并按业务类型来挖掘原因。下一步,还需要探索基于电力知识图谱的构建以及与业务的对应关系,将非结构化数据准确的转换为结构化数据,以便将来满足重复来电等其它需要进行智能语义分析业务需求。
[1]朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2002
[2]王永成等.中文信息处理技术及其基础[M]上海交通大学出版社1990
[3]Salton G,Wong A,Yang C S.A vector space model for auto⁃matic indexiBg[J].Communications of the ACM,1975,18(11):613-620.