许鑫 王莉 孙志杰
摘要摘要:传统的故障工单处理方法是人工处理,效率低下。在对95598工单地址分析的基础上,建立了用于存储标准数据集的标准地址库结构和匹配规则,提出了基于标准地址库的95598客户服务故障工单匹配方法。该方法依据标准地址库分词,限定了正向匹配算法的最大词长,能够沿着自定义的地址匹配规则进行匹配,从而减少了待匹配地址与标准数据集的匹配次数,缩小了下次分词所用到的目标数据集,提高了匹配效率。通过对歧义地址的定义和对规则树的拓展,提高了匹配成功率和系统执行的灵活性。
关键词关键词:匹配算法;标准数据库;模糊地址匹配;95598工单;标准地址库
DOIDOI:10.11907/rjdk.171133
中图分类号:TP319
文献标识码:A文章编号文章编号:16727800(2017)005014003
0引言
目前,针对95598故障工单中地址信息匹配停留在人工分析层面,当用户对停电次数过多产生不满进行投诉时,业务人员只能通过系统查询该地区两个月内由于供电企业责任引起的故障停电和计划停电次数,以确定是否为频繁停电投诉。利用人工查询停电次数不仅存在效率低下、规范性差等问题,并且对工作人员经验要求较高。
为解决这一问题,本文提出一种基于标准地址数据库的95598故障工单地址分词匹配算法。该算法通过采用最大正向匹配算法将地址分词在标准地址库中进行匹配[1]。通过借助每次分词时对标准地址库搜索,获取正向最大匹配算法的词长[2],并实时参照地址匹配规则树,达到不断更新匹配词长和缩小目标数据集的目的。匹配出规范地址后,终止算法,返回目标数据集,完成规范地址輸出。
1地址匹配方法
1.1匹配方法框架
(1)构建标准数据库。将国网冀北电力有限公司知识库中的行政区域与营业区域对照表规范化处理后形成标准数据库,创建地址结构数据表。
(2)地址匹配。调用分词算法进行自动匹配,如果匹配成功,则经过转换格式直接输出;如果匹配失败,则输出到待处理库等待人工修正。人工进行原因分析修正,完善标准数据库或添加歧义表数据,将地址标准化处理并实现规范地址输出。
1.2匹配方案实现
(1)标准地址库构建。标准地址主要是为分词匹配提供标准词长及匹配值,因此需要分析当前故障地址和停电信息的地址结构,明确各行政区域的划分,然后分级构建对应的标准数据表。
经过对2015~2016年6万多张故障报修工单和4万多条停电信息进行分析,当前故障地址信息以省、市、区/县、乡/镇/街道办事处、村/小区为结构,停电信息地址结构为供电单位、停电范围。其中,供电单位作为地址的一部分是因为停电信息的地址有些只提供区县和村落,将供电单位也作为地址信息的参考对象,可避免区县重名,出现识别错误。停电范围内的地址信息以市、区/县、乡/镇/街道办事处、村/小区结构为主。针对以上数据结构,构建地址层级结构如图1所示。
(2)地址匹配定义。考虑到故障报修工单地址的书写格式问题,为了提高匹配效率,便于按照当前地址格式进行匹配,梳理了故障报修工单数据中的地址信息,整理出地址的所有书写格式,如表1所示。
为了便于表示,将标准地址库中各表进行编号,如表2所示,然后利用编号对故障工单地址的匹配规则进行定义,如表3所示。以表3中规则一为例,当对地址进行匹配时,首先对省表中数据进行匹配运算,省表匹配成功后,再匹配市表,依次进行匹配,匹配完成后终止运算,返回规范的地址。但当规则一在匹配到区/县(编号3)时匹配失败,就直接按照规则三继续匹配,直到匹配完成。如果在执行运算过程中遇到多个分支,则默认按规则排序前后依次执行。
(3)模糊地址处理。由于故障工单中的地址信息是95598客服人员直接根据用户口述填报,因此得到的地址数据存在表达模糊、地址编写不完整问题,可将模糊地址分为可匹配的模糊地址和不可匹配的模糊地址两类[1][3]。针对可匹配的模糊地址,通过附加一些匹配规则来提高匹配成功率。可以匹配的模糊地址主要分为歧义地址和行政区划称谓不全。对于这两种地址,该匹配算法提出如下解决方法:①构建歧义地址匹配表。通过建立歧义地址、行政区划称谓不全与标准地址之间的关联关系,构建数据表。当地址匹配到相应的行政区划且无法在标准地址库中匹配成功时,可对歧义地址表中存在关联关系的数据进行匹配,根据匹配情况得出结果;②人工完善歧义表内容。在匹配过程中,歧义表主要通过自动匹配失败后的人工梳理,逐步完善匹配规则。
虽然歧义表作为标准地址库的一部分,在整个数据表设置中有些冗余,但是可以解决匹配模糊地址问题,从而提高匹配成功率。
例如:“河北省承德市双滦区双塔山百旺家园”相对于标准地址“河北省承德市双滦区双塔山镇百旺家园”缺少了“镇”这个行政区划称谓,属于行政区划称谓不全。通过地址分析,在匹配到“镇”的行政区划时,对歧义表中相关联的“镇”信息进行匹配,从而匹配成功。
2匹配过程
(1)分词过程。待匹配地址载入到匹配流程中,按照匹配规则限定最大词长及匹配目标集,并对待匹配地址进行分词。
(2)匹配过程。将分词的待匹配地址与标准地址匹配。如果匹配成功,按照标准地址库截取相应的行政区划词长,并按照规则循环匹配;如果匹配不成功,查询歧义地址表并进行匹配。匹配成功后输出标准地址,匹配不成功需要查询匹配规则树重新定义词长与标准数据集。如果匹配规则树没有此规则,那么此地址将跳入到人工处理流程。
(3)规范地址输出。如果为自动执行过程,在匹配完成后就直接输出匹配成功的规范地址;如果是人工处理匹配过程,则需要工作人员对存在的问题进行分析,根据所发现的问题修正标准库、歧义表、规则树。详细流程如图3所示。
3创新点及应用成果
基于标准地址库的95598客户服务故障工单地址匹配方法创新点如下:
(1)实现了故障地址的有效分词。该地址匹配方法根据匹配规则树和上一次匹配成功的行政区划,从标准地址数据库的地址结构数据表中确定当前匹配的地址范围,实现多级词表设计,从而解决了匹配过程中单个词表导致的匹配词量过多问题,可以利用多级词表的关联关系实现将标准词表匹配范围最小化。在模糊地址匹配設计上利用标准地址数据库的地址结构数据表与歧义地址匹配表内数据的关联关系,快速定位模糊地址对应的标准地址,有效解决了模糊地址的匹配问题。在地址匹配过程中利用规则引导地址匹配过程,减少了匹配次数,提高了匹配效率。
(2)有益于预警工作开展。地址规范化处理有助于电力部门在工单数据的统计分析上实现地址维度的数据统计分析,比如:针对某地区停电数据分析、某地用户偏好分析、某地业务数量统计分析等。另外,该技术的延伸将有助于实现计划停电信息、投诉工单信息的分析及地址处理。
频繁停电投诉的管理及数据分析,难点在于地址填写不规范,本技术方案解决了在频繁停电投诉管理和数据分析中遇到的地址不规范难题,为投诉预警及服务关口前移创造了条件。
参考文献参考文献:
[1]程昌秀,于滨.一种基于规则的模糊中文地址分词匹配方法[J].地理与地理信息科学,2011(3):2629.
[2]王瑞雷,栾静,潘晓花,等.一种改进的中文分词正向最大匹配算法[J].计算机应用与软件,2011,28(3):195197.
[3]谭侃侃.基于规则的中文地址分词与匹配方法[D].济南:山东科技大学,2011.
[4]金在全,赵照.一种改进的增字最大匹配算法[J].科学技术与工程,2007,7(9):47614764.
[5]吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306 310.
[6]陈桂林,王永成,韩客松,等.一种改进的快速分词算法[J].计算机研究与发展,2000,37(4):418424.
[7]张黎,徐蔚然.中文分词研究[J].软件,2012,33(12):103108.
[8]高文利,李德华.分词索引树的构建[J].语言研究,2007(4):103105.
责任编辑(责任编辑:杜能钢)