宋才华, 陈春梅, 邓乾
(广东电网有限责任公司 佛山供电局,佛山 528000)
在城市建设日新月异的今天,众多街道、社区被重新规划与建设,这种现象造成供电企业营销系统中越来越多客户用电地址数据与现实地址不一致。除此之外,由于一些历史原因导致现有的客户用电地址数据存在大量的错误、名称混乱、信息不完整等现象,如将表号作为地址、小区、楼栋等没有标准称谓等。同时,由于存量的客户用电地址数据不是结构化的数据,存在不同小区的客户地址填写的规律不一致,甚至同一小区不同开发期、不同楼栋之间的地址填写规律都不一致问题。这些问题严重影响了客户服务工作、应急检修工作的质量,对基于地址数据开展的各类分析与决策支持系统建设也产生了严重的影响。
本文围绕供电企业客户用电地址数据质量的现状,结合大数据分析与挖掘的技术手段,以某地市供电局存量客户用电地址数据的清理工作为案例,阐述供电企业如何通过创新技术手段实现客户用电地址数据的结构化和规范化、并提高完整性与准确率。
某供电局客户用电地址数据存在的问题可以总结以下几类情况:
地址被简写、缩写,如:XX区城市花园南区11#301、与碧桂园花园南区12栋502均处于同一个小区,即:XX区碧桂园城市花园。
相同地址以不同方式表述,如:XX区港口路2号3栋202、东方水岸3栋401也是同处于一个小区,即:XX区东方水岸。
历史遗留的表述,如:石头村居民小组、XX区石头村夏园新村一街7号同处于XX区石头夏园新村,其中石头村居民小组是小区改造前的称谓。
还有其他各种形式的问题,本文不再一一列举。
将所有客户用电地址进行结构化与规范化的处理,实现行政区域、街道办、小区的命名统一,即将客户用电地址统一处理并表述为:市+区县+街道+小区+楼栋+门牌号的形式(没有小区的可采用道路+道路号形式)。[1]
地址规范化清理是一个多次循环的处理过程,每次清理的成果都会用来补充和修正基础地址字典库,然后用经过补充和修正的基础地址字典库参与下一轮的处理过程,直到完成整个清理过程,如图1所示。
图1 地址数据清理过程框架
在每一个地址规范化清理的循环中,首先会应用文本特征构建算法将待处理的客户用电地址关键特征文本识别出来,进行原始地址层级化解析。然后将经过层级化解析的地址数据与基础地址字典库进行匹配,将匹配度满足要求的数据作为清理成果,将匹配度不满足要求的数据放入下一个清理循环中。即应用相似度与一致性评估的算法对清理成果进行综合评估,从而在结构化地址列表中寻找与未被结构化的地址相一致或高度相似的地址数据继续进行处理。[2]
基础字典库包含两部分内容,即满足层次化要求的佛山市基础地址库与地址要素通名库。佛山市基础地址库从各类公开的电子地图供应商获取,地址要素通名库借鉴已公开的数据成果并结合佛山市的实际情况进行补充[3]。
佛山市地址基础库结构,如图2所示。
地址要素通名库结构如下:
编号类型通名1道路路/大道/道/大街/街/巷/胡同/条/里2门牌号号3住宅小区里/区/园/村/坊/庄/居/寓/苑/墅/小区/弄/公寓4楼牌号号/号楼/楼/宿舍/斋/馆/堂5POI大厦/广场/饭店/中心/大楼/场/广场/馆/酒店/宾馆/市场/花园/招待所
图2 地址要素库示意
对原始地址进行层级化解析的方法主要是分词算法,而传统的分词算法主要包括3种模式:①基于字符串匹配的分词方法;②基于理解的分词方法;③基于统计的分词方法。[4]
基于字符串匹配的分词算法是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。这种算法要有足够强大的机器词典(在本案例中即基础地址库),并且原始数据的质量相对较高。
基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。通常这种方法应用在对特定的信息集进行语义分析方面,而地址字符串中的字符之间难以确定明确的上下文关系。[5]
基于统计的分词方法的基本思想可以理解为某个字在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。[6]
在本案例的应用中,在对“基于统计的分词方法”思想进行理解的基础上,进行算法扩展来实现原始地址的层级化解析。即在应用频率(DF)之外,增加了信息增益(IG)、互信息、ⅹ2统计(CHI)、期望交叉熵(CE)4种方法,由传统的分词方法改进成为基于文本特征的分词方法。
DF(Document frequency):此处可表述为用电地址频率. DF表示在训练集中包含某个特征项t的用电地址数。这种衡量特征想重要程度的方法基于这样一个假设:DF较小的特征项对分类结果的影响较小;这种方法优先取DF较大的特征项,而DF较小的特征项将被剔除。
信息增益(IG):IG通过统计某个特征项在用电地址中出现或不出现的次数来预测用电地址的类别。IG的计算如式(1):
信息增益G(t)反映了特征t对分类混乱程度的降低,也就是对分类的信息量。在实现中通过根据各个特征的信息赢取值排序,并根据设置的阈值选择出合适规模的特征子集[7]。
互信息Ml(Mutual information):互信息值,它通过计算特征t和类别c间的相关性来完成提取。计算式如式(2)。
(2)
其中:A为t和c同时出现的次数。B为t出现而c没有出现的次数。C为c出现而t没有出现的次数。N为所有用电地址数。如果t和c不相关,则I(t,c)值为0。如果有m个类,于是对于每个t会有m个值,取它们的平均,就可得到特征选取所需的一个线性序。大的I平均值的特征被选取的可能性大[8]。
ⅹ2统计(CHI):CHI方法有和Ml方法基本相似的思想,同样通过计算特征t和类别c间的依赖程度来完成提取。如果特征项t和类别c反相关,就说明含有特征项t的用电地址不属于c的概率要大一些,这对于判断用电地址是否不属于类别也是很有指导意义的。为克服这个缺陷,CHI使用公式计算特征项t和类别c的相关性。计算式可表达为式(3)。
(3)
由于客户地址数据对供电企业来说是非常重要的数据资产,其准确程度对客户服务工作、各类检修工作影响都很大。所以,客户用电地址数据的清理成果必须相较原始数据必须具有更高的准确度。[10]
相似度与一致性评估可以为客户地址的层级化提供帮助,也可以有效提高地址规范化清理成果的准确性。本案例中对某一个群组里的客户用电地址的相似度与一致性评估的数学算法主要采用了聚类算法、K近邻算法、CART分类树回归算法。
聚类算法:一般情况下同类的用电地址相似度较大,而不同类的用电地址相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文本手工标注类别,因此具有一定的灵活性和较高的自动化处理能力。[11]
一个用电地址表现为一个由字、词和数字组成,可采用最出名的信息检索方面的向量空间模型(vector space model,VSM),将用电地址表示为加权特征向量D=D(T1,W1;T2,W2;…;Tn,Wn),然后,通过计算用电地址相似度的方法来确定待分样本的类别。当用电地址被表示为空间向量模型的时候,用电地址的相似度就可以借助特征向量之间的内积来表示。最简单来说一个用电地址可以看成是由若干个单词组成的,每个单词转化成权值以后, 每个权值可以看成向量中的一个分量,那么一个用电地址可以看成是n维空间中的一个向量,这就是向量空间模型的由来。单词对应的权值可以通过TF-IDF加权技术计算出来[12]。
CART分类回归树:是一种决策树分类方法,采用基于最小距离的基尼指数估计函数,用来决定由该子数据集生成的决策树的拓展形。在本案例中,关键在于检验某个地址样本集的分类回归树的基尼不纯度。基尼不纯度表示一个随机选中的地址样本在子集中被分错的可能性(如一个客户用电地址被分配到一个错误的小区)。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时,基尼不纯度为零。[13]
某局营销系统中的存量用电地址数据共2 457 829条,其中有90%的地址在经过规范化清理后实现了层级化。为检查清理成果的准确度,在清理结果中选取了1 000个样本数据进行电话核查,发现准确率高达99.9%。
随着电力体制改革的推进,供电企业亟需进行市场化营销服务转型,包括开展营销工作管理创新、营销客户服务创新,借助移动互联网的技术优势提升客户服务水平与质量。而实现上述工作目标的一项重要的基础性工作就是提升客户档案信息的完整率与准确度,只有客户档案信息的完整率与准确度足够高的情况下,才能充分发挥移动互联网的技术优势。[15]
本文所论述与展示的客户用电地址清理思路、应用的相关算法是基于对供电局客户用电地址数据进行深入统计分析后的研究成果,并已经在某供电局地址规范化工作中得到了验证。其清理成果在提高用户报障地址判断的准确度、提高应急检修的响应速度、为受停电影响的区域用户发送消息提醒、掌握区域性的用电负荷需求等方面都发挥了非常重要的作用。其他公共事业机构在解决客户地址的有效性与规范性时,可以结合本单位的客户地址数据的实际情况,参考本文中所涉及的思路与方法或对其进行进一步的改进。