用电客户模糊地址库建设方法

2020-02-04 02:03马泽杰王烁吴燕强
电子技术与软件工程 2020年20期
关键词:台区知识库矩形

马泽杰 王烁 吴燕强

(广东电网有限责任公司汕头供电局 广东省汕头市 515000)

1 现状分析

用电客户模糊地址库建设,是管理信息化、客户服务人性化、大数据应用平台可持续发展的迫切需要,可用于客户停电区域快速定位查询、客户宣传精准投放等。目前,用户地址数据在电力营销、生产等领域尚无一个成熟的应用,而且在电力营销系统中,用户地址数据存在数据结构不完善、录入标准不一致等问题,需要建设一个数据结构明确、地址录入标准统一、数据库管理平台统一、引用与考核平台统一、归口管理部门明确的用电客户模糊地址库,并在今后不断完善管理和建设工作。

目前,用户地址应用有以下痛点:

(1)用电客户拨打服务热线进行故障报修等业务时,在未能及时提供用户档案信息的情况下,难以快速定位故障发生的台区或线路,抢修工作不能及时展开,可能导致用户不满。

(2)当某个台区进行计划停电、设备检修时,难以快速了解停电时的影响范围,未能提前做好通知工作。

针对上述情况,建立台区/线路模糊地址库,能有效提升客户服务信息化水平,提高工作效率,对提升客户满意度有重要作用。

现有技术的缺点:

(1)地址数据结构复杂,噪声较大,人工难以归纳规律并进行清洗;

(2)有行政区域和营业区域信息,但是缺少标准地址数据知识库支撑;

(3)做到让计算机直接从地址数据中提取地理信息困难,维护不易,维护成本较高;

(4)取数、匹配工序多,难以实现自动化生成,生产成本较高。

2 模糊地址库体系框架模型

台区/线路模糊地址库建设的目的是为了在现有的数据资产基础上,通过一系列的数据分析手段,实现客户信息服务水平提升。因此,本次模糊地址库建设分为四个层次,分别是模糊地址库指标层面、标准知识库生成层面、数据预处理层面和模糊地址库生成层面。

(1)模糊地址库指标层指标主要为地址库展示维度,主要为行政区划信息,包括省、市、区、县、街道、镇、居委会、村、路、街、巷、道、小区、住宅区等。

(2)标准地址知识库生成层包括标准知识库生成过程:主要行政区划信息爬虫-其他行政区划信息获取-知识库存储。

(3)基础、标准库数据处理层包括基础数据、知识库数据的数据清洗:用户电源信息数据清洗-标准地址知识库数据清洗-数据规约-数据集成等。

(4)模糊地址库生成层包括台区/线路模糊地址库生成过程:台区信息汇总-跨区、跨镇情况处理-空白地址填充台区名称-线路信息汇总-台区用户数统计。

3 解决方案

3.1 基础数据获取

图1:基础数据获取过程

图2:地点检索矩阵

图3:百度API 返回数据格式

基础地址数据来源于营销系统。其中用户编号、用电地址由用户档案信息获取。以用户档案信息中的用户编号匹配用户电源信息,以用户电源信息的台区标识、线路线段标识匹配台区、线路档案信息标识,如图1所示。

3.2 标准地址知识库建立

图4:模糊地址库生成过程

编写程序循环访问中国行政区域网目标页面,将相应URL 加入队列。通过发起http 请求获取网页源码。应用正则表达式,在庞大的网页源码中寻找目标信息节点,并剔除噪声数据,准确提取省、市、区、县、街道、镇、居委会、村等信息。

城市路、街、巷、道、小区、住宅区信息无固定网页可以获取,比较合理的方法是调用现有电子地图API 接口,定制化获取所需信息。地点检索主要以矩形地理区域开展,即以经纬度坐标确定检索范围。将提供的城市地理位置的左下、右上经纬度坐标区域切片,划分成n×n 个小矩形,遍历每个矩形获取信息点。

地点检索主要以矩形地理区域开展,即以经纬度坐标确定检索范围。理论上来说,每个矩形区域只能返回最多20 页,每页20 条记录共400 个信息点,这远远不满足本次模糊地址库建设需求。解决方案为将**市地理矩形区域切片,划分成20×20 个小矩形,遍历每个矩形获取信息点。

如图2所示,经过实际验证,单纯遍历最小矩形区域如区域1,获取到的信息点数量比遍历所有矩形组合如矩形1 和矩形2 等获得的信息点数量少,故有必要遍历所有矩形组合。这种方法必然会造成同一信息点多次记录的情况,需要获取后进行数据清洗。

百度地图JSAPI 2.0 接口地址为:

http://api.map.baidu.com/place/v2/search,发起资源申请代码格式为:http://api.map.baidu.com/place/v2/search?query=XX 市 小区&output=json&ak=ak。其中,query 为查询关键字,output 制定数据传输格式,ak 为百度地图开发者密钥。

编写程序模拟浏览器查询情景,可得到返回数据如图3所示。

3.3 模糊地址库生成

(1)用电户地址数据区、县的匹配主要依据标准地址知识库的主要行政区划数据的区(县)字段,其次根据基础数据里的区供电局字段。在遍历基础数据用电地址字段的过程中,如果匹配到标准地址知识库的区(县)信息,则将对应的区、县信息记录,否则取区供电局对应的区局作为信息记录。

(2)在匹配区、县信息后的数据基础上,依据标准地址知识库的街道(镇)字段,在遍历基础数据用电地址字段的过程中,如果匹配到标准地址知识库的街道(镇)信息,则将对应的街道、镇信息记录。

(3)在匹配街道、镇信息后的数据基础上,依据标准地址知识库的居委会(村)字段,在遍历基础数据用电地址字段的过程中,如果匹配到标准地址知识库的居委会(村)信息,则将对应的居委会、村信息记录。

(4)在匹配居委会、村信息后的数据基础上,依据标准地址知识库的道路字段,在遍历基础数据用电地址字段的过程中,如果匹配到标准地址知识库的道路信息,则将对应的居道路信息记录。

(5)在匹配居道路信息后的数据基础上,依据标准地址知识库的道路字段,在遍历基础数据用电地址字段的过程中,如果匹配到标准地址知识库的小区、住宅区信息,则将对应的居小区、住宅区信息记录。如图4所示。

3.4 加入中文分词技术补充标准知识库

由于电子地图API 的局限性,不能完全获取所有行政区划信息和地理信息点,如道路、小区、公司、商铺等,标准地址知识库不够完善,覆盖面不够大,故需要引入中文分词技术,在用电地址的基础上识别行政区划信息和地理信息点,加入标准地址知识库。建立数量词库、字母词库、地名地址词库、地理同义词词库、方位词库、特殊符号词库等,加入基于中文分词技术支撑的地址规范化算法,高效、准确的识别行政区划信息,进一步提升模糊地址库的覆盖面。

3.5 数据存储

生成的标准地址知识库中间表和结果表、模糊地址库数据均存储于同一套数据库,便于引用和管理。

4 优势分析

(1)依托于标准地址知识库,固化了一套中文地址模糊匹配方法,形成一种匹配逻辑,极大程度减少了人工树立地址工作;

(2)应用网络爬虫技术和电子点图API 服务,定期更新标准地址知识库,不断完善标准地址知识库管理工作;

(3)无需复杂机器学习模型,节省模型训练需要的硬件成本和时间成本,固化的地址库匹配建设采取一键运行的方式,结果自动存储在数据库中,方便引用和管理。

(4)时效性,由于标准地址知识库数据特殊性,行政区划信息不需要进行实时更新。通过百度地图API 获取信息,约3 分钟完成一组切片数据获取,道路和小区住宅区两类,20 组切片,总体需要大约20×3×2 即120 分钟,每季度或更长时间进行一次即可,这样既可保证时效性,又可减轻爬虫压力。

猜你喜欢
台区知识库矩形
两矩形上的全偏差
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
化归矩形证直角
降低台区实时线损整治工作方法
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
三合一集中器作为台区线损考核表计的探讨
多功能低压台区识别设备的研制
提升台区线损正确可算率的措施与实践
位置与方向测试题