陈宁 陈孝文 冯世杰 吕志鹏 陈习 张娜 王岩
摘 要: 针对当前海量的用户用电地址,以及地址管理的混乱问题,提出两种解决方案。一是借助Hadoop框架体系完成对海量数据的存储,同时借助MapReduce提高对数据的运算和处理能力;二是引入结构化管理模型,将用户用电地址分为10层,划分到社区和门牌号,同时引入不同地名的别称。最后构建用户用电地址知识库,并搭建Hadoop测试平台,对上述的试验方案进行验证。结果表明,通过本文的地址的结构化处理,可详细查看不同客户的地址,同时在数据处理方面也明显高于传统的系统。
关键词: Hadoop框架; 用电地址; 结构化管理
中图分类号: 文献标志码:
Design of Power Customer Address Storage and Structured Management
System Based on Hadoop
CHEN Ning1, CHEN Xiaowen1, FENG Shijie1, L Zhipeng1, CHEN Xi1, ZHANG Na2, WANG Yan1
(1. Information and Communication Branch, Hainan Power Grid Co. Ltd., 2. Hainan Power Grid Co. Ltd., Haikou 57000)
Abstract: Two solutions are proposed to solve the confusion of the current mass of user addresses and address management. Firstly, the Hadoop framework is used to store massive data, and MapReduce is used to improve the computing and processing ability of the data. Secondly, a structured management model is introduced to divide the user's electricity address into 10 layers, which are divided into the community and the door number. At the same time, different nicknames are introduced. Finally, the user address knowledge base is constructed, and the Hadoop test platform is built to verify the above test scheme. The results show that the addresses of different customers can be viewed in detail through the structured processing of addresses in this paper, and the data processing is obviously faster than the traditional system.
Key words: Hadoop framework; Power consumption address; Structured management
0 引言
随着我国智能电网的深入推进,电网企业的电量销售稳步增加。以2017年上半年为例,上半年销售2.96万亿千瓦时,其中通过市场化交易的电量为6 442亿千瓦时,与2010年上半年的1.89万亿千瓦相比,有着较大幅度的增加。由此可以看出,我国社会耗电量在逐年增加,从而给我国电力企业带来极大的发展。电量销售的增长,离不开城市的建设和扩张。但是,也正是由于城市建设工作的进一步开展,使城市中大部分街道与社区被重新规划,从而给电力营销系统的用户地址定位造成了严重影响,使系统中大部分用户地址与现实地址出现不匹配现象。如某用户在电力营销系统中的地址为海口市镇海村某某巷,经城市规划建设后,实际地址却为海口市镇海路某某花园。除上述问题以外,客户用电地址错误、名称混乱、信息不完整等也非常明显。其中,客户用电地址错误主要由两种失误造成,分别为填写错误与填写不一致。比如,在填写用户地址信息时,将表号、楼房号信息作为用户地址信息保存至用户名中;名称混乱主要是由于街道办在填写居民地址时,并未按照市政标准进行填写,从而使电力营销系统中大部分用户地址信息不够完整。错误或不完整的电力用户地址不仅会给电力维修人员带了更加复雜的辨识问题,还会给电力系统建设工作造成极大的影响。基于此,为进一步规范电力市场,本文就将对基于Hadoop的电力客户用电地址数据存储与结构化管理系统进行设计,以此通过设计,进一步促进城市电力用户地址的规范化和结构化管理。
1 Hadoop框架简介
Hadoop是一种由美国Apache基金会开发的开源项目,能够对分布式文件系统进行实现,以此确保系统的安全性与可靠性,为用户提供安全可靠的分布式存储系统。与此同时,Hadoop还具备较强的扩展性,对于部署运行环境并无太高的要求,能够运行于在大量廉价PC 组成的集群上。Hadoop框架中的所有配置皆是为了确保数据的安全性,防止数据因节点故障而出现永久丢失问题。在数据的存储方面,可采用建立多个数据副本的形式在Hadoop框架中形成数据冗余,以此提高数据存储的可靠性。通过此方法,能够使系统在存储节点失效的情况下,及时对新节点进行安排。除此之外,系统所采用的数据处理方式为并行工作方式,通过此方式能够使系统数据处理速度得以提高。虽然Map Reduce分布式处理及HDFS分布式存储为系统设计提供了API及底层文件系统,但设计者在开展系统开发工作时,无需对HDFS底层的实现细节进行思考,就能完成对海量数据处理程序的设计工作。具体Hadoop框架如图1所示。
如上图所示,Hadoop的生态圈主要由众多开源软件构成,这些开源软件与数据存储、计算、资源管理及数据传输等皆有着紧密的联系。从本质上来看,Hadoop的生态圈其实就是一个数据共享存储及分析系统,具有较高的可靠性。在Hadoop的生态圈中,HDFS分布式存储主要作用于数据存储;Map Reduce分布式处理则起到数据分析处理的作用。而通过对Hadoop的分析看出,Hadoop框架体系大大搜提高了数据存储的空间,同时也提高了数据运算的效率。
2 系统设计目的与需求分析
本系统设计的目的,是构建一个可用于海量数据存储和管理的智能电表管理的云服务平台,从而方便电力营销部门。通过该云服务平台,可以对用户用电地址进行全面的采集,也可以对电表用电地址进行规范化管理,以提高电表地址与实际地址的匹配度。同时,在该云服务平台中,需要提供对用户用电数据的存储、客户信息管理、电表充值、电表管理、电量查询等服务,以此方便广大的电力营销工作人员为电力客户提供服务。
3 系统总体结构设计
结合以上的需求,构建如图2所示的整体架构。前端通过智能电表对地址、电量等数据进行采集,后台则以Hadoop框架体系作为基础,通过搭建Hadoop集群服务器,进而完成对海量数据的存储和运算。然后通过具有密码保护的令牌服务器,完成与外部的信息交换,以保证系统整个智能电表管理系统的安全。
如上图所示,本文主要由数据采集层、数据存储层以及系统应用层构成。其中,数据采集层主要作用于对电力数据进行采集,并将采集到的数据传送至智能电表云服务管理平台中,然后利用通讯服务器对该数据进行解析,最后将其存储至云平台之上;数据存储层主要作用于数据的物理存储。在数据采集层完成数据采集工作之后,数据存储层将会对该数据是否属于结构化数据进行判断,将结构化数据直接存储至传统数据库中,通过HDFS+HBase的存储方式将非结构化数据存储至系统的大数据平台中;系统应用层主要由各项应用部分构成,作用于实现系统的电力数据统计及查询。
4 用户用电地址规范化管理模型构建
4.1 地址知识库概述
在实现人、物及其他物体定位过程中,地址是该技术得以实现的关键所在,能够对空间地理数据进行描述。当前,人们能够对某一地址文字进行理解,主要归功于地址中提供的地址信息。当人们在面对越熟悉的地区地址时,对地址的理解与反应能力将越强。相反,人们在面对陌生环境及带有民族特色的地址时,地址理解能力及反应能力就相对较弱。形成此识别认知的主要原因在于人们对地址信息的累积,使其能够迅速对熟悉的地址进行反应。同样想要机器能够迅速识别地址信息,还需使机器学习与累积大量的地址信息。在此方面,可通过构建地名地址知识库进行实现。知识库是机器解析地址的基础,知识库中包含的地址内容约丰富,机器从其中获取的知识也就越多,自然地址解析速度就越快。
4.2 当前地址知识库设计存在的问题
在电力信息技术持续发展的背景下,各电网企业开展了更深层次的信息化研究与建设,目的在于提高电网企业地址的准确性。考虑到用户地址信息的精确性,本文在开展地址结构化建模工作之前,对部分省市的用电地址进行抽样分析。经过一系列分析后发现,在部分电力企业的电力营销系统中,50%以上的地址知识库仅为4、5层地址结构。也就是说,大部分电力用户地址知识库结构仅涉及到“街道、乡(镇)”这一等级,却并未深入到用户用电详细地址信息中,无法达到我国对于电网公司结构化地址管理要求。
因此,针对以上的问题,本文对地址知识库进行构建。本文构建的地址知识库,主要参照国家标准GB/T 23705—2009,采用巴科斯范式(BNF)语法对地址知识库进行设计,将结构化的地名地址定义如下:
〈结构化地名地址描述〉::=〈行政区域地名〉[街巷或小区名][门址或标志物名]
〈行政区域〉::=〈省级〉[地区级]〈县级〉[乡级]
〈基本区域限定物〉::=〈街〉|〈巷〉|〈居民小区〉|〈自然村〉
〈局部点位置〉::=〈门楼址〉|〈标志物〉|〈兴趣点〉
通过上述的定义看出,行政区划是其中必不可少的关键要素,与各行政级别之间有着较强的隶属关系。基于此,本文在设计地址知识库时,将以中国行政区域地名表作视为本次设计工作的主体,对各村、社区,以及上一级行政区地名等进行逐一划分。除此之外,考虑到我国人们中文地址表述习惯,将在地址知识库中添加地址别名表,对各行政区域常用地名简称及别名进行记录。
4.3 用户地址结构化管理模型构建
针对以上的问题,在对知识库中数据的构建中,构建如图1所示的电力用户地址结构化地址数据模型。該模型中,包含10层电力用户结构化地址数据,从而做到对位置的精细化划分。
而通过以上的构建,本文构建的用户用电地址知识库主要采用的是动态地址分词引擎对地址进行解析,相较于其他地址库采用的基于固定词典等地址分词解决方案,本文构建的知识库更具有优势。在动态地址分词引擎的帮助下,仅借助核心词库就能实现对地址的解析工作。如此一来,将极大程度将减轻地址名词库维护工作负担,提高系统地址知识库查询及维护效率。
5 系统实现与测试
5.1 系统实现
对整个系统的开发,采用Java语言,以Eclipse作为开发工具,以C/S作为技术架构,对系统进行开发,从而得到图2和图3所示的登录界面和客户查询界面。
登录界面如图2所示。
客户信息查询界面如图3所示。
通过上述的界面看出,当输入用户名称后,可详细展示用户的门牌地址。
5.2 系统性能测试
5.2.1 Hadoop集群搭建
本文所采用Hadoop实验集群主要由Master节点及Slave节点构成,其中Master节点的数量为1个;Slave节点的数量为3个。具体Hadoop实验集群如图4所示。
如上图所示,Hadoop实验集群的架构模式为主/从架构。在整个Hadoop实验集群架构中,Name Node及Job Tracker为集群架构的主断;Data Node及Task Tracker为从端。该试验集群主要是在Linux系统之下开展搭建工作。基于此,本文主要采用VMware工作站及Ubuntu15对Linux环境进行构建。
5.2.2 并行写入性能对比测试
为了更加清晰的掌握系统并行写入能力与传统数据库并行写入能力的差距,本文将对并行写入性能进行对比测试。在測试过程中,本文所选取的实验数据为5万条电力客户用电地址数据,对不同数目下单个客户端的平均耗时进行统计,得到表1结果。
如上表所示,当HBase与SQL Server在同一数据量、同一数目客户端测试并行写入性能的条件下,HBase在数据写入效率方面所耗费的时间明显低于SQL Server数据写入时间。由此可见,HBase在数据写入效率方面更具优势。
6 总结
通过上述的研究可以看出,本文构建的用户用电地址管理系统,结合Hadoop体系的优势,可对大规模的用电地址数据进行存储,并大大提高了用电地址查询的准确性,由此看出本文的设计方案可行,可为电力营销部门提供参考。
参考文献
[1] 何健儿. 电力地址精细管理与高级分析应用研究[J]. 科技创新与应用,2017(3):46-47.
[2] 郑爱武,刘隆国. 结构化地址库地址质量提升探索[J]. 电子测试,2017(1):62-63.
[3] 郑爱武. 基于地址语义及树状分析的用电地址自纠错模型研究[J]. 自动化与仪器仪表,2017(8):89-91.
[4] 孔旭锋,俞成彪,林士勇. 电力用户地址结构化管理[J]. 农村电气化,2016(2):34-35.
[5] 袁丽娜. 基于Hadoop的海量数据存储技术的研究[J]. 中国新通信,2016,18(19):61-63.
[6] 杨晓雁. 基于Hadoop的海量数据的分布式存储关键技术研究[J]. 自动化与仪器仪表,2016(10):166-167.
[7] 黄华林,庞欣婷. 基于Hadoop的数据资源管理平台设计[J]. 计算机应用与软件,2018,35(7):329-333.
[8] 顾安朋,徐国智,林潮彬,等. 营销客户地址数据标准化应用分析与研究[J]. 科技与创新,2018(16):142-144.
[9] 马友忠,孟小峰. 云数据管理索引技术研究[J]. 软件学报,2015, 26(1):145-166.
[10] 程蓓,孙胜春,李忠猛,等. 基于Hadoop技术的数字化校园海量数据存储系统研究与设计[J]. 实验技术与管理,2015,32(9):149-152.
[11] 曲朝阳,朱莉,张士林. 基于Hadoop的广域测量系统数据处理[J]. 电力系统自动化,2013,37(4):92-97.
[12] 崔杰,李陶深,兰红星. 基于Hadoop的海量数据存储平台设计与开发[J]. 计算机研究与发展,2012,49(S1):12-18.
(收稿日期: 2018.12.03)
作者简介:陈宁(1989-),女,工程师,吉林磐石,研究方向:信息化项目建设及管理。
陈孝文(1987-),男,工程师,海南海口,研究方向:信息化建设。
冯世杰(1988-),男,工程师,海南海口,研究方向:信息化建设。
吕志鹏(1992-),男,助理工程师,信宜市,研究方向:信息系统运维。
陈习(1982-),男,工程师,南昌,研究方向:电力信息化。
张娜(1978-),女,高密,工程师,研究方向:信息化项目建设及管理。
王岩(1995-),女,本科,陕西,研究方向:电力企业信息化建设工作。文章编号:1007-757X(2020)02-0097-05