电网建设智慧前期平台多源异构数据融合模型

2022-04-20 08:35忻渊中赵文渊孙博洋塔力鹏努尔巴合提
电力学报 2022年1期
关键词:异构预处理结构化

陈 星,忻渊中,赵文渊,孙博洋,塔力鹏·努尔巴合提

(1.国网上海市电力公司 工程建设咨询分公司 上海 200093;2.同济大学 上海 201804)

0 引言

电网建设和改造存在布点多、线路跨度大、涉及征地拆迁范围广等特点,电网建设企业涉及的前期工作存在变电站和线路选址的困难,以及部分电网建设可能与地方土地利用规划冲突,而前期资料不足又会导致设计深度未达到要求等问题。为有效解决电网建设和改造过程中所存在的问题,在电网建设前期将业务流、数据流与现代计算机技术充分融合发展,实现对行政数据和技术数据的有效组织和统筹管理。并在此基础上打造智能化、简洁化、数据高度整合的智慧前期信息规划体系,以推动智慧建设等领域发展。

当前电网建设中常用的数据主要包括固定长度固定类型的数据(如存储于数据库中的数据库字段数据)、现有行业内部常用的已封装好的结构化格式数据(如XML 格式数据、JSON 格式数据等)、现有行业内部常用的已封装好的非结构化格式数据(如地理位置图、三维立体图等),以及数据大小不固定且格式复杂的音视频数据等不同类型格式的数据,而不同的数据格式往往采取不同的存储方式和读写方式。当同一个工程涉及多种格式的数据时,采用效率低的人工逐类单独处理方式可能会造成工程的延误,也会对自动化系统带来较大的负载。因此,对各类不同格式的数据构建统一处理框架,采用数据统一处理模型对不同格式数据进行融合统一,可有效降低工程建设的数据处理复杂程度以及自动化系统的负载。

智慧前期是一个旨在整理建设前期的数据流和业务流、集成电网建设前期涉及的要素于一体的数据应用平台[1],该平台提供数据处理、勘测、流程制定、法规参考和专家会议等服务功能,为电网建设项目的顺利实施提供完整的信息辅助。智慧前期信息规划体系产生于电网建设初步设计和可行性研究分析报告(以下简称“初设”和“可研”)之前,应用于电网建设整个生命周期。在建设前期,使可研和初设一体化,做到建设单位有据可依,有法可循;对于建设期和投入使用的项目,利用智慧前期成果和平台依然可对项目跟踪、管理和回顾。

基于以上背景,本文通过分析智慧前期工程建设中多源异构数据的数据格式及存储模式等数据特点,提出了多源异构数据统一融合模型,并在电网建设智慧前期工程中,基于智慧前期系统对模型进行了验证。

1 多源异构数据融合

1.1 系统数据分类

智慧前期建设过程中所产生或需要的数据包括项目数据和业务数据两种,来自不同时期、不同系统或不同部门的数据既有结构化数据(如部门提供数据和XML、JSON 等格式数据)也包含非结构化数据(如遥感图像、研究方案、图纸等),以及来自网络的半结构化数据(如网站所提供的政策法规等)。在研究多源多数据模型前,先按照各数据性质、存储方式以及读写方式等属性对数据进行分类,以便之后进行模型内数据关系研究以及数据统一化处理操作。在电网建设前期智慧系统中,数据分类如表1 所示。

表1 智慧前期信息规划体系数据分类列表Tab.1 Data classification list of intelligent preliminary information planning system

表1 涉及数据可分为三类:

(1)结构化数据。此类数据是由电力行业配合提供的,带有电力领域专业性质的内部工作流程相关的数据,如工程建设中的规章制度、现有工程师名录等,一般有统一的文件记录和相似的、有规律性的记录方式,并说明文件用途。

(2)半结构化数据。此类数据是在电网工程建设的过程中产生的建设类文件,包括随时可能产生的签证类文件等。此具有随机性,需要先进行识别和处理才能和结构化数据一样统一处理。

(3)非结构化数据。此类数据包括音视频文件和空间数据两类。音视频文件与其他数据的关联完全依赖于其自身携带的地理信息,对于音视频的处理需要将音视频本身和其地理信息数据展开保存。而空间数据是电网工程建设中的基础数据,此类数据获取方式对测绘专业性要求高、方式多样,在进入多源异构数据融合前需要进行专业的技术处理和图层融合。

多源异构数据融合的处理方式共分为4 个步骤,主要为数据获取、数据整合、关联关系建立、入库及调用[1]。电网建设中的数据类型在模型预处理阶段,需完成获取数据并对各类数据内部初步整合的处理。

1.2 数据预处理

在多源异构数据统一融合模型中,为了充分融合异构数据的特征,在对多源异构数据整合之前需要先对不同的数据进行预处理。

1.2.1 结构化数据与半结构化数据预处理

如图1 所示,将不同数据来源的数据通过相应的处理工具转换为统一的电子数据格式,依据原始数据类型采用不同的数据存储结构将其分别以数据库模式和不同格式的文件模式存储于服务器中。

图1 结构化数据与半结构化数据预处理模型Fig.1 Structured data and semi structured data pre-processing

1.2.2 非结构化数据预处理

如图2 所示,非结构化数据中的GIS 数据可借助地理数据模型表达。图片、视频以及VR 数据为其加入相应字段标签,如拍摄地点、上传时间、上传属性、拍摄目的、标注等。即将前述获取的原始电子数据依据原始数据类型采用不同的数据存储结构将其分别以数据库模式和不同格式的文件模式存储于服务器中。

图2 非结构化数据预处理模型Fig.2 Unstructured data pre-processing

1.2.3 预处理难点分析

在多源异构数据统一融合模型的数据预处理中,主要难点在于需要对非电子化或结构化程度较为驳杂的数据进行处理(见表2)。需将所有获取的数据进行电子化处理并对其结构化程度进行初步统一,以方便多源异构数据整合框架的直接数据提供。所处理的主要数据包括电网建设部门提供的直接数据、存储于网络上的间接数据以及以纸质版文件形式存在的第三方数据等类型数据。针对上述三种类型的数据做如图3所示处理。

图3 存储模式组成结构图Fig.3 Storage pattern composition diagram

表2 预处理难点类型数据处理方式Tab.2 Data processing methods for difficult types of preprocessing

1.3 数据融合

1.3.1 数据关联方案结构概述

服务器中所存储的数据主要包含结构化数据、半结构化数据和非结构化数据三大类型数据,经过多源异构数据、融合统一模型预处理模块处理后的直接相关数据,以区块的形式存储于结构化域、半结构化域和非结构化域三个存储区域。

其中,结构化域中保存着存储于库中的原字段统一的直接数据,以行优先方式存储于相关库中的半结构化数据中的代表图片的数值矩阵图,以及用来映射对象关系的相关库;半结构化域中保存着从纸质版文件和网络中所提取到JSON 文件和三级XML 文件,同时与结构化域相关库中源头一致的数据相互关联,以保证数据的完整性和正确性;非结构化域中保存着音视频文件和空间数据类非结构化数据,并以结构化域中的对象映射库为中间件对两者进行1 对N的直接映射。

多源异构数据统一融合模型中在对相关数据进行采集和预处理之后,便需要对相关数据进一步处理以完成深度层次上的数据整合。多源异构数据统一融合流程图如图4 所示。

图4 多源异构数据统一融合模型流程图示Fig.4 Unified fusion model flow chart of multi-source and multi-structure data

该方案首先会从服务器中将已经预处理好的结构化、半结构化和非结构化数据分别读取并解析出来。对于结构化数据而言可按照其数据类型创建数据库并将其直接入库。对于半结构化数据而言,则首先会将其按照数据类别分为两类:类1 为结构化部分、类2 为非结构化部分。对于类1,创建相关库将其直接入库而后则采取全连接的映射机制将类1 和类2 数据之间相互映射。对于类2 的非结构化音视频数据,采用底层图与其音视频数据单连接的映射机制,将相关音视频数据作为底层地理分布图的一对多直连映射并作为附属参数嵌入其中;对于类2 的非结构化地理分布图类结构数据,首先对各类图进行坐标的转换及图层的分割,其次对单图层基于人工神经网络的区域分割算法对其进行区域块的划分,最后将结构化数据和半结构化数据作为融入参数与多个单图层,一起使用类空间图层叠加方式形成最后的融合多源异构数据的叠加式空间模型。

1.3.2 融合数据库实现方案

电网工程建设的前期数据随着时间的推移和业务的办理,数据体量会不断地增长。大量新型、异构、多源的空间大数据不断产生和存储,电网工程建设对空间数据应用的需求不断提升,数据和需求端均对传统的GIS 带来了巨大挑战[2]。无论是经典的关系型数据库还是传统GIS 的空间数据库都已经无法满足电网工程建设数据融合应用的存储和应用需求。因而,关系型数据库和非关系型数据库相结合的混合数据库存储成为必然的数据库实现方案选择方向[3]。

系统设计了一种关系型与非关系型耦合的数据库。电网工程建设带有强烈的地理信息属性,需要一款GIS 数据库作为智能化地图的数据基础,PostgreSQL 是开源空间数据库,构建在其上的空间对象扩展模块PostGIS 使其成为一个真正的大型空间数据库[4]。SuperMap 中的SDX+ for PostGIS 引擎,可以直接访问PostgreSQL 空间数据库,充分利用空间信息服务数据库的能力,如空间对象、空间索引、空间操作函数和空间操作符等[5],实现高效地管理和访问空间数据,因此选择被SuperMap 支持的PostgreSQL 关系型数据为系统基础。同时整合主流的MongoDB 和Redis 非关系型数据库,利用MongoDB 和Redis 对半结构化数据、非结构化数据的表示和检索能力,组成电力建设时空大数据地图的数据库支撑结构,数据库结构见图5。其在速度上与传统数据库相比有大幅提升,更能适应大地图读写访问与计算要求,同时又保证了数据的一致性,供使用者做决策参考的信息量也得以增加。

图5 数据库结构图Fig.5 Database structure diagram

通过上述数据库结构,为结构化和半结构化类的数据增加地理属性,当应用于某项工程中时,以地理信息为线索检索特定区域范围内的数据信息,通过对检索信息的挖掘分析得到目标效果。传统的关系型数据库系统,当遭遇大量的查询操作时,会因繁复的IO 操作而花费大量时间,本系统中将最常访问,且无复杂计算需求的结构化数据和半结构化数据(热数据),如办事流程等,通过非关系型数据库存放,在后台查询时便可有效避免直接从关系型数据库进行查询,当热数据发生改变时,则重新加载。利用MongoDB 的文档处理优势,保证法律法规、VR 图像、实地视频等文档类数据的存储和查看。非结构化数据中的空间数据,如勘测数据和建设数据的读写则通过直接操作关系型数据库进行,由于其IO 频率不高,在首次加载工程时将该类数据读出存放在缓存中,以供基础信息标定,通过对数据进行几何匹配及属性匹配,寻找与检索目标有地理关系的结构化和半结构化数据。

2 多源异构数据方案验证

本文使用电网建设智慧前期所涉及的项目数据和业务数据,应用文中介绍的多源异构数据统一融合模型,以对其进行验证。

2.1 多源异构数据预处理

2.1.1 结构化数据预处理

对于电网建设智慧前期信息规划系统中来自电力部门提供的专家结构化信息,经过系统功能需求分析设计数据表结构,专家库简易关系见图6。

图6 专家库简易关系图Fig.6 Summary diagram of expert database

结构化数据库专家库关系模式为:

用户(用户id,用户名,用户密码,用户角色,工程id);

专家(专家id,专家名,出生日期,性别,机构,职称,职位,电话,省份,城市);

管理/应用(用户id,专家id)。

2.1.2 半结构化数据预处理

(1)法规库数据预处理。

对于电网建设智慧前期信息规划系统中来自网络的法规半结构化信息,经多源异构数据统一融合模型的处理后,设计数据表结构,法规库简易关系见图7。

图7 法规库简易关系图Fig.7 Summary diagram of regulations database

处理后的结构化数据库法规库关系模式为:

用户(用户id,用户名,用户密码,用户角色,工程id);

法规(法规id,法规类型,工程id,工程阶段,法规信息);

管理/应用(用户id,法规id)。

在确定数据库法规库关系模式后,通过爬取获得的法规文件所生成的JSON 字符串格式也可确定下来。

对于电网建设智慧前期信息规划系统中来自网络的法规图片信息数据,经多源异构数据统一融合模型的处理后,生成代表像素的二进制单元矩阵图结构如图8 所示,这个矩阵图是图片来源数据的像素值经过系列转换之后生成的,可以将其看作是图片上各个点的像素值。

图8 二进制单元矩阵图结构图Fig.8 Binary cell matrix structure diagram

(2)案例库数据预处理。

对于电网建设智慧前期信息规划系统中,来自定制版文本扫描器的文本结构案例数据,经多源异构数据统一融合模型的处理后,设计案例表结构案例库简易关系见图9。

图9 案例库简易关系Fig.9 Summary diagram of case database

结构化数据库案例库关系模式为:

用户(用户id,用户名,用户密码,用户角色,工程id);

案例(案例id,工程名,关键词,开始时间,结束时间,工程类型,工程细节,工程管理细节,工程价格,工程价格细节,设备价格细节,其他价格细节,工程曲线,工程媒体,录入时间);

管理/应用(用户id,案例id)。

2.1.3 非结构化地图数据预处理

(1)借助SuperMap 工具对其进行统一的坐标转换及单图层区域划分,利用GIS 数据库存储相应数据。

(2)将所产生的空间数据资源分层级处理融合成一幅包含多空间等级数据的层叠式空间数据图,进一步借助机器学习技术选用经过类型丰富的训练数据训练过的、性能较优的数据分类器,将同一层级的不同类别数据进行清晰分类。

(3)图片与视频数据通过系统提供的接口收集,在收集的同时便为其添加了额外的信息元素,将这些元素与原数据联系为统一数据库,为之后的数据操作提供支持。

2.2 多源异构数据整合

经过数据预处理,半结构化数据和结构化数据形成了规范的结构数据和一部分非结构数据。将这些数据以预处理中说明的数据库设计为基础,在系统中建立相应的数据库,将数据按照规则填入,并采取全连接的映射机制使结构化部分与非结构化部分相互映射。

在非结构化数据中,预处理好的地理信息与图片、视频以及VR 数据通过预处理中得到的额外元素进行一对多直连映射进而产生耦合,将图片、视频以及VR 数据绑定至地理信息中的特定坐标或围栏中。接下来便可以只考虑地理信息与预处理后结构化数据的整合。将结构化数据和半结构化数据作为融入参数与多个单图层一起使用类空间图层叠加方式形成最后的融合多源异构数据的叠加式空间模型。

这一模型的经典应用场景表现为在某一工程中,如图10。系统可以依据地图筛选出本工程涉及的法律法规和行政条例,提前为使用者提供可能的案例及专家参考,并在该点标记相应的视频,让使用者了解该点实地情况。

图10 以地理位置为线索的融合数据应用Fig.10 Application of fused data based on geographical location

3 总结

为了促进电网工程与现代计算机技术的快速融合、推动电网工程建设过程的自动化进程,本文针对电网前期建设或改造中所涉及的不同来源不同类型的项目数据和业务数据,梳理数据类型和数据特征,研究数据间的应用关联,以关系型数据库和非关系型数据耦合的方式搭建了一套完善的多源异构数据统一融合模型。

采用电网建设智慧前期工程数据作为实例对所提供的多源异构数据统一融合模型进行验证。可较为完整地将智慧前期工程建设过程中产生的多源异构数据应用、数据统一融合模型导出到生成的图层和数据库中,并在系统中可直观且简洁地表示出来。从整个前期过程探索了融合数据的应用和拓展方向,并且验证了本文所提模型的有效性。

围绕多源异构数据统一融合模型,研究了衍生出的包括辅助电网工程建设前期工作推展和数据处理的智慧前期系统等多项电网建设相关智慧系统,为电网工程建设提供了全新的工作方式,同时电网建设对智慧系统的应用为之后的建设数据间的关联性研究提供了实例数据。

猜你喜欢
异构预处理结构化
ETC拓展应用场景下的多源异构交易系统
KR预处理工艺参数对脱硫剂分散行为的影响
预处理对医用外科口罩用熔喷布颗粒过滤性能的影响
离散异构线性多智能体系统的输出一致性
手术器械预处理在手术室的应用
试论同课异构之“同”与“异”
借助问题情境,让结构化教学真实发生
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
污泥预处理及其在硅酸盐制品中的运用