基于Hadoop和HBase的输变电设备数据聚合平台

2020-05-23 07:56:32吴应双刘明顺
电力大数据 2020年3期
关键词:数据源异构本体

陈 锐,吴应双,曹 杰,刘明顺

(贵州电网有限责任公司电力调度控制中心,贵州 贵阳 550002)

电力系统是一个复杂的能源网络系统,与其相关的输变电设备物联网作为物联网技术在智能电网中的新应用,是智能电网由系统智能化向输变电设备智能化的延伸和发展。输变电设备种类繁多,分散在电网中各电压等级间的不同厂站及连接这些厂站的各种输变电设备全景信息具有海量、多源、多态、高度异构的特征;这些特征造成了电力系统中各种数据间的“信息孤岛”,聚合这些复杂数据信息首先要处理这些数据固有的多源与异构的难点问题[1]。

异构数据源主要有三种类型:语义、模式及系统等三种异构形式。数据源在表达同一数据时的不同称为语义异构,它是数据聚合中要解决的关键问题,也是难点。采用本体技术可以解决数据聚合中存在的语义异构问题。本体技术可以快速梳理出不同数据概念间存在的联系,然后表达出这些数据间的语义联系,从而实现信息共享与重用。基于智能电网中各种输变电设备数据信息的多源异构特征,本文提出了一种基于Hadoop和HBase的输变电设备全景信息数据聚合方法[2]。

云计算是分布式计算、并行计算和网格计算发展的结果,目前主要用于“数据密集型”应用,通过虚拟技术、海量分布式数据存储技术、MapReduce并行编程模型等技术,为用户提供高可靠性、高安全性的海量数据存储平台,这种数据平台为未来电力系统的趋势智能电网的信息平台建设提供了一种可行的全新解决思路[3]。

本文提出运用本体技术在开源的云计算平台Hadoop集群上实现海量、多源、异构数据的聚合。首先介绍了本体技术及采用的改进混合本体法、Hadoop和HBase数据库等技术;随后提出了基于HBase和Hadoop的智能电网输变电设备异构数据聚合平台框架,并设计了基于MapReduce的查询和推理流程。该平台具有标准化和开放性特点,可以屏蔽底层异构数据源物理和逻辑的差异性,并且具有良好的可扩展性,可用于解决原有电力系统中数据信息共享性差、信息呈孤岛、非结构化数据难以处理等问题。

1 电力系统的输变电设备及其综合数据

在我国,电力系统当中的输变电设备主要指110 kV及以上电压等级的架空输电线路、变压器(电抗器)、高压开关设备、互感器、直流设备、高压支柱绝缘子、避雷器、消弧线圈,以及相关变电站站内的电容器组、站用电系统、接地装置、防误闭锁装置、照明系统、接线箱等设备。这些设备及相关的数据信息主要来自电网的五大数据系统,分别为生产运行管理系统(PMS)、输电设备精益化管理系统、变电设备现场作业数据采集系统、生产运维自动化服务平台以及人工数据管理平台。

1.1 生产运行管理系统数据

电力系统生产运行管理系统(PMS)当中的数据主要包括设备的台账信息、设备的日常运行日志、设备实时运行工况、设备的测试作记录、设备的试验记录、设备的检修记录、设备的操作记录、设备的缺陷记录、设备的事故记录;这些数据的格式属于传统结构化的数据格式。这些数据体量巨大,处理起来很不方便。

1.2 输电设备精益化管理系统数据

输电设备精益化管理系统当中的数据主要包括设备的跳闸记录、设备的隐患记录、输电线路的交叉跨越、设备的监测记录、各种作业表单、设备缺陷记录;这些数据的格式也属于传统结构化的数据格式。

1.3 变电现场作业数据采集系统数据

变电现场作业数据采集系统当中的数据主要包括设备巡视记录、工器具定检记录、避雷器泄露电流及动作次数记录;断路器动作次数记录;变压器铁芯及夹件泄漏电流测量记录;SF6气体压力抄录记录;这些数据的格式同样属于传统结构化的数据格式。

1.4 运维自动化平台数据

运维自动化平台当中的数据主要包括SCADA量测数据;在线监测量测数据;保护装置动作记录及录波记录;雷电定位系统数据;覆冰监测数据;微气象监测数据;这些数据的格式有传统结构化的数据格式,也有非结构化的数据格式。这些数据共享性查且处理非常复杂。

1.5 人工管理数据平台数据

人工管理数据平台当中的数据主要包括各种文档、报表、实验报告等;这些数据的格式属于非结构化的数据格式,且数据共享性极差[4]。

2 本体和Hadoop

2.1 本体技术

2.1.1 本体概述

本体(ontology)是“数据共享概念的形式化规范说明”。本体的四个要素主要表现为:数据明确化(explicit)、数据概念模型(conceptualization)、数据共享(share)和数据的形式化(formal)。数据明确化表明相关数据概念及数据之间的联系被明确定义;数据概念模型是对客观事物现象的抽象模型;数据共享则意味着使用者对于数据本体所反映的信息达成了共识;而数据形式化则要求由精准的数学描述相关的数据。

运用本体技术起到数据信息的中间代理作用,将其用于数据聚合,可以完成数据库对底层异构数据源中相关数据的透明访问。本体强大的语义特性,可准确的反映数据所携带的内在信息,在数据聚合过程中应用本体技术能够解决信息共享与数据交换中语义异构的问题[5]。

本体技术的这种强大数据处理功能,非常适合用于解决电力系统中大量输变电设备间的复杂数据处理与聚合问题。

2.1.2 本体语言

目前,数据库技术当中有RDF/S,DAML+OIL,OWL等语言均能描述本体。其中,OWL(web ontology language)为W3C推荐的一种对数据本体进行语义解释的语言标准。W3C提出的本体语言栈如图1所示。OWL位于本体语言栈的最上层,它添加了更多用于描述数据属性与数据类型的词汇,用于描述丰富的数据语义。支持对数据的互操作和集成[6-7]。OWL本体语言提供了将两个本体的类和属性关联起来的方式,利用OWL能在语义层面上对多种资源的互操作和集成进行支持。

2.1.3 基于本体的数据聚合方法

按照数据集成方法不同的方式分类,基于本体的数据聚合有三种常用的实现方法:一是采用单数据本体方法;二是采用多数据本体方法;三是采用混合数据本体方法。

单本体方法中所有数据信息仅与一个全局本体相关,该全局本体是所有数据信息的核心,由该全局本体提供所有的数据词汇,这种构建方法简单,但在多源信息的复杂情境下容易受到较大的限制。多本体方法则采用多个本体描述不同数据源所包含的信息,然而这种方法缺乏了统一的全局本体进行多元融合。混合本体方法很好地解决了上述两种方法存在的缺陷,这种结构如图2所示。

混合本体方法针对每一个数据源,首先采用OWL本体语言对数据进行全面描述,进而产生局部数据源本体;然后通过汇集共享词生产相关领域本体,进而形成全局本体。本文采用了一种更为合理的改进混合本体法,如图3。这种方法与常规混合本体法的主要不同在于众多局部本体间没有任何映射关系且耦合程度低,这样,在对底层数据源进行查询时,查询将被分解和转换成面向具体数据源的查询。将OWL本体语言技术和语义网络规则语言(semantic web rule language,SWRL)技术相结合,运用两者间映射关系来表达局部、全局本体可实现标准化与可扩展性[8]。

2.2 Hadoop和HBase

2.2.1 Hadoop

Hadoop是Apache基金会开发的一个开源分布式系统基础框架。这个架构可以保证用户在不了解分布式底层细节的情况下,也可以充分开发分布式程序。该架构是以Hadoop分布式文件系统HDFS(hadoop distributed file system)和Map/Reduce(google map reduce的开源实现)为核心。Hadoop为用户提供了系统底层细节透明的分布式基础架构。这种架构在廉价硬件设备上可实现数据密集型应用,具有高可靠性、低成本、高效性、高容错性和良好的可扩展性等五大优势。

HDFS和Map/Reduce构成Hadoop分布式系统的核心。HDFS和Map/Reduce在集群上分别实现了分布式文件系统及相关计算和任务处理。HDFS为Map/Reduce的任务处理提供相关文件操作及数据存储等,Map/Reduce在HDFS的基础上解决了任务的分发调度、跟踪监视、执行等工作,它们共同处理了Hadoop的大部分工作任务[9-10]。

2.2.2 HBase

HBase是Apache的Hadoop项目的子项目。与一般的关系数据库不同,HBase是一个分布式的、面向列的开源数据库。HBase以HDFS为基础,能够向用户提供高性能、列存储、可伸缩、实时读写的数据库。它介于NoSQL和RDBMS之间,仅支持单行事务且仅能通过RowKey和Range检索;因此,该数据库主要用于存储非结构化或者半结构化数据。HBase没有关系数据库的列、辅助索引等高级查询语言;从这方面看,HBase严格意义上来说并不是数据库,它只能算作一种数据存储的方式,主要是用以弥补传统关系型数据库处理大量数据时的局限性。传统的关系型数据库并没有充分考虑数据库的扩展性、可靠性。HBase就是为处理海量数据的存储、高速读写、用户并发访问等问题而设计的,这种设计降低了对硬件设备数据处理性能的要求[11]。

3 输变电设备大数据聚合平台架构

本章所提出的基于Hadoop和本体的输变电设备大数据聚合平台架构如图4所示。可以直观的看出,这种架构自下而上由数据源层、本体转换层、知识库层、应用层四个层构成。

3.1 数据源层

按照系统数据应用的需要,数据源层接入相关风险数据源和电网中输变电相关运行信息。应用层访问数据源层,数据源层返回需要的数据信息,启动数据库访问流程。数据源层包括HDFS和HBase。

HDFS提供了框架体系结构中HBase与Map/Reduce的分布式运算基础,将本体数据文件通过“块”的形式实现数据分布式储存。Hadoop平台能够实现本体数据文件的分发、容错及备份等必要的功能。HBase运行于HDFS之上,对用户上传的海量RDF及OWL文件进行分布式储存与有效管理,可满足用户对本体数据的添加、修改、删除以及快速访问。

3.2 本体转换层

本体转换层主要是为了实现本体转换,解决数据异构问题,包括数据适配器(data adapter)、RDF接口、本体及映射。

数据适配器是数据交换的唯一接口。这种适配器接口具备查询和逻辑推理功能,可以对数据库中本体数据并行化访问。在数据库中,逻辑层通过适配器对数据存储层与数据层的数据进行交换处理。一方面,数据适配器以数据预处理器转换后的本体数据解析模型为输入,实现本体数据在HBase与HDFS中的并行化录入和分布式存储;另外,数据适配器根据框架中的查询和逻辑推理计算任务,实现对HBase数据库或HDFS文件系统中本体数据的并行化访问。

RDF接口将数据源的数据公开转换为RDF数据。通过RDF接口集成数据源,能够将数据从应用程序中分离出来,实现了已有数据源的交换以及集成且不需要大量改动,这样就可以很方便的实现新的数据源集成。RDF从语义层面上极大的减少了数据共享的问题,而且便于扩展,具有很大的灵活性。RDF接口将每个数据源公开为RDF后,通过OWL语言构造数据源本体,流程如图5所示。

图5 RDF接口功能

Fig.5 Interface function of RDF

本体语言构建全局与局部本体,然后应用OWL本体构造和SWRL(semantic web rule language)规则相结合建立本体间映射关系,实现本体间的相互关联,这是数据聚合的核心。如果两个本体已经校准,并且也确定出了它们的概念之间的正确映射,那么在运行过程中,本体之间就进行了转换。

3.3 知识库层

基于Hadoop的Map/Reduce分布式运算环境构建的知识库层对海量的本体数据进行查询与逻辑推理。知识库层主要包括查询与逻辑推理任务生成器、Map/Reduce查询引擎(query engine)、Map/Reduce SWRL推理引擎等。查询与推理任务生成器(querying and reasoning plan generator)以查询与规则分析器输出的解析模型为输入,生成相应的查询和推理任务模型。

查询引擎(query engine)根据Map/Reduce查询任务模型,在 Map/Reduce环境下执行大规模RDF数据的 SPARQL(simple protocol and RDF query language)分布式查询。最终查询结果构造器根据输入SPARQL查询条件中的查询表单生成查询结果。

推理引擎是Map/Reduce环境下的SWRL规则分布式推理机。该模块以框架数据层中大规模 OWL本体数据及查询与规则分析器生成的SWRL 规则模型为输入,并根据查询与推理任务生成器生成的推理计划以及Map/Reduce环境下的SWRL 规则分布式推理算法,执行一组Map/Reduce任务,以实现 SWRL规则的分布式规则推理,并最终返回推理结果。

3.4 应用层

为用户提供访问接口的是应用层,负责数据查询、推理的上传及将结果可视化。应用层根据用户需求,完成相应功能建设,涵盖了输变电设备的数据逻辑发掘、输变电设备的状态评价、输变电设备的故障诊断、输变电设备的停运模型、输变电设备的全生命周期过程管控等相关功能[12-14]。

4 核心功能

4.1 查询与推理流程

知识库层完成了对数据库中本体数据的查询与逻辑推理,它是在Hadoop的MapReduce运算环境中构建而成的。查询语言以SPARQL为依据,对大量语义Web本体数据信息进行高效分布式存储、快速查询及逻辑推理,其功能流程如图6所示。

具体流程如下[15-16]:

(1)用户提供SPARQL查询语言进行查询;

(2)MapReduce查询引擎解析用户提供的SPARQL查询命令;

(3)本体解析器实现读取并解析本体文件的功能;

(4)MapReduce SWRL推理引擎完成具体查询与推理计算流程的执行;

(5)结果输出器输出查询或推理结果,形成直接针对RDF接口的查询。

4.2 本体转换流程

用户或者应用程序通过查询接口访问知识库,采用SPARQL作为查询语言。对知识库的查询被分解和转换成面向RDF接口的查询,每个RDF接口的查询则直接面向具体数据源,下层异构数据源根据需求返回查询结果,启动数据流程。如图7所示,具体的数据流程描述如下[17-20]。

(1)输变电设备监测数据和设备所处环境数据经过RDF接口,数据被公开为RDF格式,并通过OWL本体描叙语言被构造为数据源本体;

(2)运用本体构造和SWRL转换,数据源本体之间建立了对应的数据映射关系,进而完成了数据源本体间的相互转换;

(3)知识库起到了提供查询接口,存储本体转换的结果和执行本体推理的作用;

(4)转换完成后,查询结果被返回给用户或应用程序,在此过程中多源异构数据实现了聚合。

利用各数据源本体建立全局本体,形成全局本体与各数据源本体对应的映射关系,局部本体之间相互耦合,形成数据交换规则,并存储在知识库中,在数据交换过程中用来将源本体文档转换成目标本体文档,数据交换规则如图8所示。

5 结语

智能电网是未来电力系统发展的方向,处理电力系统当中的各种数据信息尤为重要。来自电网的五大数据系统的输变电设备数据来源广、种类多、结构复杂、体量巨大、共享性差、信息呈孤岛,将这些数据完全聚合起来用于生产实际是个十分复杂而又艰巨的工作,但这也是未来智能电网必须解决的问题。电力系统中输变电设备全景数据信息主要存在异构、多源等突出特征;为了实现这些大量信息的高效利用与聚合,本文采用了一种改进混合本体法,在开源的云计算平台Hadoop集群上实现海量、多源、异构数据的聚合方案,将本体技术应用在这些数据信息的聚合当中,并得到以下结论:

(1)应用本体技术与Hadoop分布式计算平台,搭载改进混合本体方法作为多源异构数据聚合方案,可有效解决电力系统中输变电设备数据的多源异构问题;

(2)提出了基于HBase和Hadoop的智能电网异构数据聚合平台框架,并设计了基于Map/Reduce的查询和推理流程;

(3)采用开放性的标准化建模语言,对底层异构数据源的差异性进行了屏蔽的同时,解决了输变电设备原有数据存在的非结构化、共享性差、数据信息孤岛等棘手的问题。

猜你喜欢
数据源异构本体
Abstracts and Key Words
哲学分析(2023年4期)2023-12-21 05:30:27
试论同课异构之“同”与“异”
对姜夔自度曲音乐本体的现代解读
中国音乐学(2020年4期)2020-12-25 02:58:06
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
overlay SDN实现异构兼容的关键技术
电信科学(2016年11期)2016-11-23 05:07:56
LTE异构网技术与组网研究
《我应该感到自豪才对》的本体性教学内容及启示
文学教育(2016年27期)2016-02-28 02:35:15
基于真值发现的冲突数据源质量评价算法
在新兴异构SoCs上集成多种系统