基于公共模型技术的非结构化数据模型设计与应用研究

2018-04-07 19:10王志强骆伟艺
电子设计工程 2018年5期
关键词:数据模型数据管理结构化

江 樱 ,王志强 ,梅 峰 ,骆伟艺

(1.国网浙江省电力公司信息通信分公司浙江杭州310007;2.国网信通亿力科技有限责任公司福建福州350003)

随着国家电网公司信息化工作的深入推进,国网电力公司(“以下简称电力”)的信息化建设取得了显著的成效,在数据资源方面,各业务应用数据逐渐丰富,为了实现对各类数据的集中管理及应用,构建了结构化、非结构化、海量/准实时、电网GIS4类数据中心。然而随着社会经济发展进入“互联网+”时代,数据已被业界公认为企业最宝贵的资产之一,如何管好数据,挖掘数据资产价值已成为当前公司加快业务创新、提高精细化管理和科学决策水平的重要基础工作之一。目前国内、外大多数企业都在数据管理方面从不同角度开展相关工作,内容涉及数据标准、元数据管理、数据质量提升等工作,并有效地利用数据管理手段,达到提升业务经营水平和满足内部管理需求等目的。

在多类型数据资源融合管理方面,电力结构化、非结构化、海量/准实时、电网GIS 4类数据中心独立管理、独立应用,数据标准未统一,数据资源缺乏统一管理,没有形成深度融合,无法实现多类型数据融合支撑大数据分析等业务应用的要求,因此有必要研究多类型数据关联模型研究,并进行应用验证,以实现业务对多类型数据资源的综合利用。

文中主要研究非结构化与结构化数据之间的关联关系,设计形成关联模型,有利于更多种数据资源的资产化管理及应用,为了提高模型中秘密数据的安全性,提出了一种PKI的签密算法。通过实际的应用,验证了本文模型的实用性。

1 公共模型介绍

1.1 IEC CIM

公共信息模型(Common Information Model,CIM)标准由国际电工委员会负责电力系统控制及其通信相关标准的第57技术委员会(IEC TC57)提出并发布,建立在XML、UML等成熟技术基础之上,结合电力企业特点进行相应的封装而成[1],公共信息模型是整个EMS-API(IEC61970国际电工协会)[2]框架的一部分,是一个抽象模型,它提供一种标准化方法,把电力系统资源描绘为对象类、属性以及它们之间的关系,为各个应用提供了与平台无关的统一的电力系统逻辑描述,尤其是在EMS系统领域。CIM模型中的对象可以应用在各个系统中。CIM模型有助于不同供应商开发的EMS系统的集成,有助于EMS系统和其他涉及到电力系统运行操作不同领域的应用系统的集成,如SCADA系统、电力营销系统、设备管理系统的集成。

1.2 SG-CIM

为了统一企业数据视图,国家电网公司通过研究、参考国际IEC 61968/61970 CIM标准和国家电力行业相关标准[3],根据国家电网公司实际共享交换业务需求,对IEC CIM进行重新组织,并加以扩展和完善,形成了一套符合公司需求,用于指导公司各业务系统数据集成和应用集成的公共信息模型(SGCIM)[3]。

SG-CIM遵循IEC 61968/61970 CIM设计,在公司信息模型标准体系中,作为企业统一的公共信息模型标准,实现对公司范围内公共数据资源的统一管理及各业务条线的数据共享交换。SG-CIM与业务系统数据模型相互独立,SG-CIM定义了业务系统数据中的共享交换部分的标准规范。SG-CIM包含12个一级主题域,65个二级主题域、947个实体、9 929 个属性[4,5],一级主题域分别是:客户、产品、市场、设备、电网、财务、资产、人员、物资、项目、安全、综合[6-8]。一级主题域和二级主题域是包含关系,如一级主题域中的人员包括二级主题域中的组织、员工、用工、培训、绩效和薪酬。实体和实体之间的关系组成了二级主题域[9]。SG-CIM模型是进行数据模型设计时必须遵循的规范,这样才能保证全网范围主要模型的一致性,有利于各系统之间信息的交流。

2 非结构化数据模型设计与应用

2.1 设计原则

1)非结构化关键业务元数据及模型研究厘清业务系统非结构化数据资源及与结构化数据资源之间的勾稽关系,明确非结构化数据管理的关键元素及之间的关联关系,确保关联模型的合理性及可用型性。

2)非结构化关联模型研究遵循公司SG-CIM标准规范,在充分梳理业务系统及数据中心数据资源现状的基础上,遵从SG-CIM进行扩充完善,保证模型的标准、一致。

2.2 设计的目标

1)非结构化数据的关联关系元素研究

开展结构化关键业务元数据研究,通过梳理业务系统,提炼形成非结构化数据与结构化数据的关联关系元素,形成非结构化业务元数据信息。

①业务系统梳理。对非结构化数据与源业务系统中结构化数据的关联关系进行梳理,确定来源业务系统、关联业务数据源表、关联字段信息、关联业务数据的取数逻辑、关联数据所属主题域(SG-CIM模型12个主题域)等信息,并遵循CWM规范和SGCIM规范,制定关联关系描述规范。

②非结构化数据平台梳理。对非结构化数据平台已接入的非结构化数据进行梳理,确定非结构化数据统一管理范围,初步形成非结构化数据的元数据关键元素。

2)非结构化数据关联模型研究

基于SG-CIM,结合非结构化关键业务元数据,设计形成结构化与非结构化的关联模型。

非结构化与结构化关联模型设计。根据梳理的非结构化业务元数据关键元素,结合非结构化数据的基本元数据和关联性元数据的数据结构,参考CWM数据仓库元数据模型[10-12],遵循SG-CIM模型规范,设计非结构化与结构化关联模型。

2.3 设计的思路

1)业务系统数据资源现状和分析

为保障非结构化关联模型的实用性和科学性,在研究之初需要充分调研、分析电力业务系统数据资源现状,重点对结构化与非结构化数据资源管理现状进行调研,同时开展结构化数据中心与非结构化数据中心数据共享情况分析,为非结构化与结构化关联关系元素分析提供基础。

2)非结构化关联关系元素研究

从描述型、结构型及管理型等方面,分析业务系统及数据中心已有的非结构化数据资源,同时结合国际CWM等标准规范,提炼非结构化数据规范化管理及应用的关键元素,如非结构化的文档、视频、图像等,为建立标准非结构化关联模型及管理功能奠定基础。

3)非结构化关联关系模型研究

基于非结构化元数据关键元素,遵循国家电网公司SG-CIM模型标准[13-15],采用UML建模技术[16],深入研究非结构化与结构化的关联关系,如非结构化的文档、视频、图像等元素之间的关系,建立非结构化元素关系模型,及这些非结构化的元素与结构化数据之间的关系,建立非结构化元素与结构化元素间的关系模型。

4)非结构化元数据设计

非结构化元数据功能应基于国家电网公司数据管理服务平台构建。

5)数据接入验证

非结构化数据集成与应用框架从逻辑上可以划分为数据源层、数据缓存层、数据加载层、数据存储层、前端应用5层结构,数据缓存层只对非结构化数据作初步采集处理;数据存储管理集中,数据模型规范、统一;同一内容可以用文字、表格、图形和图像等多种形式呈现。数据接入技术架构如图1所示。

完成非结构化关联模型、数据管理及分析展现功能部署验证,验证方案大致可遵循如下步骤:

①分析非结构化需求数据间关系,完善非结构化存储模型;

②非结构化数据接入非结构化存储模型;

③按照查询需求,通过前端应用展示层展示非结构化数据。

④分析非结构化数据与结构化数据的关系,通过展示层展示与结构化关联查询结果。判断查询结果是否满足查询分析需求。

图1 数据接入技术架构图

2.4 模型的设计

2.4.1 模型设计方法

本次模型的总体设计思路借鉴国际IEC61968/IEC61970 CIM的模型设计思路,同时参考国家电网公司公共信息模型(SG-CIM)的设计内容,主要采用自上而下与自下而上相结合的设计思路,以国网业务系统非结构化平台所接入数据为需求,梳理国网的非结构化数据信息,分析非结构化数据与结构化数据的关联关系,形成非结构化数据关联模型:

自下而上设计:自下而上设计是梳理国网非结构化平台所接入的数据实体,以及数据实体之间的关系,对其进行抽象、提炼,分析数据实体所属的数据主题域并进行归并,分析主题域之间关系,形成形成非结构化数据关联模型。

自上而下设计:自上而下设计是从业务目标向下分析、提炼,结合现有业务系统,梳理各业务条线的非结构化数据的业务需求,根据业务流程,提炼关键实体,分析实体所属主题域及实体之间的关系,以及非结构化数据实体与结构化数据之间的关联关系,形成非结构化数据关联模型。如图2所示。

2.4.2 模型设计内容

非结构化关联模型主要描述非结构化数据实体与结构化数据之间的关联关系,例如其中非结构化数据部分主要描述了设备相关文档手册、客户协议、合同附件等非结构化数据信息,以及非结构化数据之间的关联关系,如发票、设备使用手册、合同附件等均继承与文档信息实体,同时,关联模型中还定义了非结构化数据与结构化数据之间的关联关系,例如文档与电子地址相关联,可以得到非结构化数据的存储位置信息,同时电力变压器实体、发电机组等继承与设备实体,同时与设备使用手册关联,实现各种设备信息与设备使用手册的关联。

图2 数据模型设计思路

2.4.3 模型关联方式

非结构化模型与结构化模型进行关联,结构化数据中心的表中添加非结构化数据实体的编码进行关联,以PMS设备为例,结构化数据中心的设备实体存放设备的相关信息,同时添加存放在非结构化数据管理平台的相关文档的编码进行关联,如设备的相关操作手册、合同、发票等非结构化实体的编码,通过设备编码与文档编码的关联,实现结构化数据与非结构化数据的融合。

图3 模型关联方式

①业务应用调用公共数据资源池对外提供的服务,向结构化数据中心发送请求,查询相关设备的基础信息及合同文档ID,如:断路器ID、名称、合同文档ID等;

②结构化数据中心根据业务应用的请求,将断路器相关信息及合同文档ID返回至业务应用;

③业务应用根据断路器对应的合同文档ID,向非结构化数据管理平台发送请求,查询断路器相关合同文档信息。

非结构化数据管理平台根据业务应用的请求,通过合同文档ID获取相关文档,并返回给业务应用。

2.5 非结构化数据模型的应用

非结构化数据模型的主要应用是按照设计的模型建立相应的数据库表,为元数据的管理设计合理的管理方案。元数据是关于数据的数据,是以计算机系统能够使用与处理的格式存在的、与内容相关的数据。根据业务系统的需求,设置相应的元数据,在非结构化数据模型上建立元数据之间的关系,方便了统一管理数据。电力系统的元数据分布如图4所示。

根据梳理的非结构化业务元数据关键元素,结合非结构化数据的基本元数据和关联性元数据的数据结构,参考CWM数据仓库元数据模型规范,遵循SG-CIM模型规范设计非结构化与结构化关联模型,实现非结构化元数据管理工具的研发,元数据管理工具的流程如图5所示,系统分为5个部分:访问层、元数据功能层、存储层、数据源层和元数据获取。访问层为业务人员和技术人员提供数据的数据的查询和访问;元数据功能层对元数据进行管理和分析并建立元数据模型,方便系统管理;存储层保存相关的元数据及其模型,与元数据功能层的元数据管理模型和元数据管理建立相关的关系,更好的进行元数据的管理;数据源层是根据实际情况调查和分析,建立元数据数据库,元数据可以通过文本的形式保存或手工输入,方便数据库的建立;元数据获取是存储层和数据源层进行数据信息交换的纽带,为元数据的传输提供保障,加快了公司数据的交流。系统框图如图6所示。

3 非结构化数据模型中的数据加密

在非结构化数据模型中存在大量的数据,导致数据的复杂性很高,为了保护模型中数据的安全,本文提出了一种基于PKI签密算法,PKI的签密算法有3个过程:密钥生成、签密和解密,密钥是生成发送和接受的密钥对;签密是将明文转化为密文;解密是还原原文信息。整个过程由3个阶段组成:系统初始化阶段、签密阶段、签密消息验证恢复阶段。它由可信中心CA、签密者A和解密者B来实施。

图4 电力系统非结构化数据分布现状

图5 元数据管理工具设计流程图

图6 元数据管理系统框架图

系统初始化阶段:

1)可信中心CA选取有限域Pt上一条安全的椭圆曲线F(Pt),保证该椭圆曲线的离散对数问题是难解的。在F(Pt)上选一基点G,G的阶数为n(n为一个大素数)。

签密者A和接受者B为两用户,A和B分别选取dA∈{1,2,…,n-1} 和dB∈{1,2,…,n-1}作为私钥,计算YA=dA∙G∈F(Pt)和YB=dB∙G∈F(Pt)作为公钥,并发给CA.

CA公开(Pt),G,n,YA,YB。

签密阶段:

签密者A对消息M签密并发送给指定的接受者B,A选取随机数K∈{1,2,…,n-1},并 计 算V1=K∙G,V2=K∙YBH 和V=Fx(V1+V2)modn,这 里Fx(V1+V2)是椭圆曲线上点的坐标函数。最后计算签密消息(r,s):

r=M∙V,s=k+rmodn。

A发送(V1,r,s)给B。

签密消息的验证恢复阶段:

接受者B接收到签密消息(r,s)及V1后,计算:

恢复消息M=r∙V-1,指定的接受者B恢复签密消息M。

4 结束语

为了设计一个适合电力非结构化数据模型,实现非结构化数据资源的有效管理,以促进数据充分共享、高效利用,满足各个层面对数据的需求。本文基于CIM设计了一种有效的非结构化数据模型,同时提出了一种提高模型中秘密数据安全性的签密算法。本文模型为数据的管理提供了基础,节省了大量的工作量。

参考文献:

[1]王奔,冯东,黄蓉.基于SG-CIM的人力资源数据模型的设计与应用[J].电力信息与通信技术,2012,9(4):24-27.

[2]Y Tada,S Suenaga.Current Status of International Standards(CIM)on power systems information Exchange[J].IEEJ Transactions on Powerand Energy,2016,136(8):685-688.

[3]王家凯,王继业.基于IEC标准的电力企业公共数据模型的设计与实现[J].中国电力,2011,44(2):87-90.

[4]韩晶,鄂海红.基于主体行为的非结构化数据模型[J].计算机工程与设计,2013,34(3):904-908.

[5]王奔,冯东,黄蓉.基于SG-CIM的人力资源数据模型的设计与应[J].电力信息化,2012,10(9):24-27.

[6]曹宁,袁嘉博.基于IEC61970的电容器保护CIM模型研究[J].电子设计工程,2015,23(15):184-186.

[7]周伊琳,孙建伟,黄缙华,等.基于IEC 61970标准的电力系统保护模型扩展方案研究与应用[J].电力系统保护与控制,2013,41(14):120-125.

[8]樊陈,倪益民,窦仁晖,等.智能变电站信息模型的讨论[J].电力系统自动化,2012,36(13):15-19.

[9]李玮瑶,王小辉.基于DS18B20的关联型温度检测系统的设计与实现[J].电子设计工程,2015,23(15):93-95.

[10]杨劲松,谢幸生,林韶文.电力设备状态检修智能系统的设计与实现[J].电子设计工程,2016,23(15):57-59.

[11]L Wang.A multi-version CIM-based database platform for smart grid[J].Ieej Transactions on Electrical&Electronic Engineering,2015,10(3):330-339.

[12]FJ Gomez,L Vanfretti,SH Ols-en.Binding CIM and modelica forco-nsistentpowersystem dynamic model exchange and simulation[C]//2015:1-5.

[13]谢善益,杨强,徐庆平.公共信息模型的OPCUA地址空间管理[J].电力自动化,2016,40(14):115-121.

[14]G Ravikumar,Y Pradeep,SA Kha-parde.Graphics model for power systems using layouts and relative coordinates in CIM framework[J].IEEE Transac⁃tions on Power Systems,2013,28(4):3906-3915.

[15]林菲,张万军,孙勇.一种分布式非结构化数据副本管理模型[J].计算机工程,2013,39(4):36-38.

[16]王宏志,李建中,高宏.一种非清洁数据库的数据模型[J].软件学报,2013,23(3):539-549.

猜你喜欢
数据模型数据管理结构化
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
促进知识结构化的主题式复习初探
CTCS-2级报文数据管理需求分析和实现
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
面板数据模型截面相关检验方法综述
加热炉炉内跟踪数据模型优化
基于软信息的结构化转换