基于本体的电力系统异构数据查询机制

2014-05-23 15:33张德海张德刚罗学礼
关键词:本体

张德海,张德刚,罗学礼,柳 青,李 劲

(1.云南大学软件学院,云南昆明650091;2.云南电力试验研究院(集团)有限公司电力研究院,云南昆明650217)

基于本体的电力系统异构数据查询机制

张德海1,张德刚2,罗学礼2,柳 青1,李 劲1

(1.云南大学软件学院,云南昆明650091;2.云南电力试验研究院(集团)有限公司电力研究院,云南昆明650217)

摘要:随着电力企业信息化进程的不断推进,大量信息管理系统被应用于各种业务中,造成这些系统间存在异构数据,难以共享,甚至还存在各种语义冲突,影响数据的挖掘和分析.为此,提出了一种利用本体技术对电力企业内部的异构数据源进行融合的综合查询机制,可以有效解决电力企业内部数据源的语法和语义异构问题,把来自于各部门的多个数据源进行整合,为数据分析系统提供统一的数据查询接口.实验表明,该机制能够有效消解异构数据源之间的语义冲突,为数据集成提供基础.

关键词:本体;异构数据;语义冲突;语义映射;查询机制

数据分析已成为企业管理的主要决策依据,决策支持系统进行数据分析时,都需要把来自于多个异构数据源的数据进行集成.随着电力企业信息化进程的不断推进,大量信息管理系统被应用于各种业务中,不同业务部门在建设这些业务系统的时候,往往由不同的公司开发,所采用的技术和软硬件平台也可能不同.这样就造成这些系统间的异构数据源很难共享,而且相互间还可能存在各种语义冲突,影响数据的挖掘和分析.

本体被广泛应用于领域知识的建模,通常用于描述领域的概念及概念之间的关系,同时本体还具有语义推理能力,可以通过在本体层进行逻辑推理来发现领域概念之间的隐含关系,目前本体已被广泛应用于领域异构数据的集成,以解决这些系统的语义冲突[1-4].本体的概念最早来源于哲学,后来被引入人工智能领域.Gruber于1993年提出的“本体是概念模型的明确的规范说明”是目前被广泛认可的本体定义[5].该定义明确指出本体建立的目的是要给出领域概念的形式化描述,并对这些概念间的关系进行明确定义,类似于一个公共信息模型,以达成对领域概念的共同理解,这样可以从逻辑上解决领域数据的语义异构问题.因此,本体可作为信息集成中的通用语义模型[6].

在利用本体对电力系统中的数据进行集成方面,已有一些研究.周伟等[7]提出利用本体消除来自不同信息系统数据的方法,但该方法未解决异构数据的问题.李佳珊、卢美莲等[8]提出了一种基于本体的异构传感器网络数据融合结构,针对异构传感器网络的数据融合互操作问题提出一种解决方法,该方法主要面向传感器网络的数据.宋伟[9]提出了一种面向智能电网的异构数据集成模型,结合XML和本体对电力异构数据进行集成,该方法的测试数据采用的是IEC61970等电力行业理论信息模型中的数据,在实际应用中缺乏实例支撑.

本文在上述研究的基础上,以电力企业主网、配网等实际运行信息系统中数据为实验对象,针对电力企业的实际异构数据查询需求,提出了一种利用本体技术对电力企业内部的异构数据源进行融合的综合查询机制,可以有效解决电力企业内部数据源的语法和语义异构问题,把来自于各部门的多个数据源进行整合,为数据分析系统提供统一的数据查询接口.

1 电力系统数据语义冲突类型

现实世界中的对象在描述方式、结构和内容上的不同造成的语义不一致性称为语义冲突[7].钟将等[10]总结了电力数据中可能遇到的语义冲突包括物理冲突、表冲突、字段冲突、记录冲突等4类,分别描述如下:

1)物理冲突指数据源的存储格式不同引起的冲突.如非结构数据与结构化数据的冲突,例如SCADA系统的数据是采用TXT格式存储的非结构化数据,电网模型数据是XML格式的半结构化数据,主网、配网等系统的数据是存储于关系数据库中的结构化数据.

2)表冲突是指相同的表名在不同的数据库中表示2个不同的实体.例如,Location表在主网和配网中都有,但它们只有61个共同的字段,主网的Location表中有125个字段是配网中没有的,而配网的Location表中,有91个字段是主网中没有的.

3)字段冲突是最常见的冲突.字段冲突可进一步细分为命名冲突、类型冲突、长度冲突、精度冲突、单位冲突、表达方式冲突.命名冲突指相同的字段符号名不同、或者符号名相同的字段实际表达不同的属性;类型冲突指相同字段在不同表中采用不同的数据类型;长度冲突指相同字段在不同表中的数据长度不一致;精度冲突指不同表中的相同字段采用不同数据精度的字段;单位冲突指相同字段在不同表中具有不同的计量单位;表达方式冲突指相同字段表示不一致,如有的采用英文缩写,有的采用汉语拼音缩写等.

例如,主网和配网中都有的asset表,但“施工单位”的字段名(英文)在2个表中不同,分别为YDTF_SGDW、YDPS_SGDW,而且在配网的asset表中,该字段出现了2次,长度一个为50,一个为80.

4)记录冲突指描述同一对象的数据记录在不同的系统中因所采用的计量单位不同引起的数值不一致.

除此之外,配网中的字段名,很多是汉语拼音的缩写,但在主网中,这些字段是用不同的名字表示的,充分说明语义冲突的普遍存在,如果没有综合查询器,会以为查出来的东西不是同一个字段的值.比如,现在需要统计电力系统资产的数据,那主网和配网的数据应该能够集成,也就是放在一起统计,由于存在语义冲突,各自统计得到的数据有可能是不准确的,也就是有些资产可能被重复统计,也有些资产可能会被漏统计.

2 本体构建

为了消解不同数据源之间存在的语义冲突,需要构建局部本体,在此基础上建立全局本体,通过局部本体与全局本体之间的映射消解语义冲突.本体的自动构建是一个研究难点,目前相对成熟的本体自动构建方式是利用关系数据库逆向工程[11],通过预先定义的映射规则,可以从关系数据库、XML文档或Excel表等异构数据源中自动获取对象及其属性的语义结构,在此基础上自动构建本体.该方法已得到很多研究人员的关注,并形成了一些形式化方法[12].本文采用翟保荣、钟志农等[13]提出的方法从关系数据库中构建OWL本体.

根据该方法构建本体:电网项目管理数据库中表PS_Project与其他几个表之间的数据关系,在构建出来的OWL本体中,类PS_Project及其子类如图1所示.

3 基于本体的语义映射与冲突消解

3.1 语义冲突检测与消解框架

在构建局部本体后,为获得全局视图,需要构建全局本体,通过建立全局本体到各局部本体之间的语义映射,就可以进行语义冲突的发现与处理.其框架如图2所示.

在图2中,来自于不同数据源的数据被分别构建成多个局部本体,这些局部本体中包含了对应数据源的表、列等信息的映射.冲突检测机制根据本体之间的映射关系发现局部本体之间的语义冲突,冲突消解机制通过添加局部本体与全局本体之间的映射来消解该冲突.例如,局部本体中的概念C1,C2,…,Cn是存在语义冲突的相同概念,则在全局本体中,可以创建一个公共的概念Cg,并在映射表中建立Cg与C1,C2,…,Cn之间的映射,如表1所示.

表1 全局本体与局部本体之间的概念映射

3.2 语义冲突的形式化描述

数据的语义冲突主要有物理冲突、表冲突、字段冲突和记录冲突,物理冲突的解决方法一般采用格式转换来解决.其余3种冲突对应为本体语义模型中的概念冲突、属性(或关系)冲突和实例冲突.可形式化描述如下:

1)概念冲突:

式中,c1、c2为来自不同本体O1、O2的概念,tag为该概念的标签,C_mapping是概念映射函数,可以判断不同本体中的2个概念是否匹配.

2)属性冲突:

式中,a1、a2为来自不同概念C1,C2的属性,tag为该属性的标签,A_mapping是属性映射函数,可以判断不同概念中的2个属性是否匹配.A_mapping又可定义如下:

其中,range为属性的值域,length为属性的长度,code为属性的内部代码(英文字段名).

3)实例冲突:

式中,ai,aj为来自不同概念C1、C2的对应属性,在主键属性值相同的情况下,存在非主键的属性值不一样,则这2个实例存在冲突.

3.3 本体映射

本文中,本体映射算法采用基于对2个本体间的名称(className)、属性(attribute)以及属性类型(range)间的相似度进行评估从而实现全局本体到局部本体的映射.本体映射中的一个重要步骤是检测2个本体中的相似概念,以便为合并或者映射提供可能的作用点.这里我们仅介绍概念映射的方法.

整体相似度S的计算公式可以表示为:

其中,Sn、Sα和Sr分别表示概念的名称、属性及属性类型3个维度的相似度,α、β、γ分别表示三者的权重.

4 基于本体的异构数据综合查询机制

4.1 异构数据综合查询机制框架

设计综合数据查询器的目标,就是为用户提供统一的查询界面,使用户不必考虑底层数据源结构等各方面的问题,也就是说底层数据库对于用户来说是透明的.在此基础上用户就好像在操作一个数据源.通过本体将各个数据源的数据用一种统一的数据模式进行描述,屏蔽数据源数据模式和语义的差异,从而实现数据的综合查询.利用本体对语义描述的优势,通过构建语义映射关系设计语义冲突检测和消解机制,从而解决电力系统数据集成中的语义异构问题,其体系结构如图4所示.

该查询框架由数据源层、中间层和应用层组成.应用层一般是用户接口,如浏览器等.应用层接收到用户的查询请求后,交给中间层.在本体的支持下,进行查询分解、语义冲突检测及消解后,由查询执行引擎将分解到不同数据源上的查询要求提交到数据源层.数据层由不同来源的异构数据构成,分解后的查询结果通过包装器包装后,提交给位于中间层的查询结果合成引擎进行处理,得到合成后的查询结果,最终通过后应用层返回给用户.

4.2 结果演示

为验证该查询机制,我们设计了一个综合查询器如图4所示.

可以看到,在这个界面中主要包含3部分界面:数据库范围选择、查询指令的输入部分、查询结果列表.

同时为了满足高级用户的查询需求,同时提供了一个更自由、更简洁的查询界面,支持直接以原始SQL语句对数据库的数据进行操作,完整支持SQL语句,并且对用户输入的SQL语句不加以任何干扰.例如,当勾选图5中选项时,得到图6的查询结果.

从图6可知,查询的语句中,只有asset在2个数据库的本体中的结果一致,所以只有合并asset了.

5 结语

本文提出了一种基于本体的电力系统异构数据查询机制.该机制通过从不同的异构数据源中构建领域局部本体,并在此基础上建立全局本体.通过局部本体到全局本体的语义映射,消除来自不同数据源的语义冲突.最后设计并实现了该机制,为电力企业提供了一个统一的数据查询接口.实验结果表明,该方法是可行的.

参考文献:

[1]BOURY-BRISSET A C.Ontology-based approach for information fusion[C]//Proceedings of the Sixth International Conference of Information Fusion.IEEE,2003,1:522-529.

[2]周刚,郭建胜.基于本体的异构数据集成系统分析与设计[J].计算机工程,2007,33(19):273-275.

[3]于琦,周勇.一种基于本体的异构数据源模式集成[J].计算机技术与发展,2008,18(2):35-36.

[4]李星毅,高文浩,施化吉.基于本体的异构数据集成方法[J].计算机工程与设计,2009,30(8):1931-1934.

[5]GRUBER T.A translation approach to portable ontology speci fications[J].Knowledge Acquisition,1993,5(2):199-220.

[6]CARBONELL J G,SIEKMANN J.Intelligent information integrationforthe semantic Web[J].Springer Science,2005(10):214-220.

[7]周伟,基于本体的电力系统中数据集成方法的研究[D].保定:华北电力大学,2012:1-28.

[8]李佳珊,卢美莲,一种基于本体的异构传感器网络数据融合结构[EB/OL].[2013-10-10]http://www.paper.edu.cn.

[9]宋伟,面向智能电网的异构数据集成方法研究与应用[D].保定:华北电力大学,2011:1-16.

[10]钟将,宋娟.基于本体的异构数据集成框架[J].计算机程.2011,37(14):44-46.

[11]ASTROVA I.Reverse engineering of relational databases to ontologies[C]//In:Proc of the 1st European Semantic Web Symposium1Berlin.Springer-Verlag,2004:327-341.

[12]瞿裕忠,胡伟,郑东栋,等.关系数据库模式和本体间映射的研究综述[J].计算机研究与发展,2008,45(2):300-309

[13]翟保荣,钟志农.一种基于关系数据库提取OWL本体的方法[J].计算机与信息技术,2011(10):1-4.

(责任编辑 庄红林)

中图分类号:TP311

文献标志码:A

文章编号:1672-8513(2014)06-0451-05

收稿日期:2014-01-19.

基金项目:国家自然科学基金(61263043);云南省自然科学基金(2011FB020);云南省教育厅科学研究基金(2011Z020,2013Z049);云南省电力研究院科技项目(K-YDSY-K13019);云南省软件工程重点实验室科研基金(2012SE303);云南大学软件学院学科建设基金(2012SE103).

作者简介:张德海(1977-),男,博士,副教授.主要研究方向:知识工程、数据工程与大数据.

An ontology based heterogeneous data query mechanism for power system

ZHANG De-hai1,ZHANG De-gang2,LUO Xue-li2,LIU Qing1,LI Jin1
(1.School of Software,Yunnan University,Kunmin 650091,China;2.The Electric Power Research Institute,Yunnan Electric Power Test and Research Institute(Group)Co.,Ltd.Kunming 650217,China)

Abstract:In electricity enterprises,there are many heterogeneous databases developed in different times or by different sectors,and the data sources of these systems are independent of each other and difficult to be exchanged,shared or integratedbetween systems because of semantic conflicts.This paper presents a query mechanism for integrating heterogeneous data sources based on the ontological theory within the power enterprises.It provides a unified data query interface for decision-making.Experiments show that this mechanisms can effectively solve semantic conflicts between heterogeneous data sources,and improve the accuracy of the data analysis.

Keywords:ontology;heterogeneous data;semantic conflicts;semantic mapping;query mechanism

猜你喜欢
本体
基于MFI4OR标准的本体融合模型研究
眼睛是“本体”
多重分割框架下的两类新本体学习算法*
领域本体的查询扩展和检索研究
使用LDA构建预警情报的本体映射依据研究
一种基于社会选择的本体聚类与合并机制
一种基于社会选择理论的本体聚集方法
基于本体的机械产品工艺知识表示
本体在产品设计知识管理中的应用研究
立足音乐本体 开启音乐思维