高俊涛 侯 宁
(东北石油大学计算机与信息技术学院 大庆 163318)
现阶段,各个油田企业布署和运行了大量信息系统,各个系统之间独立开发与发布,形成众多的信息孤岛。由于缺少对数据资源的统一标准描述和信息服务,导致各系统间协同难、数据开发应用效率低,无法形成高效的公共数据服务产品[1]。
为屏蔽这些信息孤岛,各个油田开始进行数据集成,将各个独立开发的信息系统相互关联起来,使得用户可以透明的访问这些数据。而数据集成中数据映射是重要的一个步骤[2]。目前许多数据集成的方法用于解决数据结构上的异构,却没有较好的解决数据语义上的异构,这一直以来也都是一个难点[3]。
文献[4]提出了数据元在国内外标准化信息术语中的作用,说明了数据元在数据集成中的重要性。文献[5]为了表达数据元的语义,用了语义树,采取了数据元表达数据模型的语义。但是通过语义树的方式过于复杂,提高了前期工作的门槛。文献[6]以数据元为中介实现数据映射,采取数据元的方法对数据映射。
因此正文引出数据模型的映射,用数据元关键字的方式,用数据模型里的数据项与数据元与配对,然后对数据模型中数据项用数据元表达。通过关键字描述数据元的语义,避免构建语义树、本体等带来的麻烦,降低了前期工作的门槛和映射的复杂性。通过两个模型中的数据项所配对的数据元的联系,构建两个数据模型中的数据项的匹配,从而构建两个模型的映射,以更好地做数据服务。
基本的、不可分割的数据单元是数据元,它用属性表达其标识、定义、允许值和表示[7]。
数据元语义可以看作由以下三个部分组成[8]。
对象词:它具有清晰的概念,可以定义其属性和行为,是对现实世界事物的抽象描述,可以作为面向对象编程中的对象来理解,在数据模型中类似于实体名称。例如:尾管、生产井、水管、设备、管柱。
特性词:特性词表示对对象的一种性质描述,它在数据模型中类似于实体属性,例如:长度、深度、外径、内径、尺寸、压力、产量。
限定词:它主要包含对象词的限定词和特性词的限定词,它是用来修饰对象词和特性词的,它可以有零个。如:悬挂、回接、下入、年。
设数据元关键字表为K:
其中pty 为特性词,obj 为对象词,Qobj 为对象词的限定词集合,Qpty 为特性词的限定词集合,C 为约束条件中的常数值集合。
进一步简化:把C 中的常数值作为相应的限定词,划分到Qobj与Qpty中,得出:
通过以上三个部分实现对数据元语义的表达。表1展示了数据元语义的组成成分。
表1 数据元的组成成分
数据特征的抽象表示是数据模型,包含数据结构、数据约束和数据操作[9],因为数据操作是在数据库上操作,所以这里不探讨它。结合它的特征,用数据模型里的表和数据项表达数据模型。模型里表的表达基于数据项的表达。根据上述的表述,数据元作为数据的规范,可以用来描述数据项。
这里先构建数据项与数据元的配对表达数据项的语义。
目前有许多相似度算法,广义上大体分成基于序列的相似度度量、基于集合的相似度度量[10]。编辑距离算法是基于序列的相似度度量,它具有可行性高效果好的优点[11],这里采用编辑距离算法度量数据项和数据元,它是基于字面进行相似度度量。
设编辑距离算法用dsim(x,y)表达,用来计算x转变到y 的最低成本。字符串转换通过以下方式实现,删去、插入和替换字符串。例如,将x=“累积油产量”变为字符串y=“累积地层油产量”的代价是dsim(x,y)=2,需要执行的操作依次是在“累积”后面插入一个字符“地”,在“累积地”后面插入一个字符“层”。
编辑距离直观上反映的是人们犯得一些编辑错误,比如插入了一个额外的字符(如“累积油产量”少写了一个“产”字,变成了“累积油量”),或者两个字符顺序反了(如“累积油产量”错写成了“积累油产量”)等。编辑距离dsim(x,y)可用以下公式转为相像度度量函数sim(x,y):
例如,“累积油产量”转换为“累积地层油产量”的相似度度量结果为
下面以一个数据项“尾管悬挂下深”为例,与数据元字典里的数据元进行相似度度量,表2 中得到相像度较高的数据元配对结果。
表2 数据项与数据元相像度结果[12]
从以上结果得知,匹配的数据元中“尾管悬挂下入深度”相似度较高,“下入深度”的缩写是“下深”,确实能表达数据项“尾管悬挂下深”的语义。因此,数据项“尾管悬挂下深”与数据元“尾管悬挂下入深度”匹配。
通过以上相似度度量方法,可以得出与数据模型中数据项匹配的数据元。当匹配数据元不唯一时,按相似度进行排序,并进行人工确认。由于表名、业务域、主键字段名中隐含数据项的上下文语义信息,这些信息可以作为数据元关键匹配的依据。
在上文定义了模型之后,即通过数据元对源模型和目标模型都完成了数据项的语义表达后,就可以进行数据模型映射。在目标数据模型中指定一个目标数据表,从源数据模型找出与此表对应的多个源表,并建立从源表到目标表的各字段的对应关系。
不同的实体间的某属性可以使用同个数据元表达,同实体中的属性可以逐个与数据元配对,见图1。
图1 数据元与数据模型关系图
针对目标表的每个数据项匹配如下:
DE1(key11,key12,…key1m)DE2(key21,key22,…key2n),keyij 是数据元DEi 的关键字。当相似度SIM12=1时,两个数据项对应的数据元名称相等。如果数据元名称不相等,则按以下方法:
其中,DSIM(DE1,DE1)为双方数据元名称的编辑距离算法相像度。而KSIM是两个数据元的关键字集合之间的项集相像度:KSIM=交集项个数/并集项个数,得出的结果是杰卡德系数,它是双方集合A和B的交集元素在并集A和B中的比[13],用符号J(A,B)表示,用下面的公式表达:
通过不同的系数值选取和大量的实验,确定系数WD 和WK 的值,其中系数WD 和WK 的和为1。WD、WK 分别为两个相似度的权重,对系数WD 和WK 按照表的取值进行计算,发现表3 在A=0.3,b=0.7的时候效果最好。
表3 系数选取
为了构建两个模型的映射,用数据元作为中介,用双方数据元匹配。不能完全配对,但有较高相像度的,作为可能映射[14]。这里以数据元“尾管悬挂下入深度”为例,按照关键词分类,对象词是“尾管”,它的限定词是“悬挂”,特性词是“深度”,它的限定词是“下入”[15],在表4 中得出数据元字典中匹配到的前几个数据元以及相似度结果。
表4 数据元与数据元相像度结果
通过上表得出“试油”数据模型中数据元“尾管悬挂下入深度”与“试油试采”数据模型中数据元“尾管悬挂下入深度”相似度为1,直接匹配。因此,它们所对应的数据项“尾管悬挂下深”和“尾管悬挂下入深度”也能直接匹配。这两个数据项所对应的表“地质设计钻井及套管基础数据表”和“套管基础数据表”也匹配。
通过数据元、数据项和实体对两个模型表达之后,为数据映射字典打下了基础,基于XML 的映射字典的设计,用于表达两个模型的映射联系[16]。
1)xml:表示xml文件版本号和编码。
2)MapDocument:表示映射字典的根节点,此节点有一个子节点Mapping表示映射关系[17]。
3)Mapping:表示映射关系节点,此节点有三个属性,user表示公司,name 表示映射名称,type 表示映射类型,主要根据平台使用者进行划分。此节点有三个子节点,DRDModel,RDLModel,Entities。
4)DRDModel:表示源数据模型。
5)RDLModel:表示目标数据模型。
6)Entities:表示实体,RDL_Entity 是它的一个子节点。
7)RDL_Entity:表示目标数据模型实体,name、code 是它的两个属性,分别表示实体名、实体代码。Source,Row是它的两个子节点。
8)Source:表示数据来源(源数据模型),此节点有一个子节点DM_Entity。
9)DM_Entity:表示源数据模型,有两个属性name表示实体名,code表示实体代码[18]。
10)Row:表示行,Attribute是它的一个子节点。
11)Attribute:表示属性,其中它有6 个属性,RDL_name 表示目标数据模型属性。RDL_code 表示目标数据模型属性代码,element_name 表示数据元名称,element_code 表示数据元代码,DM_name表示源数据模型属性,DM_code表示源数据模型属性代码[19]。
映射字典结构如下所示。
<?xml version=“”encoding=“”?>
本文通过数据元来表达数据模型中的数据项,并通过关键词来表达数据元的语义。利用编辑距离算法和杰卡德算法的思想,对数据项与数据元进行配对,对数据元与数据元之间的相像性进行配对,间接定位数据项的语义映射联系,从而得出数据表的映射联系。最终为表达异构模型的映射引出一个映射文件。将中国石油企业的数据元为试验数据,对中石油数据模型中的数据项进行了标准化,以保证研究的实用性。