基于公共数据模型的自适应数据格式转换机制

2014-09-03 08:22施荣荣
关键词:代理服务数据格式数据源

施荣荣, 汪 敏, 陈 荣

(中国电子科技集团公司 第二十八研究所,江苏 南京 210007)

0 引言

随着计算机和电子技术的发展,发展数字化、信息化以及网络化的军事电子信息系统成为世界军事发展潮流。信息化和网络化成为军队转型建设的战略,军事任务多样化、电子信息系统规模指数性增长和信息系统技术体制升级换代对军事电子信息系统的一体化提出了新的要求[1]。

军事电子信息系统作为庞大的数据和信息资源库,随着越来越多数据源的出现,异构数据的形式和类别层出不穷。而系统的一体化要求各异构系统信息按需协同、数据敏捷交互和知识实时共享。面对众多复杂异构的数据源,进行数据交互和数据格式转换成为一个核心的问题。在异构数据格式转换中加入公共数据模型是解决该问题的一个途径。

当前,已有一些关于数据格式转换机制的研究。文献[2-3]采用语义和本体技术研究数据格式转换机制,并构建相应的体系结构和关键技术;文献[4]介绍了一种通用的非结构化数据格式转换方法,以规则库为基础,对非结构化数据进行格式描述以及转换规则的描述;文献[5]以XML为技术基础和公共模型,研究关系型数据库之间的转换机制。

上述关于数据格式转换机制的研究主要集中在语法、语义研究和XML技术研究。本文在已有研究的基础上,提出一种新的数据格式转换机制,即基于公共数据模型的自适应数据格式转换机 制 (Common Data Model Based Adaptive Transition of Data form,简称CDMATD)。

1 CDMATD机制的应用模型

服务化指挥控制系统是面向网络环境下一体化联合作战的信息系统,是对系统分析研究和对未来指挥控制信息系统设想规划的基础上所建立的新型的软件体系结构,其风格是栅格网络环境下面向服务的体系结构[6]。其主要特点如下:

(1)系统间通过标准协议进行互操作,如服务消息协议、服务注册协议、服务描述协议和服务发现协议等。

(2)每个计算单元都是一个服务,在服务描述协议文件中进行统一描述,并在构建期通过服务注册中心完成统一注册。

(3)服务查找、检索和绑定在运行期通过服务注册中心来完成。

当前,服务化指挥控制系统与其他异构指挥控制系统共存,需要解决系统间数据交互和格式转换问题。

图1描述了自适应数据格式转换机制应用到军事电子信息系统的应用模型和场景,具体包含如下2种情形。

图1 自适应数据格式转换机制的应用模型

(1)服务化指挥控制系统与开放式指挥控制系统的交互。开放式指挥控制系统遵循的技术体制以面向服务、面向消息和面向构件为主,这些技术体制遵循统一规范的消息或协议格式,具有专门的组织进行定期修正和版本更新发布。服务化指挥控制系统与这种系统的交互前提,是将遵循统一规范的消息或协议格式统一用服务化技术描述,并构建虚拟的服务协议和服务发现等技术构件,继而两者之间通过统一的服务协议和服务发现构件进行交互,交互难度相对较小。

(2)服务化指挥控制系统与非开放式指挥控制系统的交互。非开放式指挥控制系统遵循的技术体制具有保密和专用性的特点,为了保证传输效率和安全性,一般采用专门的报文格式和加密方式来描述信息和交互数据,这种非开放式的指挥控制系统普遍存在于综合电子信息系统中。服务化指挥控制系统与这种系统的交互前提,是搭建专用的匹配器,适配器以信息互操作服务为核心技术,并构建转换器来保证信息交互机制的全面覆盖性。这种交互方式难度相对较大但又是当前急需完成的技术,本文提出的自适应数据格式转换机制用于解决上述互操作服务的问题。

2 CDMATD机制的体系结构

本文中,CDMATD机制以公共数据模型(Common Data Model,简称CDM)为技术核心,采用XML技术[7],提取不同信息格式中共有的描述信息,将其设计为XML的标签信息;采用语义和本体技术,消除异构信息格式的语义差异,建立公共本体库,对于不同信息格式的专有数据描述,则会在CDM的基础上进行扩展。CDMATD机制的体系结构如图2所示。

图2 CDMATD机制的体系结构

由图2可知,CDMATD机制的体系结构主要由远程代理服务、转换器、公共数据模型及消息数据库组成。

(1)远程代理服务。远程代理服务为远程传输服务和CDMATD机制内部起到中介桥梁作用,对内屏蔽来自外部传输服务的格式转换请求,对外则屏蔽来自内部的接口,为了适应军事信息化系统的窄带传输环境,远程代理服务维护了一个用于低带宽通道的输入输出信息缓冲队列,摒除了CDMATD内外部信息输入输出速率的误差。

(2)转换器。CDMATD机制一般会初始配备多个专用转换器。CDMATD机制需要包括信息元数据和用于选择正确转换器的知识信息来保证转换器的正确选择,当转换器的通道被打开时,转换器被激活,转换器包含编码器、解码器、协议和通信等功能部件。

(3)公共数据模型。转换器处理的传输服务中不同数据的定义、表示和存储形式不统一,给信息处理、信息转换和信息统计分析带来了巨大障碍。因此设计一种CDM,旨在解决不同数据源的异构问题,重点消除异构数据源的语法异构和语义冲突,简化和规范转换器的编码和解码过程。

(4)消息数据库。消息数据库充当数据缓存和知识自适配功能,其中缓存了特定传输服务的信息格式所对应的配置信息。CDMATD机制为该消息数据库的记录设定清除周期,超过该清除周期的相关记录信息会被删除,当传输服务提出数据协议格式转换申请时,系统查询消息数据库,若有相关记录,则越过配置过程,直接启动并进入转换过程,否则,需要根据传输服务的配置需求自定义配置信息,根据配置启动相关线程,此配置记录会被立即缓冲到消息数据库中。

3 CDMATD机制的若干关键点

3.1 公共数据模型

本文提出的CDM是采用XML作为元语言定义的RDF模型。由于XML可表达各种类型的数据,其自描述性和扩展性使数据易于交换和处理,实现数据源的“即插即用”,所以选择XML作为结构层上的信息模型。

在语义层面上,由于CDM的核心需求是要实现系统间语义层面的互操作,完成对各个异构数据源的语义描述和处理,无需实现非常强的推理功能,因此选择RDF(S)来表示语义层次上的信息模型[8]。

3.1.1 CDM构建的体系结构

在构建体系结构时,根据源数据模型的异构层级关系将体系结构分为数据层、语法层、结构层和语义层4个层次的构建过程,并由异构数据源(传输服务源)、XML模式抽取、局部映射、全局映射等部件组成,具体如图3所示。

图3 CDM构建的体系结构

(1)异构数据源。主要包括结构化数据和半结构化数据的数据源。对于非结构化数据,由于其结构的不稳定性,全部交由数据源本地组件的索引和存储机制实现。

(2)XML模式抽取。从关系数据源和XML数据源中抽取统一的XML Schema模式。

(3)局部映射。首先在抽取数据源模式信息的基础上半自动构建局部本体,这是各个异构数据源在概念层次上的局部视图,然后建立XML Schema和局部本体之间词汇的映射关系。

(4)全局映射。为解决局部本体间的语义异构性问题,首先将局部本体合并成为全局本体,同时满足其彼此间信息交互需求,然后构建全局本体与局部本体间的映射关系。

3.1.2 数据模式抽取

(1)数据库模式抽取。数据库模式存储在数据字典中,数据库的全局逻辑结构可以通过实体-关系(ER)图表示,在ER图中,每个实体会被转化为一个数据表,实体的属性被转化为数据表的字段。从关系模式到XML Schema的映射操作步骤如下:将关系数据库(relational database,简称RDB)名称映射成为XML Schema的根元素,根元素的数据类型为复杂类型;将RDB中表映射成为XML Schema的元素,元素数据类型为复杂类型;将RDB表中字段映射成为XML Schema元素的属性;将RDB的数据类型映射成为XML Schema的数据类型。

(2)XML数据模式抽取。XML中可以用DTD或者XML Schema 2种方式来描述元数据,统一采用XML Schema描述元数据。XML Scheme文件可以通过直接转化DTD文件获得,也可以通过文档对象模型 (Document Object Model,简称DOM)遍历XML文件获得。

3.1.3 局部本体及其映射

(1)XML Schema到RDF Schema的映射和转换。XML Schema可以按照如下规则转换为RDF Schema:XML Schema中的attribute映射为RDF Schema中的property,XML Schema中的基本类型映射为RDF Schema中的property,XML Schema中的complexType映射为RDF Schema中的class。

(2)RDF Schema中类的组合和继承。XML Schema中的复杂类型节点可以包含节点和属性,属于组合类型。若嵌套节点的外层与内层节点均属复杂类型,则此类结点都将被映射为RDF Schema中的class,而这些class之间可能存在组合或继承的关系,可使用语义知识库及语义关系推理器对class间组合或继承关系进行处理。本文采用rdfx:include语法来表达组合关系,采用rdf:subClassof表达继承关系,扩展 RDF原语[9]。

3.1.4 全局本体及其映射

(1)RDF映射模式。语义映射是指将各个局部本体中的概念依据语义关系关联起来。依据语义映射多样性,语义映射的处理机实现对局部本体的映射,映射后的局部本体合并为全局本体,其信息模型构成了CDM。

(2)全局本体的构建。先考虑语义关系中的等价关系,将多个等价类直接归并为全局本体中的一个类,等价类的等价属性直接归并为全局本体中的一个属性;再考虑不是等价关系的类和属性,分别生成全局本体中独立的类和属性,然后依据局部本体中的语义关系建立它们在全局本体中的语义关系;直接将其余无语义映射关系的类、属性复制到全局本体上[10]。

3.2 CDMATD机制的过程模型

3.2.1 启动过程

(1)远程代理服务读取配置文件信息。配置文件中定义了系统、信息格式、协议、通信传输和所需资源的信息。

(2)创建转换器线程。远程代理服务为每一个在配置文件中定义的外部系统或者信息格式创建一个转换器线程。

(3)转换器自配置。每个转换器会使用统一的方式为每个可配置的组件(编码器、解码器、协议、通信接口等)创建实例,且当编码器实例已经创建后,需要另外为其创建一个读线程。

(4)注册服务。远程代理服务注册由外部系统提供的服务,并且通过注册服务提供的方法来订阅确切的信息格式。

3.2.2 信息传输

(1)配置信息存储。服务或数据信息来自于外界需要进行数据协议格式转换的应用系统,外部接口解析该传输服务的数据信息,并通过信息仓库即消息数据库的接口将该消息的配置信息存储下来。

(2)消息传输。CDMATD外部接口类向远程代理发出数据协议转换通知,并将消息传输到远程代理服务中。

(3)信息分发。每一个转换器都会维护一个信息队列,该信息队列指针统一存储在信息仓库中,信息将由远程代理服务根据队列指针被路由到相应的转换器,转换器按照一定优先策略处理暂留在信息队列中的信息,并将转换完毕的信息通过通信网络分发到外部系统中。

3.2.3 信息接收

(1)转换器接收信息并存储。CDMATD的转换器通过通信接口组件接收来自通信网络中外部系统的信息数据,然后创建新的消息对象,并通过CDMATD服务接口使用信息仓库类将信息存储到信息数据库中。

(2)消息解码。转换器服务解码消息,然后转换为CDM并设置消息对象中的相关属性,然后通过回调函数调用远程代理服务的API接口,将信息通知给远程代理服务。CDMATD服务接口将经远程代理服务处理后的消息解码为目标传输服务等同的消息格式。

(3)信息发送。来自外部系统的源信息被转换为目的传输服务信息,并最终发送到传输服务中。

4 应用分析

CDMATD机制以及CDM的构建机制能够很好地应用于指挥信息系统的核心平台。该平台的核心目标是以SOA为核心架构技术、以服务访问和消息传输为能力手段、以企业服务总线(ESB)为调度和路由中心,屏蔽上层指挥信息分系统应用与底层环境的直接联通。在底层,架设的服务器包括文件服务器、数据库服务器、Web服务器和消息服务器,分别只能处理非结构化数据、结构化数据(关系型)、半结构化数据和对象型数据,在核心平台中构建相应功能模块,利用CDMATD机制和CDM表示技术,完成异构数据源数据与CDM的相互映射和转换。指挥信息系统核心平台的基础架构如图4所示。

图4 指挥信息系统核心平台的基础架构

图4 中核心平台能够接收并处理来自指挥信息系统用户应用端的异构请求,包括服务访问SOAP/HTTP、数据访问JDBC、消息访问JMS、文件管理FTP等请求信息,这些异构信息由服务消息总线的中介服务接收后,经过中介服务的CDMATD机制和数据格式解析,统一以CDM格式在服务总线中流转,请求信息统一处理完毕,又由中介服务进行格式转换,转换成相应领域的信息,并最终发往相应领域服务器。

5 结束语

在当前信息技术快速发展的形势下,未来指挥控制信息系统可能会长期存在多种技术体制,这就需要研究自适应的数据格式转换机制来实现多技术信息系统之间的数据交互和信息共享。本文在分析CDMATD机制应用模式的基础上,提出了CDMATD机制的体系结构,并且详细阐述了公共数据模型和CDMATD机制的过程模型,最终分析了未来指挥信息系统核心平台的应用场景,体现了本机制的实用性和理论可用性。其中,针对CDM的构建可以选择更好的构建结构和基础技术;如何将本文的数据格式转换机制应用到更多的领域,也是值得分析和讨论的。

[1]刘俊先,罗爱民,曾 熠,等.指挥信息系统综合集成理论与方法[J].火力与指挥控制,2008,33(8):1-7.

[2]王 政,胡文江.基于本体语义模型的数据格式转换技术研究[J].包头职业技术学院学报,2010,11(4):13-16.

[3]郝亚男,陈少飞,李天柱,等.基于语义的数据格式转换[J].计算机系统应用,2004,1(11):40-43.

[4]冯亚丽,张汝坤.基于规则库的非结构化数据格式转换技术研究[J].云南师范大学学报:自然科学版,2012,32(2):58-61.

[5]涂 平,朱晓铃,满 旺.基于XML的关系型数据库格式转换研究[J].微计算机信息,2010,26(9):91-93.

[6]黎 珂.指挥信息系统体系结构设计研究[J].通信技术,2012,45(8):44-49.

[7]袁 磊,张 浩,陆剑锋.面向领域知识的本体知识模型XML表示框架[J].计算机工程,2006,32(1):186-188.

[8]吕艳辉.RDF映射系统的设计与实现[J].计算机工程与应用,2012,48(20):87-90.

[9]马 雪,叶仲泉,李成好.一种非线性全局优化的单参数填充函数[J].合肥工业大学学报:自然科学版,2012,35(9):1289-1292.

[10]谷鹏花,杨 燕,王红军.一种基于数据关联的聚类集成方法[J].合肥工业大学学报:自然科学版,2013,36(1):59-62.

猜你喜欢
代理服务数据格式数据源
Web 大数据系统数据源选择*
农村“三资”代理服务浅析
基于不同网络数据源的期刊评价研究
网络安全与防火墙技术
世界首个可记录物体内部结构等复杂信息的3D打印数据格式问世
基于真值发现的冲突数据源质量评价算法
论子函数在C语言数据格式输出中的应用
分布式异构数据源标准化查询设计与实现
基于ArcGIS的规划数据格式转换研究