基于地理信息系统的轨道交通数据集成方法研究

2016-06-24 14:38:31胥昊
都市快轨交通 2016年2期
关键词:中间件数据源异构

胥昊

基于地理信息系统的轨道交通数据集成方法研究

胥昊

(中国铁道科学研究院通信信号研究所北京100081)

针对城市轨道交通安全生产信息系统,以其中的地理信息系统作为前端的主应用,分析系统内异构数据集成方法的研究现状。面向结构化数据提出基于XML中间件的数据集成方法;而对于非结构化数据则提出基于信息提取和XML封装的集成方法,从而实现在地理信息系统平台中实时展示的数据直接通过中间件进行调用,为异构数据集成后的应用,特别是数据挖掘应用提供可靠的保障。

城市轨道交通;安全生产系统;地理信息系统;异构数据;XML中间件

1 城市轨道交通安全生产信息系统

随着科学技术的发展,城市轨道交通系统中各专业和运输生产中的新技术、新装备被广泛应用。城市轨道交通各专业工种的生产组织、经营管理、安全管理、应急指挥等也因此不断地变化,城市轨道交通信息化已成为推动城市轨道交通提升生产经营管理水平最重要、最核心的手段。然而由于各专业系统自身的信息化发展程度不平衡,在专业内形成垂直化管理,从而相对独立、自成体系,另外各专业系统间信息资源共享程度不高,没有形成全局高度集中统一的信息平台[1-2],在一定程度上制约了“大运输”的协调发展与管理创新,也不利于各类突发事件的应急集中指挥。

为更好地发挥信息资源的作用,提高信息化保障水平,科学利用、扩充信息网络,合理整合信息资源,形成全局网络和信息资源共享,实现关键作业环节全过程网上实时监控、非正常情况和事故抢险全过程网上指挥、作业标准执行和效率效益指标全面分析等功能,实时监控安全生产重要信息和信息处理追踪,就必须加快开展信息资源整合,建成覆盖全局、功能完善、高度共享的信息共享平台[3],充分利用既有的计算机网络安全平台功能,综合采用网络隔离、多层交换、虚拟局域网、现代密码、身份识别、网络防火墙、入侵诊断和病毒防护等技术,确保城市轨道交通安全生产信息系统的可靠性、可用性、保密性、完整性、真实性和可控性。

在系统顶层应用中,将采用先进的地理信息系统,将城市轨道交通基础数据的空间信息与其相关属性信息结合,为城市轨道交通车、机、工、电、辆等各专业部门信息系统提供GIS(地理信息系统)数据服务和GIS功能服务,实现城市轨道交通基础地理信息检索、统计、分析等功能[4]。

2 数据集成概述

所谓数据集成是指针对结构不同、用途不同、特征及性质不同的数据,通过一定的技术手段实现在物理上的集中或逻辑上的集中,从而为企业提供全面数据融合的过程或者系统。数据集成系统的核心任务是对各种应用系统的信息进行标准化或者规范化[5-6]处理。集成的原则是既要保持数据被集成后的副本与源数据的一致性,提高信息共享率,又要让应用层无需关心对异构数据源数据调用的具体方法。实现这些功能的系统称作数据集成系统,它为用户提供统一的数据源接口协议,执行应用系统对数据源的访问请求。只有解决数据集成这个阶段,才能为其他诸如信息查询、信息共享和挖掘应用等服务提供基础。

2.1 数据集成的难点

1)异构性:在数据集成系统中所要集成的数据源异构性非常强。从数据类型、数值的表示方法、数据的取值范围、数据语义等方面看,各个数据源均有不同的地方,这种多方位的异构性给集成工作带来很大的困难[7]。

2)分布性:根据前文所述,城市轨道交通企业的管理越来越倾向于跨地区、跨行业,由此而引发的信息系统必然也是分布式的,这种分布式不单指地理上的分布,在网络拓扑上也存在着分布。数据源和数据存储点分布在网络拓扑的不同结点上,对数据传输网络的性能提出了较高的要求,冲突和数据副本的一致性等问题也随之而来。

3)自治性:数据源系统本身有很强的自治性要求,使得在考虑系统集成的时候必须考虑保持原有系统的完整性。这个特点在城市轨道交通信息化系统中的表现尤为突出,例如瓦斯监控系统,根据国家规定,该系统必须自治,因此不能轻易地改变其系统内的体系结构和数据,这给数据集成系统的开放性和健壮性带来了极大的困难[8]。

2.2 城市轨道交通安全生产数据集成难点

1)各应用业务系统的历史数据量级非常大;

2)各应用业务系统之间数据库没有统一的数据接口和通信协议;

3)各应用业务系统不可以通过改变自身的设计来适应统一集成;

4)各类数据中的数据结构是异构的;

5)各数据库之间是独立的并且要求强自治性。

城市轨道交通生产企业所建立信息系统都是纵向独立的,而横向没有信息交换,比如作为城市轨道交通安全生产重要保障手段的列车运行状态信息系统、雨量监测系统、车辆智能轴温探测系统、车辆运行品质动态监测系统、车辆滚动轴承轨边故障声学诊断系统、车辆故障动态图像检测系统、车辆运行安全监控系统、客运超偏载检测监控系统、轨道衡计量检测系统、危险货物运输安全监控系统和城市轨道交通信息系统安全运行监控系统等安全避险系统中产生的数据以及相关设备产生大量的实时监测数据与实时控制参数,对生产流程的实时控制、安全生产、业务分析等具有重要意义[9]。实时数据的数据有效性除了与数据正确性相关之外,还与数据的实时性关系密切。数据需要在其有效期内被合理利用,对数据的存储和检索的实时性要求是非常严格的。因此对实时数据进行快速存储和处理的实时数据库系统应运而生。这种数据库是传统的实时系统和数据库系统相结合的产物,经过近年的快速发展,已经成为城市轨道交通企业分析信息化数据的基础工具,为提高企业管理水平、企业效益、安全生产、提升竞争力等提供了有力的支撑。

综上所述,异构数据集成面临着严峻挑战。较长一段时间以来,各个研究机构对集成问题提出了很多解决方案,但还是没有统一的方法一次性解决全部难题,这也是学界持续关注数据集成研究的主要原因[10-11]。另外由于受设计和硬件发展技术水平的制约,各个数据源的数据质量有较大差别,这也是数据源产生冲突的一大原因。因此,无论从应用的需求还是技术解决方案来看,集成系统的数据集成是一个值得研究的课题,必须建立具有开放性和集成性的运行支撑环境。

3 异构数据分析

鉴于数据存储格式的差异及传输协议的区别,城市轨道交通信息系统中的数据可以分成两类,一类是结构化数据,另一类是非结构化数据,也有部分研究者将数据分为三类,还有一类是半结构化数据,笔者采用两类的分法。结构化数据即行数据,存储在数据库里的表单内,可以用二维表结构逻辑表达实现的数据[12]。城市轨道交通信息化系统中涉及生产、安全和运营的数据大部分为结构化数据,例如救援列车分布专题数据、车辆运行专题数据、变电所分布专题数据、供电臂分布专题数据、馈线分布专题数据等都属于这类数据。

相对结构化数据,如果数据无法用数据库里的二维逻辑表来表现,则把这类数据称为非结构化数据。非结构化数据通常产生于管理信息系统中。在城市轨道交通中每天的生产调度记录、安全事故记录、设备维护管理记录等都属于这一类数据。随着城市轨道交通内管理系统的不断增多,需要处理的非结构化数据也迅速增长。由于历史原因,系统之间没有统一的规划,使得对非结构化数据的集成问题成为集成系统中的难点。

对于非结构化数据,关系数据库面对无法克服的困难,但有些关系数据库也有相应的解决办法,例如ORACLE数据库管理软件使用其BLOB类型的方式来存储非结构化的办公文档、文本、图片、各类报表、图像和音视频信息;用CLOB类型的方式直接存储文本数据。这种处理方式表面上看解决了关系数据库对于非结构化数据的管理,但在实际应用时,这样的存储方式会造成数据查询效率非常低。为了解决查询和检索的效率问题,有研究者提出了一种相对较为高效的方法,即全文检索技术。

半结构化数据和上面两种类别都不一样,它实质是结构化的数据,然而其特性是结构变化非常大,不能够简单的建立一个表和它对应,另外要了解数据的细节,也不能将数据简单地组织成一个文件,按照非结构化数据去处理。典型的HTML文档、XML文档、SGML文档、Web数据以及由异构数据集成而产生的数据等都是半结构化数据。

笔者为了满足地理信息系统数据发布平台实时性的要求,对城市轨道交通安全生产监测数据采用了一种综合集成模式(见表1)。在确保数据源的应用系统能够保持自身完整性、独立性的前提下,采用XML数据同步技术对数据进行复制,数据副本经XML封装后直接提交给统一视图的GIS数据发布平台发布,从而保证数据的实时性,同时将数据副本按照数据仓库技术的规范,根据应用层数据挖掘的需求进行标准化(离散化)后,按照数据主题存储至数据中心服务器,以备调用。这样既不影响数据源系统的自治性,也满足了城市轨道交通信息系统体系对数据进行统一集成的需求。

表1 城市轨道交通安全生产数据综合集成方式

4 基于XM L的数据集成方案

对于实时监测系统输出的结构化数据,采用基于XML技术的中间件进行集成[13]。由于更新频率的原因,实时结构化数据将无法直接从数据仓库中的数据主题调用,只能通过XML封装的中间件方式调用,同时将数据副本存储到关系数据库数据仓库的各个数据主题中,在保证调用效率的同时确保数据源头各系统能够独立运行、互不影响。

4.1 结构化数据集成

在实际城市轨道交通生产中,由于运营环境、赋存条件等各方面的情况不同,所需要监测的关键信息各不相同,因此在选择监测系统的设备时往往采用多厂商设备。因此要集成这些数据需知悉所有系统的通信协议,在中间件的设计上必须做相应的数据解析,虽然一次性工作量较大,但避免了后续开发的工作量。

基于对数据采集设备的标准化描述,可利用XML文件构建设备配置库,用于存储数据采集软件所需的设备信息。另外,开发采集函数库,每个数据采集设备将对应一个动态链接库,其内部所定义的函数名、所在路径、名称均在设备配置库中指定。

中间件在软件设计上分为3个模块,分别是接口模块、驱动模块和核心模块。接口模块和驱动模块要根据各个监控系统的接口规范和驱动程序编写,并建立设备配置库和采集函数库。核心处理模块按照设置的频率从监控子系统中取得数据副本;数据接口负责接收来自应用层的数据抽取命令,按照子系统的规范映射为子系统的命令,并将采集到的数据副本返回给应用层(见图1)。

采用中间件技术后,应用层系统设计时不再考虑底层传感系统的技术细节,而只需提供调用数据的命令格式,这样提高了软件系统在实际应用中的可复用性、可靠性和可扩展性。整个数据采集中间件工作流程如图2(a)所示,数据采集中间件接收到上层软件发送的启动采集命令时,首先读取设备配置库的采集配置信息,获取设备相关信息并对设备接口进行初始化,然后调用采集函数库中相应的数据采集函数,实现数据采样,当采样完成后,按照标准的数据格式进行数据封装上传至应用层,图2(b)为该数据采集中间件的信息序列图。

图1 数据采集中间件层次结构

图2 结构化数据采集中间件

4.2 非结构化数据集成方法

对于城市轨道交通信息系统中的非结构化数据,如矿井产量报表、安全事故分析报表等,一般以EXCEL表单或者WORD文件方式存储,在集成此类数据时首先应该明确文件中所包含关键信息。对于每一个文件,表单中的各类数据是否为关键数据是不确定的,因此,可以根据来自上层应用系统的需求,如数据挖掘的需要来定义文件中的关键信息。在其导入系统时进行关键信息提取,并将提取的信息保存到XML文档中,最后针对XML存储文档的查询形成结果集合存储到数据库。当非结构化数据以文件的形式保存并需要集成时,首先应针对文件格式的不同(文本文档、电子表格等)制定不同的集成策略,规范关键信息的位置并建立属性模板。这种属性模板也可看做是一种中间件的形式,只不过数据采集的对象不是传感器而是文件。文件模板对文件中关键属性的定义可以看成中间件的数据接口,因此通过关键属性提取这种对非结构化数据的集成也是数据采集中间件的一种模式。图3为非结构化数据集成的流程。

非结构化数据采用中间件模式进行集成后也可以参照结构化数据的处理模式,按照数据主题存储到数据仓库中,以备应用层调用。

图4为城市轨道交通安全生产信息系统体系内两类数据的集成流程。

5 结语

图3 非结构化数据采集中间件工作流程

图4 数据集成流程

综上所述,首先调研了异构数据集成方法的研究现状,然后按照存储结构的不同将异构数据分成结构化数据和非结构化数据。对于纯结构化数据提出了基于XML中间件的数据集成方法;对于非结构化数据则提出了基于信息提取和XML封装的集成方法。根据上层应用系统的不同业务需求,对于需要在地理信息系统平台中展示的实时数据直接通过中间件进行调用。最后综合性地给出了城市轨道交通安全生产信息系统体系内两类数据的集成流程。

[1]崔建岷.铁路信息资源整合实践研究[J].铁路计算机应用,2011(6):19-21.

[2]滕涛,刘志明.现代有轨电车调度指挥系统的研究[J].现代城市轨道交通,2013(5):6-9.

[3]徐建根,李辉康.安全生产指挥中心建设与铁路信息化建设五统一[J].中国铁路,2013(9):4-7.

[4]孙美,郭年根,沈鹍.铁路工务安全生产管理信息系统的设计与实现[J].铁路计算机应用,2013(8):23-27.

[5]吴振宇.基于Web的物联网应用体系架构和关键技术研究[D].北京:北京邮电大学,2013.

[6]赵新勇.基于多源异构数据的高速公路交通安全评估方法[D].哈尔滨:哈尔滨工业大学,2013.

[7]韦乐.基于XML的异构数据交换引擎的设计[J].网络安全技术与应用,2013(2):42-44.

[8]郎炯,刘宴兵,熊仕勇.基于SOA软件架构的数据集成方法[J].计算机应用,2010(9):2370-2373.

[9]王阳,郭湛,伊逊政.城市轨道交通工程安全验收评价体系的研究[J].铁道运输与经济,2015,37(10):91-96.

[10]张冠军.基于XML异构系统间的数据交换技术[J].现代电子技术,2013,36(2):45-47.

[11]李晓丽.异构数据集成技术在物联网中的研究与应用[D].北京:北京邮电大学,2012.

[12]牛敏,米石云,张倩.网络数据资源自动获取技术研究与应用[J].信息技术,2013(12):23-26.

[13]李时文,卢建朱.快速有效的XML访问控制新方案[J].计算机应用,2009,29(9):2336-2338.

(编辑:王艳菊)

Integration Method of Safety Production Data in Urban Rail Transit Based on GIS

Xu Hao
(Signal and Communication Research Institute,China Academy of Railway Sciences,Beijing 100081)

For urban rail transit safety production information system,taking geographic information system as themain application of the front end,this paper analyzed the research status of heterogeneous data integration method in the information system.For structured data,we put forward themethod of data integration based on XMLmiddleware;for unstructured data,we presented integration method on the basisof information extraction and XML encapsulation.The data displayed realtime in the geographic information system platform can directly be called through themiddlewarewhich provides guarantee for the application of heterogeneous data after integration especially for the application of datamining.

urban rail transit;safety production system;geographic information system;heterogeneous data;XMLmiddleware

U231.7

A

1672-6073(2016)02-0044-04

10.3969/j.issn.1672-6073.2016.02.010

2015-08-27

2015-09-22

胥昊,男,硕士,助理研究员,研究方向为城市轨道交通信息系统集成,d ickxh@163.com

中国铁道科学研究院院基金项目(1351TH0902)

猜你喜欢
中间件数据源异构
试论同课异构之“同”与“异”
RFID中间件技术及其应用研究
电子制作(2018年14期)2018-08-21 01:38:10
基于VanConnect中间件的设计与开发
电子测试(2018年10期)2018-06-26 05:54:02
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
overlay SDN实现异构兼容的关键技术
电信科学(2016年11期)2016-11-23 05:07:56
LTE异构网技术与组网研究
基于真值发现的冲突数据源质量评价算法
在新兴异构SoCs上集成多种系统
中间件在高速公路领域的应用