基于e交通学的交通大数据MetaData交换构架

2017-11-16 02:04李千目
软件 2017年10期
关键词:构架海量组件

戚 湧,李千目

(南京理工大学 计算机科学与工程学院,江苏 南京 210094)

基于e交通学的交通大数据MetaData交换构架

戚 湧,李千目

(南京理工大学 计算机科学与工程学院,江苏 南京 210094)

基于 e交通学的交通大数据系统是通过构建由大型高性能计算机组成的集群系统来处理海量的交通数据的存储以及计算服务,不仅所需的环境十分严格,而且成本高、部署周期长、维护困难;不仅如此,随着数据量的增长,业务复杂度的增加,以及计算强度的加大,通过增加Server数量来增加其处理对海量交通数据的能力会变的十分困难,甚至需要对集群的结构进行重新的设计和部署,这不仅需要大量的人力成本和财力,而且造成了巨大的浪费。MetaData交换及部署能力成为当今大数据驱动的智能交通系统研究的重点。面对海量交通数据,如何存储、管理、处理和应用MetaData是十分关键的问题。本文提出的交通大数据MetaData交换系统(Traffic Big Data Metadata Exchange System,TBMES)实现分布式交通信息交换与互访。该构架通过实时交通数据与交通信息大数据平台实时对接,让交通信息传递具有连续性、真实性;宏观交通数据和微观交通数据无缝对接,既可分析路网交通运行态势,又可评价重要道路节点的交通效率,全面掌握区域交通运营状态;使得交通组织管理可视化、可量化、系统化、自动化;系统的输出结果,可为决策者提供决策的理论支持,促进交通决策科学化。

e交通学;交通大数据;MetaData

0 引言

汽车行业高速发展加快智慧城市的进程,也带来了交通事故与交通拥堵等严重的社会问题。日益严重的交通拥堵引起的环境污染、事故频发和经济损失不可估量。基于e交通学的交通大数据系统的出现与建设有助于改善或解决这些问题。基于e交通学的交通大数据系统是通过构建由大型高性能计算机组成的集群系统来处理海量的交通数据的存储以及计算服务,不仅所需的环境十分严格,而且成本高、部署周期长、维护困难;不仅如此,随着数据量的增长,业务复杂度的增加,以及计算强度的加大,通过增加Server数量来增加其处理对海量交通数据的能力会变的十分困难,甚至需要对集群的结构进行重新的设计和部署,这不仅需要大量的人力成本和财力,而且造成了巨大的浪费。MetaData交换及部署能力成为当今大数据驱动的智能交通系统研究的重点。面对海量交通数据,如何存储、管理、处理和应用MetaData是十分关键的问题。

交通大数据挖掘与分析系统建设过程需要采用MetaData进行统一管理[1-3]。交通MetaData是对交通信息资源的标准化规范,是数据一致和资源共享的基础,部署到片域(Block)和各个区域级(Area),搭建成为分布式的星型互访网格。其布局拓扑如图1所示。

图1 TBMES逻辑构架Fig.1 TBMES logical framework

本文提出的交通大数据 MetaData交换系统(Traffic Big Data Metadata Exchange System, TBMES)实现分布式交通信息交换与互访。该构架通过实时交通数据与交通信息大数据平台实时对接,实现多类型的 MetaData汇聚,让交通信息传递具有连续性、真实性;宏观交通数据和微观交通数据无缝对接,提供标准接口支撑MetaData发布与搜索服务,既可分析路网交通运行态势,又可评价重要道路节点的交通效率,全面掌握区域交通运营状态;提供交通MetaData的 catalog service与同步管理使得交通组织管理可视化、可量化、系统化、自动化;系统的输出结果和访问接口功能,可为决策者提供决策的理论支持,促进交通决策科学化。

1 TBMES构架

TBMES构架包含两个子系统:MetaData汇聚与 catalog管理子系统(MD&IM)、MetaData同步子系统(MDS)。本系统的功能结构如图2所示。

MD&IM主要提供MetaData Database的接口,并在此基础上构成MetaData与 catalog管理的主要应用,其结构如图3所示,是可部署于交通大数据互访和分析处理平台的软件。MD&IM包括MetaData Network Gate、MetaData Server和MetaData Database等组件。MetaData Network Gate是支持TBMES的核心组件,提供Server代理、Server注册管理、网格客户管理等具体实现。MetaData Server主要承担了MetaData(MetaData catalog)的发布,不同的MetaData Server通过申请和注册,在 TBMES中融入本节点MetaData信息,同时还支持接受 WebServer对MetaData的指令,例如可以透明地访问任一节点上的MetaData。按照MetaData统一标准,各MetaData利用MetaData编辑器传到MetaData Database中。

图2 TBMES组成结构Fig.2 TBMES composition structure

图3 MD&IM构架Fig.3 MD&IM Structure

MDS包含MetaData交换组件和MetaData Network Gate注册管理组件。MDS主要实现对各个中心节点的MetaData交换的维护,主要为Block和各个区域级中心节点的MetaData系统之间的交换、实现MetaData的全网同步;同时MDS还负责各级中心MetaData Network Gate以及 catalog service的发现与注册。其功能组件布局如图4所示。

图4 MDS组件组成Fig.4 Components of MDS

2 MD&IM子系统构架

MD&IM 是系统提供互访服务的基础,主要完成互访服务系统涉及的 MetaData汇聚、MetaData发布、MetaData交换以及MetaData使用,并对MetaData catalog进行管理与维护。MD&IM由MetaData汇聚发布、MetaData的catalog管理与 catalog service、MetaData维护等组件组成,其在各级中心都部署有MetaData Database、MetaData汇聚发布、MetaData catalog管理与 catalog service以及MetaData维护等组件。

MetaData catalog管理具有两级结构。Block中心节点为互访服务MetaData统一入口和管理中心,提供全网MetaData发布服务并管理各区域级节点;区域级分节点是本省交通MetaData集中管理者,不仅可以发布中心节点统一的MetaData,也可以向本省用户提供自有MetaData发布服务。本子系统将基于商用MetaData catalog管理软件进行二次开发,对其中的 MetaData管理、MetaData catalog管理和catalog service等功能进行定制和扩展,以符合交通MetaData标准和规范。

2.1 MetaData汇聚发布

MetaData的汇聚发布组件负责规范化和格式化的生成MetaData文件。在Block和区域级中心的本地,MetaData汇聚和发布组件根据应用 MetaData模板和预定义的汇聚规则,通过人工和自动两种方式生成本地应用MetaData的MetaData文件,这些MetaData其中的描述部分从数据存储管理系统的MetaData Database中取出,并且人工汇聚的部分必须经过验证和审核来发布;本地MetaData Network Gate经由本地 MetaData提供服务获取本地的应用MetaData文件,并经过转换和整理存入本地MetaData Database,最后进行 MetaData catalog发布。其主要流程图如图5所示。

图5 MetaData汇聚发布组件流程图Fig.5 Flow chart of MetaData assembly release component

该组件中的汇聚功能主要实现:a 可配置的用户界面以适应交通MetaData标准;b 支持MetaData标准自定义,以适应不同部门不同领域的交通MetaData的汇聚;c MetaData文档的检查,支持DTD、XML、Schema等XML文档验证机制;d 灵活的汇聚手段,支持MetaData的手工汇聚和自动汇聚;e采用XML编码格式,以适应数据交换;f支持在线方式的MetaData维护。

该组件的发布功能主要发布形式有:a以 Web表单形式呈现给用户的HTML页面;b 经过XSLT转换成用户界面友好的HTML页面;c MetaData的原始 XML文档;d 经过剪辑的(分片段的)XML文本;e 可下载的XML文件等。

该组件构架的优点在于支持多类数据平台与多种操作系统;支持对多MetaData Database的汇聚;支持MetaData的高效发布;支持对MetaData提取。

MetaData汇聚与发布组件主要分为以下三部分:MetaData编辑、MetaData文件的自动生成以及MetaData catalog的发布:(1)MetaData编辑。由MetaData汇聚界面负责MetaData的人工汇聚。MetaData编辑器向用户提供交通信息MetaData标准信息,并允许用户根据MetaData标准增补MetaData记录。MD&IM提供了灵活定制的模版,使得手工录入的MetaData经过验证审核后能够自动转换为符合 XMI规范的XML文件并导入本地MetaData Database中;(2)MetaData文件的自动生成。MetaData的自动生成,即通过特定的接口规则和MetaData规范,由计算机自动获取相关的信息来生成MetaData;(3)MetaData catalog发布。即,catalog service系统根据 catalog service的要求,从交通信息资源MetaData Database中导出注册成功的交通信息资源信息,生成资源Catalog List,并导入 catalog库中。catalog发布的 catalog数据格式采用XML。

2.2 MetaData catalog管理与catalog service

MetaData的 catalog管理负责MetaData catalog的 Create、Updata、Delete等维护操作,生成 MetaData catalog tree,基于分类编目规则进行各catalog项的著录,给MetaData的管理和存取提供一个定义良好的 catalog结构。

MetaData catalog service通过访问 MetaData Database的 catalog tree来实现数据采集和导航的功能,是数据互访的基础,连接着数据的提供者与使用者,提供标准的MetaData catalog检索服务。

MetaData catalog管理与服务的流程如图 6所示。

(1)catalog创建。在建立MetaData catalog库之前,根据交通信息的分类体系(通过XML记录),完整定义交通信息分类信息,以及每个分类所具有的特征。catalog service组件根据资源分类索引和catalog条目格式要求,自动筛选MetaData Database中的记录,把符合特征的 MetaData归并到相应的catalog中,形成MetaData catalog。

图6 Metadata catalog service体系结构Fig.6 Metadata catalog service architecture

(2)catalog更新。catalog service组件提供了维护catalog系统的功能,具体包括维护 catalog结构树和 catalog条目信息。当需要修改和更新资源条目信息时,catalog service支持后台管理员操作。

(3)catalog删除。为了维护系统的一致性,当删除某个MetaData时,在catalog tree中的相应信息也被删除。

(4)catalog检索。MetaData全文查询支持模糊检索、区域检索、组合检索、相关短语检索。并为用户提供数据/数据产品的检索入口。

(5)MetaData访问接口。实现对 MetaData catalog管理和 catalog service提供标准的访问接口。本组件也将基于商用MetaData catalog管理软件进行二次开发,对其提供的 catalog管理和 catalog访问接口进行再次封装,满足交通MetaData catalog管理和访问的需求。

2.3 MetaData的维护

(1)MetaData的导入导出。为了保证数据传输的可靠性,同时减少不必要的重复,大批量MetaData操作的时候主要通过专门的 MetaData导入导出组件来录入和导出MetaData。若批量MetaData(XML文件)符合规范,并通过审核,就可以将其导入到指定的MetaData Database当中。也可以将MetaData Database中的MetaData记录导出成XML文件。

(2)MetaData的格式转换。MetaData格式转换支持各种MetaData标准,以及从XML格式文本到RDBMS关系表、层次性 catalog数据库的相互转换。其中将会采用XSLT和ORM等标准和技术进行转换操作。

(3)MetaData的数据库配置管理。可管理多个待发布的MetaData Database,提供包括MetaData Database地址信息配置等多项功能。

(4)离线维护。提供数据库热备份,避免在组件故障的情况下对数据库的影响。

3 MDS

(1)各级中心间的MetaData交换与裁剪。各级中心节点间的 MetaData交换过程按照 PULL和PUSH两种模式进行。PULL模式提供一般交通信息资料的MetaData同步服务,时效性较弱;而PUSH模式则为实时性较强的交通资料,如交通、天气预警等提供时效性更强的MetaData同步服务。

PULL模式:当Block中心节点的MetaData Network Gate向区域级中心的MetaData Network Gate发起数据收割请求,区域级中心节点Network Gate从本地MetaData catalog库中抽取更新的MetaData catalog项发给 Block中心 MetaData Network Gate,Block中心接受这些 catalog项,收集整理存入Block中心MetaData catalog;当区域级中心节点MetaData Network Gate向Block中心节点MetaData Network Gate发起MetaData汇聚请求时,Block中心节点 Network Gate从本地 MetaData catalog中抽取更新的 MetaData catalog项发送给区域级中心MetaData Network Gate,区域级中心节点 MetaData Network Gate获得上述catalog项后将其存入本地MetaData catalog。

PUSH模式:当本地MetaData文件有更新时,国家或区域级中心节点将更新的 MetaData文件以消息的形式PUSH至本地MetaData Network Gate,Network Gate对消息进行验证后存入本地MetaData catalog,同时将消息PUSH至所有邻近节点的MetaData Network Gate,同理运行,直到全体节点收到PUSH的MetaData更新消息,并存入本地的MetaData catalog。

其具体流程图可见图7。

图7 MetaData交换与裁剪流程图Fig.7 MetaData exchange and clipping flow chart

(2)各类服务注册、服务发现。MetaData Network Gate注册管理组件负责对 catalog service和Network Gate进行管理,实现服务注册、服务发布、服务发现。完成对MetaData catalog service以及 Network Gate服务的分布式管理。

4 结束语

基于e交通学的交通大数据系统是通过构建由大型高性能计算机组成的集群系统来处理海量的交通数据的存储以及计算服务,不仅所需的环境十分严格,而且成本高、部署周期长、维护困难;不仅如此,随着数据量的增长,业务复杂度的增加,以及计算强度的加大,通过增加Server数量来增加其处理对海量交通数据的能力会变的十分困难,甚至需要对集群的结构进行重新的设计和部署,这不仅需要大量的人力成本和财力,而且造成了巨大的浪费。MetaData交换及部署能力成为当今大数据驱动的智能交通系统研究的重点。面对海量交通数据,如何存储、管理、处理和应用MetaData是十分关键的问题。本文提出的 TBME部署到 Block和各个Area,形成一个分布式互访交换网格,实现交通大数据统一管理和互访策略管理。该构架通过实时交通数据与交通信息大数据平台实时对接,让交通信息传递具有连续性、真实性;宏观交通数据和微观交通数据无缝对接,既可分析路网交通运行态势,又可评价重要道路节点的交通效率,全面掌握区域交通运营状态;使得交通组织管理可视化、可量化、系统化、自动化;系统的输出结果,可为决策者提供决策的理论支持,促进交通决策科学化。

[1] LIU Lixia, LING Ren, BEI Xiaomeng, GUO Rongwei, et al.coexistence of synchronization and anti-synchronization of a novel hyperchaotic finance system[C]. IEEE Proceeding of the 34thChinese Control conference, Hangzhou, 2015: 8585- 8589.

[2] 杨淙钧, 艾中良, 刘忠麟, 等. 基于多级列式索引的海量数据高效查询设计[J]. 软件, 2016 37(3): 79-83

[3] Luis M L, Sara F, Clara G. Complete synchronization and delayed synchronization in couplings [J]. Nonlinear Dynamics.2015, 79(02): 1615-161624.

[4] 邹积凯. 公安系统应急平台建设及资源应用研究[J]. 软件,2016, 37(4): 122-125.

[5] GUO Peilin, WANG Yuzhen. Matrix expression and vaccination control for epidemic dynamics over dynamic networks[J]. Control Theory and Technology, 2016, 14(1): 39-48.

[6] 李沛然, 苏卫东, 段振华等. 国家电网运营诊断关键技术研究与实证分析[J]. 软件, 2016, 37(1): 127-131.

[7] Li QM. Multiple QoS Constraints Finding Paths Algorithm in TMN. INFORMATION. 2011, 14(3): 731-737.

[8] Li QM, Zhang H. Information Security Risk Assessment Technology of Cyberspace: a Review. INFORMATION. 2012, 15(11): 677-683.

[9] Li QM, Li J. Rough Outlier Detection Based Security Risk Analysis Methodology. CHINA COMMUNICATIONS. 2012,9(7): 14-21.

[10] Li, QM; Hou, J; Qi, Y; Zhang, H. The Rule Engineer Model on the high-speed processing of Disaster Warning Information.DISASTER ADVANCES. 2012, 5(4): 1196-1201.

[11] Qianmu Li *, Tao Li, Bin Xia. FIRST: Face Identity Recognition in SmarT Bank. International Journal of Semantic Computing. 2016, 31(2): 1-24,

[12] Jing Zhang, Qianmu Li, & Wei Zhou. HDCache: A Distributed Cache System for Real-Time Cloud Services. Journal of Grid Computing, 2016, 14(3): 407–428.

A Framework of Traffic Big Data Metadata Exchange System Based on e Traffic Theory

QI Yong, LI Qian-mu
(School of Computer science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China)

Traffic data of e traffic based on traffic data by constructing a cluster system composed of large high performance computer to handle the mass storage and computing services, not only the environment is very strict,but also high cost, long period and difficult maintenance deployment; not only that, with the growth of data quantity,complex business the increase of the degree of increase and the strength calculation, by increasing the number of servers to increase its ability to deal with the massive traffic data will become very difficult, or even need to cluster structure design and deploy again, which not only requires a lot of manpower and financial costs, but also caused a huge waste. Metadata exchange and deployment capability has become the focus of the research on large data driven intelligent transportation system. In the face of mass traffic data, how to store, manage, process and apply metadata is a key problem. The metadata exchange system proposed in this paper realizes the unified management and sharing strategy management of large traffic data. It is deployed to the chip level and each regional center to form a distributed shared Exchange network. The frame through the real-time traffic data and traffic information platform for real-time data docking, let the traffic information transmission is continuous, authenticity; macroscopic traffic data and microscopic traffic data seamlessly, which can analysis traffic network situation, and evaluation of road node traffic efficiency, grasp the regional transportation performance comprehensively; the traffic organization management visualization, quantitative, systematic and automation; output of the system, can provide decision support for the theory of decision makers, to promote traffic scientific decision-making.

: e Traffic theory; Traffic big data; Metadata

TP391

A

10.3969/j.issn.1003-6970.2017.10.001

本文著录格式:戚湧,李千目. 基于e交通学的交通大数据MetaData交换构架[J]. 软件,2017,38(10):01-06

国家重点研发计划政府间国际科技创新合作重点专项(S2016G9070);江苏省重大研发计划社会发展项目(BE2017739)

戚湧(1970-),教授,研究方向:交通大数据;李千目(1979-),教授,研究方向:数据挖掘。

猜你喜欢
构架海量组件
一种傅里叶域海量数据高速谱聚类方法
无人机智能巡检在光伏电站组件诊断中的应用
急诊PCI治疗急性心肌梗死的护理探索构架
新型碎边剪刀盘组件
U盾外壳组件注塑模具设计
海量快递垃圾正在“围城”——“绿色快递”势在必行
高可靠全平台ICT超融合云构架的设计与实现
风起新一代光伏组件膜层:SSG纳米自清洁膜层
基于文件系统的分布式海量空间数据高效存储与组织研究