高速公路异构数据源管理及访问组件开发研究

2020-12-23 04:20罗志伟肖杨苏强赵志洁
西部交通科技 2020年8期
关键词:数据集成数据融合高速公路

罗志伟 肖杨 苏强 赵志洁

摘要:近年我国高速公路现代化建设处于一个快速发展期,高速公路的建設、运营、养护全生命周期过程中产生了海量的多源多维、异构数据。这些数据隐藏着巨大的价值,但针对这些数据的融合、处理、管理、访问和应用上的研究仍然相对滞后。文章对高速公路建设、运营、养护等全生命周期产生的结构化、非结构化数据的预处理关键技术进行研究,开发基于云计算的高速公路异构数据源管理及访问组件,将数据转化为结构化、高质量的可用数据集,并实现海量数据高并发、高效率的存储、提取和计算,做到数据资产的高效访问控制。

关键词:高速公路;多源异构数据;数据融合;数据集成;云计算组件

中图分类号:U412.36+6A441536

0 引言

我国高速公路经过几十年的快速建设,2016年底总里程已突破13万 km,至2020年将达到16.9万 km[1]。迅猛发展的高速公路建设让高速公路运营方面临越来越繁重的运营管理任务和压力,如高速公路养护、交通拥堵、应急管理,以及公众便捷出行等各类主体多样、迫切的需求。而这些需求是传统业务系统、管理和服务手段所不能满足的[2]。

此外,随着信息化的普及,高速公路在信息化建设方面也有着持续大量的投入。随着以互联网、智能感知设备为代表的高速公路数据采集手段不断丰富,收费系统、监控系统等基础业务系统不断完善,高速公路运营管理部门能够从不同角度获取反映交通运行特征的相关数据,可以说多源多维高速公路大数据已经形成[3]。但在数据的融合、处理、管理、访问和应用上仍然相对滞后[4]。因此,整合独立、分散的应用系统数据与业务管理资源数据,实现对高速公路异构数据源的统一管理及访问,对促进高速公路信息资源的充分共享利用具有重要意义[5]。而近年来飞速发展的云计算技术由于其容易部署、方便、安全等特点已成为实现以上技术目标的技术手段[6]。

云计算[7]是分布式计算的一个种类,利用互联网“云”将庞杂的数据进行分解,并通过服务器集群分析处理返回结果。云计算可以让信息和数据以最大效率进行管理、访问、共享。云计算技术让用户可以最低的成本完成资源计算。

本文主要对高速公路建设、运营、养护等全生命周期产生的结构化、非结构化数据进行预处理关键技术进行研究,开发基于云计算的高速公路异构数据源管理及访问组件,将数据转化为结构化、高质量的可用数据集,并实现海量数据高并发、高效率的存储、提取和计算,做到数据资产的高效访问控制。

1 系统设计的目标、建设内容及技术路线

1.1 系统设计的总体目标

基于云计算的高速公路异构数据源管理及访问组件设计开发是在关系数据库管理平台上云计算技术的多维度扩展。异构数据库系统完成多领域、多层次的异构数据源访问及使用,实现多层结构数据存储共享、大规模计算、虚拟机数据加载。该系统利用多层体系去控制数据访问,并加入程序对象用以相应功能,优化并集成了数据挖掘、大数据分析、数据模型加载技术,以实现对异构数据资源和OLTP/ OLAP分析的统一支持,支持用户自定义虚拟数据库和虚拟表对象管理,并支持对虚拟数据库资源和物理数据库资源的访问控制。系统建设将达到以下目标:

(1)将独立、分散的结构化和非结构化数据进行集成,将能够提供数据提取、转换,将加载和显示服务的综合基础数据资源整合到信息资源平台中,实现数据资源的统一管理和综合利用。

(2)每个用户可以根据对应的权限获取所需资源,同时确保资源信息的质量、精准和安全。

(3)根据Web的视觉表现并显示信息名录,可以高效且快速的预览所需信息。不同权限的用户都可以按需浏览并进行资源共享。

(4)高效数据管理和长期更新机制,为资源的存储、传输、交换和服务提供安全的操作环境。

1.2 系统的主要建设内容

(1)基于异构数据源,数据提取、清理实时同步,实现异构数据源访问,资源映射驱动。基于时间和事件的数据抽取可智能调度算法。

(2)增量和全量的数据比对算法,优化了全量抽取比对方法,引入临时表作为全量抽取比对基线。

(3)文件数据注册支持。

(4)概念数据模型定义,在数据建模的驱动下,它支持从概念模型到物理模型以及用户定义的概念模型的数据加载服务;虚拟数据库将注册到物理模型,并根据物理模型映射将异构数据加载到目标虚拟机。

(5)物理模型数据注册。

(6)基于模型的数据抽取、加载。

1.2.1 异构数据源数据映射整合,基于物理异构数据源的虚拟资源映射及基于虚拟映射资源的映射访问管理

(1)异构数据库中间层数据处理方法,引入前置机智能调度控制算法。

(2)基于异构数据库物理表对象的映射集成管理。

(3)基于虚拟映射资源的映射整合管理。

1.2.2 异构数据源的共享访问,基于平台的异构数据资源访问

(1)基于用户、角色、权限的异构数据库系统的成分组件访问控制管理。

(2)基于平台、资源和渠道的异构数据库的过程管理和访问方法。

(3)虚拟数据库表对象访问控制管理。

异构数据清洗配置、数据审核、安全性验证控制。

1.3 技术路线

在用于异构数据源管理和访问应用程序的云计算组件开发的设计和实现中,充分考虑了以下几个主要因素:(1)其符合国家相关标准和规范;(2)采取领先技术构建与实现云计算,包括多层中间件系统技术;(3)它吸收了目前在数据资源交换管理平台的实施和某些技术实施的可行性验证方面的经验,从而达到客观实用的系统设计,并以满足业务应用需求为主导。

异构数据源管理和访问应用程序的云计算组件开发相对于传统交换系统优点突出。传统的系统存在开发工期长,开发费用高,接口难以统一等缺点。在本次项目中的云交换平台采用了核心软件——云数据库系统GCDB,全称G-Cloud DataBase,是一款云数据库软件,它可以连接海量的、物理分布和异构的数据资源以形成虚拟数据资源处理库,可以实现多个分离的业务系统之间数据资源的共享。

异构数据源管理及访问应用的云计算组件开发以信息资源库为核心,通过信息资源交换平台的建设,全面整合独立、分散的应用系统数据与业务管理资源数据,建立统一的信息资源管理功能与长效更新机制,建立操作支持环境,满足信息资源的存储、传输、交换、服务、应用和安全管理的要求,促进信息资源的充分共享和利用,满足高速公路上各种业务系统的应用需求。

信息资源云交换平台在项目的总体框架中,兼顾了效率和实用。系统逻辑架构如图1所示。

云交换平台的物理架构中有四种类型的连接点,包括中继数据服务连接点、服务连接点、前端机器和生产系统。中继数据服务连接点存储云数据库的中继数据,包括:

(1)VDBS的中继信息,例如VDB的名字、关键连接点、包含列表、用户角色信息。

(2)虚拟表的中继信息:字名、种类、字长、完整度。

(3)角色:名字、权限、VDBS。

(4)用户:姓名、密码、VDBS。

一个服务连接点可以在多个虚拟数据库上部署。整个系统有很多服务连接点,这些连接点可以提供同样的服务,并且可以保持状态均等。服务连接点在管理及数据等VDBS服务中担任服务角色。服务管理为虚拟数据库中的角色,用户和虚拟表提供管理功能,例如角色和用户的创建、修改、删除、注册以及创建虚拟表数据库等。

云数据库系统的数据源通过在前端中的各种分布式DBS提供的访问机制与云数据库系统内部相联结。并具备一个模块可以同步信息并不时从生产系统中提取前端上的数据。系统物理架构如图2所示。

2 系统详细设计

2.1 云数据库系统

云数据库系统集成了多源异构数据库和通用文件资源,以提供统一的数据访问接口,从而达到以下目的:

(1)各应用系统的资源互通。

(2)为统一资源检索提供后台待检索数据。

(3)用户数据统一管理,为单点登录提供统一用户数据的数据源。

该系统将异构数据资源以物理形态分布的方式联结在一起以形成一个虚拟数据库,VDBS可以提供同样的数据标准和访问接口用于应用程序,并支持对数据源的透明访问。云数据库系统可以独立访问分布式数据源,并通过数据虚拟化屏蔽了数据源的分布和异构性。数据源被包装器封装后,系统中会进行注册以将虚拟表的格式一致化。数据源的物理位置可以保持不变,形成的单个虚拟数据库就可以具有集成和统一数据标准。对各种主流数据库,云数据库系统支持直接访问和统一访问。如Oracle、SQL Server、MySQL、DB2等。因为键值可以看作是简化的关系模式,所以当前流行的键值文件系统或数据库(例如HDFS,BigTable,HBase等)也可以轻松访问云数据库系统。

云数据库系统中的虚拟表应用一种模式组织和管理,这种模式被称为社区表,如图3所示,应用端不再依赖于传统形态的数据库和物理表,而是使用社区表和虚拟表。用户可以将社区动态产生和删除,以快速适应商业需求变化发展。

该系统通过数据虚拟化,将数据源注册到本系统,形成一个统一的数据中心。业务访问和计算决策将基于虚拟视图访问数据源,而不需要通过指定的物理数据源。系统过程主要分为三个阶段进行:资源注册,标准定义和数据访问。

(1)资源注册:将现有的数据物理源联结到数据平台,数据规格将根据原始系统形成基本数据模式和源。

(2)标准定义:基于现有的基本源(系统数据),在需求的基础上,定义数据模式和关系映射,并提供一致的数据标准,用以发布和使用服务。

(3)数据访问:数据平台提供了统一的API,以提供对数据资源的访问。

云交换平台,利用云數据库来构建具有以下特点:

(1)在云数据库中,数据以集群方式存在。

(2)分布式和异构数据库可以满足灾难恢复、共享、容量扩展和按需使用的需求。

云数据库只需要一个密钥,用户即可使用,就像使用本地数据库一样。

2.2 云交换接入服务

2.2.1 数据来源

信息资源共享平台的建设涉及的数据资源内容较多,不同的数据内容现状各不相同。有的数据尚不存在,需要采集;有的数据暂时以表文件的形式存储,需要进行标准化转换;有的部门或组织信息化条件较好,已经建设了信息系统,已有业务数据可以通过系统接口或数据接口方式接入,但由于系统结构设计各不相同,其接口模式设计也要各自有相应的针对性。

表1所示为针对不同的数据源格式,设计不同的数据获取模式。

2.2.2 数据采集与处理

数据建设是系统建设的基础,没有数据,应用系统只能是一个空壳。在系统建设之初,就需要对数据资源进行详尽的梳理,摸清已有数据资源可获取数据资源的内容、数据格式、数据量,分析数据获取方式、更新频率等。根据数据资源梳理的结果,才能够进行相应数据标准设计、库表结构设计、存储容量设计、网络带宽设计、数据获取方式与获取能力设计、数据资源更新机制设计、共享交换模式设计等。本系统的前置数据库的内容如表1所示。

对于某些数据内容目前没有相应的成熟数据,也没有数据表文件采集或存储,需要针对性地采集。

2.2.3 数据转换

此功能将相异的数据源的格式转换为一致的数据格式,根据转换规律,原始数据将自动被系统识别转换为一致的格式。

(1)数据格式转换的定义:从一种原始的数据格式,经过系统、有规律地加工,转变成目标数据格式的过程。

(2)数据格式转换的处理过程:根据系统事先确定好的若干规则完成转换。

2.2.4 数据资源管理

该功能为处理数据库和表结构的中继数据,定义和维护数据字典内容。

通过该功能,数据库中存储的数据类型、数据量、数据结构等信息查询变得非常便利,开发人员可以更好了解行业信息库的现有信息。

2.3 云交换平台功能

云交换平台的功能包括数据桥、数据清洗审核融合、数据目录、通信服务服务。此外,该平台还提供数据转发、用户管理等功能,使云交换平台可以实现基于云模式的分布式异构数据的集成、整合和按需访问。

2.3.1 数据桥接

数据桥接系统由两大系统构成,数据信息库系统和数据信息交换系统。信息库系统由企业数据信息库、数据交接信息库、部门数据信息库等组成。交换子系统架构如图4所示。

(1)前置交换子系统:该系统负责在信息库和传输子系统之间完成信息传递,完成数据提取转换、发送和接收。

(2)交换桥接子系统:交换桥接子系统在每个交换前端系统之间建立可靠、高效、稳定、安全的信息交换枢纽,提供信息打包、拆包、输送、转换等功能,并支持大文件传输。

(3)交换传输子系统:交换过程的布置,可以实现预交换信息库与部门之间的信息处理和信息传递的稳定可靠。

(4)交换管理子系统:数据交换系统操作指挥中心提供交互工具,用于系统的操作和监督。实现对流程配置的监视和管理,整个信息交换流程的部署和执行以及整个信息交换系统的运行。部门通过交换管理子系统交换所需信息到前端。在交换管理子系统的过程控制下,需要交换的信息通过交换传输子系统和前端交换子系统被定向到接收部门,共享信息被实时交换到共享信息库。

2.3.2 数据清洗

数据清洗一是为了解决数据质量问题,二是让数据更适合做挖掘。其主要功能包括:

(1)解决数据质量问题:解决数据的完整性、唯一性、权威性、合法性、一致性。

(2)让数据更适合做挖掘:解决数据的维度过高、维度过低、无关信息、字段冗余等问题。

2.3.3 数据审核

数据审核是用来验证数据是否统一。数据验证和比较可以完成一件或一批的数据比较。

对于服务数据的关键数据项,用户提供要验证的原始数据,并通过系统的验证和比较来识别一致和不一致的状态。

2.3.4 数据融合

采用云数据库系统,数据审计后通过数据虚拟化向云数据库系统注册多个数据源,包括分布式异构数据库和文件等,形成统一的数据中心,实现创建、部署、访问控制管理和复制在虚拟表模式下对统一数据视图进行管理,从而实现数据融合。

系统会分为三步去实现数据融合:

(1)数据连接:根据原始数据制式,将数据平台与现有的物理数据源连接,形成基本数据源和模式。

(2)标准定义:来自多个数据源的数据和相关数据的信息相结合,以实现比单独使用单个传感器所不具备的准确性。

(3)数据访问:数据平台提供了统一的API,以提供对数据资源的访问。用户请求被系统处理,分别发送到每个节点以用并行方式執行,最后统计汇总结果。

3 结语

针对高速公路大数据多源多维、异构、海量的特点,本研究开发了基于三层数据控制架构和面向流程及基于成分的功能组件云计算系统。该系统基于虚拟数据库资源注册访问,支持二级虚拟数据库资源映射机制。同时,该系统还可以屏蔽数据库访问细节,结合云计算技术可扩展性高、硬件成本低、资源按需使用等方面的优势,为异构数据库管理系统提供良好的集群存储能力、并行计算能力、数据库管理能力,达到系统性价比高、异构数据源无缝共享的目标。

参考文献:

[1]国家发展改革委交通运输部关于进一步贯彻落实“三大战略”发挥高速公路支撑引领作用的实施意见[J].交通财会,2017(2):85-86.

[2].王红俊.高速公路管理信息化建设的需求分析[J].中外企业家,2019(35):74.

[3].任金光.大数据在智能高速公路中的应用[J].交通世界,2016(27):14-15.

[4].杨仁怀,郎川萍,刘文美.高速公路大数据处理现状与挑战[J].计算机系统应用,2014,23(9):13-17.

[5]林 艳.大数据在我国高速公路中的应用探讨[J].北方交通,2016(5):162-164.

[6]张建勋,古志民,郑 超.云计算研究进展综述[J].计算机应用研究,2010,27(2):429-433.

[7]罗军舟.云计算:体系架构与关键技术[J].通信学报,2011,32(7):3-21.

收稿日期:2020-04-17

猜你喜欢
数据集成数据融合高速公路
为什么高速公路上不用路灯照明
基于数据融合的家庭远程监护系统研究
成本与制造数据集成分析
船舶动力定位中的数据融合技术文献综述
基于Biztalk的异构医疗信息系统数据集成研究
信息系统集成与数据集成策略研究
基于信源编码的数据融合隐私保护技术
基于数据集成的水上项目国家队数据库网络管理平台的设计与开发
轱辘心儿,高速公路上的猫