智能公交系统的大数据平台信息资源规划

2023-03-25 09:03孔令涛郭向海陈慧颖
河南科技 2023年5期
关键词:数据仓库公交数据库

张 震 孔令涛 郭向海 陈慧颖 范 琦

(1.郑州大学电气与信息工程学院,河南 郑州 450001;2.河南省交通运输调度指挥中心,河南 郑州 450000;3.郑州大学计算机与人工智能学院,河南 郑州 450001)

0 引言

近年来,城市智能公交行业的信息化建设产生带来了大量数据资源。随着大数据时代的到来,信息资源的总量还在飞速增长,“互联网+”使无处不在的公共交通基础设施网络、无时不有的人和物发生位移,从而产生海量的动态数据,这些数据对企业的发展和社会的服务都起到至关重要的作用,为公共交通行业带来新的机遇与挑战。纵观城市公交行业的信息化发展状况,发现其缺少信息交换共享机制、缺少综合大数据服务平台、缺少信息交换共享的基础设施和数据径,行业宏观决策缺少数据支持。通过构建大数据云平台,能有效解决平台搭建的数据质量不高等问题。发展现代化城市智能公交系统,就是用信息技术来改造和提升公共交通基础设施、运输装备的智能化水平和运营效能。通过对大数据的交换、整合和分析,探索出城市公交系统与大数据融合发展的创新之路,促进城市公交系统的提质增效。通过对城市公交系统内的海量信息进行资源规划,并以大数据平台[1]为支撑,为信息资源检索和开发利用提供有效途径。通过搭建数据整合与共享服务平台,能实现各业务间的信息共享,提高对社会公众和企业的信息服务能力。

1 智能公交系统信息资源规划现状

随着计算机技术、数据存储与管理技术的不断发展,大数据、云计算等新技术也不断涌现。大数据时代技术革新的浪潮将推动企业管理朝着智能化、标准化的方向发展,城市智能公交行业也要把握好这次技术革新。然而在多年的信息化建设中,城市智能公交行业虽建设了许多应用软件和大量的数据库,可信息孤岛[2]、共享程度低等问题十分突出,“散”的建设模式既包括数据库建设零散,也包括数据资源的存储零散,数据整合与共享程度不高。同时,数据资源缺乏系统规划与有效组织,数据资源体系不完善,数据质量不高,难以实现数据共享。数据资源分散存储在各应用系统后台自有的数据库中,数据资源挖掘分析和应用深度不够。主要表现在以下三个方面。

1.1 缺少信息交换共享机制,行业宏观决策缺少数据支持

虽然根据城市智能公交的业务需求初步建立起专业数据区域,但条块分离的格局、信息交换共享机制的缺失,使得数据资源自成体系,导致跨区域、跨部门的信息交换共享范围存在局限性,不利于对综合数据的挖掘,影响对宏观决策的支撑。

1.2 缺少综合大数据服务平台,缺少信息整合交换共享的基础设施

虽然城市公交系统积累了大量的数据资源,但各业务间的数据共享程度低,缺少统一的数据管理平台,导致行业管理数据、业务数据相对分散和孤立,已无法满足城市智能交通的发展需要。目前,各行各业都在追求信息资源的合理整合。通过数据整合与共享交换技术来提高整个行业的信息利用率。智能公交大数据分析云平台为数据整合、共享、交换奠定更加坚实的硬件基础。

1.3 基础数据的标准不统一,数据质量不高

基础数据的数据标准和数据质量的好坏对下游决策系统的正常运行和决策分析起着至关重要的作用。由于各部门业务系统的差异、数据获取渠道的不同,加之数据维护的方式和手段各异,导致基础数据的维护要求不统一。基础数据不一致,使得数据质量无法判别,直接影响业务管理及应对重要事件的决策分析能力。

2 信息资源规划及平台架构

2.1 信息资源规划整体思路

信息资源规划是顶层设计中的一项重要工作,属信息资源层建设。站在全局发展的战略高度,对开展业务活动所需的信息资源进行全面规划,包括对数据的生产、处理、存储、应用、管理等整个生命周期进行分析研究。

智能公交系统信息资源规划是在智能公交大数据平台建设的基础上,根据数据需求分析结果,整合分散在各业务系统中的基础数据,补充采集视频、危险性定位、场站状态、客流等实时数据,从而满足公交总公司对城市公交运营、管理的需求,并为公众信息服务提供数据资源支持。智能公交大数据平台按照加强安全监管、促进协同应用、提升决策与服务水平的需要,分析梳理数据的指标,分类建立基础数据仓库[3]、业务数据仓库和主题数据仓库,并建立部门之间、业务之间的数据交换,完成各业务部门的数据同步与共享等。

2.2 大数据平台整体架构

结合信息资源规划的整体思路,智能公交大数据平台的整体架构如图1所示。

图1 智能公交大数据平台整体架构

智能公交大数据平台是以云化硬件为基础构架。大数据平台的底层核心计算引擎分为两种,一是面向海量数据离线处理的开放数据处理服务,二是面向大量数据实时计算的实时计算服务。对不同的数据输出要求,提供离线(实时)的数据服务。在这两类计算引擎的基础上,提供产品化的应用功能,实现对底层技术复杂性的屏蔽,为资源使用者提供数据标准化检测[4]、数据交换平台[5]、可视化数据资源平台,并为具有开发能力和运维能力的产品使用者提供开放的应用接口、运维平台、数据仓库建模工具、可视化工具和数据授权系统等。以数据交换平台为工具,为整个智能公交行业提供数据输出区的共享和服务。纵贯整个体系的统一元数据服务,可实现全生命周期的数据血缘[6]和数据源追溯。

3 智能公交系统信息资源规划建设

3.1 逻辑结构设计

智能公交大数据平台需要具备以下四个功能,即大容量数据存储的功能、数据整合和交换的功能、运行管理的功能、数据应用的功能。使用分层的构建方式,同时结合综合大数据平台的核心思想,智能公交的大数据平台自底向上可分为数据采集层、传输存储层、数据资源层、应用支持层、应用展示层,其逻辑结构如图2 所示。该系统体系囊括数据的抽取、清洗、分类、加工、装载、交换、展示等操作。传输存储层对抽取的数据进行第一次清洗,将通过标准化检测的数据存储在数据资源层,数据资源层采用数据仓库的数据集成方式。应用支撑层是基于SOA[7]的公共交通大数据平台逻辑层的技术分析,可实现跨公司、跨系统的公共交通智能调度分析。通过智能公交信息资源目录和数据交换平台来实现数据资源的整合与共享,平台使用者通过普通浏览器、客户端应用程序、平板电脑、手机等终端来访问应用展示层,基于Portal[8]的显示技术,从而满足平台使用者个性化的显示需求,并与数据资源层、应用支持层的扩展模型相适应。

图2 智能公交大数据平台逻辑结构

3.2 数据采集层

数据采集层包括语音通信终端、移动应急处置终端、人工坐席,以及各级领导及管理人员使用的交通专网客户端,各级统计、计划管理的业务人员使用的交通专网客户端,社会公众使用的互联网客户端和进行交通运行动态数据采集的外场监控监测终端。交换平台的数据导入、手工录入、数据库自动转发及业务系统自动生成T 日增量数据等都是数据采集的常用方式。通过对已有的信息资源和数据源系统数据传送机制进行分析,并结合信息资源规划理论,发现智能公交行业要存储的数据可分为两类,一是作为基础数据的存量数据,二是作为业务数据的增量数据。由此可知,智能公交大数据平台的数据采集层可使用以下三种方式进行数据的采集和录入。①数据人工录入。支持相关人员根据需要采用人工的方式录入数据。②电子化导入。支持用户导入符合要求的excel、txt 格式数据文件。③数据交换接口。支持用户利用数据转换接口,从已有的相关业务应用系统中共享数据。

3.3 传输存储层

3.3.1 硬件环境。传输存储层主要包括网络和主机存储,为大数据平台建设的实施提供支撑。网络通信包括有线网络、无线网(GPRS/CDMA[9]、3G/4G/5G、WiFi)等,主要建设二级接入网络,从而实现各部门之间和各业务之间的互联互通。主机存储系统包括主机服务器、应用服务器、数据库服务器、灾备服务器等设备。

3.3.2 数据标准化检测。在传输存储层要对数据采集层传输来的数据进行数据标准化检测,对数据仓库上游的数据进行数据治理[10],能有效提高入仓时的数据质量。数据标准化检测除了对指标、数据元[11]、数据库结构等数据自身的标准化进行检测外,还要对交换数据的标准、元数据标准等进行检测。数据标准化检测主要是对采集到的数据进行过滤、筛选等,剔除和调整不合理的数据,同时对数据项的数据类型、数据格式、数据单位、数据值域以及数据的一致性和完整性进行检测。在智能公交大数据平台中,同一应用数据有可能分布在不同的数据源中,在进行数据采集抽取时,为了消除数据的不一致性,要根据数据的真实性、有效性验证规则对数据进行整合,并对数据进行转换清洗。该系统的数据标准化检测有以下四个方面。①消除同名异义和异名同义的现象。例如,在业务系统中,性别有的用“男/女”来表示,有的用“1/2”来表示,含义是一样的,但在进入数据仓库前必须调整成为统一的格式。②一致性检查。当同一数据来自不同的数据源时,要对数据进行分析比较,只有审核一致后才能进行入数据仓库中,从而达到系统的一致性。③冗余数据删除。将重复出现的同值数据删除。例如,在系统中将15 位身份证号转成18 位身份证号后,发现其会与已有的18 位身份证记录重复,且在其他关键数据域也记录一致的话,可进行消除冗余工作。④数据归并。当某一主题的数据是由不同的系统组合形成时,按照关键项对数据交换与整合软件进行合并,如车辆的车牌号,对组合后的数据要统一整合到数据中心。

3.4 数据资源层

数据资源层负责各种动(静)态信息的资源整合、统一管理、统一对外提供数据服务。数据资源层包括大数据平台所依托的基础数据库和根据应用需求建设的各类应用数据库、数据仓库等。数据资源层包括基础数据仓库、业务数据仓库、主题数据仓库三大板块[12],如图3所示。

图3 数据库总体结构图

3.5 应用支持层

应用支撑层位于应用展示层和数据资源层之间。通过数据抽取[13]和清洗技术为应用展示层所需的数据做准备,使用数据整合与交换技术来实现数据的实时共享与转发。应用支撑层包括数据交换平台。数据交换平台用于整合交通行业数据,将文件、数据库、ETL[14]等数据的接入方式进行统一管理,并开发出数据融合汇聚、格式转换、转换处理、实时转发、配置管理等功能。

数据交换平台的工作流程如下。首先进行数据的抽取。数据使用者可根据不同的业务需求,对数据资源层中的数据仓库各数据表中的数据进行查询操作。然后,根据数据交换平台数据库的数据标准对抽取到的数据进行数据清洗,并删除不符合数据标准的信息。同时,根据数仓下游系统数据库的格式要求对符合数据标准的数据资源进行格式转换,从而确保下发给数仓下游系统的数据格式的一致性。最后,数据服务要面向行业数据需求来开发实时的数据交互接口,服务提供载体是各类数据应用API,API采用标准的Webservice规范、Rest 风格的数据服务接口[15]、XML 的数据返回,范围要覆盖到所有基础数据的简单与组合查询,并根据具体的应用需求进行二次开发。此外,要提供接口的注册与查询页面,可实现对服务注册与服务描述的查看。

3.6 应用展示层

3.6.1 可视化数据资源平台。在行业已有的应用系统的基础上,完善或新建相关的应用平台,包括可视化数据资源平台,用来展示信息资源目录。信息资源目录是信息组织的一种方式,其能根据语法、语义和语用等规则对信息进行组织,从而方便信息的检索。通过信息资源目录,可直接定位到相应的信息资源,如主题数据库、服务资源、数据源数据仓库等。

3.6.2 信息资源目录。信息资源目录是参照元数据的标准规范,对数据资源进行梳理,对梳理后的信息进行加工编目,并生成资源目录体系。信息资源目录体系模型包括支撑标准、元数据库、信息资源目录三部分[16]。在资源目录编制时,根据元数据标准规范,来纠正标准和规范不统一的问题及目录内容检查时发现的问题,从而达到信息统一规范,以便目录的创建和管理。信息资源目录体系的业务流程包括资源编目、资源注册、资源发布,并提供资源访问和资源维护等功能,信息资源目录进行资源管理的实现流程如图4 所示。

图4 信息资源目录实现流程

目录管理可理解为综合数据库数据的查找索引配置,目录本身的元数据配置不依托其他模块,可独立运行。目录管理的开发过程是从数据元开始,先识别所有抽取数据的数据项,并对其进行数据元分析,从而形成每个资源的数据元集,然后对数据元集进行分类,并形成目录,目录的分类及数据元的设计都要遵照相关标准规范。

基于数据标准接入的数据,能按数据来源、主题等自动生成相应的数据资源目录。基于指标体系建立的指标数据,能按主题自动生成相应的指标数据资源目录。按提供单位、主题等对数据资源进行自动分类编目展示,展示的内容包括数据项、数据简介、数据来源、数据更新频率、更新方式和数据更新描述等[17],提供样例数据下载和指标追溯。按照指标分类规则、类别对指标进行分类展示,展示项包括指标名称、指标定义、时空维度等。

数据资源服务。根据国标、地标及行业标准,并结合各行业系统的特点,对整合资源库中接入的数据整理出资源目录,并把相应的资源对外发布为webservice 或http 服务。当资源需求方在管理系统上查询到可共享的资源时,通过webservice 的方式向数据管理系统提出数据请求,资源提供方可根据请求,使用webservice 或http 方式把数据共享给资源需求方。

4 结语

大数据平台建设及数据标准化检测技术和信息资源目录技术的应用是一项长期工作,本研究提出一整套智能公交大数据平台的建设方案及依赖于该平台的信息资源规划方案,提出采用基于数据标准化检测的智能公交系统信息资源目录,实现数据源的整合与深度利用。通过构建数据交换平台与可视化数据资源平台,从而有效解决信息孤岛、共享程度低等问题。

猜你喜欢
数据仓库公交数据库
一元公交开进太行深处
基于数据仓库的住房城乡建设信息系统整合研究
等公交
数据库
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
数据库
数据库
数据库
基于数据仓库的数据分析探索与实践