摘要:我国高速公路具有分布地域广、通车里程长、机电设备多、管理系统杂、智慧化程度低的特点。近年来,随着信息技术的发展,各高速公路管理公司都进行了大量信息化建设,这些信息化系统已成为各单位不可或缺的工作手段。然而快速的信息化扩张也导致信息化系统存在数量众多、建设分散、条块分割、对接不畅等各类问题。文章提出一种智慧高速数据中台建设方案,利用中台实现高速公路各类管理系统数据的统一汇聚、统一治理、统一加工、统一共享。实践证明,该系统具备较强的实用性,可实现高速公路各类数据的有效管控。
关键词:智慧高速;数据中台;数据治理;数据集成
中图分类号:TP23 文献标志码:A
0 引言
近年来,随着信息化建设的深入,高速公路管理者在信息化建设过程中沉淀了大量的不同层次、不同维度、不同来源、不同历史时期、不同规模的信息资源。数据类型广、数据体量大,海量的数据分布在跨部门、跨领域、跨平台的不同时期建设的业务应用系统中。这些信息系统数据标准不统一、共享程度不高,形成数据孤岛,无法产生聚集效应,大量问题开始逐步显现。
(1)信息化与业务融合深度不足。
已有信息化系统“各自为政、条块分割、烟囱林立、自成体系”的问题突出,信息化系统建设理念相对落后,共性支撑能力不足,不能顺应“大中台、小前台”的发展趋势[1]。
(2)相关业务数据资源整合能力不足。
已有的信息化应用“多、小、散”问题突出,一路一系统、一桥一系统、一隧一系统的现象比比皆是,系统数据分散、缺乏有效整合,数据一致性差、冗余度高。数据质量低,数据汇聚融通和挖掘分析能力不足,无法支撑高速公路智慧化发展。
(3)数据资源全生命周期的管理未形成。
没有实现高速公路各类数据全生命周期管理流程的无缝衔接,数据的完整性、真实性、及时性得不到充分保障,从而导致缺少辅助管理决策、应急指挥调度和公共服务等数据支撑能力。
(4)数据资源管理体系有待完善。
数据资源管理体系尚未建成,配套的管理制度、管理流程、考核标准、运维保障体系不健全,导致数据资源建设标准不统一、信息系统数据互通难度大、数据比对分析效率低。
面对这些问题,高速公路管理者急需一种新的技术手段实现高速公路系统中的各类数据资源从采集、治理到建模、交换的全生命周期管理。
近些年来,智慧高速建设中存在的问题已经引起了国家的高度重视[2]。2021年交通运输部发布《数字交通“十四五”发展规划》,要求统筹集约建设平台基础架构、数据资源和网络安全体系,推动各业务应用系统共建共用、智能协同和迭代完善;推进综合交通数据中心体系建设,加强数据资源的整合共享、综合开发和智能应用,打造综合交通运输“数据大脑”。
1 中台架构
高速公路建设里程长、分布范围广、机电设备繁杂、管理系统众多。就机电设备而言,高速公路广泛布设有车检器、超限检测器、摄像头、情报板、扩音器、测速仪、雷达等各类设备,这些设备参数标准不一、反馈数据众多。而与这些设备相对应的是近些年来高速公路各路段公司、建管单位、运维单位、隧管站、片区管理中心、省中心等各管理部门建设的各类管理系统。这些系统存在数据量大、数据标准不一致、数据不互通等问题导致高速公路智慧化建设困难重重。
本文提出的智慧高速数据中台是充分利用大数据、云计算、人工智能等技术手段,通过对数据的治理、集成、开发,实现数据的“打通、整合、服务”,对内服务高速公路管理单位,提高企业运营效率,辅助经营决策;对外基于大数据创新商业模式,实现数据价值变现。通过搭建数据中台,整合高速公路现有的安全应急、隧道监控、联网收费、路产维护管理、服务区运行、路产保护、道路资产、路网运行监测、公众出行服务、能源监测、路域经济、机电运维管理等方面数据源,分步骤开展数据治理,完成数据的集成与开发,挖掘数据价值,整合高速公路建、管、养、运、服的全生命周期数据,形成智慧高速大数据中心[3],打通业务数据链条,提高高速整体运营效率,形成行业大数据,开展数据运营,辅助经营管理分析决策,实现数据价值变现,提高高速管理单位的核心竞争力。
智慧高速数据中台的搭建主要通过统一的数据架构来建立数据标准,为后续新建系统提供建设依据,保证后续系统无缝接入;通过统一归集加工数据资产,形成统一的数据资产目录,消除数据孤岛、实现业务数据的上传下达及互联互通;通过有效构建数据治理环境,包括规范政策流程和数据责任组织和人员的操作,保障数据质量持续提升;通过面向场景的数据服务,支撑管理和运营业务效率提升,支撑智能辅助决策分析,对内对外提供数据价值;通过建立数据服务模型和分析决策模型,为上层应用提供安全、一致的数据访问和数据分析服务,支撑辅助决策分析;通过API接口管理实现数据共享,方便内外部系统数据交互,为后续内外部应用搭建数据交互桥梁。
1.1 功能架构
本文设计的智慧高速数据中台,功能包含数据汇聚、数据处理、数据共享、数据应用、数据门户、数据开发以及数据治理等内容[4],具体功能架构如图1所示。
1.1.1 数据汇聚
实现高速公路各机电设备及软件系统数据的批量采集、满足快速处理的流式采集,支持数据的分发及汇聚任务监控等多项功能。同时对未来接入更多系统及数据源进行接口预留,便于后期功能扩展。
1.1.2 数据资源中心
存放数据中台的核心数据资产,汇聚高速公路全生命周期数据,经过标准化处理后,实现数据资产的集中管理、共享使用。
构建适用于高速公路运营管理单位经营决策支撑的指标/标签/模型体系,实现基于指标/标签/模型的数据统计、分析、挖掘能力,服务高速管理部门数据驱动的智慧决策和运营。
1.1.3 数据共享
提供数据统一访问、按需开放能力,实现各业务系统之间的数据共享,消除数据孤岛。
1.1.4 数据应用
搭建各类高速公路场景模型,对智慧高速数据中台数据进行深度分析,为领导决策和企业协同提供数据支撑,为日常运营管理提供数据依据。应用场景包括数据运营、决策分析等。
1.1.5 数据门户
构建数据中台数据资产市场,用于监控整体数据情况,包括数据存储情况、数据分布情况、数据流向等。
1.1.6 数据治理
提供数据治理工具以及运营服务,确保数据一致性以及数据质量满足要求。
1.1.7 数据开发
通过可视化开发与分析工具,降低开发、运维、管理难度,从源头进行数据标准管控,实现数据治理前置。
1.2 技术架构
本文所述智慧高速数据中台方案整合了大数据平台、MPP数据仓库、数据集成平台、数据治理平台等能力,能为高速公路运营管理部门构建智慧高速全域数据中枢,实现数据使能、应用使能,打造数据的“采、存、算、管、用”全流程,助力公司数字化转型。
大数据平台和MPP数据仓库提供高性能、分布式的离线计算、实时计算、全文检索等能力,对外提供统一数据开发引擎,高效完成数据计算工作。
数据集成平台提供高效率、高可靠、全场景的数据采集、转换、处理能力,提供数据共享交换、数据探索、智能分析等功能,在消除“数据壁垒”的同时“释放”数据价值。
数据治理平台提供数据标准、数据质量、数据安全、数据资产等一系列数据管理能力,盘清数据资产,保证数据质量和数据安全[5]。
2 平台建设
2.1 数据集成平台
数据集成平台采用数据集成、服务集成及消息集成3种方式[6]。数据集成方式适用于数据库数据采集场景,服务集成方式适用于API接口数据接入与发布场景,消息集成用于实时数据采集场景。
数据集成模块是一个以设计、部署、调度、监控和管理ETL过程为核心功能的应用系统。该系统可以通过流程图式的图形化工具快速、灵活地设计ETL过程,实现ETL任务部署Z0zLtPql4+jWyItQR08+sh9ctoBhq9ifLOyP3c8mFXo=、调度及监控等管理活动,提供一体化数据集成开发环境。
数据集成工作流程如图2所示,集成模块由执行器、调度器、设计器、管理页面组成。执行器是执行任务的实际容器,用于执行服务端发送的作业中的任务。调度器用于接收服务端下发的作业,并将作业中的环节调度到具体的执行器中运行。
服务集成主要功能是进行API接口数据采集、将数据以API接口形式发布场景。服务集成主要进行API的注册、测试、部署、授权、编辑、删除等全生命周期管理。目前支持注册API的类型包括数据API、通用API、函数API 3种。数据API可以将数据库表字段共享出去,以restful接口的形式对外提供;通用API主要用于接入第三方系统业务API,实现接口的代理转发;函数API可以通过编写js脚本的方式,实现复杂场景下的API编排。
数据存储平台包含了全域数据平台主要数据架构层次、各层数据采集、加载、治理等处理流程中的数据计算和存储,支撑智慧高速全域数据的批量计算与实时计算业务。通过数据采集,可将数据加载到MPP分布式数据库和大数据平台,并进行数仓建模[7]。通过数据的存储计算,在大数据平台上生成原始库和基础库,在MPP分布式数据库上生成主题库和专题库。大数据平台主要提供HDFS、Hbase、Hive等组件,负责大批量离线数据的存储,并能提供分布式文件存储、海量数据处理、实时数据分析、交互式查询、数据检索、安全认证与权限管理等功能。针对上层业务海量数据实时查询需求,MPP分布式数据库负责专题库的数据存储。
考虑到高速公路设备种类多、信息化系统繁杂的特点,智慧高速数据中台应具备对多样性数据采集的能力,包括结构化、半结构化以及非结构化等数据。数据来源上应包括但不限于各种数据库数据、物联数据、日志数据以及csv/json/xml等半结构化和非结构化文件数据等。实现海量多源异构数据的采集和导入,包括支持传统数据库、本地、FTP等多种数据源。实现结构化、半结构化、非结构化数据的采集和导入以及实现定时、实时等多种数据采集导入[7]。
2.1.1 业务系统集成
基于业务数据满足将异构数据源的数据接入数据湖,数据中台应具备离线数据和在线数据采集能力[8]。
针对离线数据,实现主流数据库的数据批量采集,并具备Web Service、Rest类型接口,TXT、CSV、Excel、JSON、XML等非结构化数据以及Kafka、MQTT、IBM MQ、Active MQ等消息数据采集能力。
2.1.2 物联系统集成
针对实时以及持久化的物联数据,通过接口、物联协议、库表等多种方式采集,满足实时分析和离线计算的业务需求。具备MQTT等协议采集方式,同时具备InfluxDB、ClickHouse等时序数据库的数据接入能力。
2.1.3 日志&文件系统集成
平台能将Excel、CSV、XML、JSON等日志类文件解析为结构化数据,并通过FTP、SFTP、HTTP等协议采集文件,实现日志数据采集入湖。
2.1.4 流式数据系统集成
实现传感数据、告警数据、网络监控数据采集。通过Kafka抽取组件可以根据配置从Kafka消息系统中抽取数据,通过Kafka流抽取组件从Kafka抽取数据流,并运行子转换,该转换根据消息批量大小或持续时间执行,可近乎实时地处理连续的数据流以及通过REST抽取组件从REST服务中抽取数据。
2.1.5 应用系统集成
在大数据湖仓的所有数据将以标准restful接口的形式对外提供[8],为支撑整个高速公路信息化、智慧化建设提供标准的数据服务,实现数据价值的最大化。
2.2 数据治理平台
建设集数据标准、数据质量和元数据管理、数据模型管理、数据血缘管理等功能为一体的一站式数据治理平台,对数据中台采集到的数据进行数据清洗治理,统一数据标准[9],提高数据质量,沉淀数据资产,赋能智慧高速智能化应用,如安全应急指挥、道路养护决策、高速公路运营分析等。数据治理平台功能架构如图3所示。
智慧高速数据中台位于承上启下的中枢位置,向下汇聚各数据源,向上赋能高速公路管控智慧类应用,中间进行分层数据治理,共分为贴源层、主题库、专题库3层。其中贴源层负责对数据源进行全量抽取和全域汇聚;主题库负责对数据进行清洗、数据格式转换、数据标准统一、数据质量校验,并按照业务主题进行数据汇总;专题库负责各类业务指标的计算,生成应用层所需的各类业务指标。
数据中台在完成数据归集后,对于原始数据、治理数据、应用层数据实现可视化建表并对表进行管理,同时对对接入的外部数据进行数据治理;后续上层业务须要对数据建模,可以平滑升级。数据治理平台集成了先进的大数据技术,配合数据集成平台覆盖数据集成、数据标准、数据开发、数据质量、数据资产、数据脱敏、数据管理等数据使用场景。其中数据开发具备实时计算、多维分析、全文检索、数据管道等分析能力,支持结构化数据、非结构化数据等的分析和加工[9]。
数据治理平台提供通用的平台接口,上层应用核心逻辑只须聚焦到业务逻辑实现和数据展示,数据的转换、提取、检索、分析等统一由数据治理平台屏蔽,把一些通用大数据平台能力沉淀到数据治理平台当中,极大地提高了数据治理平台对可视化分析以及各种分析类应用的支撑能力,同时降低了应用开发者的使用门槛。
数据治理平台功能包含以下4个方面。
2.2.1 标准管理
数据标准管理是对数据进行统一化、规范化的重要基础,解决的是数据格式不统一,数据内容不规范的问题[10],帮助用户对现有数据进行梳理,对新数据进行规范约束。本文从系统层面建立标准体系,用流程化的方式构建新的标准。缺失标准管理这一环节,容易遇到因格式不一致、值域范围不统一导致的数据之间无法有效关联的问题,增加了数据价值挖掘的难度,降低了数据的可用性。因此,在全局范围内建立标准体系,可以有效保障新数据的质量和使用价值。
2.2.2 主数据管理
在高速公路信息化系统建设过程中,基础信息数据往往分散于各业务系统中。分散的数据容易形成数据孤岛,不便于数据的共享与复用,因此需要主数据来解决这些问题。
为使主数据能够方便地跨业务重复使用,须要对主数据进行统一管理。主数据管理功能支持将数据源配置为主数据源,并将数据表纳入主数据源,以数据表为粒度,对主数据进行管理与维护,并支持查看主数据被各业务系统订阅的日志信息。此外,主数据管理还提供了数据流向规划功能,通过建立主数据表与业务系统间的UC矩阵,帮助用户理顺数据的产生(来源)和使用(去向),规划主数据数据流向。
2.2.3 数据质量
数据质量在数据治理过程中扮演的是发现和分析问题的角色[10]。数据质量问题可能发生在数据流转各个环节:源头的数据为、经过集成的数据、经过计算的数据都有可能出现脏数据。对于数据管理者而言,保障数据的质量才能让数据发挥出应有的价值。
数据质量提供的是主动发现数据问题的能力,支持对各个环节的结果数据进行监控,监控的对象单元是数据表中的数据列。使用规则模型与数据列进行关联,定义质量监控指标,指标执行之后统计不符合指标规则的数据占比,以达到提前预警数据问题的目的。在指标执行结果数据的基础上,中台提供数据表和指标结果趋势报告,帮助数据管理者分析数据质量问题和质量变化趋势。
2.2.4 数据资产
在实际的生产环境中,根据数据资产的管理情况,不同权限的数据使用人员,根据不同的业务属性,完成数据不同的使命。
数据资产模块提供元数据管理,厘清数据资产,通过数据血缘,可以全面掌握数据的全链路处理流程。通过对不同资产库的元数据采集以及按照自定义的业务属性对元数据分层分主题,实现多维度的资产图表统计展示,并提供数据智能搜索。数据资产功能包括元数据管理、血缘关系管理、数据表管理等[10]。
3 结语
本文研究的智慧高速数据中台,实现了高速公路建、管、养、运、服全生命周期数据资源在各高速公路管理单位之间的共享,消除数据孤岛效应,增强了信息的时效性,将数据形成有价值的资产。通过建设本系统,利用大数据平台能力,实现数据充分整合、高效传输。同时,数据共享能力可以大大减少各环节的人工成本,降低因数据流转缓慢造成的时效价值流失。中台的建设,将高速公路各类业务数据进行数据整合,统一数据治理体系,统一相关数据标准,统一存储,形成数据资产中心,并为数据统计分析打下基础。通过数据打通产业链数据,建设统计指标监控管理,提前预警提示风险,为战略决策及分析提供数据依据。系统经实际使用证明具备良好的经济效益和社会效益。
参考文献
[1]王玉焕,曹文斌,赵凛,等.高速公路数据资源开发利用关键技术研究[J].交通工程,2024(4):102-108.
[2]黄陈,胡汉桥,罗如意,等.基于多源数据融合的高速公路运行监测与指挥调度平台[J].中国交通信息化,2024(增刊1):363-365,372.
[3]高东明.高速公路智慧运营及信息化建设模式探讨[J].中国交通信息化,2024(增刊1):168-170.
[4]陈功,杨思宇,贾云强.高速公路全寿命周期数据中台设计[J].中国交通信息化,2024(2):97-100,105.
[5]姜鹏,陈思鹏.基于融合BIM技术的高速公路全周期建养数据中台建设[J].中国交通信息化,2024(1):109-113.
[6]李孜,陈志涛,杨路,等.高速公路数据管理体系研究[J].交通科技与管理,2023(19):13-15.
[7]李彦一,刘英培,孟飞,等.基于数据中台的高速公路数字化管理[J].中国交通信息化,2023(9):26-27,31.
[8]毛八生.基于多源数据融合的高速公路智慧出行服务系统探究与设计[J].长江信息通信,2023(7):235-237.
[9]李斌,梁轶涛.广东省高速公路通行大数据应用研究与实践[J].交通工程,2022(6):78-84.
[10]周晓亮,李季旸.公路行业数据资源治理与应用探讨[J].西部交通科技,2022(10):193-195.
Research on the construction plan of smart expressway data platform
Abstract: China’s highways have the characteristics of wide distribution, long mileage, multiple mechanical and electrical equipment, complex management systems, and low level of intelligence. In recent years, with the development of information technology, various highway management companies have carried out a large amount of information construction, and these information systems have become an indispensable means of work for various units. However, the rapid expansion of information technology has also led to various problems such as a large number of information systems, scattered construction, segmented blocks, and poor integration. This article proposes a construction plan for a smart high-speed data platform, which utilizes the platform to achieve unified aggregation, governance, processing, and sharing of various management system data on highways. The system has strong practicality in practical use and can effectively control various types of data on highways.
Key words: smart expressway; data platform; data governance; data integration