杨宇伟 颜英
摘 要:在深入研究大数据在公交行业应用的基础上,本研究提出了公交大数据综合管理平台的系统框架,研究设计了面向公交行业管理者、公交营运管理者和公交出行者的关键应用功能。基于容器、微服务和大数据等技术研制了公交大数据集群,并接入公交业务真实数据进行了平台示范应用的效果验证,证明了大数据挖掘成果的準确性和系统的可靠性,也证明了该技术对提升公交智能化运营管理效率、行业监管效率和服务水平具有重要意义。
关键词:公交大数据;综合管理平台;功能设计
中图分类号:U495;TP311.13 文献标识码:A 文章编号:2096-4706(2019)20-0016-04
Abstract:Based on the deep study of the application of big data in the public transportation industry,the paper proposes the system framework of the public transportation integrated management platform based on big data,studied and designed key application functions for public transport industry regulators,public transport operation managers and public travelers,the big data cluster of public transport was developed based on the technology of container,micro-service and big data and access to real data of public transport business to verify the effectiveness of the platform demonstration application,the accuracy of the big data mining results and the reliability of the system was proved. the significance of the technology was also proved in improving the efficiency of bus intelligent operation management,industry supervision efficiency and service level.
Keywords:public transport big data;integrated management platform;functional design
0 引 言
公共交通信息系统积累的海量多源异构数据具有明显的大数据特征,大量的数据孤岛和数据分析处理能力的缺乏,导致大量数据资源没有得到充分有效的利用。随着移动互联网、人工智能、大数据、云计算等新一代技术在交通领域的应用日趋成熟,国内多家公司先后在智慧交通领域建设了交通大脑,如阿里巴巴的双核“城市大脑+交通小脑”、杭州公交云的“公交数据大脑”、海信的“城市智慧心脏”、滴滴的“滴滴大脑”等。它们都对海量数据进行了充分利用,挖掘数据之间的关联,从已有数据中挖掘有价值的信息。
由于现有大数据产品更侧重于移动支付等公交信息化应用,尚未全面覆盖公交运营管理和决策等业务应用,所以没有实际有效解决公交运营管理痛点。为了挖掘更多的公交应用潜力,进一步提高公交智能化管理运营效率和服务水平。本研究深入探索大型公交集团运营管理与决策应用需求,从公交行业管理者、公交营运管理者和公交出行者的角度进行了关键应用功能设计,自主研制了公交大数据综合管理平台,并基于公交运营真实数据进行了示范应用,效果证明该平台实现和提升了公交运行的综合管控效率和运营效率,对原有公交行业智能化管理水平的提升具有重要推动作用。
1 公交大数据综合管理平台系统框架设计
公交大数据综合管理平台通过底层设备采集海量多源的公交业务原始数据,经过接入、存储、处理与分析后,为公交行业管理者、公交营运管理者和公交出行者提供不同层面的信息服务。平台系统架构如图1所示。
整个系统架构采用插件化和分层设计思想,逻辑上主要分为数据采集层、数据集成层、平台处理层、应用层和展示层。每一模块层通过边界接口与上层或下层的模块层进行交互,避免跨层的交互,各功能模块是高内聚、松耦合的。且平台从物理安全、网络安全、应用安全、数据安全和主机安全等方面确保整体的安全性。每层功能的简要介绍如下。
(1)数据采集层:平台将公交基础数据、实时数据、流媒体数据、地图数据和其他数据(如公交客流数据、车载GPS数据、信号优先数据、车辆状态数据、站台/车辆/场站视频、和天气等)通过数据集成层汇聚到公交大数据平台中;
(2)数据集成层:数据集成层包括数据预处理服务和消息传输服务。为平台提供数据导入、抽取清洗、协议转换、格式处理、数据编码、消息发布订阅等功能。通过ETL工具对采集的多源异构数据进行预处理后,将数据传输到大数据平台存储,或者通过消息发布订阅中间件将数据传输到平台处理层。其中数据预处理包括数据抽取、数据清洗、数据转换、数据编码和数据加载等,对数据质量进行判别和处理。比如对数据格式进行规范化转换,过滤掉对实际业务毫无意义的脏数据,对不完整的数据进行补缺操作,对错误数据进行修正,以及按照一定的算法筛选出满足特定数据分析需求的数据;
(3)平台处理层:平台处理层包括数据存储与管理、集群资源管理、资源协调调度、大数据处理引擎、容器管理和微服务等功能模块,为大数据的应用提供全方位支持。负责将数据集成层清洗处理后的数据进行高效的存储与管理,根据对数据分析实时性和数据处理场景的不同需求,利用业务规则或数据挖掘等算法在大数据处理引擎进行分布式计算,对公交非实时应用进行离线批处理,对公交车辆到站预报等实时应用进行在线流处理。为了防止集群资源的浪费,平台对集群资源进行管理和协调调度,协调多种资源的分配和管理。辅助管理提供易用性、可维护性以及健壮性的框架,实现大数据平台的统一管理和运维;
(4)应用层:深入研究公交相关应用的规律和机理,应用层下达任务执行指令到平台处理层,不断对算法模型(如到站预报、客流分析等算法)进行选取、效果评估验证和调整优化,直至返回的测评结果符合预期,最终实现到站预报、客流分析等大数据应用;
(5)展示层:根据不同用户的需求,设计开发面向公交行业管理者、营运管理者和公众的可视化示范展示系统,可视化呈现公交基础信息、公交安全运营信息、服务综合水平信息、公交拥挤度信息和公交客流信息等各类信息。
2 公交大数据综合管理平台关键应用功能设计
本研究主要探索设计公交典型业务的大数据应用,从公交营运管理、公交监督和决策等角度设计不同的专题,基于公交大数据平台,对采集的海量公交业务数据进行分析,实现公交行业的大数据挖掘和应用,为公交出行者、营运管理者和行业监督者提供服务,为辅助决策提供数据指标支撑,通过大数据平台进一步提升统计效率、精确度和实时性。
2.1 面向公交出行者的数据挖掘与应用
本研究以提高乘客信息发布的准确度、扩充乘客信息发布的内容和形式、为公众提供丰富智能化的公众出行服务为目的。面向公交出行者的数据挖掘与应用包括基于视频监控的公交拥挤度信息计算与发布和基于大数据的公交到站时间预测优化等典型应用。
2.1.1 基于视频监控的公交拥挤度信息的计算与发布
本研究在基于视频终端拥挤度识别技术和视频图像识别技术的基础上,研究设计了基于视频监控的车内拥挤度判别技术,在公交大数据平台分析海量视频流数据,对算法模型进行迭代优化,从而实现车辆拥挤度、车辆满载率、车辆乘坐舒适度等指标的自动发布,为公众提供实时准确的交通出行信息服务,帮助出行者根据交通状况选择更合适的出行路线及换乘方式,减少因拥堵造成的时间成本浪费。
2.1.2 基于大数据的公交到站时间预测优化
以公交基础数据、公交车辆实时到站数据为输入内容,考虑天气、路段、时间段、工作日等影响因子的权重,采用支持向量机和卡尔曼滤波相结合的方案,设计基于大数据的公交到站时间预测算法,在公交大数据平台对数据进行实时分析比对,迭代优化、自主进化,不断对模型进行修正,提高模型的抗干扰能力和预测的准确性。利用大数据分析优化公交到站时间预测,提高到站预测的精度和性能。实时准确地为乘客提供公交车辆到站时间预测和到站距离查询服务,优化客户候车预期,减轻乘客等候过程中的焦虑感,从而节约乘客的出行时间,提升客户满意度,吸引更多乘客采用公交出行方式。
2.2 面向公交营运管理者的数据挖掘与应用
本研究以提高营运管理者的综合管理效率为目的。面向公交营运管理者的数据挖掘与应用包括基于大数据的公交行车计划智能编制、基于大数据的公交客流信息分析、基于大数据的公交安全隐患监测等典型应用。
2.2.1 基于大数据的公交行车计划智能编制
现有的行车计划以人工编制为主,依赖编制者的经验,更新频率较低,无法满足需求供给变化和应对突发情况。利用公交大数据处理平台汇聚的海量多源数据,设计基于大数据的公交行车计划智能编制算法,在深度学习中对算法模型进行效果评估和不断修正,根据不同场景(比如天气、活动、节假日等)自动优化运行计划,提高运行计划编制的智能化程度,辅助公交运营部门掌握城市客流波动趋势和线网运能饱和度,精确制定调度排班计划,实现实时智能调配,提高调度管理效率,为进一步开辟全新公共交通线路、辅助线路优化等提供支持,实现公共出行供需侧运力平衡。
2.2.2 基于大数据的公交客流信息分析
通过客流采集设备、GPS、售票机、闸机等多源公交客流数据,结合图像识别处理和时间对应法则等技术,对客流出行特征、人群时空分布等进行大数据分析,用各种方式(如不同颜色、报表等)向运营管理者展示线路客流情况,展示不同时空层次下不同线路、班次或站点的客流分布。为公交计划排班、公交调度及线路调整提供数据支撑。
平台还可以预测客流高峰时间段,通过对大客流进行自动识别、预警和实时监控,为应急预案提供辅助支撑,包括辅助高峰时间段大站排班调整,运营时间调整等优化方案的制定。在该时间段内适当增加车辆班次,缓解运力紧张。
2.2.3 基于大数据的公交安全隐患监测分析
采集公交车辆、驾驶员、线路、场站等数据,比如驾驶员的年龄、身体状况、駕龄方面的数据,以及线路重点站台和路段、场站车速管控、人车分离等方面的数据。运用关联规则算法,找到和事故有强关联的影响因素,结合视频图像识别技术,在大数据平台通过车辆实时运行数据和视频监控画面提取分析驾驶员的疲劳驾驶和酒驾等情况,生成公交车辆和驾驶员的安全画像。对行车过程中的车辆和驾驶员的安全隐患进行组合风险评估和实时排名分析,实现对车辆和驾驶员安全行车的实时监测和报警预警,为安全行车提供决策支持。对安全风险较高的异常车辆(如事故高发公交车辆)进行重点监控,增加维护频率。在行驶过程中对组合风险较高的驾驶员(如疲劳驾驶)进行实时安全提醒或报警等。为安全行车和车辆调配提供信息化判断标准,减少恶性交通事故率。同时利用高密度采样调查获得秒级GPS定位数据,提高违法公交车辆的追踪效率。
2.3 面向公交行业监督与决策者的数据挖掘与应用
本研究以加强对行业的管理范围和力度,且为决策提供准确合理的数据支撑为目的,为实现政府高效管理提供可能。面向公交行业管理与决策者的数据挖掘与应用主要包括基于大数据的公交行业区级管理等典型应用。
采集公交运营事故和服务等数据,在公交大数据综合管理平台进行处理分析,生成与企业营运服务、安全事故、违章、信访处理、媒体投诉等有关的重要指标数据,找到公交吸引力不够、事故发生等的深层次原因,有助于管理部门采取监管措施,加大检查核查力度,提高检查核查频率,督促企业进行整改,提升服务水平和安全管理水平。实践证明,该平台的大数据分析结果是准确合理的,能达到管理预警的目标,从而提高管理效率。
2.4 公交大数据平台特点
考虑到未来几年内或更长时间内的数据应用和业务发展要求,平台系统框架从各个环节采用集群化微服务架构和容器管理服务,微服务架构具有可独立部署、扩展性强、扩展时对已有系统几乎无影响等特点,容器技术为系统的部署、升级提供了便利,确保了平台的高可靠性和易扩展性。
2.4.1 数据接入层面
数据采集层具有易扩展性,接入数据来源开放,可接入更多公交运营业务数据或其他行业数据。数据集成层采用集群化方式部署,确保服务的高可靠性。
2.4.2 软件组件层面
平台采用集群化方式部署,提供容器管理和微服务,在实现数据共享和交换的同时,注重对数据和应用实现隔离与保护,确保了软件的可靠性、安全性和可扩展性。
2.4.3 应用功能层面
随着业务需求的增多,应用功能层面可以实现更广泛、更全面的功能。应用层采用集群化微服务和容器管理服务,微服务以镜像的形式运行在容器中。各个算法模块和应用通过微服务的形式进行快速部署以及对外提供服务,提高了应用层的灵活性和易扩展性。平台还提供单点登录功能,支持各应用系统以超链接或单点登录的方式接入平台,用户一次登录即可访问多个相互信任的应用系统,无需重复登录,有助于提升用户体验。
3 公交大数据综合管理平台示范应用
在研究系统框架和关键应用功能的基础上,本文的研究搭建了公交大数据集群环境,并接入真实数据完成了公交大数据综合管理平台的工程示范应用。
3.1 平台环境搭建
对比分析市面上受认可的Hadoop大数据平台发行版,如华为、Intel、Cloudera、MapR以及HortonWorks等发行版,综合考虑平台的开源性、稳定性、强大社区支持、费用和业务需求等各方面因素,最终选择Cloudera来搭建公交大数据的示范应用平台。
Cloudera提供了一个稳定集成和可扩展的企业级大数据管理平台,方便对集群各组件进行安装部署和管理[1]。Kubernetes是一个基于容器技术和微服务架构的分布式系统支撑平台,具备可扩展的资源自动调度和智能负载均衡等能力[2]。本研究采用Kubernetes+Cloudera部署了三节点的大数据集群环境。
集群采用50M运营商专线网络,所有节点都连接到相同的接入层交换机,实现平台数据互通和资源调度。网络拓扑如图2所示,平台环境部署在三节点服务器上,通过交换机为公交大数据综合管理平台提供高效可靠安全的信息交换服务,数据流可直接在应用服务、数据与终端用户之间传输。
3.2 平台应用数据接入
本平台采集汇聚了公交基础数据、实时数据、流媒体数据、地图数据和其他数据等五类数据,实现了数据接入规范化和集中管理,为公交大数据挖掘和应用提供数据资源。接入的五类数据信息分别如下:
(1)基础数据:停车诱导屏基础信息、公交企业基础信息、公交场站基础信息、公交站点信息、站牌站杆基础信息、公交线路基础信息、公交车辆基础信息、公交从业人员基础信息等数据项;
(2)实时数据:计划排班信息、运营调度信息、票务信息、停车诱导信息、公交客流信息、车辆到站信息、公交车辆状态信息、场站进出口信息、车辆位置信息、公交服务信息、公交投诉信息、事故信息、能耗信息、新能源信息等;
(3)流媒體数据:场站视频信息、公交车载视频信息等;
(4)地图数据:区县行政界限、街镇行政界限、水域、道路、河流、绿化、地形、桥梁信息等;
(5)其他数据:天气信息、环境信息、各类统计报表等数据项。
3.3 平台应用效果
本平台接入了上海某公交运营公司某些线路的真实数据,根据营运管理者和行业监督者的管理需求,可视化呈现各类管理数据信息(如综合管理、安全管理、服务质量等)。公交大数据综合管理平台应用示范可视化展示如图3所示。对面向公交行业管理者、公交营运管理者和公交出行者的关键应用功能进行了平台示范应用的效果验证,证明了大数据挖掘与应用成果的准确性和系统的可靠性,证明了本平台对提升公交运行的智能化运营管理和服务水平具有重要意义。
4 结 论
本研究从工程应用的角度深入探索公交业务需求,对公交大数据综合管理平台的系统框架、平台关键应用功能和公交大数据部署环境进行了详细介绍。本平台接入大量真实数据到研究环境中进行测试和验证,证明了大数据挖掘成果的准确性和关键应用功能的可推广性。在既有技术积累和项目实践经验的基础上,未来本成果会面向市场,并能带来经济效益。
本平台目前针对的是公交行业的综合管理,接入的数据有限,应用不广泛。随着需求的不断增多,平台会接入更多其他行业的数据,更多数据的共享交换和深度融合会挖掘出更多更有价值的信息,使大数据应用研究更全面,给予工程应用更多智能化提升方面的帮助。
参考文献:
[1] 宋立桓,陈建平.Cloudera Hadoop大数据平台实战指南 [M].北京:清华大学出版社,2019.
[2] 龚正,吴治辉,王伟,等.Kubernetes权威指南:从Docker到Kubernetes实践全接触:第2版 [M].北京:电子工业出版社,2016.
作者简介:杨宇伟(1986.11-),男,汉族,上海宝山人,工程师,硕士研究生,研究方向:系统集成。