蒲一超 张 琦 田 琳 周 函 冉 莉 于 沁
(1.上海申通地铁集团有限公司, 201103, 上海; 2.同济大学电子与信息工程学院, 200013, 上海;3.上海市信产通信服务有限公司, 200050, 上海)
近年来,随着互联网和物联网的发展,以及数字化车站的建设,地铁客流管理逐步依赖于新型客流采集技术和特征挖掘手段,如红外线热点、Wi-Fi嗅探、手机信令、智能视频分析及人工智能等,来实现实时、精准地获取客流数据,逐步建成基于多源数据融合的综合客流感知计算系统。在众多客流感知的技术中,视频识别技术非常重要,其技术成熟、精确度高,且能实时向车站管理人员提供可视化图像,是地铁系统客流管理必不可少的技术。一方面,视频识别技术需要大规模数据的传输、存储和计算;另一方面,由于地铁系统对客流分析要求实时性高,所有的业务流程都需要实时响应。
在地铁推广二维码支付应用之前,地铁票务系统部署在独立的内部网络中,故云平台技术应用空间较少。随着地铁二维码的方式逐渐普及,云平台技术在客流分析场景的应用日趋丰富。文献[1]提出云清分中心和多站点边缘计算节点模型,解决地铁票务系统架构复杂、设备冗余、资源利用率低、功能重复等问题。文献[2]提出云计算技术在地铁自动售检票系统中的具体应用。文献[3]介绍了呼和浩特地铁城轨云的视频存储系统云服务模式,其实现了云平台视频数据的管理、调用等功能。文献[4]以武汉地铁为模型,提出一种基于轻量级的人脸识别的智慧地铁云支付系统构建的方案,有效保证识别效率和准确性。文献[5]结合地铁监控实际需求,从总体架构、视频数据流、视频云存储等几个方面介绍了视频监控和云平台的融合,构建了一套高性能、高安全、高并发、易运维、易部署的视频监控系统。
除了视频监控和票务系统以外,云技术还应用在地铁隧道检测[6]、车辆运维[7]、综合监控系统[8]、智慧运维系统设计[9]等方面。总体来看,云平台的理念初步在地铁系统不同场景进行试点应用,但尚未有针对客流分析场景的云平台设计。为了实现对大规模客流数据的实时获取和高效分析,本研究基于地铁客流分析的核心功能需求,设计一套面向地铁客流分析场景的弹性集群云平台(以下简称“弹性集群云平台”)。
当前的地铁客流分析业务,主要通过采集视频、闸机、Wi-Fi及手机信令等数据,完成地铁网络客流分布计算、客流出行轨迹重建、车站重点区域客流监测和预警,实现单站点客流密度以及全网客流密度分析与预测。地铁客流分析的业务场景如图1所示。
图1 地铁客流分析的业务场景
基于以上地铁客流分析业务,弹性集群云平台应具有以下3个核心功能需求:
1) 多系统并发处理,计算结果集成进行二次计算。地铁客流分析依托多源数据展开,故需要在弹性集群云平台上部署多个计算模块,并与各模块的数据源连接;在中心端,需要先将子模块的计算结果对比整合,再输出最终的计算结果。该功能的实现要求云平台具有较强兼容性,且算力满足并发计算需求。
2) 能实时完成计算,同时满足大量数据的存储及调用需求。在面对突发大客流时,弹性集群云平台应均有较快响应速度,能实时计算客流分布并给出应对措施,对其计算的实时性要求很高。此外,视频监控系统已覆盖城市轨道交通全区域,故需要被存储并实时分析的视频数据数量巨大,对计算量要求也极高。
3) 成本效益最优化。地铁客流存在分布不均、潮汐明显等特征,因此在做云平台部署方案时,需要统筹考虑存储和算力资源,在成本和效益之间尽可能寻找最优解。
面向地铁客流分析场景的弹性集群云平台,按照“6+2”的技术架构进行建设(见图2)。其中“6”包括物理基础设施管理、IaaS(基础设施即服务)平台虚拟化设施管理、基础通用PaaS(平台即服务)平台、大数据处理层、能力开放平台及智慧应用SaaS(软件即服务);“2”包括系统安全以及系统管理两部分。根据地铁客流分析并行计算多,数据监测、计算量大及响应时效要求高的需求特性,在PaaS平台进行容器化设计,实现弹性伸缩。
注:DevOps平台为开发-运营维护平台
2.2.1 自动弹性伸缩能力
弹性伸缩是根据业务需求和策略,自动调整其弹性计算资源的管理服务,达到优化资源组合的服务能力。在业务量上升时增加计算能力,当业务量下降时减小计算能力,以此保障业务系统的稳定性和高可用性,同时节约计算资源成本。
PaaS云平台通过对应用的资源利用率指标进行实时监控,在资源利用率变化时的自动扩容或缩容来保障业务高峰时段的水平扩展缓解业务压力,以及在业务低谷时候缩减副本以节约集群资源。
2.2.2 智能负载均衡能力
负载均衡能够对一个或多个服务进行流量分发服务,扩展了应用系统对外的服务能力,消除了服务在应用系统的单点故障缺陷,提升了应用系统的可用性。同时通过负载均衡,PaaS平台可以为应用服务提供一个外部负载入口。
PaaS平台以路径配置对象服务的负载均衡,负载均衡配置文件控制应用服务的对外访问入口,访问入口支持七层URL(统一资源定位符)形式负载均衡,以及四层IP(网际协议)+端口形式负载均衡;若用户未对负载进行定义,将自动生成以项目名+服务名+iPaaS(集成平台即服务)平台域名七层负载地址,在负载均衡标签页创建的对象就是暴露应用服务的对外访问地址。
地铁客流分析场景包含多源数据类型,其中视频系统包含大量的高清监控视频数据。因此,需要有一套能满足视频流并发性能的存储系统。为保证足够的网络带宽来满足海量视频流的存储与读取,以及对数据安全性的考量,本研究采用分布式架构的云存储,通过聚合云存储节点的网络带宽、硬盘I/O(输入/输出)、CPU计算性能、缓存等存储部件来满足视频周期性存储的需要。
部署方案一为分布式云部署方案。采用信息中心大公共云资源池+多个云节点建设,实现客流数据采集与分析。信息中心大公共云资源池:根据实际需求,并考虑错峰平谷因素推算业务资源需求模型。业务发展前期可先行考虑按照0.1系数建设公共云资源池供边缘节点资源错峰调度复用(存储不考虑该系数,按实计算),以视频客流分析模块为例,如前期每个地铁站只需要一个16路视频分析数据结果作为最低配,则中心可暂不考虑预留计算资源;多个云节点:单节点部署2台物理服务器(1主1备),每台服务器配置2块GPU(图像处理单元)卡,支持并发分析16路高清或标清视频图像(25帧)的最小需求。
优势:①增加计算节点的利用率,减少基础设施投入,后续可根据业务发展灵活动态扩展公共资源池资源数量;②统一应用管理,应用通过云PaaS平台统一管理维护,减少各个节点应用运维成本。
劣势:计算和响应高度依赖网络传输效率,对实时计算的响应存在一定延时。
可见,部署方案一更适用于运营规模确定、传输网络可靠的新建地铁系统。
部署方案二为边缘物理计算+中心云部署方案。采用公共云资源池模式+地铁站专用机房进行建设,地铁站在各自的地铁站专用机房内本地完成客流数据的采集与分析。公共云资源池主要部署算力调度平台、跨站客流分析应用等。边缘计算的n个站点:单节点部署平均5台物理服务器,并配置5台GPU服务器;中心公共云资源池部署1套PaaS平台软件。
优势:①就近部署,随着业务需求量的不断扩大,未来可提供最佳的时延和性能;②采用物理机方式组网,低时延。
劣势:资源不能共享,基础资源占用较多,一次性成本投入较高;边缘节点物理机的日常管理运维工作量大,后期运维费用较高。
可见,部署方案二更适合未来运营规模不确定、需要实时计算的新老地铁并行运营系统。
本研究以上海的地铁客流分析场景为例,对弹性集群云平台架构的部署方案进行比选。主要客流分析场景由2类构成:一是基于图像识别技术实现微观车站区域的客流统计;二是基于Wi-Fi嗅探技术实现宏观网络层面的客流出行轨迹重建。
研究对象为2020年的上海地铁,涵盖415座车站。需基于其能力需求分析,比对不同部署方案的投资成本。
3.3.1 计算能力需求
视频分析所需GPU资源测算需求如表1所示。
表1 视频分析算力需求
每GPU单浮点计算能力为8.1 Flops,计算可得每座车站需要7块GPU卡。视频分析应用软件需要16核16 GiB内存,存储容量需达0.24 TiB。
Wi-Fi分析由每个站点将采集到的数据上传到中心端后,统一由中心端完成分析。Wi-Fi分析应用软件需要12核 128 GiB内存,存储容量0.10 TiB。
3.3.2 存储能力需求
按目前配置统计,上海每座地铁车站平均有38个标清摄像头(日均视频数据存储量约为45 GiB),58个高清摄像头(日均数据存储量约为65 GiB)。每座车站的Wi-Fi数据量为3 GiB。经统计计算,得到上海的地铁车站数据存储能力需求见表2。由表2可得,每座车站视频数据源的存储总需求量合计为1 062 TiB。
表2 上海的地铁车站存储能力需求
3.3.3 网络带宽需求
监控视频的编码主要采用H.264标准,单个视频流带宽约为4~6 Mibit/s(分辨率为720~1 080 p)。由于地铁车站视频监控设备数量庞大,因此,在考虑视频分析应用的特点,并平衡算力和网络带宽的需求后,应先采用分布式架构对视频数据进行分站的处理分析,再把计算结果上送至指挥中心。
按照并发100路视频流计算,上行网络的传输带宽为400~600 Mibit/s。
3.3.4 投资成本估算及比较
根据以上需求,按一次性投入及后续5年的运维成本计算,对不同部署方案的投资成本估算如表3及表4所示。
表3 方案一的投资成本估算
表4 方案二的投资成本估算
由表3及表4可以看出,相比方案二 ,方案一在成本投入上有显著优势。
弹性集群云平台架构在以下几方面能充分匹配地铁客流分析业务的相关特征:
1) 支持异构基础资源。云计算可以构建在不同的基础平台之上,即可以有效兼容各种不同种类的硬件和软件基础资源。硬件基础资源主要包括网络环境下的三大类设备,即计算类(服务器)、存储类(存储设备)和网络类(交换机、路由器等设备);软件基础资源包括单机操作系统、中间件及数据库等。
2) 支持资源动态扩展。①支持资源动态伸缩,实现基础资源的网络冗余。即使任一资源节点异常宕机,也不会导致云环境中的各类业务的中断,更不会导致用户数据的丢失。②资源动态流转。在云平台下实现资源调度机制,资源可以流转到需要的地方,从而在提高部分资源利用率的情况下,达到其他资源绿色、低碳的应用效果。
3) 支持异构多业务体系。在云平台上,可以同时运行多个不同类型的业务。“异构”表示该业务不是同一的,不是已有的或事先定义好的,即用户可以自己创建并定义业务。
4) 支持海量信息处理。云平台底层要面对众多的各类基础软硬件资源,云平台上层要能同时支持众多的各类异构业务;对于某一具体业务,需要面对大量的用户。可见,云计算面对海量的信息交互,需要有高效、稳定的海量数据通信及存储系统作支撑。
5) 按需分配按量计费。按需分配是云平台支持资源动态流转的外部特征表现。云平台通过虚拟分拆技术,实现了计算资源的同构化和可度量化,可以根据实际业务需求,提供小到一台计算机,多到千台计算机的计算能力。
在面向地铁客流分析场景的云平台架构基础上,提出了两个部署方案。其中,分布式云方案能充分实现资源共享且总成本较低,但受制于网络传输可靠度,可能存在计算延时。适用于运营规模确定,传输网络可靠的新建地铁系统。边缘物理计算+中心云方案能充分满足实时性要求且可扩展性强,但整体成本高,适合未来运营规模不确定,需要实时计算的新老地铁并行运营系统。
未来的研究可以针对云平台设计继续深化。考虑引入边缘计算能力,采用云边结构处理不同应用场景。边缘计算聚焦实时、短周期数据的分析,能够更好地支撑本地业务的实时智能化处理与执行。在进行云端传输时通过边缘节点进行一部分简单的数据处理,进而能够缩短设备响应时间,减少从设备到云端的数据流量。