张秋亮,杨 栋, ,王建超
(1.中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081;2.中国铁道科学研究院研究生部,北京 100081)
智能时代的到来对铁路的创新发展提出了新的更高要求,智能高速铁路是广泛应用云计算、大数据、物联网、移动互联、人工智能、北斗导航、BIM 等新技术,综合高效利用资源,实现高速铁路移动装备、固定设施及内外部环境信息的全面感知、泛在互联、融合处理、主动学习和科学决策,实现全生命周期一体化管理的新一代智能化高速铁路系统[1]。运用深度学习、机器视觉等技术实时分析车站内的客流分布,检测售票窗口、进站口等重点区域的旅客排队人数,对客运生产作业和提升客运服务质量至关重要,也是智能车站建设的内在要求。
目前,客运站的摄像头已实现全覆盖监控,主要用于人工实时调阅和事后回放,智能化分析应用较少。通过获取前端摄像头的实时视频信息,结合深度学习和机器视觉技术,可实现重点区域的客流密度检测、排队人数检测,进而实现全站的客流监测,为高效精准作业和应急处置提供支撑。
既有的研究主要集中于客流检测和智能视频分析。唐金金等[2]以北京西站为例,研究了大型铁路客运站大客流预警及应对方案设计。王婵婵等[3]根据城市轨道交通日常大客流特征,研究上海轨道交通日常大客流检测及预警体系。杨超等[4]设计和研发面向车站管理人员的城市轨道交通车站客流安全检测系统。上述客流检测相关研究主要集中于对大客流的判断标准和处置流程,没有对车站客流检测技术及效果的深入研究。王明哲等[5]针对客运站的场景,以行人为检测目标,进行了客流密度检测的相关研究。杨加生[6]提出了铁路车站智能视频监控系统的组成、架构及应用场景。王巍等[7]梳理铁路客站视频监控应用现状及相关部门的需求,介绍区域密度检测、电梯异常检测、越线检测、物品移走检测、徘徊检测、脱岗检测、人脸识别等7 项视频分析技术。张亚伟等[8]研究了智能视频分析在铁路旅客服务中的应用,重点介绍了列车到发联动监控,人群密度统计、售票厅排队人数监测、站台入侵检测功能。上述铁路智能视频系统相关工作,主要集中于需求分析、系统功能介绍,涉及客流检测、排队检测相关的部分,缺乏对检测技术的深入研究和对检测结果的量化分析。
客运站客流监测系统接入进站口、候车厅、出站通道、售票厅等处的摄像头视频流,并基于卷积神经网络进行检测分析,得到重点区域的客流密度或排队长度数据,进而形成整个车站的客流状态信息。
客运站客流检测系统由感知层、服务层、应用层3 层构成,技术架构如图1 所示。感知层为进站口、候车厅、出站通道、售票厅等重点区域的摄像头,实现实时视频信息的采集。服务层是系统的核心,流媒体服务实现视频流的接入转发;检测算法及模型模块,基于卷积神经网络及机器视觉技术,实现视频画面中的人数检测、排队长度检测;拥挤度评价模块,基于各个摄像头图像分析得到的人数信息、排队信息,生成全站的客流分布数据,并根据规则设置,生成拥挤度指标信息;Web 服务为B/S 架构,提供标准化接口,处理客户请求响应。应用层实现与服务层的信息交互和结果展示,可展示监控分析点位的实时客流数据,展示车站整体的客流分布热力图和拥挤度指标,实现摄像头的实时预览、录像回放、设备管理功能。
图1 技术架构Fig.1 Technical architecture
在目前的网络规划中,摄像头位于综合视频网,客运生产作业的相关系统位于安全生产网[9]。客运站客流监测系统主要为客运生产作业提供辅助决策信息,用户主要是车站综控室的作业人员,故系统部署于安全生产网。系统网络设计采用三级架构,网络架构如图2 所示。摄像头挂载在综合视频网下的接入节点,与综合视频网之间通过防火墙进行安全隔离。流媒体服务通过接入节点,获取视频流,支撑整个系统的实时视频流和分析视频流需求。算法服务通过流媒体服务获取实时视频流,并进行分析。由于算法服务和流媒体服务通常涉及10 路以上的视频流并发要求,现有的铁路广域网网络条件无法满足传输要求,因而二者只能部署于车站级的信息机房,接入安全生产网。Web服务不涉及视频流的信息传输,为统一管理,节约资源,可部署于铁路局集团公司级信息机房。在武清主数据中心,配置存储资源,存储系统生成的客流信息,为客流态势大数据分析进行数据积累。
图2 网络架构Fig.2 Network architecture
系统主要功能包括:实时客流数据、客流分布热力图、拥挤度评价。
(1)实时客流数据。通过分析接入的进站口、候车厅、出站通道、售票厅等处的视频流,实时给出候车厅、出站通道的客流密度信息,进站口、售票厅的排队长度信息,以表格形式展现各监控点位的实时客流数据。客流密度信息为监控点位的客流密度,以x人/m2的格式展示。排队长度为监控点位的旅客排队人数,可区分识别多个排队队伍的排队人数。
(2)客流分布热力图。在分析实时客流数据的基础上,结合全站平面地图,生成全站的客流分布热力图。采用红色、黄色、绿色三色渐变表示客流密度,红色表示客流密度高,黄色表示较高,绿色表示正常。
(3)拥挤度评价。对每个监控分析点位的客流密度或排队长度进行量化打分,得到局部拥挤度指标;再对每个监控分析点位赋予权重,进行加权求和,即可得到全站的拥挤度指标。车站拥挤度信息每30 s 更新一次,并上传至武清数据中心存储,为大数据分析进行数据积累。
通过上述分析和设计,可以看出,系统的核心技术在于客流密度和排队长度的检测。客流密度和排队长度检测的本质均为对特定区域的旅客人数的判断,在机器视觉领域均属于目标检测范畴,即通过检测特定目标以判断特定区域内的旅客人数。目前,基于深度学习的目标检测方法主要有2类,一类是以Faster-RCNN 算法[10]为代表的两步检测方法,一类是以Yolo 算法、SSD 算法为代表的一步检测方法[11-12]。从车站场景提取500 张包含行人样本的图片并标注,得到共500 张图片的车站行人数据集,用于模型训练。选取50 个旅客排队队伍画面,分别用Faster-RCNN 算法、Yolo 算法、SSD 算法进行测试,不同算法识别准确率如表1所示。
表1 不同算法识别准确率 %Tab.1 Recognition accuracy of different algorithms
结果表明,在客流密度较高的车站场景中,Faster-RCNN 算法的识别准确率较高,故研究主要采用Faster-RCNN 算法对客流密度和排队长度检测进行研究和分析。
Faster-RCNN 算法是两步目标检测算法,算法的2 个核心步骤为候选区推荐和检测分类,Faster-RCNN 算法原理如图3 所示。输入图片首先输入卷积网络,进行特征提取,卷积网络可以是VGG16网络、ResNet 网络等。得到的特征图谱同时用于候选区推荐和分类检测,共用特征图谱降低了算法的整体运算量。在特征图谱上,先进行候选区的预测,即哪些位置可能存在目标,并生成包含目标的建议矩形框。在得到推荐的候选区后,对每一个建议的包含目标的矩形框进行分类预测,判断每一个候选区的目标的类别,并将所有检测到的目标的矩形框、类别、置信度标注在输入图片上。
图3 Faster-RCNN 算法原理Fig.3 Principle of Faster-RCNN algorithm
候选区推荐原理如图4 所示。以VGG16 网络提取的特征图谱为例,阐述候选区推荐原理。特征图谱中的每个点都会对应原输入图片中的一个点,定义特征图谱中的点为锚点,在每个锚点预置k个候选框,再预测全部锚点的候选框是否包含目标。对特征图谱进行卷积池化,生成归一化的512 维特征向量,分别用2 个网络处理这个特征向量,一个网络用于实现边框分类,一个用于实现边框回归,对于k个锚点,边框分类网络有2k个输出,表示是否包含目标,边框回归网络有4k个输出,表示每个矩形框的坐标。最后,将包含目标的候选框返回,即可完成候选区推荐。
图4 候选区推荐原理Fig.4 Principle of region proposal
Faster-RCNN 算法的损失函数定义为
式中:Ncls为每次训练输入的样本数量;为分类损失;pi为候选框是目标的概率;为候选框的标签,取0 或1,0 表示背景,1 表示正样本;Nreg为候选框的数量;λ为平衡两部分损失的权重参数;为边框回归损失函数;ti为算法调整候选框的变换向量;为将候选框变换为标注方框的变换向量。
式中:R为smooth L1 损失函数。
获取目标场景的视频流,并从中提取图片,对每一帧图片,运用Faster-RCNN 算法,结合VGG16 深度卷积神经网络,可实现图片中特定目标的检测识别,进而实现客流密度和排队长度的检测。对任意客流密度和排队场景,在待检测图片中用四边形标定待统计区域;然后,检测图片中的待检测目标,并判断目标中心是否在预置的四边形内;最后,统计目标数量,即可实现指定区域的客流密度或排队长度统计。既有的类似研究大多以行人为目标进行人数统计,统计精度仍不够高,为研究不同的检测目标对客流密度和排队长度统计效果的影响,选取行人、人头、头肩3 种不同的检测目标进行试验,并分析比较实验结果。
在许多公开数据集中,都有行人样本,但公开数据集的行人样本环境与铁路现场环境差异较大,在车站应用时准确率不高[13-14]。人头样本和头肩样本在公开数据集中较少,无法借鉴。为进一步提高检测准确率,均建立私有数据集,通过从车站的监控视频流中截取图片,并标注相应目标,建立3 种不同的数据集。行人样本标注如图5 所示,即用方框圈出图像中的整个人体。人头样本标注如图6 所示,即用方框圈出图像中人的头部。头肩样本标注如图7 所示,即用方框圈出图像中人的头和肩膀。
图5 行人样本标注Fig.5 Pedestrian sample labeling
图6 人头样本标注Fig.6 Head sample labeling
图7 头肩样本标注Fig.7 Head-shoulder sample labeling
从车站场景提取500 张包含行人样本的图片并标注,得到共500 张图片的行人数据集,用于训练识别行人的模型。从车站场景提取300 张包含行人样本的图片并标注其中的人头和头肩,分别用于训练识别人头和头肩的模型,由于单张图片中含有大量的人头和头肩样本标注,故可用较少的样本数据完成模型训练。
相比于公开数据集的样本数量,建立的行人数据集、人头数据集、头肩数据集的样本数量仍然较少,为提升训练效率、保证训练结果收敛性,均采用经过ImageNet 数据集预训练过的VGG16 模型进行迁移学习。训练时,锁定模型的前2 组神经网络参数,仅训练后3 组神经网络参数,并设置训练次数为70 000 次,学习率为0.001。
客流密度检测和排队长度检测原理类似,相比而言,排队长度的区域方框更小,检测要求更高,且统计准确率更为方便,故后续实验主要以排队长度统计进行分析和说明。对于每一个旅客排队的队伍,定义检测准确率如下。
对同一种模型检测多个队伍的检测准确率进行算术平均,可得到该模型的检测准确率。
相比于Faster-RCNN 算法在公开数据集的目标检测,在车站排队人数统计的检测过程中,待识别目标数量大幅提高,通常在一幅图片中,至少会有几十个待识别目标。为适应检测大量目标的需要,将RPN 最终输出的候选框数量设置为较大数值,本实验中设置为2 000。选取50 个旅客排队队伍,分别用行人模型、人头模型、头肩模型进行测试,判断旅客排队人数,行人模型检测结果如图8 所示,人头模型检测结果如图9 所示,头肩模型检测结果如图10 所示。
图8 行人模型检测结果Fig.8 Detection results of pedestrian model
图9 人头模型检测结果Fig.9 Detection results of head model
图10 头肩模型检测结果Fig.10 Detection results of head-shoulder model
各模型检测准确率如表2 所示。
表2 各模型检测准确率 %Tab.2 Detection accuracy of each model
(1)人头模型和头肩模型的检测准确率较高,分别为95.5%和95.2%,行人模型的检测准确率不高,为81.5%。
(2)行人模型检测准确率不高,分析原因,主要如下:①在人群密集的排队场景,目标遮挡严重,致使较大的检测目标检测不准;②由于车站的多数摄像头斜向下方拍摄,导致画面远处形变较大,人物变形严重,影响检测准确率;③由于目标较大,不同的队伍在图像中会重叠,使得排队的预置框难以确定,影响检测准确率。
(3)人头模型和头肩模型检测目标较小,在人群密集的排队场景,受目标遮挡影响较小,准确率较高,2 种模型的实际场景测试准确率接近。2 种模型均存在少量误判和漏判,如将黑色的挎包误判为人头、漏判了戴帽子的目标等。
(4)选定的检测目标,只要具有清晰易辨识的特征,且不存在遮挡,即可实现较高的检测准确率。
车站拥挤度指标是车站整体和局部客流密度的综合反映,通过量化的拥挤度指标,车站管理人员可方便地掌握车站的客流状况。根据每个监控点位分析的客流密度或排队长度,量化打分,得到局部拥挤度指标。
对于客流密度分析点位,根据监控画面中的检测区域面积,按照每位旅客1.2 m2的设计使用面积,可计算出该相机检测区域的设计承载人数,结合相机实时分析的客流人数,可得到局部拥挤度指标Pi为
式中:N为检测区域内的实时旅客人数,人;S为检测区域的面积,m2。
对于排队长度分析点位,根据实时检测的排队人数和设计排队人数阈值的比值,可得局部拥挤度指标Qi为
式中:L为实时检测的排队人数,人;Lt为设计的排队人数阈值,人。
通过上述分析可知,Pi和Qi可以反映拥挤度信息,当其数值小于1 时,表示局部客流密度或排队长度未超过设计值。根据局部拥挤度指标,可以绘制客流分布热力图,热力图分红色、黄色、绿色3 个档位,分别表示客流密度高、中、低,热力图展示颜色根据拥挤度指标渐变,热力图颜色与局部拥挤度指标对应关系如表3 所示。
表3 热力图颜色与局部拥挤度指标对应关系Tab.3 Corresponding relationship between heat map color and local crowding degree index
不同区域的拥挤度对车站整体的拥挤度影响不同,为量化这一影响,对客流分析点位赋予不同的拥挤度权重。进一步地,对局部拥挤度指标加权平均,可得车站的整体拥挤度指标S为
式中:Pi为客流密度分析点位的局部拥挤度指标;ui为对应的拥挤度权重,取值范围为1~2,默认值为1;m为客流密度分析摄像头的总数,个;Qi为排队长度分析点位的局部拥挤度指标;vi为对应的拥挤度权重,取值范围为1~2,默认值为1;n为排队长度分析摄像头的总数,个。
对于大多数分析区域,拥挤度权重和的取值为1,少部分重要区域,可赋予更高的权重。当客流在设计值范围内时,Pi和Qi的取值均小于1。因此,当客流在设计范围内时,S基本上也小于1。对整体拥挤度指标S进行量化分段,可将车站的整体拥挤度分为正常、关注、报警3 个级别。当S≤0.7 时,整体拥挤度为正常,表示车站大部分区域客流都在设计范围内,旅客出行体验良好;当0.7<S≤0.9时,整体拥挤度为关注,表示车站有部分区域的客流已超过设计范围,部分区域旅客感受到拥挤;当S>0.9 时,整体拥挤度为报警,表示车站大部分区域的客流已超过设计范围,全站旅客均感受到拥挤。
车站的客流分布情况对客运管理及生产作业有重要影响,在综合考虑客运管理、客运生产作业、车站网络环境的基础上,提出一种客运站客流监测系统,满足客运生产作业需求,符合现场实际情况。采用基于卷积神经网络的目标检测技术,结合车站的现场数据,从排队人数统计问题入手,对旅客人数分析问题进行了深入研究。研究表明Faster-RCNN 算法相比于单步目标检测方法准确率更高,用人头数据集和头肩数据集训练的模型具有更高的检测准确率,可以满足车站旅客人数分析需求。进一步地,为了使车站作业人员对车站拥挤度有直观判断,根据单个摄像头分析的旅客人数,给出了局部拥挤度指标和整体拥挤度指标的定义,并通过量化分析给出了车站拥挤度的评价方法。下一步,仍需对车站拥挤度的评价方法进行现场测试和改进,并结合具体客流分布数据,从趋势预测方面,研究客流态势感知问题,更好地辅助客运生产作业决策。