铁路车站旅客密度自适应场景估计与应用研究

2021-11-24 09:07王万齐代明睿

铁道运输与经济 2021年11期

李瑞，李平，王万齐，代明睿

（1.中国铁道科学研究院研究生部，北京 100081；2.中国铁道科学研究院集团有限公司电子计算技术研究所，北京 100081）

铁路车站是旅客运输的基层组织单位，承担着旅客运输过程中乘降、中转、疏导等旅客运输业务，是城市中旅客集散、疏导的重要场所。特别是在节假日时期，大量旅客在车站售票厅、候车室、出站口很容易形成高密度人群聚集效应，因此铁路车站一直将旅客人群密度的管理疏散作为旅客服务管理中的一项重要工作内容[1]。目前，全国大多数铁路车站在人流密集区域都安装有大量摄像头，通过统计视频区域范围内客流量和人群密度，辅助旅客组织管理工作。精准地掌握区域范围内人群密度，无论是对旅客的站内服务组织管理，还是针对疫情下的防控疏导，都具有十分重要的意义。同时，在旅客服务应急管理过程中，车站针对多种突发性事件都做了充分的预案，通过旅客视频人群密度分析技术，可以深度挖掘应急场景中的视频监控信息，为车站应急管理提供数据支撑，提升车站突发性事件场景下的应急处置效率。

1 车站旅客人群密度估计场景和技术需求分析

1.1 车站旅客视频场景需求分析

车站作为旅客集购票、安检、候车、换乘于一体的公共服务空间，人群聚集效应明显，特别是在周末、小长假、春节等节假日或是遇到突发情况时期，车站人流量急剧攀升，很容易形成高密度人群聚集区，给站内运营组织管理和旅客服务管理提出了很高的要求[2]。铁路车站的人群密度由于旅客候车、乘降过程中的聚集方式，以及特有的密度分布特点，对现有视频分析算法提出了较大的挑战。

（1）旅客密度分布特点。①旅客人群分布不均匀。对于临近发车时间的候车区域，由于大量乘车旅客的聚集，在检票口附近人群密度高度集中，通常呈现出以检票口为中心，聚集密度向外逐步减弱的高聚类属性；对于距发车时间较长或暂无开行计划的候车区域，旅客为寻求候车的舒适性和私密性，往往呈现均匀分布的特点，人群密度呈现出稀疏态势。由于车站列车的频繁到达与发车，不同候车区随着列车接发工作和旅客候车乘降过程，呈现出人群密度分布不均匀且动态变化的特点。 ②旅客人群遮挡问题严重。旅客在站内由于聚集效应会造成较为严重的遮挡，造成人群密度估计困难[3]，可分为静态遮挡和动态遮挡。静态遮挡主要为旅客受座椅遮挡、大件行李箱遮挡，以及旅客依偎、搂抱等姿态形成的人体遮挡。动态遮挡指旅客在站内活动造成的人体遮挡，主要包括进站、检票、购物等过程中旅客群体间发生的人体遮挡。

（2）旅客人群视频图像难点分析。由于车站本身的功能区域丰富多样，车站内布设了大量的摄像头，旅客视频图像具有背景复杂、光线变化、尺寸不一的特点。在对旅客人群密度估计过程中，需要满足各个视角环境下的估计需求，视频图像的相关因素都会制约旅客人群密度估计的性能。①图像背景复杂的影响。铁路车站站房结构庞大，站内场景复杂多样，除了主要的检票区域和候车区域，还分布有大量商铺、巨型广告牌、站内引导牌、列车时刻表大屏等设施。在视频图像前景与背景分离过程中，前景为静坐和走动的旅客，而背景包括广告牌、商铺、座椅、指示牌、闸机等其它容易形成遮挡的设施[4]。由于站内背景图像复杂，因此对前景人像的识别和分离形成了较大的挑战。②光线变化的影响。铁路车站站房宽敞宏大，为保证采光充足，通常会通过宽大的落地窗引入自然光。这造成逆光安装的摄像头局部光线太强，加大了视频图像的识别难度。另外，地面反光也会造成视频图像呈现逆光、过度曝光效果，影响对旅客人群密度的识别估计。③旅客图像尺寸不一的影响。在摄像头视角下，由于旅客人群与摄像机的距离不同，造成人群在视频图像中的尺寸大小不一的问题，这对人群密度估计方法也提出了一定挑战。

1.2 基于旅客人群密度的技术分析

传统基于视频图像分析的人群密度算法主要有基于检测、回归、非线性密度估计的方法。早期基于检测的方法主要是采用“滑窗”原理[5]，对视频图像进行逐帧的扫描分析，并且人群密度特征的提取需要人工方式来完成，工作量大，检测效率低。为了解决遮挡和背景杂乱的问题，P.Viola等[6]采用回归的方法，对局部图像提取特征图及其计数过程建立了一种映射，通过线性回归或高斯混合回归方式进行识别估计，虽然能够解决画面阻塞和背景杂乱的问题，但是由于特征提取不全面降低了模型的精度。近年来基于卷积神经网络（CNN）在识别和分类任务上的成功，启发了研究人员通过使用CNN来实现人群计数和密度估计。Walach等[7]提出了多层次训练的CNN方法。Zhang等[8]提出了一种不同尺寸特征提取的多列网络结构，通过不同支路对图像中不同尺寸的人群进行识别，提高了图像中人群密度估计准确性。

基于深度卷积神经网络算法模型，针对铁路车站旅客人群密度分布特点和旅客视频图像分析难点，构建出一种基于车站不同旅客密度分布场景下的自适应密度估计模型（ASCCNet， Adaptive Scenario Crowd Counting Network）。该模型以预训练模型—可视化深度卷积模型（VGG16）作为骨干基础网络，用于前端输入图像的特征提取，在此基础上构建2条平行分支，分别对人群密集场景和稀疏场景进行处理，并给出相应的权重，然后通过第3条分支对前2个分支进行权重线性组合处理，综合计算出对场景密度的感知权重，从而提高整个网络的密度统计精度。其中采用注意力机制和空洞卷积操作实现对目标特征图像的重点关注，实现在背景复杂多样的车站视频图像中快速、精准地定位到人群目标，保证人群密度估计的准确性。

2 自适应场景人群密度估计网络（ASCCNet）模型网络构建

2.1 注意力机制模块

针对车站旅客人群密度分布特点和场景的复杂性，构建的模型需要对不同站内环境下不同的旅客人群分布状况具有足够的鲁棒性，即在不同的场景下都能够准确地将旅客人群的特征信息进行识别提取和估计。由于不同场景下的图像特征在进行深度卷积操作后所表示的语义信息不同，不同人群密度状况下所提取的语义相似性不同且特征明显。旅客在站内的人群密度分布情况往往与实际的候车、检票等实际状态具有强相关性，针对旅客人群密度的分布特点，在模型构建的过程中，引入注意力机制，在图像特征提取过程中，将图像中提取出的人群特征信息赋予较高的权重，同时抑制背景特征，降低背景信息对人群特征的干扰。

具体而言，通常的CNN模型是在卷积核的作用下对所有图片信息进行处理，而注意力机制是利用图像中的重点处理信息来计算出网络中各个神经元的响应，具体在图像信息对应的特征图上，对每个像素点都给出相应的权重，然后基于掩码原理，将图片数据中关键的特征标识出来。在经过大量标注图片的训练学习后，网络可以学习到每一张图片中需要关注的区域，从而实现对关键信息产生注意力的目的[9]。

实际的旅客密度估计过程中，在输入图像经过深度卷积操作生成相应的特征图后，引入注意力模块对各自特征图中的密度人群与车站背景进行语义分割提取，由于该模型中只对人群和背景进行分割，因此可以看作一个二分类问题。注意力语义分割模块示意图如图1所示。为实现二分类处理，对输出的特征图都设定为双通道，一层指背景Fb，另一层指人群Fc；Wb，Wc为特征图在经过全局平均池化处理后，得到对应特征图的空间平均权重值，通过分类激活函数对整体特征图进行分类（背景和人群），得到背景、人群的置信度Pc和Pb，当Pc= 1，表示该像素点为人群，当Pb= 0，表示该像素点为背景。最后通过像素点积运算后融合为只显示人群密度的特征图。通过引入注意力机制，可以将模型注意力集中到有人群的区域，提升对不同噪音的抵抗能力，有助于提高模型密度估计的准确性。

2.2 不同尺寸旅客图像识别模块

由于旅客在站内分布的特点，视频图像中旅客影像尺寸大小不一，经过传统的卷积操作后，不同尺寸大小的旅客信息，在经过深层的特征提取后，小尺寸的语义特征信息丢失较多，因此在常规的卷积和池化操作训练过程中，虽然能够很好地控制过拟合，保持特征图像的稳定性，但由于造成空间信息的丢失，扩大特征图的损失，视频图像中小尺寸的旅客图像往往不能被准确识别，因而大大降低了人群密度的准确程度。而反卷积操作可以减少信息丢失，能够将小尺寸的旅客进行估计，但所增加的计算复杂度和时间开销不能满足所有的应用场景。

针对小尺寸旅客图像的估计，空洞卷积可以很好地弥补上述操作的缺陷，一方面通过使用稀疏卷积核替代池化和卷积操作，扩大了特征图像的感受野，可以有效地实现对人群的快速定位，另一方面空洞卷积的使用无需更多的参数。空洞卷积可以在不改变尺寸大小的情况下代替上采样和下采样过程，减少信息的损失。

2.3 自适应场景人群密度估计模型网络结构

由于站内环境的复杂和车站旅客人群密度的特点，传统的深度学习网络通常在稠密人群场景下可以取得很好的预测效果，但难以对稀疏人群场景下的人群密度进行有效估计；而对于在稀疏场景下有很好表现的算法模型，难以准确提取到稠密人群场景下的密度特征。该模型在构建过程中除了引入注意力机制和多尺度的特征提取，还针对不同密度的场景进行了自适应操作，即引入自适应权重模块对人群的稀疏程度进行识别，从而实现不同密度场景下人群密度的准确估计。

ASCCNet以VGG16的前10层网络作为基础网络架构（backbone-VGG16），将输入图像提取出相应的特征图，在此基础上设计了平行处理的3层网络架构，包括用于稠密人群密度估计的分支，用于稀疏人群密度估计的分支，以及基于权重的场景自适应分支。ASCCNet模型网络结构图如图2所示。

（1）稠密人群密度估计分支。在经过VGG16提取出的特征图上，先对其进行反卷积操作，以获得更多的特征图信息，然后经过空洞卷积模块处理，且空洞卷积率设为2，以增强对密集区域人群特征的信息提取，然后通过3次常规卷积操作，最后经过注意力机制模块对人群密集区域进行聚焦，过滤掉复杂背景元素，以提高密度分析精度，完成对稠密人群密度的特征提取工作。

（2）稀疏人群密度估计分支。在初始特征图上，首先经过空洞卷积层（空洞卷积率设定为3），实现人群的快速定位和特征提取，然后在其基础上进行3次常规卷积操作，最后经过注意力机制模块处理，将密度人群和背景进行分离，最后进行密度估计，完成对稀疏人群密度的特征提取工作。

油菜黑胫病的病原、病害循环及其传播危害……………………………………………… 宋培玲，吴晶，史志丹，郝丽芬，皇甫海燕，燕孟娇，皇甫九茹，贾晓清，李子钦（88）

（3）场景自适应分支。场景自适应分支的主要任务是通过动态权重变更来对上述2个分支的密度特征进行融合处理，得出最终的人群密度图结果。在经过VGG16骨干网的特征提取后，先经过一个全局平均池化操作（GAP），然后经过2个全卷积层，将输出结果作为初始化的特征权重ω，并且通过ω自动地对上述两个分支的权重进行动态调整，同时，通过公式（1）将权重值进行正则化操作，将权重取值范围确定在[0，1]之间。ω*为正则化的特征权重值，计算公式如下。

在每个卷积层后面引入了批量归一化操作，因为批量训练和批量归一化操作在训练过程中，能够有效地保持模型的稳定性，同时可以大大地加速损失收敛。

3 实验验证分析

3.1 数据采集

在基于视频分析人群密度研究领域，有很多公开的应用数据集，这些公开的数据集涵盖了较多的人群密集应用场景，有广场、商场以及集会场所等，目前业内流行的数据集有上海科技大学发布的公共场所行人数据集STCCD，加州大学发布的行人数据集UCSD，由公开网页图片生成的多场景多密度类型数据集UCF_CC_50，以及来自于商场大厅监控录像的数据集MALL。为人群密度的研究提供了重要的样本基础，各国研究人员也以这些数据集作为标准来对各自模型进行对比验证。考虑到铁路车站与上述数据集在场景上的差异，因此在实验过程中，选取了样本环境差异性较小的STCCD数据集，将训练结果与经典模型多列卷积神经网络模型（MCNN）进行了对比，并通过新构建的车站旅客人群数据集进行了训练、预测。

（1）公共场所行人数据集。该数据集包含 1 198张图片，分为A/B两个部分，总共有330 165 个标注信息，是一个比较大的数据集。其中A部分数据从互联网上随机抽取而成，包括多个国家人员聚集场景；B部分数据的图片则来自于上海市比较繁华的街道视频数据。由于该数据集场景丰富，人群密度范围较大，训练集和测试集数据较多，使得多数人群密度研究人员都会使用该数据集进行测试训练。

（2）铁路车站旅客人群数据集。为验证模型在实际车站人流密度估计中的准确性，构建了以实际车站监控视频为数据源的人流密度数据集。该数据集以京张线（北京北—张家口）清河车站内15个不同位置的视频数据为基础，根据不同时间段下人流密度情况，提取2 000张分辨率为1 920×1 080像素的高清图像，并且通过人群密度标注软件实现对人群密度的标注。标注好的数据集由原始图片和标注文件组成，同时将数据集按照比例7 : 3分为训练集和测试集。

3.2 模型训练与分析

在训练过程中，首先将数据集图片进行尺寸调整，设定长宽比为[0.8，1，1.2]，按照此区间将图像调整为长宽不超过512像素大小的图片，在此基础上进一步将图像裁剪为分辨率为400×400像素的尺寸作为输入图片。

在ASCCNet网络结构中，前部分骨干网为预训练网络VGG16的前7层网络，在前端特征提取时采用了批量归一化处理。剩下的网络参数由均值为0和标准差为0.01的高斯分布进行随机初始化。网络学习过程中，为了使损失函数尽量达到最优收敛效果，对控制收敛过程的学习率和随机梯度进行参数设置，其中学习率为1e-4，随机梯度为5e-3，训练图像输入批量大小设为8，迭代过程为500次。实验环境为Linux操作系统下部署的轻量型容器，采用4张Nvidia1080T图形加速卡进行训练和推理。模型的损失函数基于欧式距离公式进行设计，具体定义如下。

式中：Lden为损失函数值；F（Xi；Θ）为特征图像密度估计图；Θ为网络中需要学习的参数集合；Xi为输入的训练图像；DiGT为训练图像的标注值（GroudTruth）；N为样本数量。

模型在训练完成后，采用均值绝对误差和均方差（MSE）来对模型推理质量进行具体评估[10]，具体定义方程如下。

式中：CiGT为测试图像样本的标注数据所代表的人群密度数量；Ci为模型输出的特征数据生成的密度估计数量。

ASCCNet模型在设计过程中，借鉴了多列卷积神经网络模型（MCNN）的结构设计优势[8]，并在此基础上进一步改进，增加了空洞卷积和注意力算法模块。MCNN模型在公开数据集STCCD中A部分的MAE和MSE分别为110.2和173.2，在B部分的MAE和MSE为26.4和41.3[8]。ASCCNet模型在STCCD数据集A部分的MAE和MSE为69.84和115.3，在B部分的MAE和MSE为7.59和12.75，相对于MCNN模型有较大的提升。ASCCNet模型在STCCD （A/B）数据集上预测结果如图3所示。

在上述训练模型的基础上，对车站人群数据集进行预测性验证，最终预测结果平均损失降到了0.8以下。ASCCNet模型在铁路车站人群数据集损失曲线如图4所示。

ASCCNet模型经过测试数据集验证后，测试准确率达到92%，可以对实际车站人群密度进行预测推理。车站不同场景下旅客样本图象、标注值以及模型估计结果如图5所示。其中图5a为车站旅客正常候车时人群密度较为稀疏的场景；图5d为车站旅客集中检票人群局部稠密的场景。在实验过程中，模型的平均推理速率达到每秒21帧图象，在稀疏场景下推理速度会更快，在硬件环境支持下，能够达到人群密度估计的实时性要求。

4 基于车站人群密度估计的车站旅客服务应急管理优化

铁路车站旅客服务系统以信息的自动采集为基础，以为旅客提供全方位信息服务为目标，实现客运车站自动广播、导向、监视、监控等功能，运用多样化的服务手段为旅客提供优质的服务，实现旅客服务的信息化。旅客服务系统大多采用计划信息，比如开点、到点信息来自调度运行图，旅客进站信息来自客票系统，而其它的实时动态管理全部由人工来完成，缺乏自动化的动态识别和管理，在车站应急管理中仍难以及时地为旅客提供相应的保障措施。车站人群密度监测作为应急自动化动态识别的一项重要功能，可在应急管理过程中提供重要的基础性服务。车站旅客服务应急管理优化过程如图6所示。

基于车站场景自适应人群密度估计算法，可以围绕旅客进站、候车、乘车、换乘、出站等重要环节提供较为精确的人群密度估算。在应急情况下，如列车大面积晚点事件、突发大客流事件、公共卫生安全事件、突发性火灾爆炸事件，突发暴力暴恐事件等，可结合铁路旅客服务系统中现有数据（包括行车调度信息、自然灾害监测信息、售票信息、引导系统大屏信息、站内物联网设备信息等），在多维度数据融合基础上，通过大数据算法模型的深度挖掘、预测，实现应急场景的智能化识别，主动推送应急策略，指导车站管理人员进行现场快速反应；同时，通过车站全场景下人群密度估计的热力图可视化，可以实现车站应急过程的态势感知，方便现场及时对应急策略做出优化调整。

5 结束语

铁路车站人群密度识别算法应用还处于不断完善阶段，在传统模型基础上引入注意力机制和场景自适应算法，提高了超大视野、复杂场景下人群密度估计的准确率，为车站智能旅服、智能应急提供技术支撑与保障。为了提高模型的推理速度和边缘端部署的需求，需进一步对模型进行轻量化研究。同时，为进一步提高模型准确率和泛化能力，需要进一步对更多的铁路车站人群密度场景进行标注，丰富训练集和测试集。

铁路车站旅客密度自适应场景 估计与应用研究