李 辉,石 旭,李心怡,姚世严,李天宇,郑剑飞
(北京轨道交通路网管理有限公司,北京 100101)
路网客流运营统计指标作为网络化运营管理工作的数据基础,是运力配置、行车组织、客流调控和评价运营效果的核心依据。其中,列车满载率指标目前主要来自地铁自动售检票清分清算中心(AFC Clear Center,ACC)系统预测、车厢称重和人工监测,难以满足智能化、自动化和精准化的要求。近年来,智能视频分析作为一种新的客流统计手段逐渐兴起。然而,由于智能视频分析算法场景适应性较差,且普通相机受限于安装高度、光线变化、人员遮挡等因素影响,数据精度难以满足业务要求。
因此,本文提出了一种基于TOF(Time of Flight)技术的车厢乘客计数系统及其装置的设计方法。该设备可以内嵌式安装在列车屏蔽门或车门门梁上,可实时统计列车上下车人数,精准计算列车实时载客人数及满载率数据。经实验室模拟测试,非高峰时段客流统计准确率可达98%以上,高峰时段准确率可达95%以上,可以较好地满足实际业务需要。
TOF相机区别于传统相机的最大特点是能够区分前、后景,获取图像的深度信息,便于快速完成对目标的识别与追踪[1]。此外,TOF相机还具有抗强光干扰能力强、体积小等优点[2]。TOF相机用于客流计数的原理是:在获得3D深度照片后,首先,进行目标检测,判断被拍摄的目标是否是行人;其次,利用传感器内部的算法设置一条线,当人跨过这条线时会带有运动方向信息,以此追踪人的行走轨迹;最后,计算得出上、下车人数[3],如图1所示。因此,计数精度的核心在于目标检测和目标追踪算法的准确性。
图1 TOF计数原理
虽然TOF客流计数技术在国内外公交、商超等领域得以应用,但针对地铁车厢空间低矮、超大客流、安装条件受限等痛点,必须进行有针对性的样本训练才能满足地铁应用的要求[4]。此外,TOF相机的规格参数和尺寸也需要满足地铁车厢的安装条件。
2.2.1 技术难点
在目标检测方面,开源的目标检测算法(如MTCNN、RCNN、EfficientNet等)[5]可以有效进行人头识别,但对算力需求高[6],训练数据多为侧视视角下的图片或视频。地铁场景中要求摄像头画面俯视向下,因此,开源算法需要针对俯视场景标注样本,利用深度学习方法训练模型,优化算法参数。
在目标跟踪方面,地铁场景是典型的多目标跟踪场景,需要适配多目标跟踪算法,设计多帧多目标的跟踪机制,建立从检测到跟踪的端到端系统,保证每个目标都有完整的轨迹线,并利用该轨迹线进行后续的计数统计。
2.2.2 业务难点
自动化乘客计数技术在地铁行业应用面临着很大的挑战,主要体现在以下方面。
(1)每名乘客上下车的形态、装扮、动作、移动速度等的多样性及地面反光等外界等因素都有可能影响到客流统计的准确性[7]。
(2)高准确性往往带来计算复杂度的增加,进而使得实时性降低。
(3)客流计数系统在不同环境、不同光照条件下都需要保持一定稳定性[8]。
地铁TOF客流计数系统主要由加载有算法模型的客流计数相机、包含车站级和中心级两个模块的客流计数软件系统两部分组成。本文依据列车车门对设备尺寸的要求,设计并定制了一款TOF相机,如图2所示,安装位置如图3所示。其中的嵌入式软件主要包括目标检测模块和目标跟踪模块。
图2 TOF相机实物图
图3 屏蔽门安装示意图
本文首先采用深度学习与3D深度成像相结合的方案,来解决乘客形态多样性对目标检测准确率的影响问题,从而实现高精度、高鲁棒性的目标检测。其次,当检测到目标初始位置后,利用目标跟踪模块实现对画面中的多目标同时跟踪。最后,计数逻辑采用检测线法和阈值法相结合的方案,保证客流统计的高准确率。
本文采用72层神经网络使得深度神经网络能够提取到更深层次的高阶特征,具备更强的正负样本区分能力[9]。本文的训练数据来源于通用目标检测场景、模拟列车场景(按标准B型车三维结构尺寸)及实际采集场景,共计2万张数据,每张图片中的目标数1~30不等,其中,人头、头肩、人体、部分人体均标记为正样本和所需标出的目标检测区域,训练集与测试集比例为4:1。
由于目标在画面中的尺度占比大约为1/10~1/2之间,因此,初始卷积层卷积核大小选择为5×5;考虑正负样本之间差异性较大,初始学习率设置为0.01,随后每10 000次循环下降20%;由于网络层数较深,参数量较大,Dropout的参数设为0.3。最终,训练后的模型在测试集上的召回率与精度曲线如图4所示。
图4 召回率与精度曲线图
乘客在上下车的过程中,人头、人体、头肩等会出现大小、形态、亮度变化情况。此外,理想状态下,乘客会顺次从车门进出,但现实中乘客路线轨迹繁杂,如图5所示。因此,高效、鲁棒的跟踪模型,完整准确的轨迹线对计数结果有很大的影响[10]。
图5 乘客上下车轨迹线
本文采用基于深度学习的目标检测技术提取前景目标,进而通过局部最大值法获取乘客的头部信息,使用局部区域块匹配法将获取的乘客头部信息与在下一帧图像中检测到的目标区域进行匹配[11],以此实现目标跟踪。
为全面、完整地评估本设备的技术能力,我们搭建了一个仿真车厢,在车门处安装部署了内嵌算法模型的TOF相机,从乘客、环境两个角度出发进行测试,如图6所示。
图6 乘客上下车仿真测试
测试视频条数如表1所示,由于拥挤状态和多个方向是本研究方向的困难领域,因此在这两种情况下增加了测试数据。这些视频中,共有目标总数4 543个,总轨迹线1 642条,其中,进出人数分别为852次和790次。
表1 测试数据数量统计表
如表2所示,随着阈值升高,误检下降,但召回率也会同步降低。因此,设置合理的阈值是目标检测的关键[12],由统计结果可知,选用0.7作为目标检测的阈值是最佳的选择。
表2 检测准确率统计表
利用目标跟踪轨迹线进行进出人数统计,各场景准确率如表3所示。可见,不同场景的实验室客流计数准确率均达到95%以上。
表3 各场景准确率统计表
本文针对地铁客流计数业务需求,设计了一个在站台屏蔽门或车门安装TOF相机进行上下车人数统计的方案,训练了一个目标检测算法和目标跟踪模型并嵌入相机,通过仿真测试,最终准确率均在95%以上。本文的主要研究工作及创新点如下。
(1)本文创新地使用TOF+视频分析技术,可以适配不同的光照条件和不同的乘客穿戴,增强了客流计数系统的鲁棒性和稳定性。
(2)使用3D计数与跨线融合的计数逻辑,综合两者的优势,提高了计数准确率。
(3)基于深度学习的目标检测技术,针对地铁客流统计业务需求,将人头、头肩、部分人体都作为正样本,大大提高了目标检测的召回率,拓宽了硬件设备的覆盖范围,提高了设备的适用性。
后续,将借助在北京地铁11号线(冬奥支线)开展应用的契机,继续完善该技术方案,为后续推广奠定坚实的技术基础,为“智慧地铁”的建设提供有力支撑。■