李 辉,石 旭, 张京晶,李心怡,姚世严,李天宇,郑剑飞
(北京轨道交通路网管理有限公司,北京 100101)
近年来,“新基建”成为当前社会各界关注的热点。“新基建”即新型基础设施建设, 数字化、信息交互、科技创新驱动是“新基建”的3个特点。“新基建”主要包含3部分内容:一是信息基础设施,如以5G、物联网、工业互联网为代表的通信基础设施,以人工智能(AI)、云计算、区块链为代表的新技术基础设施,以大数据中心为代表的算力基础设施;二是融合基础设施,指深度应用大数据、AI、物联网技术,支撑传统基础设施升级,如智慧交通基础设施、智慧能源基础设施等;三是创新基础设施,主要指支撑科学研究、技术研发的基础设施。其中融合基础设施与智慧地铁建设目标高度一致。
AI技术经过多年发展,已进入“机器学习期”。随着各种机器学习算法的提出和应用,特别是深度学习技术的发展,机器能够通过大数据分析,自动学习知识并实现智能化。智能视频分析技术源于AI技术和机器视觉技术,在AI技术领域应用最为成熟。当前应用较为普遍的智能视频分析算法种类包括人脸识别、目标跟踪、物体检测、密度估计、姿态估计及行人重识别(ReID)等。
近年来,智能视频分析技术在安防、金融等领域有大量的应用场景,在维护社会公共安全、创新社会治理方面取得令人瞩目的成绩。但该技术在地铁行业还处于刚起步或探索阶段,距离广泛应用还有较长距离。
国内北京、杭州、郑州、西安等城市地铁线路已有部分智能视频分析技术的应用场景,但是大多数场景仍是安防和金融领域的自然延伸。例如,北京地铁6号线在车厢内通过感知摄像机,运用图像识别和视频分析技术对车内乘客晕倒及拥挤度等进行识别和告警;杭州地铁通过人脸识别技术手段检测、预防、捕获各类涉危人员;西安地铁、郑州地铁的刷脸支付等场景。
从国外的情况来看,2018年,日本东京地铁实现乘客可通过APP实时查看全线85个站台排队及拥堵情况,引导乘客等待乘车或绕行其他路线。2019年,日本大阪地铁谷町线天王寺站进行人脸过闸实证试验。2021年,以色列地铁在视频监控系统中加入智能分析功能,用于监控“轨道入侵” “人群聚集”和“破坏摄像机”等站台异常行为。
众所周知,数据、算力和算法是人工智能的核心三要素,而现阶段智能视频分析技术仍以“数据驱动”为主,这意味着产品研发落地过程中遇到的最大障碍是数据,以及因样本数据规模不足而带来的模型迁移和泛化能力差等问题。经调研,目前国内地铁覆盖全路网的摄像机的作用基本仅限于现场监控,而智能视频分析技术未能在地铁行业推广落地的原因主要有以下4个方面。
(1)场景缺乏梳理。既有的地铁场景都是安防和金融领域应用场景的自然延伸(如黑名单布控、刷脸过闸等),并没有针对地铁建设和客流组织提供针对性的场景,不能很好地解决建设和运营中的痛点。
(2)算法缺乏样本。智能视频核心算法相对成熟,但卷积神经网络算法一定要针对不同的应用场景进行机器学习,在实践中不断打磨,才能达到应用要求。而各智能视频厂商缺乏地铁行业学习样本数据和算法训练的机会。
(3)没有定制产品。由于没有针对特定应用场景进行定制化,通用产品功能繁杂,硬件要求高,性价比低,难以全网推广。
(4)缺乏标准规范。国家、行业、地方对于智能视频分析技术在地铁行业的应用,包括应用场景、技术、精度指标及安装实施等方面均无标准规范支撑。
《北京市智慧交通提升行动计划(2019-2021)》中提出,要实现地铁的智慧化,必须打造集交通运行监测中心、指挥调度中心、决策支持中心、综合信息服务中心为一体的智慧交通大脑,如图1所示。基于“优供”“控需”“强治”的交通综合治理思路,全面整合政府、企业、社会化数据,构建运营、管控、执法、服务等智慧交通应用场景,最终为公众出行提供便捷、高效、安全、绿色的服务。而打造智慧交通大脑对视频监视系统(CCTV)智能化提出更高的要求,希望依托全路网布设的摄像机实现“智能判断,自动预警” “协助指挥、服务乘客” “客流预测、决策支撑”及“视频结构化方便信息检索”的能力。
近几年,随着高清视频监控摄像机在地铁路网的推广和普及,地铁安防监控已基本实现“看得见,看得清,看得明”。未来,为建成智慧地铁,CCTV系统还需向“看得懂,看得准,看得远”的智能化方向发展。“看得懂”要求系统在一定程度上能替代人工,通过遍布全网的摄像机智能识别出地铁运营过程中发生的各种异常情况,并实时推送报警信号,不仅可以降低运营成本,还能保证工作标准一致,永不疲劳。“看的准”则要求系统误识率低,差错率低,精准度高,不能误报、错报。“看的远”一方面指可视距离远,借助5G等先进的通信手段,运营管理人员甚至乘客能够把视角延伸至地铁线网乃至列车的各个角落;二是指远见能力,通过多个点位视频联动分析,可进行某区域未来一段时间的运营态势分析,如5 min短期客流预测等。
智能视频分析技术将对运营企业、管理部门、政府和乘客产生直接而有效的价值,甚至会引发管理模式和业务流程的优化重构。其中最直接、最突出的应用效果是在对智慧运营的支撑方面。如图2所示,视频分析后的数据将与自动售检票(AFC)数据、行车数据以及物联网数据等进行多元异构数据的融合计算,实现客流快速化和定量化分析,以及客流状态的实时准确获取,从而支撑短时精准客流预测业务。同时,由于增加了对乘客异常行为的智能识别及告警能力,将进一步提升实时风险监测水平,不断压缩和清除地铁运行中的管理盲区。当车站需要进行客流引导及应急疏散时,系统可提供更加实时、直观、有效的信息,有效发挥先期判断、先期处置的协调调度指挥作用。此外,除了对运营企业和运营管理单位进行智慧化支撑外,还可为乘客提供全流线智慧化信息服务,从出行引导到进站、出站,使乘客地铁出行更便捷,更安全,更舒适。
通过对地铁行业全生命周期、全场景、全业务链分析,本文梳理出智能视频分析十大主题业务场景,覆盖建设、运营、清分清算、设备运维、多种经营等多个业务板块,如图3所示。
针对以上业务场景,为便于后续工作开展,本文根据前期调研情况以及部分厂商视频分析产品盲测的结果,对业务场景的算法研发和实施难度进行综合评价,如表1所示。其中,32个场景中,9个“从无到有”,21 个“从有到优”,2个“从优到精”。可见,大多数场景所需的算法模型已经相对成熟,并且在其他行业已有应用案例,但是由于未能针对地铁场景进行模型定制及样本训练,其算法准确率和软件功能难以满足地铁实际业务的需求。
表1 业务场景应用现状与实现难度分析
为实现智能视频分析技术与地铁行业的深度融合,本文提出“四步走”的实施路径。首先,在深入研究地铁行业应用场景和实际需求的基础上,基于深度神经网络研发算法模型,并利用海量地铁真实图像样本进行模型训练,以提升其准确率。其次,利用地铁真实测试样本集对训练后的模型进行测试和验证。再次,针对实验室检测通过的算法模型,选择试点线路、车站开展试点应用,并依据应用效果进行调优。最终,基于试点情况总结形成适合地铁行业特点、可落地、可推广的智能视频分析技术实施导则,从而指导全行业工程化推广。
智能视频分析技术与行业之间的耦合度极高,即便在其他行业应用成熟的算法也难以直接应用于地铁行业。要实现该技术在地铁行业落地须解决2个问题:训练样本与行业知识。一方面,除个别场景(如人脸识别)可以跨行业外,绝大多数场景均需要大量的地铁样本数据进行算法训练,才能满足精度要求。而外部AI厂商没有此类数据。另一方面,算法模型要最终发挥作用,必须依据地铁特定场景和特定业务需求进行定制。因此,有必要针对地铁场景重新设计研发算法模型,并利用地铁真实样本数据开展模型训练。下面列举4个场景的算法研发。
4.1.1 车厢实时满载率监测
现状:国内地铁暂无成熟应用案例。部分地铁列车进行了试点应用,但算法准确率受车厢摄像机安装高度、角度影响较大,且早晚高峰人员遮挡现象严重,因此一般作为车厢称重数据的补充。
思路:可采用大广角鱼眼摄像机,顶部安装,有效避免人员遮挡,利用畸变恢复技术,同时叠加多区域去重算法,提高车厢满载率算法的准确性,为提升旅客乘车体验、协助车站工作人员疏导客流提供帮助。图4为普通摄像机识别情况,图5为顶装广角摄像机识别情况。
算法模型:人头检测算法、Yolox-L。
考核指标:拥挤程度识别准确率大于95%,满足规模化应用需求。
应用效果:将车厢拥挤情况提前显示在前方车站乘客信息系统(PIS)显示屏上,引导乘客均匀乘车。
4.1.2 乘客走行路径分析
现状:经调研,该技术在泛安防行业应用准确率较低,不高于80%。地铁行业目前没有应用案例。
思路:利用ReID+FaceID绑定技术,实现乘客的全路径分析。如图6所示,在北京地铁千万客流量的背景下,只有通过人体+人脸绑定的方式,才能够有效提升准确率,满足实际业务应用需求。
算法模型: ReID+FaceID、OSNet。
考核指标:人体+人脸绑定准确率90%,满足规模化应用需求。
应用效果:通过分析抽样乘客进站到出站的各环节走行路径及时间,可验证清分模型参数准确性,并辅助进行客流规律分析。
4.1.3 X 光机智能判图
现状:目前没有在地铁行业成熟应用,原因一是没有足够多的数据训练算法;二是管制刀具、违禁品经常更新,对算法的小样本学习能力要求较高;三是背包内物品的形态多种多样,对机器识别的准确率要求较高。目前大多数X光机识别违禁品为15种左右,准确率约 50%。
思路:通过双视角X光图片多维度3D目标检测算法,关联分析2个及以上不同视角拍摄物品X光图片,实现1+1>2的效果,有望大幅提升识别准确率。
核心算法:双视角X光图片多维度3D目标检测算法。
考核指标:装有违禁物品的行包过安检机,安保人员与机器能够同时识别出来,识别种类30种以上,识别准确率达到90%左右。
应用效果:通过技术方案改进与算法训练,实现对常见违禁品的自动化识别与告警,降低现场工作人员的劳动强度。
4.1.4 周界防护
现状:人员侵界、树木侵界、危险源识别等算法模型在地铁行业已有少量应用,但准确率仍有待提升。
思路:利用电子围栏、振动光纤、红外对射、mimo雷达等多种类型传感器,融合计算机视觉技术,对侵界事件进行检测和分析报警。
核心算法:异物检测、人体识别等算法与传感器技术进行融合。
考核指标:误报率小于10%、漏报率小于2%。
应用效果:通过计算机视觉技术对传感器采集到的各类侵界情况进行分析,提高周界监控可靠性,降低误报率。
为提升算法研发效率,本文搭建了算法训练及检测平台,其架构如图7所示,支持多种模型和算法框架(TensorFlow、PyTorch、Caffe等),最大可支撑千万级规模的样本在线模型训练,同时具备图形处理器(GPU)卡、容器管理及分布式多机多卡训练能力,大大提升了模型的训练速度。此外,还建立了六大类模型指标评价体系,包含指标评价标准、参数显示、综合评分等,覆盖多种地铁典型场景需求,可以从不同维度对算法模型进行评价。
将通过实验室检测后的算法模型嵌入应用系统后,有必要通过小规模试点应用进一步检验智能视频分析系统的可行性和适应性,并根据暴露出的问题进行针对性的算法调优和功能优化,从而确保大规模投入生产时少出问题或不出问题。
在既有线路进行试点过程中,要充分考虑工程化的各类问题。例如,既有摄像机的安装高度、照射角度及范围是否符合算法模型泛化要求,下降的精度是否在业务可接受范围之内;车厢、站台摄像机及相关设备是否具备改造条件;不同的CCTV系统建设厂商对视频流获取及图像帧解析方式的影响;在既有数据传输带宽已被各系统占用,特别是车地无线通信带宽十分紧张的情况下,数据的传输方案是否合理,如何统筹考虑端、边、云的计算方案等。
基于以上工作研发的“平安列车”智能视频分析系统创新性地将计算机视觉技术与列车安全员业务进行融合,研发出3款智能终端,提供车厢拥挤度监测(图8)、乘客异常行为监测(图9)、智能清客、驾驶行为监测等功能,并于2021年底在北京地铁11号线西段工程(冬奥支线)全线进行了试点。
通过“平安列车”系统的研发及试点应用,进一步验证了技术路线的可行性,打通了从数据标注到算法研发、训练、检测及工程化的全流程、各环节,为未来地铁新线建设和既有线改造CCTV系统中的视频分析相关内容的建设提供了有益参考。后续,将继续针对梳理出的各类业务场景进行算法研发和试点。对于完成试点验证的场景,将汇总编制1套包括各个场景技术方案、软硬件产品清单、现场实施方案、成本估算等内容的《轨道交通智能视频分析技术实施导则》,为智能视频分析技术在地铁行业的推广落地奠定坚实基础。
此外,对于实际业务应用过程中萌生出的新的应用场景,可以通过搭建的算法训练和检测平台,持续推进新算法的研发、训练、检测和应用。因此,算法训练和检测平台可视作地铁智能视频分析业务场景的孵化器,研发并通过检测的新的应用场景可以不断丰富完善《轨道交通智能视频分析技术实施导则》,从而保障地铁视频分析智能化水平的持续提升,挖掘出更多视频数据的价值。
相比2008年4万亿投入的“铁公基”传统基建,“新基建”将引发国家经济结构向以数字经济为代表的新兴经济转变。借助云计算、大数据、AI等“新基建”技术,智能视频分析技术将从根本上改变视频信息采集、传输处理、系统控制的方式和结构,有效提高视频监控的智能化程度和使用价值。更重要的是,视频数据将成为重要的可挖掘、可利用的数据资产,为地铁行业数字化转型提供更加强劲的数字驱动力。