史天运,侯 博,李国华,代明睿,杨涛存
(1.中国铁道科学研究院集团有限公司, 北京 100081;2.中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081)
人工智能作为新一代信息技术,与5G移动通信、云计算和大数据等技术相互交织,共同构筑起赋能千行百业的新型基础设施[1]。这种融合创新的趋势为人工智能在各个领域带来了广泛的应用潜力,推动着效率提升、创新发展和社会进步。近年来,伴随着人工智能技术的不断发展与应用,各国纷纷将人工智能纳入国家战略层面,参与这场技术制高点之争。我国从政策层面全面推进人工智能产业发展,并在“十四五”规划中将人工智能纳入国家战略科技力量。当前,人工智能竞赛已经拉开序幕,如何利用人工智能技术推动产业升级是各行业当下亟须思考的问题。
中国铁路作为国家战略性、先导性、关键性重大基础设施,贯彻执行国家“科技强国”“交通强国”战略部署,积极推进铁路人工智能技术的发展与创新应用[2]。铁路各专业不断探索和研究适应于铁路业务场景的人工智能应用,在基础设施和移动装备动态监控领域,运用图像处理技术对车辆运行安全监控系统(5T系统)、牵引供电监测系统(6C系统)、机车车载安全防护系统(6A系统)等系统中的设备和移动装备故障进行监控和识别;在旅客服务领域,运用人脸识别、语音购票、智能客服、客流预测等技术保障铁路客运服务质量;在行车安全领域,运用轨道落石检测、人员入侵检测、接触网异物检测等技术提高铁路运行效率和安全性。相关技术的应用不仅在提高运输效率、保障运输安全、改进服务质量等方面发挥了重要作用,更有助于优化铁路资源配置、提升管理水平、提高经济效益。
随着人工智能技术在铁路行业的逐步深化应用,在建设方面,存在研发成本高、开发周期长、缺少平台支持等困难;在应用方面,缺乏共性能力体系的顶层规划,各类人工智能应用业务之间难以形成有效的共享机制;在资源方面,缺乏统一的资源调度与管理,分散的计算资源难以支撑大模型的训练与部署。本文针对铁路人工智能建设应用中资源利用率低,缺乏应用共性研究等问题,提出了建设全国铁路(简称:全路)统一的铁路人工智能平台,研究铁路领域人工智能平台设计方案及关键技术,以提升人工智能资源利用率,降低人工智能应用门槛,加快推进铁路人工智能高质量发展。
基于铁路人工智能应用现状,综合铁路各类人工智能应用场景,当前铁路人工智能的应用需求有以下几个方面。
在样本数据标注方面,制定铁路统一的数据标注规范,设计团队标注的协同流程,构建完备的数据标注体系与质量审查标准,形成铁路专业样本分类目录;在样本标注工具方面,铁路人工智能平台应提供图像、视频、文本、语音、3D点云等多种类标注工具,并根据铁路的数据标注特性制定高效的标注项目管理流程,保障数据标注全流程的高质量、高效率和高保密。
在算法研发层面,铁路人工智能平台应提供可兼容Tensorflow、PyTorch、MindSpore、PaddlePaddle等多种国内外模型框架的在线研发工具,提供稳定、灵活、高性能的机器学习训练环境,并支持运行超大规模的分布式训练任务,为铁路研发人员提供完整的人工智能模型全生命周期管理服务;在模型推理层面,铁路人工智能平台应支持人工智能模型在多元异构硬件上一键部署,提供高性能、高可用、可伸缩的多卡并行推理环境,使推理服务更加高效、安全与可靠;同时,铁路人工智能平台应支持深度学习模型部署至云端与边缘侧,为铁路多元场景下的模型推理应用提供保障。
在硬件设施方面,须升级铁路现有服务器、存储设备、网络带宽及人工智能计算卡等硬件资源,使之具备铁路人工智能各业务场景应用的基础条件;在服务建设方面,改变传统单机单卡、单机多卡的资源调度模式,科学统筹全路计算资源,通过多云协同、云边协同等多种协同方式实现对全路算力资源的高度协同与统一管理,构建全路高性能计算网,提供高效、灵活、稳定的资源调配策略;同时,保障服务在异构物理设备间平滑迁移和无缝协同,实现一云多生态。
构建开放共享的铁路人工智能专业样本库、算法库与模型库,收集铁路旅客运输、货物运输、运输调度等部门铁路人工智能专业样本集;集成通用与铁路专业的人工智能算法,抽象各业务领域生产应用的模型服务,制定人工智能服务接口标准规范,打破数据与技术壁垒,促进铁路人工智能数据、算法、模型的共建共享。
在样本数据方面,积累铁路行业垂直领域数据,汇集铁路专业知识与经验,根据大模型迁移学习需求对多模态数据进行清洗、标注,形成高质量的数据集;在模型建设方面,加强大模型顶层设计,融合铁路行业特色数据与知识,构建铁路行业大模型;在模型应用方面,以铁路场景创新为驱动,推动大模型技术迭代升级,加快大模型技术在铁路各领域落地应用,赋能铁路人工智能高质量发展。
铁路人工智能平台架构主要由人工智能基础设施、人工智能算力调度、人工智能业务服务、人工智能开放门户及人工智能能力服务组成。以铁路数据服务平台、外部业务系统及铁路采集样本作为数据源,实现铁路人工智能数据标注、模型研发、模型评价、模型推理及服务运营维护(简称:运维)的全生命周期管理,为铁路战略决策、经营开发、生产运输、资源管理、建设管理等业务领域的人工智能业务场景建设提供支撑,总体架构如图1所示。
图1 铁路人工智能平台总体架构
2.1.1 人工智能基础设施
人工智能基础设施主要包括物理服务器、人工智能训练与推理计算卡、存储设备及网络资源等,为铁路人工智能的场景应用提供基础硬件设施保障。
2.1.2 人工智能算力调度
人工智能算力调度运用资源池化、多云协同等技术搭建铁路人工智能计算资源池,制定资源统筹分配策略,实现资源动态弹性扩展、按需分配[3]。运用异构资源纳管技术实现不同架构人工智能计算芯片在资源池中无缝协同,实现一云多芯、多芯协同的多种资源调度能力。
2.1.3 人工智能业务服务
人工智能业务服务主要包括数据标注子系统、模型研发子系统、模型评价子系统、模型推理子系统及运行监控子系统。
数据标注子系统提供铁路图像、视频、语音、文本及3D点云等多领域数据标注工具,支持团队化、规模化的标注生产作业,实现样本数据精细化运营管理;模型研发子系统为铁路人工智能研发人员提供一站式人工智能开发服务,实现模型多机多卡并行分布式训练,帮助用户快速构建算法模型;模型评价子系统提供多维模型评价体系,集成多种类人工智能评价引擎,帮助用户评估、选择、优化与解释深度学习模型;模型推理子系统提供人工智能模型云端推理、云边联合推理、离线推理等推理部署方式,支持多种模型编排方式,运用负载均衡、弹性伸缩、服务自愈等技术保障推理服务的平稳运行;运行监控子系统运用监控与日志采集技术,构建平台运行监控体系,实现平台及运行服务的实时监控和预警。
2.1.4 人工智能开放门户
人工智能开放门户主要包括人工智能分类目录[4]、样本库、算法库及模型库。
人工智能分类目录中包括通用分类目录与行业分类目录,通用分类主要涉及计算机视觉、自然语言处理、音频信号处理、数据深度处理等多个通用领域分类,行业分类主要涉及智能建造、智能装备、智能运营等多个铁路专业领域分类;样本库、算法库及模型库以人工智能分类目录为核心,收集行业通用及铁路专业的样本、算法及模型,建设铁路人工智能共享机制,促进铁路共性技术能力的开放共享,推动铁路各专业人工智能样本、算法、模型的统一管理、共建共享。
2.1.5 人工智能能力服务
人工智能能力服务包括通用能力服务与铁路专业能力服务。
通用能力服务主要包括人脸识别、以文搜图、语音识别等多领域的通用人工智能服务;铁路专业能力服务主要包括动车组车辆故障检测、轨道落石检测、遗失物品检测、调度命令识别等多个铁路专业领域的人工智能服务,通过标准服务接口为铁路各类应用场景共享铁路人工智能服务。
2.2.1 人工智能算力调度功能
人工智能算力调度主要包含资源池化、算力调度、资源分配、多云协同、异构资源纳管、拓扑感知等功能,兼容不同架构计算资源,构建全路统一人工智能算力网络,动态感知底层计算资源的负载情况,实现人工智能任务的资源合理分配[5]。
2.2.2 人工智能业务服务功能
人工智能业务服务主要包含数据标注、模型研发、模型评价、模型推理及运行监控等功能。
(1)数据标注
主要包含图像、视频、语音、文本、3D点云等多种类标注工具,支持标注生产作业流程定制化配置,提供可视化流程监控服务与多级数据标注质量审查机制,预置多种类智能辅助标注模型,实现样本数据自动标注。
(2)模型研发
主要包含算法管理、算法研发、模型训练、模型管理、镜像管理等功能,集成高效算法研发工具,提供算法在线开发环境,支持模型多机多卡并行分布式训练,为算法研发人员提供一站式人工智能开发服务。
(3)模型评价
主要包含评价引擎、在线评估、结果展示、可视化分析等功能,集成多维模型评价体系,提供图像、文本、语音等多领域模型评价引擎,支持模型性能在线评价,为算法研发人员提供模型优化依据。
(4)模型推理
主要包含云端推理、边缘推理、批量推理、模型编排等功能,提供弹性伸缩、服务自愈、健康检查等服务,为模型推理服务的运行提供多种部署方式,保障生产服务的稳定运行。
(5)运行监控
主要包含集群监控、节点监控、任务监控、异常告警、链路追踪等功能,提供可视化的监控工具,实现铁路人工智能平台异常情况实时告警,保障铁路人工智能平台及人工智能服务的安全可靠。
2.2.3 人工智能开放门户功能
人工智能开放门户主要包含人工智能分类目录、样本库、算法库、模型库等,收集行业通用与铁路专业的人工智能样本、算法及模型,实现铁路各专业样本、算法及模型的分类分级展示,提供人工智能资产管理流程与共享机制,为铁路人工智能的开放共享与共性能力体系搭建提供支撑。
铁路人工智能平台服务对象主要是样本标注人员、人工智能专职研发人员、应用研发人员、铁路建设运营人员、铁路人工智能平台运维人员等。
在铁路人工智能平台建设过程中,样本标注人员利用样本标注子系统开展样本的数据标注作业,形成高质量铁路样本集;人工智能专职研发人员利用模型研发子系统、模型推理子系统与模型评价子系统开展人工智能科研工作与生产模型研发工作;算法研发人员可利用铁路人工智能平台中预置算法与样本进行场景实验验证,也可上传自研算法进行模型的训练与调优,形成高性能铁路人工智能模型;应用研发人员利用模型推理子系统部署模型,调用模型服务接口,为铁路生产系统提供人工智能推理服务;铁路建设运营人员利用样本库、算法库与模型库为铁路人工智能提供建设需求,收集生产一线的样本数据,将铁路人工智能平台能力服务与铁路生产场景结合应用;运维人员利用运行监控子系统对铁路人工智能平台及其生产运行服务进行监控,保障铁路人工智能平台及其服务的稳定运行。
铁路人工智能平台为铁路应用系统提供在线推理、批量推理、边缘推理、云边联合推理等多种模式推理服务。在高并发实时请求场景下,提供在线推理服务,满足应用大业务量实时推理请求;在大批量、低频次推理预测任务场景下,提供离线批量推理服务,快速解决应用沉积数据推理诉求;在具备边缘推理设备场景下,提供边缘推理、云边联合推理等服务,将推理能力拓展至应用现场,实现高效、低延时的推理服务。
随着深度学习模型需要的标注样本数量不断增加,传统的标注模式难以支持大规模数据集的样本标注。铁路人工智能平台预置图像检测、图像分类、图像分割、实体抽取、文本摘要、3D物体识别、音频信息提取等多种智能标注模型,实现样本数据的自动标注,通过自动标注与人工反馈系统的结合,显著减少样本标注工作量,提高样本标注效率,降低人工标注偏差。样本自动标注流程如图2所示。
图2 样本自动标注流程
铁路人工智能平台智能标注模型可利用难例集进行迁移学习优化,不断提升智能标注模型的泛化性能与标注质量;此外,通过模型推理子系统的核心功能,提供标准化的智能标注模型接口服务,用户可根据接口协议将场景优化模型接入数据标注子系统,实现样本的定制化自动标注。
由于缺乏铁路场景数据集进行训练与调优,深度学习通用大模型无法迁移至铁路场景直接应用,运用分布式训练、迁移学习等技术构建铁路行业大模型是铁路人工智能平台的核心服务之一[6]。铁路人工智能平台预置多种分布式训练策略与精调算法,运用可视化分析工具实时监控训练任务运行状态,简化大模型迁移学习训练流程。大模型迁移应用过程如图3所示。
图3 大模型迁移应用过程
3.2.1 样本库
基于铁路人工智能平台样本库收集铁路行业高质量、大规模、多样性的数据集,利用数据标注子系统实现对数据集的清洗、标准化、降噪、特征选择等数据预处理,形成适应铁路行业大模型特征的数据集。
3.2.2 精调算法
铁路人工智能平台预置LoRA、Prefix Tuning、Prompt Tuning、P-Tuning、AdaLoRA等多种精调算法,利用通用大模型的预训练权重初始化铁路行业大模型,选择需要的训练算法与数据集进行模型训练。
3.2.3 训练工具
铁路人工智能平台预置参数调优工具、模型评价引擎与可视化分析工具,提供大规模分布式训练环境[7]。利用平台训练工具进行行业大模型精调训练,根据模型在验证集上的评价结果,调整精调算法与训练策略,并增加场景数据集进行多轮精调训练,形成具备铁路专业知识与经验的行业大模型。
铁路人工智能平台利用容器化、分布式计算、资源调度、弹性扩容等技术搭建高效、灵活、准确的模型编排服务。同时,运用模型融合、并行处理、性能评估、特征工程、集成学习等关键技术,动态生成灵活、高效的模型编排运行方案,实现模型推理的灵活性、可解释性和可扩展性,提高模型的准确性、鲁棒性和泛化能力。模型编排方式如图4所示。
图4 模型编排方式
3.3.1 串行方式
统一模型的输入、输出标准规范,将前一个模型的输出作为后一个模型的输入,将多个人工智能模型按照业务流程顺序连接起来。
3.3.2 并行方式
应用多个独立业务模型进行同步计算,并将多个模型结果进行合并或融合,实现大量数据并行处理,并将不同业务模型的处理结果进行集成,满足铁路业务复杂场景的智能分析需求。
3.3.3 集成方式
融合模型编排的串行与并行方式,将多个模型的预测结果进行合理组合,运用加权融合、投票融合、规则融合、堆叠泛化等方法得到更准确和稳定的预测结果,提高整体模型的性能和泛化能力。
3.3.4 动态选择方式
根据智能分析任务的需求和数据特点,综合既有模型的准确率、召回率和处理速度等指标,自动选择模型推理组合。通过对模型整体推理结果进行评估监测,动态调整模型组合和推理权重。
边缘推理靠近数据生产者,可提供低延迟、高吞吐的推理服务;云端推理基于大规模算力,可提供泛化能力更强、推理精度更高的推理服务[8]。模型推理子系统融合云端推理与边缘推理的优势,运用云边协同推理技术实现高精度、低消耗、快响应、低延时的人工智能模型应用需求。云边协同架构如图5所示。
图5 云边协同架构
3.4.1 云边联合推理
利用边缘侧算力进行样本初筛检测出难例推理样本,将其发送至云端进行二次复核。较简单的样本在边侧推理保障时延和吞吐,较复杂的样本在云上推理保障整体精度实现提升。
3.4.2 数据处理
在边缘侧,对数据采用压缩和加密技术进行预处理,减少数据传输量和响应延迟,保障数据的安全;在云端侧,将多个边缘设备的数据结果进行合并融合,保障数据结果的一致性与推理结果的准确性,提高整体推理效率。
3.4.3 任务调度
在云边协同推理过程中,基于模型推理业务的复杂性、边缘设备的负载情况、网络带宽的利用率等因素的考虑,将任务动态分配给边缘设备和云端服务器,以实现最优的资源利用和推理性能。
3.4.4 网络负载优化
实时监测边缘节点的负载情况和网络状况,根据实时数据进行任务调度和数据传输决策,平衡网络负载与资源请求,减少网络拥塞。
3.4.5 异构设备协同
边缘设备和云端服务器通常具有不同的硬件架构,铁路人工智能平台基于人工智能算力管理服务实现异构设备之间的协同工作,保障数据的无缝传输和推理的一致性。
人工智能推理应用通常具有算力动态变化、数据传输量大、服务实时响应等特点。铁路人工智能平台制定多云协同的动态调度策略,通过将中国国家铁路集团有限公司(简称:国铁集团)云端密集型计算转化为多区域部署的分布式多云协同资源管理架构,实现以数据为中心的管理策略、多铁路局集团公司分布式协同推理计算架构。多云协同架构如图6所示。
图6 多云协同架构
图6中,国铁集团负责管理和监控全路计算资源,协同调度各铁路局集团公司之间资源以满足应用需求,并为铁路局集团公司算力峰值时段提供算力补充;铁路局集团公司负责就近处理具体的存储和计算任务,形成协同运行、统一管理、互联互通的铁路人工智能算力网络生态。在多云架构下,平台的资源利用率、存储利用率、网络利用率的需求计算如式(1)所示。式(1)中,铁路人工智能业务i的算力网络需求为Ci;计算、网络、存储等方面算力需求的映射关系为fc、fn和fs;计算、网络、存储需求所对应的映射比例系数为α、β、γ[9]。
算力网络通过拓扑感知分析其业务需求情况,利用智能算法定制化生成算力网络节点资源的调度方案,满足铁路不同应用场景的差异化算力需求,并根据算力网络的环境变化动态调整调度方案[10]。有效促进铁路算力网络的资源平衡,极大提升铁路人工智能计算资源的利用率。
铁路人工智能平台以“开放平台”为主要赋能载体,以全路高质量的算力网络为关键支撑,形成面向铁路业务的“平台+应用”服务模式,已为国铁集团电子公文资源库、线路安全环境管控平台等多个应用提供高效稳定的人工智能服务。在国铁集团电子公文资源库应用中,铁路人工智能平台提供智能检索、智能纠错、智能摘要等模型服务,实现公文质量和工作效率的提升,推动公文系统智能化升级;在线路安全环境管控平台应用中,铁路人工智能平台基于轨道落石检测、周界人员入侵检测等模型的云边协同推理服务,实现巡防效率与远程管控能力的提升,保障了铁路运输安全。
本文分析了当前铁路人工智能的现状与应用需求,研究了铁路人工智能平台的设计方案与关键技术。铁路人工智能平台以“数据、算法、算力”为核心能力要素,为铁路人工智能的建设与应用提供基础平台支撑,有利于提高铁路人工智能模型研发效率,缩短铁路人工智能应用上线周期,加速铁路人工能技术的迭代升级,推动铁路人工智能共性能力体系的建立,为铁路共建共享的人工智能生态建设提供保障。未来,铁路人工智能平台将在引领铁路人工智能科技攻关、产业优化升级、生产效率提升等方面发挥更大作用。