基于预训练大模型的智能运维系统平台构建

2023-10-07 10:51刘晨光金峻民王钰龙

技术与市场 2023年9期

刘晨光,金峻民,王钰龙

武汉地铁运营有限公司,湖北武汉 430000

0 引言

截至2022年12月,我国共有53个城市开通运营城市轨道交通线路290条,运营里程9 584 km,客流规模居世界第一[1]。乘客出行需要快速、准时无延误、安全可靠的服务体验,城市轨道交通快速发展成为市民出行首选。但由于人工操作的局限性,传统的依赖人工作业检查和定期修程进行预防性维修的轨道交通车辆维护方案极易出现过修、欠修情况,列车维护质量无法保障安全运营,轨道交通车辆运维需要更科学、高效的管理方式。

1 建设背景

1.1 智能运维系统国内运用现状

近年来,智能运维系统在国内轨道交通行业发展迅速,主要建设思路以智慧列车、智慧监测、智慧检修为主,以数据驱动应用为辅。例如深圳地铁运维平台强调数据的共享与跨专业融合,构建统一的数据平台,打破各系统间的封闭性,实现列车车载监测、轨旁监测、智能检修及资产管理系统的统一管理[2]。上海地铁车辆智能运维系统通过车联网、轨旁综合检测、维护管理以及维护专家系统等模块,实现全过程的数据采集、车辆监测、异常预警、计划生成、维修指导等功能。在17号线试点应用,实现从传统计划修、故障修向状态修的转变,同时显著提升列车运营的可靠性,降低人工成本[3]。杭州地铁构建“1+4+N”体系的智能运维系统,借助故障预警与寿命评估技术,实现了关键系统的故障预警以及车辆健康状态的评估;在车底检修机器人应用方面,实现了机器人在股道间的自动运转检修[4]。

武汉16号线是武汉首批智能运维试点,包括车载数据采集系统WTD、智能运维分析系统、检修业务管理系统、第三方接口系统4大板块,可以实现线路监控、单车监控、HMI同屏、远程报警、应急处置等实时监控功能,以及故障分析、健康管理、车辆履历、故障预测等数据应用功能。

但目前各城市地铁公司在智能运维系统方面的应用存在各种现实问题。系统功能升级性较差;各业务系统间壁垒严重,数据接口统一管理难度高;故障分析未能深入开发各数据条目之间的联系,建立可靠计算模型,以应对不同类型的典型故障;系统软硬件维护难度较高、专业性强,单个线路无法专业维护等。随着轨道交通行业逐渐推广全自动驾驶车辆应用[5-6],对运营管理水平提出了更高要求。

1.2 人工智能及软件工程发展

智能运维系统和人工智能结合是众多学者探索的方向[7]。此前AI开发受限于基础理论、软硬件等因素,导致高成本、低准确度的问题。为解决这些问题,出现了通过预先训练知识、数据,再进行微调训练(fine-tuneing)、评估,到离线推理、在线部署,最终实现在具体产业中的大模型应用。

大模型的应用优势在于强大算力平台使得训练推理效率指数级增长,开发周期持续缩短,所需样本显著降低,在小样本下,起步精度提升90%[8]。同时,可以使用大语言模型作为通用接口充当控制器来管理现有的AI模型,以解决复杂的AI任务,例如HuggingGPT能根据输入的自然语言自动分析需要哪些AI模型,然后直接调用相应模型,来执行并完成任务[9]。基于预训练大模型(pre-trained models,PTM)的开发是AI开发的新范式[10]。

低代码平台是软件工程领域一种新的发展趋势,可以有效解决功能解耦问题,提高平台的扩展性和灵活性。通过提供可视化的开发界面,开发者可以基于该平台快速方便地构建、部署和管理各种应用,打造企业高质量发展阶段的“数字化底座”[11]。

2 建设思路

结合武汉轨道交通16号线的实际运用经验,笔者发现,将低代码平台和人工智能技术如自然语言处理(natural language processing,NLP)、多模态和计算机视觉(computer vision,CV)大模型引入智能运维系统具有显著的优势。

按照各系统功能之间解耦的原则,以低代码平台为基础,车载轨旁监测系统、智能分析系统和检修乘务管理系统相互协同,利用先进的数据通信技术,确保各系统之间的高速数据传输和实时信息交换,形成一个完整的智能运维架构。通过低代码平台方式将各个数据、服务、功能模块以插件的形式灵活组合,快速完成表单、模型、流程、仪表盘、知识库、展示页面等核心功能搭建,实现数据的整合与功能需求的快速响应。

通过数据结合NLP、CV、科学计算等人工智能大模型构建预测分析插件等,实现实时监控、预测分析和决策辅助功能。定期将标注数据反馈到云端大模型进行优化,再升级部署到端侧数据中心,实现持续迭代。

硬件布置以云计算平台为模型基础,线网共享数据中心为端侧,各线路设备机房为边侧,手持终端为辅助,形成云侧模型推理优化、端侧推理部署、端边增量学习(fine-tuning训练)反馈、边侧应用部署的全环节人工智能运维平台。同时,采用多层安全防护措施,包括物理层的防火墙隔离、网络层的安全策略、系统层的权限控制以及应用层的加密技术等,全面保障系统的安全稳定运行,满足轨道交通运维工作的高效和安全需求。基于预训练大模型的智能运维系统平台总体架构如图1所示。

图1 基于预训练大模型的智能运维系统平台总体架构

3 智能运维系统建设

3.1 低代码驱动平台

以低代码平台作为系统基础,首先需要定制低代码开发框架,前端UI可采用amis、Sortable、H5-Dooring等,后端服务采用APIJSON、dataway、magic-api等。平台适配多个应用程序开发工具,如集成的代码编辑器、API创建器、测试工具等,实现表单、流程、报表、角色管理、权限管理、多样化组件、连接器API等基础功能。通过基础功能开发系统级应用组件:车载轨旁监测系统、智能分析系统、检修管理系统,并结合需求定制化搭建自定义功能插件。

建设线网级数据中心,作为智能运维平台的硬件基础,同时接入各设备系统数据及云端大模型,整合统一数据,完成清洗、转换、互通等,实现信息高效分析利用;提供高算力实现模型端侧推理计算、端边增量学习(fine-tuning训练)从而持续优化模型等;通过各线路车载、轨旁及终端输入等完成数据的收集、整理及人机交互。模型计算推理判断及智能预警的简易流程如图2所示。

图2 模型计算推理判断及智能预警的简易流程

3.2 车载轨旁监测系统

车载轨旁监测系统作为智能运维系统的核心组成部分,主要负责收集和预处理轨道交通车辆、车载传感器及各类轨旁设备的运行数据。

传感器布设:在车辆上部署各类传感器,实时监测各子系统的运行状态。传感器类型包括但不限于振动传感器、温度传感器、电流电压传感器、压力传感器等。

轨旁设备布设:结合实际需求,可设置360°图像检测系统、列检机器人、轮对动态图像检测、弓网动态监测、车辆段工艺设备在线监测等。

数据采集与预处理:将车辆、传感器、轨旁设备收集到的数据通过先进的数据通信技术(如5G、LoRa等)实时传输至数据中心,数据中心可使用Lambda等架构[12]独立处理离线计算和实时计算,集成Hadoop,Kafka,Hbase等各类大数据组件,实时处理海量高并发数据,对原始数据进行离线预处理,以便后续的智能分析及插件调用。

实时信息展示:定义仪表盘插件,选取预处理后的关键数据,转化为图表等形式在系统实时监控页面展示,实现运营车辆位置和车载视频的实时监控、HMI同屏等功能,便于地面控制中心及时获取车辆状态信息。

3.3 智能分析系统

智能分析系统负责对车载轨旁监测系统收集到的数据进行深度挖掘和分析,通过连接器API和数据插件调用大模型功能,以支持决策辅助和故障预测。

数据清洗与处理:对数据采集系统预处理后的原始数据进行清洗、归一化和特征提取,为后续的机器学习和深度学习模型提供高质量的输入数据。

故障预测与诊断:训练基于人工智能多模态、CV大模型封装的科学计算数学模型,将预处理数据用插件控制输入模型,格式化模型输出结果,实现对设备运行数据进行实时分析、故障预测和诊断等功能。根据不同的故障现象,可以通过插件设定自定义参数,不断更新迭代优化模型,实现对同类故障再次发生的预测和快速诊断。以轮轨关系为例,使用实时连续采集的轮轨振动、冲击信息历史数据(包括正常和异常运行条件)训练模型,首先进行数据处理,去除噪声,规范化数据,将数据分割成离散的间隔,例如时间或距离间隔,以便能够分析当前随时间或距离变化的趋势;其次,对分段数据根据轮轨运行情况进行标注,如正常运行、异常运行或故障情况;再将标记数据拆分为训练集和测试集,以便进行模型评估和验证。模拟模型故障预测输出可视化形式如图3所示。通过应用大模型,可以用少量数据训练出满足要求的应用模型,大大提高故障预测和诊断的便利性和准确性。

图3 模拟模型故障预测输出可视化形式

决策辅助:基于故障预测和诊断结果,使用专用型NLP大模型,为运维人员提供决策建议,如设备的维修计划、车辆远程专家诊断、应急故障处理措施、空调智能温控等。

设备健康评估:定义插件,基于收集到的数据,对车辆各子系统的健康状况进行评估,判断设备是否存在异常或潜在故障,为设备全寿命周期使用提供数据基础。

3.4 检修管理系统

检修管理系统针对轨道交通车辆的维护工作,提供全面的工作流程管理和资源调度支持。

工单管理:可根据智能分析系统的决策建议,利用运筹优化等方法对车辆全寿命维修计划管理、状态修检修管理机制等进行辅助支持[13-14],自动生成工单,经检修调度审核后流转分配给相应的工程师或检修人员处理。

资源调度:根据实际需要创建插件,合理调度人力、物力等资源,实现根据工单录入工时、物资出入库消耗,汇总分析。结合年度规程维修量、物资采购周期等数据,提报次年物资采购计划,实现物资高效周转,确保检修工作的高效进行。还可以通过智能工具箱与工单系统结合,规范检修工具的领用、归还流程记录。

专业知识库:将车辆技术规格书、履历表、电路图、管线图等技术文件、每次检修及故障处理的过程和结果记录,汇总为文档库。配合NLP大模型训练优化,形成AI知识库,通过交互问答和来源引用的方式获得准确且有依据的答案,为技术人员后续的故障诊断和决策提供参考。图4展示了知识库交互中对客室侧门作业标准查询的结果。

图4 知识库交互中对客室侧门作业标准查询的结果

3.5 自定义功能插件

自定义功能插件是智能运维系统的扩展部分,也是解耦原则的具体实现。通过低代码平台方式,将各个数据、服务、功能、人员、权限等模块灵活组合,实现不同模块之间的数据交互和功能扩展,提供定制化的运维解决方案。同时,本文将NLP大模型和低代码开发结合起来,可以实现一句话即搭建一个插件,快速打造知识库、业务流程等实用功能,深入挖掘数字化潜力,提高生产效率。例如可以开发以下功能插件。

数据采集插件:该插件通过调用数据中心的数据采集与预处理功能,将各类现有及未来新增车载轨旁监测系统数据格式化为统一的API。通过API调用与其他插件进行数据交换,实现数据共享和数据整合。

仪表盘插件:该插件可将表单功能模块和数据采集API结合,实现数据可视化,将采集到的数据以图表等形式展示出来,方便运维人员进行监测实时数据和辅助决策。

预测分析插件:该插件基于人工智能大模型,可根据典型故障定义分解任务、故障判断逻辑和处理流程,采用不同的科学计算和CV大模型对采集到的振动、温度、图像等数据进行计算分析和预测,提供实时的故障预警和处置建议,实现典型故障再次发生的预警和提前处理。预测分析插件可以由工程师不断维护、新增、迭代公司乃至行业内发生的典型故障模型。插件可以与检修管理系统进行数据交换,自动发起工单,实现故障诊断和检修计划的自动化流程。

流程管理插件:该插件可以通过NLP大模型加低代码的方式,快速将检修规程、管理办法等制度流程化,根据不同的规定和生产任务需要自定义分解工作流程,实现各环节信息高效流转,大大提高管理规定落地执行的效率和落实程度,例如检修流程、交车流程、巡检流程、物资周转流程等。可缩减纸质单据,使用更具有可追溯性的电子台账,严格把控每个生产环节的质量安全。

将功能和基础模块解耦可以提高平台内各基础模块的复合利用效率、保持较大的扩展性和持续的稳定性。NLP大模型和低代码结合可以快速搭建插件,适应业务发展需求,这些插件可以相互协同,形成一个完整的智能运维架构,实现数据的整合与功能需求的快速响应。

3.6 应用效果

基于上述“低代码平台+人工智能大模型”为核心的城市轨道交通车辆智慧运维服务框架,武汉16号线逐步优化现有平台功能,结合新框架,并在知识库、流程管理、故障预测等方面取得了良好的应用效果。

1)通过开源嵌入模型text2vec-large-chinese和大语言模型(large language models,LLM)模型ChatGLM-6B,实现本地加载技术文件作为知识库。投入到生产使用中,通过交互问答和来源引用方式帮助技术人员快速获取技术信息,为故障诊断和决策提供有力支撑。

2)通过搭建初步的低代码驱动平台,实现流程自动化、数据集成以及实时监控功能。提供可视化拖拽式编辑器,简化了流程设计和优化过程,降低了技术门槛,使非专业人员也能轻松参与流程管理和优化。同时,将各类运维数据集成到统一平台处理并展示,为决策提供全面而准确的数据支持。

3)在故障预测方面,结合车辆历史运行数据,构建了走行部故障预测模型,通过持续对模型进行训练和优化,逐渐提高预测的准确率,能够识别出潜在的故障迹象,提前预警。同时,根据故障诊断需求,不断地添加新的故障预测模型。

4 结束语

基于预训练大模型的智能运维系统平台将NLP、多模态和CV等人工智能技术融入到系统中,通过端云协同的方式将预测分析插件等人工智能大模型持续优化,保证了实时监控、预测分析和决策辅助等功能的高效运行。同时,通过低代码平台方式,保证了系统功能解耦,提高了平台的可扩展性与灵活性,实现了车载轨旁监测系统、智能分析系统和检修管理系统的高度集成与协同。

低代码平台与预训练大模型结合,可以解决现有智能运维系统计算模型实用性低且优化效率低、功能升级性不高、各业务系统间壁垒严重等问题,具有较大的应用潜力。