王 喆,马小宁
(中国铁道科学研究院集团有限公司 铁路大数据研究与应用创新中心, 北京 100081)
随着铁路运行速度、规模和周边环境的变化,在大数据技术同各行各业不断融合的形势下,如何通过大数据技术充分挖掘数据价值,实现数据驱动决策,支撑铁路转型升级,是值得每一个铁路管理者思考的问题。铁路大数据的实施既要贯彻铁路总公司大数据发展的总体思想,又要兼顾铁路信息化发展的客观现实。文献[1]研究了其他行业开展大数据的经验,提出了铁路大数据应用的体系架构。文献[2]分析了当前铁路大数据的应用需求,设计了铁路大数据平台的总体架构。文献[3]分析了铁路基础设施大数据的特征,提出了基础设施大数据的应用框架和实施建议。文献[4]主要从大数据的视角提出了铁路各专业维护单位对建设大数据的思考。现阶段对铁路大数据的研究多集中在大数据平台通用技术以及铁路部分专业大数据分析需求等方面,缺乏对通用的实施策略的研究。本文旨在从铁路大数据应用实施规划研究出发,基于铁路大数据发展面临的问题,有针对性地提出适合铁路自身特点的大数据实施策略。
2017年6月,铁路总公司向全路印发了《铁路信息化总体规划》(简称:总体规划)和《铁路大数据应用实施方案》(简称:实施方案)。在架构规划方面,总体规划提出了建设铁路数据服务平台,并明确了各业务领域及业务系统和数据服务平台之间的关系[5]。
依据总体规划,铁路数据服务平台是铁路一体化信息集成平台的重要组成部分,是铁路总公司及各铁路局进行数据集中管理、大数据分析的基础支撑。平台从既有各业务系统采集数据,同时又为各系统提供数据交换、数据分析服务。2017年12月铁路总公司发布的《一体化信息集成平台—数据服务平台总体方案》中,明确了数据服务平台在铁路总公司和铁路局两级部署模式,平台总体架构如图1所示。铁路总公司级铁路数据服务平台汇集了铁路总公司级系统数据和所需要的各铁路局的汇总及细节数据,为铁路总公司各业务部门提供数据分析服务。铁路局级铁路数据服务平台将汇集各铁路局、下属站/段系统数据,为各铁路局提供数据分析服务[6]。因此,平台级别的硬件资源、数据整合、标准制定、数据汇集等由企业统一规划,各专业和各业务部门只需要在平台提供的数据和服务的基础上建设满足各自需求的应用。这种“平台+应用”的模式扩展性好、适应性强,避免了数据孤岛和资源浪费。
图1 铁路数据服务平台总体架构图
在应用实施规划方面,实施方案将全路大数据应用分为运输调度、客运、货运、设备状态、安全风险管控等16大领域,并对每个专业领域内的大数据工作方向、目标以及工作阶段进行了规划[7],如图2所示。实施方案从应用建设的角度理清了工作思路,解决了“干什么”的问题;总体规划从信息架构方面指导了铁路大数据的建设工作,解决了“怎么干”的问题。二者是新时期全路信息化建设和大数据工作的总体设计,是规范指导铁路信息化建设的纲领性文件。
(1)安全管理需求:研究铁路安全管控大数据应用,全面提高安全管理水平。
(2)运输组织需求:基于运输生产实时数据,开展车流预测分析,对运输生产能力不足问题进行预测预警。
(3)资源管理需求:利用大数据挖掘分析技术,对铁路局运营资源数据进行综合分析,提高资源综合利用效率,促进企业运营效益提升。
(4)设备管理需求:采集设备设施的实时状态,实现设备设施运用状态的精准评价和趋势预测,指导现场维护,实现设备全生命周期的故障预测与健康管理。
图2 铁路大数据应用实施规划
近年来,随着铁路信息化建设的逐步深入,信息系统已覆盖客货营销、运输组织、经营管理等各个领域,各系统都积累了海量的数据。随着12306 网站及95306 网站的上线,售票信息及铁路物流信息大幅增长。基础设施及设备检测方面,铁路的工务、电务、供电、车辆和机务等部门积累了铁路线路、通信信号、机车车辆等各种设施设备的海量实时状态数据。根据近年来历次铁路数据和信息系统调研统计,铁路总公司及各铁路局存储的数据量已经达到10 PB的数量级。
铁路的PB级海量数据是非常分散的。铁路总公司层面统一建设了超过150个业务系统,涵盖了客货运、安监、计统、机务、工务、电务、供电、调度、建设管理等专业。统建系统面向各专业支柱型的应用需求,且数据集中存储于铁路总公司。此外,各铁路局为了满足个性化定制需要,分散建设了规模庞大的中小型业务系统,与统建系统共同承担各专业工作开展。这些系统的数据存储在所属铁路局。
受限于铁路整体信息化水平不高,有大量的数据以文档的形式存储,如事故故障报告、联调联试报告等。检测车日常巡检过程中拍摄了大量的高清图像和视频,再加上车站内和铁路沿线部署的监控摄像头,实时采集站内和区间的影像信息,生成了海量的监控视频、检测图像等数据。这些非结构化的视频、图像以及文本数据对于铁路的日常工作以及保障铁路行车安全至关重要,数据量远远大于结构化数据的体量。
铁路信息化在部分单项应用上可以达到世界先进水平,但由于长期处于分散建设阶段,业务系统开发建设各自为战,各层级业务应用水平参差不齐。因此,导致铁路数据的质量因系统而异,整体质量处于较低水平;且基础编码不统一,缺乏必要的数据标准,对数据的互联互通和共享构成极大的障碍。
铁路计算机网络按照安全等级,通过动态物理隔离技术和防火墙技术构建了具有层次结构的网络,形成外部服务网、内部服务网、安全生产网和国家涉密网4个逻辑安全区域。各应用系统依据其涉密程度,分别部署于不同的专网中。考虑到未来的大数据应用场景中,会涉及到跨专业的数据融合乃至实时的数据接入,当前铁路网络隔离的现状显然会加大数据汇集的难度和成本。
铁路信息化经过多年的发展,已经为铁路培养了一大批信息化专业人才。在这个人才队伍中,大多数人具备信息系统开发的能力,涉及到同大数据建设相关的数据分析人员相对较少,尤其是能够将机器学习、深度学习等技术同铁路业务相结合的人才更加缺乏。
综合各行业发展大数据的经验,有以下两种思路:(1)自下而上,整合企业的所有数据,开展全范围的数据治理、标准化等工作,构建企业级数据模型,对整合好的数据开展数据分析等工作,互联网、金融行业多采用此方法;(2)自上而下,即由具体的大数据分析需求入手,推导出所需要的数据,优先汇集上述数据并开展数据清洗和整理,最终通过大数据的分析响应需求。
铁路总公司层面因为持有的结构化数据比例较高,易于制定统一的数据标准,规划统一的数据模型,因此,可以参考数据质量较好的互联网和金融行业,自下而上的开展大数据工作。各铁路局因为非结构化数据比重较高,数据质量偏低,数据的大集中成本较高且难度太大,可以采用自上而下的思路。
铁路各专业在信息化建设水平上不尽一致,应对大数据分析的能力也有差距。因此,信息化水平较弱的专业应该先按照铁路总公司和铁路局的规划补齐本专业的信息系统。可以优先从信息化水平较高专业的信息系统中汇集数据并整理。与此同时,先开展数据汇集的专业还可以给后开展工作的专业起到探索和示范作用。
主数据描述了企业的核心业务实体,可以跨越各业务部门被重复使用。主数据平台包括了主数据查询、下载、版本管理等功能[8],且铁路大数据工作必然涉及到各专业数据的融合,例如车站、线路、物资编码、组织机构以及人员信息等务必统一,所以主数据的规范化决定着大数据工作的成败。
GIS平台提供了铁路车站、线路、固定设施等要素实体的地图展示,提供了铁路局管界、站段管界等图层服务[9],还提供了铁路公里标和经纬度坐标的相互转换功能,能够将地理信息相关的数据或者大数据分析的结果直观的展现在地图上,便于对数据的理解。
主数据平台和GIS平台都是大数据平台的有益补充,能够从数据准备和数据展现两个层面辅助大数据工作的开展。
铁路局在日常生产运营过程中,积累了大量的非结构化数据,如事故故障报告、供电设备检测图像、周界入侵检测视频、客服语音记录等,数据类型包括了文本、图像、视频、语音等。这些信息中蕴含了大量的有价值信息但利用率不高。随着深度学习技术在图像识别、语音识别、自然语言处理领域取得的长足进步,传统的基于模式识别和专家规则的方法逐渐被取代。因为深度学习是传统神经网络发展下的新一代神经网络[10],比较适合作为非结构化数据的特征学习器,结合机器学习的分类器,能够很好的实现非结构化数据的分析与信息挖掘。
铁路数据多分布在不同的网络中,且不同的网络安全级别也不一样。为了实现异构网络环境下的数据交换,解决异构网络之间数据共享交换的安全性[11],需要引入“数据采集前置机”系统。该系统主要由交换前置机和安全隔离网闸构成,如图3所示。
图3 前置机数据交换模式
数据交换共需要5个步骤:(1)前置机同业务系统以及数据服务平台之间是断开状态;(2)连通前置机与业务系统之间的安全隔离网闸,将数据传输到前置机;(3)断开前置机与业务系统之间的安全隔离网闸;(4)连通数据服务平台与前置机之间的安全隔离网闸,从前置机提取数据;(5)断开数据服务平台与前置机之间的安全隔离网闸。采用前置机方式能够在保证异构网络数据安全的前提下实现数据采集。
铁路各业务数据之间并非是完全独立的,数据之间的关联是天然存在的。这种关联关系包括空间位置的关联,事件时间关联,配属关系关联,组织机构关联等。通过这些关联可以将铁路绝大多数数据关联到同一个维度或者多个维度上,把看似不相干的若干事件或者对象建立起关联关系,增加了决策时可以依赖的信息量,对企业的经营和决策有着重要意义。
本文分析了铁路总公司大数据发展的总体战略和当前铁路发展大数据所面临的问题,提出了面向铁路行业特点的大数据实施策略。该实施策略已在太原铁路局《安全大数据应用平台》建设和广铁集团《铁路安全风险管控大数据应用》建设过程中应用,保障了铁路局大数据应用建设的开展。下一阶段将围绕实施策略的具体内容进行细化研究,形成较为完备的解决方案,为全路大数据工作提供有力帮助。