马小宁
(中国铁道科学研究院集团有限公司 铁路大数据研究与应用创新中心,北京 100081)
自2011年大数据作为一个完整的技术词汇面世以来,已在全球掀起一场思维变革的浪潮。当前,全球的数据总量正呈指数增长,过去两年间产生的数据量超过以往总和。大数据技术已成为新一轮科技革命的制高点,发达国家纷纷加快布局,推动大数据发展和应用,中国对于大数据更是寄予了超常的重视及期待。从2014年至今,大数据已连续6年出现在国务院政府工作报告中,在2019年的政府工作报告中提出,深化大数据、人工智能等研发应用,使中国从“数据大国”迈向“数据强国”。
中国铁路一贯重视数据资源的开发利用,伴随着整个铁路信息化过程,围绕数据处理、数据资源共享、数据挖掘分析、数据可视化等开展了一系列探索应用,为大数据工作奠定了坚实基础。在数据分析方面,客运领域开展了客流预测、旅客群体分析和互联网风控分析,货运领域开展了市场价格监测、客户流失预警、货运收益管理,移动装备领域开展了动车组保有量分析、动车组开行分析、动车组生产力布局分析,基础设施领域开展了轨道检测、钢轨探伤分析,行车安全领域开展了综合报警分析、问题规律分析、设备技术状态评价等研究应用。但总体来看,上述应用还都局限于点状应用,分析的深度及作用有限,大数据应用还处于起步阶段。
2017年是铁路大数据的全面开局之年,中国铁路总公司发布《铁路大数据应用实施方案》[1],作为顶层设计文件,为全路大数据工作指明了方向。同期,铁路数据服务平台的基本功能研发完毕,为铁路大数据应用奠定了技术基础[2]。2018年,基于“平台+应用”模式,大数据应用在多个铁路局集团公司(简称:铁路局)同步展开,探索大数据的应用模式,取得显著的成绩。2019年是第3个年头,铁路大数据应用也进入全面深化应用的阶段。目前,中国铁路大数据正处在一个承上启下的关键阶段,有必要总结前两年的经验与不足,借鉴国内外大数据应用成功经验,理清思路,把准方向,全面推进大数据工作健康、快速发展。
大数据时代,数据已成为国家基础性战略资源,数据规模和数据运用能力成为评价国家综合国力的重要标志,大数据被誉为未来的新石油和钻石矿[3]。在开展大数据应用之前,需要明确大数据带来的价值到底有哪些,可以分为技术和业务两个层面。
大数据技术层面的价值是指,不涉及任何业务功能,仅通过大数据技术的应用,提升既有应用的速度和效率。大数据指代具有4V特征的数据集合,即:体量大,类型多,处理速度快,价值密度低。对于此类数据,传统的数据处理技术已经难以应对。数据量大,处理速度变慢,处理结果反馈时间过长,难以满足应用的时效性要求,用户体验降低;对于大量的视频、音频、图片、网络日志等非结构化数据,传统的数据处理技术无法处理,导致大量有价值信息的流失。通过使用分布式存储、分布式计算、内存计算等大数据技术,将一个大型的数据处理任务化整为零,分散到多个服务器并行计算,极大地提升处理的速度,快速得到处理结果。通过使用非结构化文本分析技术、基于深度学习的图像识别技术,可以对分结构化的数据进行快速、准确地处理和分析,提取出其中有价值的信息。
大数据业务层面的价值是指,通过对数据的收集、整理、处理、分析,从中得到之前隐藏在背后的有价值的信息,对于决策判断提供重要的辅助支撑。在《促进大数据发展行动纲要》[4]中提出,发现新知识、创造新价值、提升新能力,用数据说话、用数据决策、用数据管理、用数据创新,正是对此的诠释。
大数据的意义或价值归根到底是4个字:辅助决策。利用大数据分析,能够总结经验、发现规律、预测趋势,由经验支持决策向数据支持决策转变。通过对相关数据的收集和分析,为管理决策提供依据,可以避免个人意志带来的主观性、片面性和局限性,可以减少因缺少数据支撑而带来的偏差,降低决策风险。
铁路行业是大数据技术富有现实意义的应用领域之一,铁路大数据是国家大数据的重要组成部分,中国铁路高度重视大数据技术的应用。然而铁路大数据作为一个复杂的系统工程,涉及面广,建设周期长,需要顶层设计的支撑。2017年,铁路总公司编制并发布了《铁路大数据应用实施方案》,为全路大数据工作绘制了总体蓝图,指明了发展方向。
《铁路大数据应用实施方案》的核心内容可以概括为“1+2+N”,即:1个平台,2大体系,N项应用。如图1所示。
图1 《铁路大数据应用实施方案》的核心内容
2.1.1 1个平台
“1个平台”是指数据服务平台。数据服务平台是铁路信息化规划中的重要基础平台,是一体化信息集成平台的重要组成部分。数据服务平台的功能是承载数据的接入、存储、分析及应用。按照总体规划的要求,所有大数据应用都是基于数据服务平台开展,即“平台+应用”模式。所有业务系统中的数据都要采集到数据服务平台,平台对于数据进行治理清洗,形成统一规范的数据资源,再为上层大数据应用提供数据支撑,从而确保“数出一门、统一管理”。
2.1.2 2大体系
“2大体系”是指支撑大数据应用顺利开展的保障体系,包括数据治理体系和安全保障体系。数据治理体系包括大数据应用的组织机构体系以及大数据标准体系。安全保障体系包括大数据安全防护技术、安全标准规范、安全测评机制等。
2.1.3 N项应用
“N项应用”是指基于数据服务平台开展的铁路领域的N项大数据重点应用,N是随着业务发展逐步扩充的,目前是16项重点应用[5]。具体包括:运输调度大数据应用,客运大数据应用,货运大数据应用,精准客服大数据应用,设备状态大数据应用,价格分析大数据应用,安全风险管控大数据应用,建设管理大数据应用,经营开发大数据应用,警务大数据应用,审计大数据应用,舆情和职工思想动态大数据应用,人力资源大数据应用,财会管理大数据应用,物资管理大数据应用,计划和统计支持大数据应用。
按照各业务领域大数据应用的发展成熟度和紧迫程充,铁路大数据应用将分3个阶段有序推进,如图2所示。
图2 铁路大数据应用发展阶段
(1)2017-2018年,强化基础,重点突破。此前,铁路大数据应用的基础尚薄弱,现阶段首要任务是建立健全数据标准、数据管理的体制机制、技术平台、人才队伍等基础设施,围绕个别重点应用开展先行先试。
(2)2019-2020年,深化应用,持续提升。在数据服务平台初步建成的基础上,开展数据资源汇集,建立大数据应用的数据基础,进而开展各专业大数据应用。在本阶段,专业内大数据应用全面深化,跨专业大数据应用全面展开,跨行业大数据应用初步启动。
(3)2021-2025年,全面应用,引领行业。专业内、跨专业大数据应用得到全面深化,跨行业大数据应用取得显著成效,铁路大数据在行业外的影响力显著提升。
铁路数据服务平台是铁路一体化信息集成平台的重要组成部分,统一为各业务应用系统提供基础数据、共享数据和大数据分析服务。该平台由基础数据管理、数据集成、数据共享、大数据存储与分析4部分组成[6-8],如图3所示。
(1)基础数据管理:用于实现铁路主数据、地理信息及元数据的规范化管理;
(2)数据集成:用于实现结构化数据和非结构化数据的抽取、转换和导入;
(3)数据共享:用于实现结构化数据及非结构化数据的浏览及共享;
(4)大数据存储与分析:按照主题域在数据仓库组织数据,并根据业务应用需要将数据发布到数据集市,提供数据分析、多维报表、管理员驾驶舱、数据挖掘等功能。
图3 铁路数据服务平台总体架构
铁路数据服务平台基于Hortonw orks Data Platform(HDP)开源组件进行自主研发[9-10],主要开发及创新工作如下:
(1)基于Spring Cloud的微服务架构设计开发,利用HDP集成大数据组件;
(2)利用Ambari对大数据组件的运维管理和可视化状态监控;
(3)针对Hadoop源码进行深度优化,解决组件兼容性问题,提升处理性能;
(4)构建多租户管理体系,结合Kerberos和LDAP认证对用户的功能权限、资源权限、数据权限进行细粒度控制;
(5)研发平台和数据审计功能,针对用户操作和数据流转全过程实现跟踪和追溯;
(6)构建多元异构数据的数据集成和全过程监控,实现数据的加密存储和脱敏配置功能;
(7)设计全生命周期元数据管理模式,实现元数据血缘关系和影响分析功能;
(8)基于分布式系统架构,设计Spark引擎,实现海量数据质量稽核;
(9)构建数据资产目录,提供统一资产视图,实现数据资产管理;
(10)创建铁路业务模型,提供在线脚本开发环境,支持Java、Python、R等多种开发语言;
(11)集成优化presto可视化引擎,提供交互性强、易用性好的数据可视化环境;
(12)提供租户数据共享申请审批流程管理及数据接口的创建发布管理,提供高性能、高可用的数据应用程序接口(API)服务。
未来数据服务平台面向两个层面,提供两大类服务,如图4所示。
图4 数据服务平台服务模式
2018年,在《铁路大数据应用实施方案》指导下,各铁路局相继启动大数据工作,可谓百花齐放,各展所长。此阶段对于大数据的应用模式、建设路径等关键问题进行了探索,形成了许多可复制、可推广的有益经验。下面介绍几个典型的应用案例。
4.1.1 安全管控大数据应用
运用大数据技术开展安全生产规律性、倾向性、关联性特征分析,深度挖掘事故、故障变化趋势和作业行为习惯,研判风险发展规律,及时发现隐患特征,指导对安全方向和隐患的超前防控,提高安全管理、生产组织和过程控制的针对性,实现事前有预测、事中有监控、事后有分析的安全管理新机制。
遵循“人机料法环”的主线,逐步接入影响安全的各类检测监测信息,实现对安全事故故障的超前防控,其中,重点是人员和设备。目前,已实现人员及设备的安全状态画像,如图5所示。
图5 安全管控大数据应用
(1)人员画像。收集人员年龄、工龄、学历、培训等静态数据,以及标准化程序落实、监督检查问题、典型故障发现等动态信息,对人员安全状态进行综合评价,实现管理人员靶向精准监督检查。
(2)设备画像。基于设备的各类检测监测信息,建立科学的评价体系,客观真实地评价设备的安全状态,实现对设备的精准管控及对设备故障的超前预警。
4.1.2 基于大数据的电务智能运维
解决电务信号“三级四层”结构复杂、服务器设置分散问题,实现通信信号数据融合汇聚,综合使用多种智能化分析技术,实现对电务设备的综合化、智能化分析。
按照“集中化、可视化、智能化、自动化”的设计原则,整合电务网管、各类检测监测装备所采集的技术状态数据,实现电务设备设施单元技术状态全寿命周期的管理,并进行综合分析评价;实现采集数据自动共享、设备隐患自动报警、设备故障自动诊断、应急处置自动启动、维护作业自动派工、作业过程自动监控、设备生命自动管理。
4.1.3 基于大数据的应急调度指挥
使用大规模分布式非结构化文本检索,依据输入的关键字在历史文本库中查询类似案例,对历史案例进行文本分析,挖掘历史案例中事故、故障的发生规律,提供决策支持。
在检索历史案例的基础上,依据从文本报告中提取的时间、车型、故障描述、故障发生位置等多种特征,结合历史数据分析,预测事故、故障造成影响的严重程度,从而预先准备相应级别的应急预案。
对比各铁路局既有大数据应用,其应用水平参差不齐,可分为3个层次。
4.2.1 集成整合
数据集成整合是大数据应用的第1个层次,同时也是基础。将分散在各个系统中的数据整合至一个平台中,打破数据壁垒,实现数据的关联、共享和跨专业综合展示,包括“一杆一档”、“一车一档”、“一公里一档”、“一件一档”等等。例如,“一杆一档”:(1)为每个供电杆建立基础履历档案,包括厂家、服役时间、历史故障次数、上次故障时间、检修时间等;(2)建立从设备到故障,再到人员之间的关联联系。从设备关联到其历史上发生的故障信息,再由每一次故障关联到故障的维修人员,并查询看到该维修人员的档案、历史业绩、奖惩信息等。
4.2.2 统计分析
在第1层次基础上,对于存储的海量历史数据,从不同维度进行统计并对比分析。同比、环比,不同厂家对比、不同型号对比、各专业对比、各单位对比,并借助丰富的可视化工具进行多样化展示,从而找出时间、空间、数据关联等方面的规律,获取对于数据更深入的观察和分析。大数据时代,可视化技术得到了长足的发展,无论从外观上还是内涵上,都比传统的图表有了质的提升。该层次的大数据应用,实施难度较低、能够快速见效,目前,多数大数据应用都停留在此层面。
4.2.3 趋势预测
大数据最吸引人、价值最高的地方在于预测、预警,也是最难实现的。预测的核心是建立预测模型。预测模型是用数学语言或公式所描述的事物间的数量关系,它在一定程度上揭示了事物间的内在规律性。找出影响某种结果的几个因素,建立因与果之间的数学模型,根据因变量的变化预测结果变量的变化。当结果变量超过临界值时进行报警,以预先采取应对措施。如设备健康状态预测、行车安全事故预测等都属于此类应用。预测模型包括:灰色模型,回归模型,时间序列模型,神经网络模型等。这些预测模型各有优劣,根据特性适用不同场景。
4.3.1 基础设施缺失
大部分大数据应用还是基于传统的信息化底层架构,未采用分布式计算架构。传统架构在数据量不大、数据类型单一的情况下尚可应对,但随着数据量的逐步积累及应用场景的增加,势必出现资源紧张造成的性能大幅下降。因此,开展大数据应用,还需统筹规划,尽快搭建与大数据应用相匹配的底层技术平台。
4.3.2 应用层次不高
从功能上来看,很多是基础信息化的内容。大部分应用还停留在统计分析、可视化展示的层面,缺乏更深一步的预警预测等亮点应用,缺乏跨专业的综合性分析应用。
4.3.3 应用之间缺乏统筹
个别单位同步开展多个领域的大数据应用建设,缺乏统筹规划,应用之间存在交叉及重复,形成了新的业务域竖井和数据孤岛。
4.3.4 与原有业务系统之间界面不清晰
应用所面向的用户未界定清晰,与原业务系统之间关系没有处理好,导致新开发的大数据应用与原业务系统功能存在交叉。
4.3.5 大数据应用的最后一公里问题
对于第2个层次的大数据应用,通过多种形式给用户展现了海量的信息,揭示了业务的规律及发展方向。但通过这些信息,用户应当做哪些决策,采取哪些措施,没有明确的界定。因此,所展示的信息与最后决策之间建立明确关联关系还有待继续探索。
自全路大数据应用全面启动至今,已经历2年,目前,进入一个承上启下的关键阶段。需要全面总结前期经验及不足,对未来工作进行统筹布局[11]。下阶段,铁路大数据工作应围绕以下方面展开。
按照信息化总体规划,数据服务平台是开展大数据应用的基本技术平台。数据服务平台两级部署,分别承载铁路总公司及铁路局级应用。目前,铁路总公司级平台已部署完毕,近期将提供常态化服务。在铁路局级层面,平台已落后于大数据应用,需要加快推进平台建设,更好地为上层应用提供支撑。
大数据应用,数据是核心和命脉。数据服务平台建成后的首要任务就是开展数据汇集:(1)需要建立数据资源规格标准;(2)要明确数据汇集的各角色,包括:数据采集,数据质量管理,数据运营等;(3)需要科学划分、切实保障数据拥有方的利益,这样才能打消顾虑,真正促进数据的共享。
按照数据服务平台规划,对外提供数据共享及平台的计算存储能力。在服务提供之前,需要明确基本的运营服务体系,包括提供服务的范围、服务模式研究、申请流程、审批流程等。
应用功能是大数据的核心。鉴于前期多数大数据应用的层次不高,还停留在简单的统计分析层面,甚至只是基础信息化的功能。因此,还需围绕《铁路大数据应用实施方案》,紧抓业务痛点,研判数据分析需求,全面深化各应用的功能点,真正做到发现新知识、创造新价值、提升新能力。
大数据是全面贯彻落实铁路总公司智能铁路战略的有力抓手,是建设智能京张、智能京雄、智能川藏的基础性工作。铁路大数据经过近两年的应用实践,取得了丰硕的成果,积累了相当的技术和经验,即将进入全面深化应用的阶段。未来还需加快推进两级数据服务平台体系的构建,分期分批完成各专业数据资源的汇集,建立健全运营服务体系,推进数据服务平台的常态化服务。在此基础上,全面深化大数据应用,为建设智能型铁路提供平台保障。