王同军
(1. 中国铁路总公司,北京 100844;2. 中国铁道科学研究院,北京 100081)
中国铁路大数据应用顶层设计研究与实践
王同军1,2
(1. 中国铁路总公司,北京 100844;2. 中国铁道科学研究院,北京 100081)
大数据时代数据成为企业核心资产和提升竞争力的源泉,处在改革转型期的我国铁路为实现提高经营效益、保障运输安全、优化运能效率、提升服务能力等目标,对于大数据技术有着极为迫切的应用需求。阐述我国铁路在大数据时代面临的数据共享困难、数据治理手段缺乏、数据分析能力不足、数据创新应用需求迫切等系列挑战,从铁路大数据发展整体出发提出铁路大数据应用顶层设计的重要性。铁路大数据应用顶层设计划分为大数据基础设施体系、大数据汇集体系、大数据资产体系、大数据治理体系、大数据分析体系及大数据应用体系等6个部分。详细分析铁路行业在客货运输、基础设施检测、动车组管理、工程建设等方面已经开展的大数据典型应用,并给出铁路大数据应用的分阶段实施建议。
大数据;铁路运输;客运;货运;动车组;基础设施;顶层设计;工程建设
大数据浪潮席卷全球各行各业,正在成为引领新一轮科技创新的核心技术引擎。由于蕴含着巨大的商业及社会经济价值,大数据被誉为未来的新石油和国家基础性战略资源,推动着人类社会的变革和升级换代。人类社会继蒸汽时代、电气时代后,正在加速跨进数据为王的大数据时代。当前,数据已经成为企业最重要的资产之一,数据资源占有量、数据活性、数据分析能力已成为衡量一个企业核心竞争力的重要标志。
2011年,全球知名咨询公司麦肯锡发布题为《大数据:下一个创新、竞争和生产力的前沿》[1]的研究报告,标志着大数据技术的诞生。大数据蕴含的战略价值引起众多发达国家政府的重视,相继出台大数据战略规划促进大数据应用与发展。2012年3月美国政府发布了《大数据研究与发展计划》[2],投资2亿美元进行大数据研发以提升从海量复杂数据中获取知识和洞见的能力,标志着美国率先将大数据上升为国家战略。2013年7月法国政府发布《法国政府大数据五项支持计划》[3],旨在交通、医疗卫生等纵向行业设立大数据旗舰项目,为大数据应用建立良好的生态环境。2013年10月英国政府发布《把握数据带来的机遇:英国数据能力战略》[4],从提升数据分析技术、加强国家基础设施建设、确保数据安全和共享等方面作出部署。2012年5月联合国公布了《大数据开发:机遇与挑战》[5],阐述了各国运用大数据促进社会发展方面所面临的历史机遇和挑战,并为正确运用大数据提出了战略性建议。
我国政府对大数据研究和应用也给予了前所未有的高度重视。2014年3月,大数据首次写入《政府工作报告》,标志着大数据上升到国家战略高度。2015年9月,国务院发布《促进大数据发展行动纲要》(国发[2015]50号),全面制定了我国大数据发展的总体蓝图和顶层设计。2016年3月,《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》中提出“实施国家大数据战略,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新”。2016年1月,国家发改委印发《关于组织实施促进大数据发展重大工程的通知》(发改办高技[2016]42号),重点支持大数据示范应用、大数据共享开放、基础设施统筹发展和数据要素流通。2016年8月,国家发改委印发《关于请组织申报大数据领域创新能力建设专项的通知》(发改办高技[2016]1918号),旨在建立和完善大数据领域的技术创新平台,构建支撑国家大数据战略实施的创新网络,加快大数据融合技术率先在相关领域的深度应用。2016年12月,国务院印发《“十三五”国家信息化规划》(国发[2016]73号),强调建立统一开放的大数据体系,包括加强数据资源规划建设,全面推进重点领域大数据高效采集、有效整合、安全利用,深化政府数据和社会数据关联分析、融合利用,建立国家关键数据资源目录体系,建立国家互联网大数据平台,构建统一高效、互联互通、安全可靠的国家数据资源体系。
我国铁路已经建立了全球领先、规模庞大的铁路网及支撑路网建设和运营的大量信息系统。截至2015年底,在全长12.1万km铁路沿线、6 000余个车站/作业段,2.1万台机车、1.7万辆动车组上都安装了大量感知设备;铁路作为大众化交通工具,2015年旅客发送量达25.35亿人,货物发送量达33.58亿t[6]。基于物联网感知设备、信息系统接入、移动设备接入、数据交换共享等方式,我国铁路已经积累了体量接近10 PB规模的有关工程建设、联调联试、运营管理、安全管理、客运服务、物流服务等领域的海量数据,数据类型包括结构化数据、半结构化数据、非结构化数据、流式数据等多种类型,数据中蕴含着巨大的分析和应用价值。这些都为我国铁路开展大数据分析提供了重要基础和保障。鉴于铁路大数据应用是一个复杂的系统工程,涉及到铁路内外部多个专业和部门的统筹协调发展,因此,加强顶层设计、科学有序开展铁路大数据应用已成为当前铁路行业亟待解决的重大问题[7]。
大数据时代给传统铁路行业带来了巨大机遇和挑战[8]。大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。铁路大数据除了具备传统大数据的“4V”特征[9]外,还具有独特的自身行业特点。
一是业务覆盖全。铁路信息化起步早,发展快,数据基础好。铁路大数据贯穿“勘测设计—工程建设—联调联试—运营维护”等全生命周期,覆盖车、机、工、电、辆等全业务链条,可为各环节经营管理决策提供良好支撑。
二是时空分布广。铁路大数据资源来源于遍布全国18个铁路局(公司)、600余个站段的所有机车、车辆、基础设施上的各种传感器,时空分布广,具有明显的地域分布性。
三是更新速度快。覆盖全路的5T、6A、6C、ATIS、视频监控等各种自动化信息采集设备源源不断地产生着鲜活的数据资源,数据更新速度快、时效性强、数据活性大。
四是业务价值高。铁路数据资源关乎国计民生,具有较高的业务价值。铁路互联网售票数据、行车安全数据、设备状态等数据对于建设服务型企业、保障人民生命财产安全及降低养护维修成本具有重要意义。
当前我国铁路正处于转型和发展的关键时期,面临着数据共享困难、数据治理手段缺乏、数据分析能力不足、数据创新应用需求迫切等一系列挑战,主要归纳为以下四方面:
一是大数据共享方面,存在数据壁垒严重、共享不充分等问题。现有业务数据多分散于各应用系统和应用平台中,在跨业务、跨层级、跨部门数据共享过程中,普遍存在数据编码标准不统一、数据共享口径不一致、多系统交叉共享压力过大等问题,急需通过构建企业级大数据平台和数据共享机制,确保企业内部数据共享的标准、安全,以及统一与社会数据开展共享协作。
二是大数据治理方面,存在数据不完整、数据质量不高等问题。各业务系统建设时期各有不同,采用不同的开发语言、技术架构、数据库导致业务数据格式不尽相同。同时,由于自动化采集手段和手工采集方式并存,导致数据质量不佳,各系统间数据在共享融合过程中需要采用各种技术手段、建立各项数据标准开展数据治理。
三是大数据分析方面,由于整体数据意识不强、缺乏数据思维能力、数据视野不够开阔,数据应用大都停留于日常业务功能实现和常规统计分析方面,数据应用深度不足,跨系统、跨专业的数据应用匮乏,数据驱动业务能力不强,无法满足服务改进、精准化管理和智能铁路发展需求。
四是大数据创新应用方面,我国铁路正面临着基于大数据技术提高运营收益、确保运输安全、提高运输效率、增强服务品质等方面的挑战。当前我国铁路已经完成转企,迫切需要适应经济新常态全面提高铁路运输企业经营效益。同时随着铁路运输速度加快、开行列车密度增大及运输质量提高,铁路运营秩序和运输安全面临极大挑战。需整合强化各类实时监控监测系统,实现对安全数据信息的及时采集、系统分析、科学评估、有效预警。其次铁路运输企业由粗放型向精细化、集约型转变,迫切需要合理配置运力资源,全面提高运输效率。需开展设备状态分析大数据应用,全面建立主要行车设备电子档案,实现设备健康状态评估、故障预警和维修决策支持。此外,铁路作为综合运输体系的骨干,亟待加强与其他交通运输方式的相互衔接。需开展客货运服务大数据应用,为旅客提供“家到家”智慧出行服务,为货主提供“门到门”全程物流服务。
综上所述,利用当前较为成熟的大数据治理、存储、分析、展示等相关技术,解决当前铁路面临的数据共享、数据治理、数据分析等方面的挑战,通过铁路内部各专业及综合运输、气象、国民经济等相关数据资源的跨界整合,将为铁路实现基于数据的、以客户为中心的客货服务、运输调度、经营管理等提供技术可能。
我国铁路是由车、机、工、电、辆等多个专业构成,跨越全国各个省市和地区的庞大铁路网,具有技术构成复杂、业务应用广泛、业务流程多样、涉及部门繁多等特点,因此铁路大数据应用是一个涉及全业务、全数据、全流程、全应用的复杂系统工程。发展铁路大数据需从整体出发,统筹考虑各方因素,加强顶层设计,避免各专业各自为政,确保整体工作思路清晰、有序开展。
完整的铁路大数据应用体系既包括承载大数据应用的数据中心基础设施,也包括大数据分析相关软件,以及在大数据平台中存储和分析的大数据资产。按照“先进性、适用性、可实施性、完整性、全局性”等顶层设计相关原则,铁路大数据应用顶层设计划分为大数据基础设施体系、大数据汇集体系、大数据资产体系、大数据治理体系、大数据分析体系和大数据应用体系6部分。铁路大数据应用顶层设计参考框架见图1。
(1)大数据基础设施体系,主要指机房环境和硬件设备。机房环境是满足数据中心机房电气、空调、消防、弱电工程等设计标准的场所。硬件设备主要包括服务器设备、网络设备、安全设备等三大类,满足铁路大数据中心数据存储、传输等需求。服务器设备可基于云化或非云化环境,建立起大数据平台管理节点、Hadoop数据节点、Hadoop测试节点、关系型数据存储节点、数据仓库部署节点等基础环境。
(2)大数据汇集体系,主要解决数据汇集问题,即将数据资源从各业务系统抽取并集中起来。从数据汇集的范围来看,既包括中国铁路总公司(简称总公司)内部的运输生产、经营管理数据,也包括以总公司为核心的供应链上的相关数据,还包括公安、气象、地质及综合运输等社会信息。
图1 铁路大数据应用顶层设计参考框架
(3)大数据资产体系,基于关系型数据存储、非关系型数据存储和分布式文件存储等技术,实现全路客运、货运、建设管理、联调联试、基础设施、机车车辆、工务、供电、电务、安全管理、人才培养、协同办公等业务数据管理,实现主数据、元数据等基础数据统一管理和维护,实现气象、经济、综合交通、供应链上下游、地理信息等社会数据的集中共享协作,构建铁路企业级清晰、完整、高质量、高可靠的数据资产体系,提升铁路行业数据能力和价值。
(4)大数据治理体系,是指采取有效的数据治理确保铁路大数据的准确、一致、及时,实现铁路数据资源向数据资产转变。数据治理就是对数据的获取、处理、使用进行监管,保证数据质量,并促进数据更高效地被利用。数据治理的内容包括:通过数据标准的落地,达到消除歧义、提高数据质量的目的,确保重要信息的完整、一致和准确,促进数据的共享,真正发挥数据资产的价值;通过数据质量管理,对数据在获取、存储、维护、应用、消亡的每个阶段内可能引发的各类数据质量问题,进行识别、度量、监控、预警等,从而进一步提升数据质量;从基础设施、网络、应用、系统及数据等多个层次入手,保证数据和信息的完整性、保密性、可用性;构建统一的主数据管理系统,实现铁路主数据统一管理、及时更新、专业维护、集中发布、全路共享,为各业务应用系统和用户提供标准、规范的主数据服务。
(5)大数据分析体系,提供流计算、内存计算、批量计算等多种分布式计算能力,满足不同时效性的计算需求。铁路各种安全监控系统产生的数据是一组顺序、大量、快速、连续到达的数据序列,要求实时进行处理,此类数据可采用流计算方法,实现在线统计分析、过滤、预警等应用。对于铁路客票发售与预订等类型系统,可使用内存计算方法,满足交互性分析需求,提供在线数据查询和分析,便于人机交互。铁路大多数业务系统的数据分析属于大批量数据的离线分析,可使用批量计算技术,用于时效性要求较低的数据处理业务,如历史数据报表分析。在数据计算的基础上,开展分析建模、模型运行、模型发布等能力的建设,满足实时、离线应用的分析挖掘需求,支持算法并行化处理,为铁路分析决策应用构建提供基础平台支撑。
(6)大数据应用体系,指基于各业务领域数据分析、决策支持等业务需求,打破既有业务系统数据壁垒,实现面向应用的多业务数据建模,支撑面向战略决策、运营管理、现场管理等各层用户的分析应用。在经营效益方面,开展客货运市场分析、竞争行业分析、定价及收益管理、运营成本分析及设备养护维修分析;在运输安全方面,进行风险源隐患分析、事故关联分析、行车调度安全分析、互联网舆情分析等;在运输效率方面,开展物资生命周期管理、运力资源优化配置、开行方案优化等;在服务品质方面,进行客货运用户画像、延伸服务、产品优化等。
在铁路大数据应用顶层设计的指导下,中国铁道科学研究院率先开展了铁路大数据分析技术探索与典型应用实践,初步形成了铁路大数据应用平台,构建了涵盖客货运输、基础设施、动车组、工程建设、安全保障等近60个应用场景。
3.1 客运大数据分析
在客运领域,中国铁道科学研究院早在2001年就开始了客运相关数据的积累,尤其在2012年实行互联网售票和铁路实名制后,实现了客票发售、旅客实名制等数据的海量增长。同时,旅客服务与客运管理系统的运行也积累了大量数据,依托这些数据开展了一系列分析,目前已实现对客流分析、车票销售统计、客流预测、旅客群体分析和异常行为诊断等的深度挖掘分析(见图2)。例如,在客流量预测中,以历年同期售票情况为数据支撑,建立增长率模型、四阶段法模型等适用于铁路客流情况分析的预测模型,实现了对未来客流量的高精度预测,为铁路运输组织及运力调配提供了有力支撑;在打击黄牛购票中,针对12306产生的用户行为日志数据、余票日志数据等非结构化数据进行分析,实现了12306用户中异常购票行为的鉴别,保障了广大群众的公平购票。
3.2 货运大数据分析
在货运领域,综合分析铁路运输数据、社会生产数据、社会物流数据,围绕货运收益管理和现代化物流服务需求,进行一系列预测算法模型的构建及大数据分析方法的探索,完成海量数据的有效信息挖掘并应用于货运业务的智能决策。实现了货运市场价格监测、物流市场需求调查与监测分析、货运收益管理、第四方物流平台等一系列大数据分析应用场景(见图3),并为货运改革提供依据和支持。
图2 客运大数据分析应用
3.3 基础设施大数据分析
铁路基础设施检测数据中心作为全路唯一的基础设施检测数据集成管理和处理分析研究中心,自2010年运营以来,管理着全路运营线路日常周期检测数据、新建高速铁路联调联试动态检测数据,以及全路钢轨探伤、综合巡检、周边环境视频等数据。利用这些数据开展了轨道检测、钢轨探伤等一系列大数据分析工作。通过综合分析常年积累的轨道检测和维修数据,以及通过总质量等运营数据,基于故障预测与健康管理模型,建立了轨道质量评价色阶图,利用色彩直观反映轨道单元综合质量的时空变化与维修预警情况,为工务部门何时何地安排大机捣固作业提供决策支持(见图4)。
图3 货运大数据分析应用
3.4 动车组大数据分析
基于动车组管理系统中积累的丰富数据,按照“一车一档”模式,建立和完善了动车组及其重要零件的全生命周期电子档案,覆盖了基本信息、检修履历、实时位置、运行状态及报警故障等信息,并开展了动车组保有量分析、动车组开行分析、动车组生产力布局、动车组检修工作精准预测等一系列大数据分析工作。在动车组故障关联挖掘中,设计了动车组故障数据关联规则挖掘Apriori算法,实现了动车组故障规则的挖掘,可有效预测动车组质量状态、定位故障并确定修程,提高检修效率,为动车组运行安全、故障诊断和维修等工作提供决策支持(见图5)。
图4 基础设施大数据分析应用
图5 动车组大数据分析应用
3.5 工程建设大数据分析
从2013年开始,在总公司的领导下,依托铁路BIM联盟,中国铁道科学研究院开始铁路工程管理平台建设。目前已经在全路完成了以实验室、拌合站等为典型业务的应用推广。在此过程中积累了实验室、拌合站、隧道施工过程监测等海量工程建设业务数据。通过项目生产数据可分析施工单位生产质量、管理质量,根据数据分析结果可进行生产进度与施工组织计划对比、生产进度异常报警、生产状态异常报警,实现生产工序、生产工艺、质量信息的可追溯。此外,通过数字仿真技术围绕三维BIM模型进行施工过程信息和数据的集成与分析,为优化设计方案、指导工程施工等提供了决策支持(见图6)。
图6 工程建设大数据分析应用
3.6 安全保障大数据分析
在安全领域,通过采集、整合铁路相关人员的不安全行为、设备和环境的不安全状态及安全管理缺陷信息,构建覆盖运、机、工、电、辆、供电、环境等多专业的铁路安全大数据应用,实现铁路运营安全与应急保障数据融合、集成,以及信息共享、综合运用,实现问题闭环处理、综合报警分析、问题规律分析、设备技术状态评价及运营安全风险预警,为各专业维修养护及行车调度指挥和安全监督管理等提供辅助决策支持,为铁路运营安全有序可控提供技术保障(见图7)。
当前部分企业盲目开展大数据中心建设,过分追求基础设施规模,带来一次性投入巨大、建设和应用脱节、场所和设备空置、资金浪费严重等问题。鉴于此,铁路大数据中心基础设施建设应在顶层设计指导下按照统一规划、分期分步、软硬结合、应用发展相协调的原则推进。参考国内外相关行业大数据应用经验[10-11],根据当前铁路大数据应用基础和实际,考虑未来大数据应用需求,建议采用先典型示范、再优化推广的两阶段实施策略。
图7 安全保障大数据分析应用
4.1 第一阶段(2017—2018年)
(1)基础设施方面:基于既有铁路数据机房环境进行改扩建,使其具备支撑典型示范应用要求的机房环境能力。通过利旧、购置或租用主流X86服务器,建设支持相关业务领域典型示范场景数据存储处理能力的软硬件环境。
(2)数据汇集与管理方面:实现铁路工程建设、联调联试、基础设施、移动设备、客货运、安全应急、防灾监测等业务领域数据的汇集,并适度采集气象、区域经济、综合交通等社会数据,开展数据清洗、数据关联、数据血缘和数据质量管理等大数据资产治理体系建设。
(3)典型示范方面:基于平台构建铁路大数据分析体系,选取当前需求迫切、数据基础好、经济效益好、带动能力强的领域开展大数据分析应用示范。先期可选取客货运输、安全监控、基础设施全生命周期分析等领域大数据应用。
4.2 第二阶段(2018—2020年)
(1)基础设施方面:基于第一阶段典型示范的开展情况,充分考虑铁路大数据增长速度和增长规模的要求,面向全路适时开展规模适度的企业级大数据中心和灾备中心建设,用以支撑全路各业务领域全量数据的存储和计算。综合数据中心建设的国家相关政策要求和项目的可实施性、可持续性等原则,铁路大数据中心选址可考虑环首都经济圈范围区位优势明显、资源要素优越、基础设施及电力供应完备、大数据产业聚集效应突出的区域。例如获得京津冀区域一体化、“一带一路”、京津冀大数据综合试验区等政策支持的武清高村科技创新园已成功吸引了北京多家大数据企业进驻。此外,铁路大数据中心灾备中心的选址要充分考虑当地自然地理条件、配套设施条件、周边环境、成本因素、政策环境、高科技人才资源等条件,遵循全面灾难防护、业务连续性、资源共享、平战结合等原则。例如很多行业/企业级灾备中心通常选址呼和浩特、贵阳、嘉兴等地。
(2)数据汇集与管理方面:在第一阶段数据汇集基础上,实现运输调度、协同管理等全路业务数据汇集,进一步扩大社会数据范围和数量,实现互联网、社交、舆情、供应链上下游等数据采集。加强数据治理能力,实现数据质量、安全管控,建立完善的数据管理体系和制度。
(3)典型示范方面:基于客货运输、安全监控、基础设施全生命周期分析等领域大数据应用的经验,推广业务领域大数据应用范围,逐步建立全业务、全范围的应用,实现全路覆盖,为总公司构建智能铁路、实施“京津冀一体化”“一带一路”和“走出去”战略提供技术支持。
[1] MANYIKA J,CHUI M,BROWN B,et al.Big data:the next frontier for innovation,competition,and productivity[R].McKinsey Global Institute,2011.
[2] Executive Office of the President.Big data research anddevelopment initiative[EB/OL].(2012-03-29)[2016-12-30].https://www.whitehouse.gov/sites/default/ files/microsites/ostp/ big_data_press_release_final_2.pdf.
[3] SMEs,Innovation and the Digital Economy.French government support for big data[EB/OL].(2013-07-04)[2016-12-30].http://www.invest-in-france. org/us/n ews/french-government-support-for-big-data. html.
[4] Great Britain. Department for Business,Innovation and Skills(BIS).Seizing the data opportunity:A strategy for UK data capability[EB/OL].(2013-10-30)[2016-12-30].https://www.gov.uk/government/ uploads/system/uploads/attachment_data /file/254136/ bis-13-1250-strategy-for-uk-data-capability-v4.pdf.
[5] UN Global Pulse.Big data for development: challenges & opportunities[EB/OL].(2012-05)[2016-12-30].http://www.unglobalpulse.org/sites/default/files/ BigDatafor Development- UNGlobalPulseJune2012.pdf.
[6] 国家铁路局.2015年铁道统计公报[EB/OL].(2016-03-03)[2016-12-30].http://www.nra.gov.cn/ xwzx/zlzx/hytj/201603/t20160303_21466.shtml.
[7] 顾新建,代风,杨青海,等.制造业大数据顶层设计的内容和方法[J].成组技术与生产现代化,2015(4):12-17.
[8] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):5-15.
[9] 维克托·迈尔-舍恩伯格.大数据时代[M].杭州:浙江人民出版社,2012.
[10] 段军红,张乃丹,赵博,等.电力大数据基础体系架构与应用研究[J].电力信息与通信技术,2015,13(2):92-95.
[11] 李秋静,叶云.电信大数据解决方案及实践[J].中兴通讯技术,2013,19(4):39-41.
责任编辑 高红义
On Top-Level Design for China Railway’s Big Data Application & Case Study
WANG Tongjun1,2
(1. CHINA RAILWAY,Beijing 100844,China;2. China Academy of Railway Sciences,Beijing 100081,China)
In the big data era, data have become core assets of enterprises and the source of enhancing competitiveness. In order to realize the goal of improving operational efficiency, ensuring transport safety, optimizing transport efficiency and improving services, China’s railway urgently calls for the application of big data technologies. This paper expounds on challenges faced by China’s railway sector including those in data sharing, lack of data management methods and def cient data analysis and data innovation, and highlights the importance of top-level design for the application of railway big data from the perspective of the overall development of railway big data. The top-level design for the application of railway big data is composed of six parts: big data infrastructure system, big data collection system, big data asset system, big data management system, big data analysis system and big data application system. This article analyzes in detail the typical cases of big data application in passenger and freight transport, infrastructure inspection, EMU management, engineering construction etc., and offers suggestions for different phases of application of railway big data.
big data;railway transport;passenger transport;freight transport;EMU;infrastructure;toplevel design;engineering construction
U29;TP311.13
A
1001-683X(2017)01-0008-09
10.19549/j.issn.1001-683x.2017.01.008
2016-12-30
王同军(1964—),男,中国铁路总公司副总工程师兼中国铁道科学研究院院长。