封博卿,李平,杨连报
(1. 中国铁道科学研究院,北京 100081;2. 中国铁道科学研究院 铁路大数据研究与应用创新中心,北京 100081)
基于时空大数据的高速铁路接触网鸟巢病害分析
封博卿1,李平2,杨连报2
(1. 中国铁道科学研究院,北京 100081;2. 中国铁道科学研究院 铁路大数据研究与应用创新中心,北京 100081)
高速铁路基础设施检测领域多年来积累了大量的历史数据,为故障分析及检修决策提供了重要支撑。建立在空间信息技术之上的时空大数据分析为接触网鸟巢病害提供了新的处理和预防方法,能够突破传统分析方法的局限,达到快速、及时的目的,从而有效提高病害处理效率和预防效果,并可降低接触网鸟巢病害处理的成本。基于大数据技术原理,针对接触网鸟害发生时蕴含的时空数据,利用地理信息技术、时空聚合方法等,构建一种基于地理信息的全维度、多层次的鸟巢病害分析流程,补强接触网巡检,为提高接触网鸟巢病害处理能力和预测手段提供新的技术和方法。
时空大数据;高速铁路;GIS;接触网;鸟巢病害
大数据(Big Data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。由于蕴含着巨大的商业及社会经济价值,大数据被誉为未来的新石油、钻石矿,对大数据的利用将成为企业提高核心竞争力并抢占市场先机的关键。未来,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分。
大数据在铁 路应用能够优化实际生产方式,保障铁路运输更安全[1]。作为高速铁路重要基础设施的接触网设备,目前普遍采用高架线路的牵引供电方式。接触网安全直接关系着高速铁路运输安全与效率,而鸟巢病害所造成的接触网跳闸占比最高,同时也是接触网巡检、检修的重要工作内容。京沪高铁自开通至2015年,由于鸟巢病害造成9次接触网跳闸,占所有跳闸原因的50%以上。2013年3月,在京沪高铁无锡—苏州段,由于鸟巢病害造成短接故障,致使区间停电124 min[2]。与此同时,现场站段为应对鸟巢病害,需要周期性投入大量人力、物力,极大地干扰接触网日常检修任务的完成。即便这样,也不能杜绝鸟巢病害的发生。
目前,针对高铁鸟巢病害信息采集和分析方面的研究刚刚起步。在信息采集方面,主要依靠人工巡检采集鸟巢病害业务数据。国内有学者提出利用基于关键区域HOG特征的方法分析车载视频,实现接触网鸟巢智能检测和信息获取[3]。在分析方面,李军[2]、魏峰[4]、单宝来[5]等先后针对实际生产现状给出了鸟巢病害经验分析和预防措施。但是以上信息采集和分析均集中在鸟巢病害业务属 性信息方面,缺少鸟巢病害存在的环境信息。分析手段受限于技术条件,大多采用传统趋势分析,缺少综合大数据分析,分析的结果缺少定量分析。因此,如何利用先进大数据技术手段有效预防、处理鸟巢病害成为一项紧迫的任务。
在此,从大数据及时空大数据的基础概念出发,提出接触网鸟巢病害时空大数据分析技术框架,针对时空大数据与空间信息技术的相互结合、多源数据融合、高速铁路设备空间信息建模、时空分析模型等关键技术进行阐述。通过对鸟巢病害时空大数据分析,能够为高速铁路鸟巢病害的定量分析提供技术手段,从而增强驱鸟装置安装与日常巡检的针对性,提高接触网运维工作效率。
1.1 大数据基本概念
大数据主要包括数据采集、数据存储、数据管理、数据分析与数据挖掘、数据可视化等。随着技术的不断发展,符合大数据标准的数据集容量也会增长;并且定义随不同的行业也有变化,这依赖于在一个特定行业通常能够处理的数据集有多大。因此,大数据在当前不同行业中的范围可以从几十TB到几PB。
1.2 鸟巢病害时空大数据特征
在现实世界中,时间和空间属性是对事物描述最基本的信息,有研究表明,超过80%数据与地理位置、发生时间直接或间接相关。越来越多的业务专题属性随着时间积累,已成为无法在合理时间内处理的数据集合。随着3S技术的不断发展,越来越多的空间信息能够快速的按照时间序列进行采集和积累。时空大数据就是将规模巨大的业务专题属性数据集按照时间和空间维度与空间信息进行融合。从信息维度上来说,时空大数据包括了时间、空间和属性3个维度。从信息范围来说,任何具备了时间、空间的业务属性数据都可以纳入时空大数据分析的范围。
根据以往鸟巢病害处理经验,其发生具有明显的时空特性。在时间维度上,鸟巢病害呈现明显的季节性周期规律,每年自入冬后进入鸟害发生期,并随春季进入鸟害高发期,在初夏逐步减少偶有发生。在空间维度上,具有明显的地域分布汇聚特征,在1个月内,京沪高铁济南—泰安区间内的同一个接触网支柱发生16次鸟害,并且鸟类在接触网结构部件的搭巢部位也具有明显特征,易于发生在补偿装置、吊柱等位置。
1.3 鸟巢病害时空大数据解决思路
鸟巢病害时空大数据中的专业属性数据集 可以通过大数据分布式存储技术进行管理,时间信息以序列标记的形式与专业属性数据融合,目前已有相应的大数据管理分析软件对其进行支撑。针对鸟巢病害时空大数据中的空间维度信息则需要地理信息系统进行管理,地理信息能够存储、查询、分析和展示空间对象,同时GIS为多源异构的海量数据提供了数据融合的空间基准。
鸟巢病害时空大数据分析需要以高速铁路地理信息系统为技术基础,在设备空间位置信息的统一基准上,融合鸟巢病害处理属性数据集、线路周边人文信息、资源信息、环境信息等铁路外部信息,形成高速铁路鸟巢病害时空分析的数据基础,并在数据基础上建立相应的时空数据分析模型,形成鸟巢病害分析的模型基础。鸟巢病害时空大数据解决思路见图1。
图1 鸟巢病害时空大数据解决思路
2.1 整体技术框架
基于GIS的高速铁路接触 网鸟巢病害时空大数据分析的整体框架见图2。
(1)数据源层。数据源层的主要功能是采集与接触网鸟巢病害大数据分析相关的数据,按照数据来源可分为铁路内部数据和外部数据,数据类型分为结构化数据、非结构化数据和流数据。铁路内部数据主要来源于铁路目前已有各业务领域的数据库、数据仓库,以及从视频监控、传感设备、GPS设备采集的视频音频数据、传感数据、GIS数据等;外部数据主要是来自气象(温度、湿度等)、人文、植被等数据。
图2 基于GIS的高速铁路接触网鸟巢病害时空大数据分析整体框架
(2)数据融合层。数据融合层是将数据源层的数据进行抽取和转换,并根据建立的地理信息模型进行空间数据融合,以便进行存储[6]。针对铁路业务结构相对独立、数据权力敏感、数据接口复杂繁多等特征,需要多个部门协商建立一个统一的数据集成和管理平台,以解决部门之间频繁的数据交换需求。
(3)数据存储层。数据存储层是将数据源层获取的数据按格式分类后经网络传输进行集群存储。针对关系型数据库采用数据仓库、数据集市的方式进行集成和存储,对于非关系型数据库可以采用NoSQL存储和基于HDFS文件的存储,而对于空间数据主要采用图数据库进行存储。
(4)数据分析层。数据分析层主要是对存储在集群中的数据或实时流数据进行分析,为应用层提供服务。常用的数据分析工具有Mahout和Pig。Mahout可以提供一些可扩展的机器学习领域经典算法的实现,帮助开发人员更加方便快捷地创建智能应用程序,主要包括聚类、分类、推荐过滤、频繁子项挖掘等;Pig是一种编程语言,简化了Hadoop常见的工作任务,对数据进行排序、过滤、求和、分组(Group)、关联(Joining),还可加载数据、表达转换数据以及存储最终结果。Mahout和Pig都是基于并行计算架构(MapReduce)进行数据处理和分析,是提高大数据运算效率的有效手段。
(5)应用层。应用层主要对鸟巢病害的发生趋势进行时间分析、空间分布分析、驱鸟装置安装位置分析等。可根据鸟巢病害发生的重点区域进行重点防控,并根据鸟巢病害发生的时间规律,进行巡检周期的动态调整。
2.2 高速铁路设施设备地理信息
时空大数据的分析和展示离不开空间信息技术的支撑,而空间信息技术的基础和关键在于空间数据基准和空间信息模型。
2.2.1 空间信息模型的数据基准
空间信息的存储与表达需要坐标系的统一,目前国家现行大地坐标系是2000年颁布的CGCS2000坐标系,而已建成高速铁路的空间数据大多采用北京54坐标、西安80坐标、工程独立坐标。铁路运营后的设备管理位置描述大部分采用线性里程坐标。在高速铁路地理信息系统的建立过程中 需要对上述坐标系进行坐标转换,统一到CGCS2000坐标系下。
针对北京54坐标、西安80坐标、工程独立坐标可利用同名点进行坐标转换。针对线性里程坐标,可采用线性参考与动态分段算法将接触网设备的位置信息由一维里程坐标向二维地理坐标进行转换。
2.2.2 空间信息模型
高速铁路接触网鸟巢病害的时空大数据分析,需要以接触网设备及其关键结构的空间位置为基础,建立适用于鸟巢病害分析的空间信息模型,该模型应能反应接触网设备构成的最小单元。
高速铁路接触网设备主要包含两部分:支柱及附属设备、接触网线缆。接触网支柱是鸟巢病害发生的主要位置,需要对支柱进行类别细分和粒度细化。从类别上划分,接触网支柱可分为线路上的中间柱、转换柱,隧道或车站的吊柱以及接触网硬横跨;从设备粒度上划分,接触网支柱可分为支柱基础、绝缘端子、定位器、补偿装置等。同时根据目前接触网专业管理实际,接触网专业管理以支柱为管理单元,附属设备与线缆均需与支柱建立联系,形成接触网支柱“一杆一档”。因此,空间信息模型的建立必须符合现场管理实际。接触网设备空间信息模型见图3。
图3 接触网设备空间信息模型
2.3 基于统一空间坐标的多源数据融合
高速铁路接触网鸟害处理需要融合多时相广范围数据,包括鸟巢病害处理业务大数据、周边环境大数据。
目前,高速铁路鸟巢病害的发现和处理主要依靠人工线路巡检,巡检人员通过接触网智能巡检系统填报鸟巢病害信息,上报信息主要包含基础杆号、鸟巢发生位置、上报时间等。鸟巢病害时空大数据分析可利用数据接口,从接触网智能巡检系统中将鸟巢病害信息接入,通过与地理信息中的接触网支柱杆号一一对应,完成鸟巢病害的位置融合。
周边环境信息包括气象信息、植被信息以及人文信息。其中气象信息主要来源于国家级气象基准站,主要内容包括逐日温湿度数据、风力风向数据,由于需反映区域气象情况,可以与地区行政区划位置进行融合。植被信息通常以植被覆盖度来表示,其测量可分为地面测量和遥感估算两种方法。地面测量常用于田间尺度,遥感估算常用于区域尺度。高速铁路跨度大,宜采用遥感测量植被覆盖度,较为实用的方法是利用植被指数近似估算植被覆盖度,常用的植被指数为归一化差分植被指数(NDVI)。由于其数据源即是遥感影像产品,本身具备空间位置信息,能够直接与地理信息系统融合。人口密度是反映人类活动的重要指数,其数据来源于全国人口普查,人口普查以行政区划为数据单元,因此,人口密度可按照行政区划空间位置与地理信息进行数据融合。人口数据融合见图4,植被数据融合见图5,综 合数据融合结果见图6。
2.4 时空大数据聚合分析模型
2.4.1 时空大数据分布式存储与计算
面对海量的业务专题属性数据、空间地理信息数据、周边环境数据,对数据的存储提出了新的挑战,主要体现在3个方面:数据库高并发读写,海量数据的高效率存储和访问,以及数据库的高扩展性和高可用性。数据的存储采用分布式存储架构,目前主流的分布式存储系统是Hadoop的分布式文件系统HDFS,其内部架构基于一组特定的节点构建,这些节点包括HDFS NameNode和DataNode。一个Hadoop集群包含一个NameNode和大量DataNode,并且HDFS内部的所有通信都基于标准的TCP/IP协议。HDFS架构见图7。
2.4.2 时空聚合分析模型
图4 人口数据融合
图5 植被数据融合
图6 综合数据融合结果
时空聚合分析是以时间、空间维度作为聚合坐标系,将散列在时空维度的信息进行快速高效聚合。其算法原理是:在每个位置点(X,Y)坐标的基础上,增设时间坐标T,任何产生的信息均可在这样的三维坐标系中确定位置点。初始时没有任何已知聚合点,然后对每个点进行迭代,计算一个点的外包正方体,若此点的外包正方体与现有聚合点的外包正方形不相交,则新建聚合点;若相交,则把该点聚合到该聚合点中;若此点与多个已知聚合点的外包正方形相交,则计算该点到聚合点的距离,聚合到距离最近的聚合点中,如此循环,直到所有点都遍历完毕。时空聚合分析模型见图8。
图7 HDFS架构
图8 时空聚合分析模型
自2011年全线通车以来,京沪高铁频繁受到鸟巢病害影响,造成接触网短路断电,影响高速铁路持续稳定运行。以济南西—泰安区间为试验范围,利用京沪高铁地理信息平台的空间数据,结合鸟巢病害处理业务,采用上述分析模型,与周边环境、人文信息进行时空数据挖掘,给出试验验证。
试验中时空大数据的数据采集范围包括:基础设施、鸟害信息、空间位置信息、气象信息、人口信息、植被信息6个方面。在试验段范围内,共采集1万余个接触网基础设施设备信息,包括接触网支柱基本信息、供电线缆、支柱附属设备等。并依据接触网设备设施空间信息模型,建立基础信息与设备空间位置的关联关系,形成完整的接触网设备设施基础地理信息。
在鸟害业务信息的采集方面,与试验段接触网智能巡检系统建立系统接口,以Web Service的方式,接入2012—2016年接触网鸟害巡检与处理信息,包括鸟害发生的支柱、发生部位、发现时间、处理时间等信息,形成接触网鸟害业务信息数据集。
在外部信息方面,采集济南市和泰安市分区县第6次人口普查数据,并与行政区划数据相融合,形成两市人口密度空间数据库;利用美国Landsat 8卫星OLI陆地成像仪所采集的影像数据,基于归一化植被指数(NDVI估值)形成试验段植被覆盖率空间数据;针对气象数据,采集济南、泰山国家气象基准站2012—2015年逐日气象信息,包括温度、气压、相对湿度、风速风向、日照指数等信息。
以京沪地理信息系统为统一空间数据基准和数据融合平台,建立铁路基础业务信息、鸟巢病害业务信息与地理信息系统中设备位置的关联,同时将人口数据、气象数据与行政区划进行数据融合,此外,利用统一的空间坐标系,将植被覆盖数据与地理信息进行融合。最终在京沪高铁地理信息系统中实现多源数据的整合。京沪高铁时空大数据分析界面见图9。
图9 京沪高铁时空大数据分析界面
通过鸟巢 病害时空大数据聚合分析模型,鸟巢病害呈现明显的分布规律,并与周边环境、人文环境具有紧密联系。规律体现在4个维度:(1)从时间维度上,每年鸟害从11月开始在3—4月份达到顶峰,6月份逐步减少,7月份基本绝迹;(2)从气象环境方面,鸟巢病害频度最高发生在平均气温15~20 ℃、平均气压995.2 hPa的地区;(3)从人文环境方面,鸟害多发生于人口密度变化较大(即城市边缘)、植被覆盖率为65%左右的区域;(4)从搭巢部位上,区间搭巢集中在补偿装置和隔离开关处,站区搭巢主要发生在吊柱底座和隔离开关处。分析结果展现见图10。
随着大数据时代的到来,利用时空大数据技术对接触网鸟巢病害进行分析和预测,能够使鸟巢病害处理与防护得到数据支撑,指导驱鸟装置的安装,从而减轻现场作业量,保障高速铁路供电的持续稳定。结合大数据技术、空间信息技术,针对接触网鸟巢病害发生的内外在因素,利用高速铁路设施设备地理信息模型,在基于统一空间坐标的基础上,实现多源多维时空信息融合,构建了基于时空大数据的聚合分析模型,并在京沪高铁济南西—泰安区间进行试验,取得了初步的试验结果。
图10 分析结果展现
[1] 马小宁,李平,史天运.铁路大数据应用体系架构研究[J]. 铁路计算机应用,2016(9):7-13.
[2] 李军. 接触网鸟害防治方案研究[J]. 中国铁路,2014(1):49-53.
[3] 段旺旺,唐鹏,金炜东,等.基于关键区域HOG特征的铁路接触网鸟巢检测[J].中国铁路,2015(8):73-77.
[4] 魏峰.浅谈高速铁路接触网防鸟相关措施[J].科技创新与应用,2016(2):195-196.
[5] 单宝来.浅谈接触网鸟害防治[J].中小企业管理与科技,2015(10):213-214.
[6] 徐田华,杨连报,胡红利,等.高速铁路信号系统异构数据融合和智能维护决策[J].西安交通大学学报,2015(1):72-78.
责任编辑 卢敏
On Harm of Bird Nests on HSR OCL Based on Time-Space Big Data
FENG Boqing1,LI Ping2,YANG Lianbao2
(1. China Academy of Railway Sciences,Beijing 100081,China;2. Railway Big Data Research and Application Innovation Center,China Academy of Railway Sciences,Beijing 100081,China)
Over the years, much data have been accumulated in the field of high-speed railway infrastructure, which provide important support for fault analysis and decision-making in maintenance. The time-space big data analysis based on spatial information technology provides a new treatment and prevention method for the harm of bird nests on HSR OCL. Capable of what the traditional analysis method cannot achieve, it provides solutions in a rapid and timely manner, so as to effectively improve the eff ciency of treatment and prevention of the harm and reduce the cost of its treatment. Based on the principle of big data technology and the space-time data when the harm occurs, this paper develops a full-dimensional and multi-level analysis process of the harm, using geo-information technology and space-time aggregation method, etc., which supplements the patrol inspection of the OCL, and provide a new technology and method to improve the capability of treating and forecasting the harm.
time-space big data;high-speed railway;GIS;OCL;harm of bird nests on OCL
U226.8;TP391
A
1001-683X(2017)01-0029-06
10.19549/j.issn.1001-683x.2017.01.029
2017-01-04
封博卿(1984—),男,博士研究生。E-mail:fengboqing@rails.cn