高一凡,林德辉,夏志成,卢鹏飞,张 鑫,黄诗瑶
(1.北京锦鸿希电信息技术股份有限公司,北京 100070;2.广州地铁集团有限公司,广州 510330)
目前城市轨道交通系统中的基础设施、软硬件平台、车辆状态信息、乘客安全管理等系统基本相互独立、各成体系,各系统的安全状态还未实现一体化融合.交通系统信息应用平台已经有了一定的研究[1-3],为了满足我国城市轨道交通系统未来线网规模大、耦合程度高、客流强度大、安全因素复杂等特点下的安全、高效运营保障需求,有必要将基础设施、车辆状态、乘客安全等大量状态信息数据进行融合关联、综合分析,以实现对全线网的安全隐患大数据分析预测、全寿命周期的运维支持和数据服务[4-7].
考虑到城轨运营系统复杂、设备系统分散、安全需求度高的特点[8],为了实现对离散的城轨状态信息的关联、高效和深入应用,需使用大数据和云平台技术,实现对数据的融合应用和分布式计算、网络存储、备份冗余[9].
城市轨道交通系统安全信息集成接入与融合应用平台基于设备设施服役安全监控、四网融合及大数据技术,通过云计算服务中心的分布式、网络化的大数据处理能力,建立安全状态数据分析服务平台,实现网络化、云计算的城轨线网状态安全评估和数据服务.通过大数据挖掘技术,提取设备、运营的安全关键特征,建立安全隐患样本库,并通过建立各关键设备设施安全数据特征谱库,建立安全状态隐患预测与处置联动的研究分析平台,同时为各检测系统提供数据的云服务.
本文主要研究城市轨道交通系统安全信息集成接入与融合应用平台,该平台需完成多系统融合接入,平台软件界面标准、标准化的数据库构架模式、数据接口规范制定,为城市轨道系统提供列车自身安全保障、行车设备设施安全保障及综合安全保障信息发布等的融合应用基础.
平台以局部风雨环境及特定部位异物入侵监测系统、隧道形变与表面病变机器人检测评估系统、轮对安全状态检测与预警系统(地面)、信号执行部件状态监测评估系统、屏蔽门与车门间风险间隙乘客安全监测系统、列车逻辑控制系统状态监测系统为对象,以列车、车地及地面网络为重点,研究多形式网络综合接入、多种类信息融合接入、基于综合安全保障的多系统数据融合应用,完成城市轨道交通系统安全信息集成接入与融合应用平台现场布置和应用验证.
城市轨道交通系统安全信息集成接入与融合应用平台,以城市轨道交通系统大数据中心云平台为依托,平台包括数据综合接入、基于云架构的数据存储管理、跨业务数据融合关联、访问服务及发布服务等模块.
城轨系统的安全是综合安全问题,平台系统需要解决城轨系统多专业、多监测与分析平台的数据接入、数据存储、数据加工、数据共享、信息融合应用等问题,在技术研究和成果实现上,采用Hadoop、HDFS、MapReduce等大数据和云计算技术及数据中心构架技术.
平台针对现有城轨交通系统有无线网络复杂,车/线/网/路/环境/运输等专业的安全状态数据多源、异构、分离的现状,结合车地无线传输网络构建的各项约束,创新性的以列车、车地及地面网络为对象,构建基于有线网络和无线网络、基于公众无线网络和专业有无线网络向融合的城轨综合安全状态信息接入体系,实现任意位置、任意时间、任意设备的安全状态信息高效、可靠、安全的融合接入.采用满足城轨交通系统特点的大数据云服务架构,实现城轨交通系统多专业、多部门、多种类的异构安全状态数据的融合共享、关联应用,为城轨交通系统的综合安全保障提供一种全新的安全保障数据应用模式和技术手段.
大数据和云计算是当今信息时代下最具发展前景的热门领域.分布式的发展为大数据与云计算在技术上奠定了实现的基础,大数据的处理分析需要庞大的计算能力,云计算为此提供强有力的支持.而云计算的本质就是分布式系统,将无数在空间上分离的计算机资源汇聚到一起,形成一个巨大的资源池,用户根据自己的需要从中获取所需的云平台资源、这一过程运用了虚拟化技术,将无数物理上隔离的、并且计算能力有限的计算机虚拟化成了一个计算能力相当可观的资源池.对于用户而言,这些物理计算机是透明的,他们只需要关心自己实际获取到的资源.采用开源软件在水平方向上进行拆分和分布式部署,具有很强的实际参考意义.本平台在研究和实施过程中拟采用的Hadoop、HDFS、MapReduce等技术归属于大数据和云计算范畴.因此,本平台的研究内容、技术路线和拟采用的技术是具备创新性和先进性的.
本平台以Hadoop为平台,融合mysql、mongdb等多种数据库及数据关联方式(图1)的数据融合存储管理实现研究;结合现场的应用需求提出了初步的数据关联技术方案;采用轨检车数据样板,进行了数据接入后的分布存储、数据融合处理与结果管理、原始数据呈现数据的非结构化存储等的验证和优化.
图1 平台数据数据关联方式
针对平台中需要存储但数据量又具备一定限制量下的数据,方案采用NOSQL存储实现Mongodb,其检索性能优于HDFS,所以针对一些需要高效检索同时数据量级较大的数据存储要求,Mongodb是较为合适的方案.
城市轨道交通系统安全信息集成接入与融合应用平台开展了依托于Hadoop的列式存储实现研究,验证了构建在Hadoop之上的列式存储方式的检索效率、数据本地容灾等功能,并优化了实现的细节.
2.2.1 存储区
数据存储区管理,将平台存储在逻辑上进行划分,形成不同的存储区域,记录存储区域数据存储形态、数据内容、数据格式等信息,定期自动扫描.
数据存储格式管理,平台数据存储格式多样,包括关系型数据库、数据仓库、列式存储、文件系统、NoSql存储,记录各种存储形态及相关信息.
统一数据接口管理,平台在物理上涵盖各种数据存储形态,且分布于不同设备,通过统一数据接口标准化、规范化数据接入共享通道.
数据存储监测,对数据存储服务运行情况进行监测.监测数据接入的方式、运行情况、调用异常、执行时间、接入数据量、统计等信息,并对监测的结果进行展现和统计.
依据数据分类,结合大数据平台及数据区域建设情况,对数据存储和分布进行规划,详细结构如图2所示.
图2 大数据存储结构图
结构化数据存储区域划分为实时计算数据区、业务数据暂存区、主题数据共享区、统计分析数据区、挖掘数据区、模型数据区和训练数据区.在业务数据暂存区中存储业务源明细数据;主题数据共享区存储主题业务明细数据、业务指标数据、报表统计数据以及业务共享数据;统计分析数据区保存数据立方体、汇总数据以及宽表合并数据,并为主题分析提供支持;实时指标数据区提供对实时数据的存储支持;挖掘数据区存储挖掘算法变量对应的中间数据;模型数据区存储模型变量对应的中间数据;训练数据区存储用于训练和测试模型的训练和测试数据集,属于样本数据.
2.2.2 数据备份
数据备份包括数据库的数据备份及应用系统的数据备份(图3).
图3 大数据系统备份架构
每个节点代表一台物理机器,所有节点按数据分布划分为多个组,只有主节点能提供写服务,所有节点都能提供读服务.主节点上会分布全量的数据,所以主节点的数量决定了系统能存储的数据量,在系统容量不足时,就需要扩容主节点数量.在系统的处理能力上,如果是写能力不足,只能通过扩容主节点数来解决;而在写能力不足时,则可通过增加备节点来提升.每个主节点拥有的备节点数量可不一样,这在各个节点的数据热度不一样时特别有用,可通过给比较热的节点增加更多的备节点实现用更少的资源来提升系统的处理能力.
当数据库出现不能自动恢复的情况时,需从最近备份的数据库文件恢复系统,如最近备份是增量备份,则先恢复上一个完备数据,然后将增备数据逐个恢复.应用系统备份是防止应用系统由于某种原因不能正常运行,通过重新启动、重新部署应用等手段都不能正常启动应用系统情况下快速恢复应用系统的有效手段,不能正常运行的系统将被删除,直接将备份的应用系统恢复上去.备份周期、方式见表1.
表1 数据备份说明表
2.2.3 容灾机制
当发生数据库故障时,停止使用系统,避免故障的影响进一步扩大.数据库恢复从最近的完备数据开始,完备数据恢复后,将增备的数据逐个恢复,增备数据的时间由远到近进行,数据库恢复后,再重新启动应用系统(图4).
图4 系统容灾机制示意图
大数据分析技术经过不断发展已经形成成熟稳定的模型算法.常见的模型算法包括关联规则分析、决策树、神经网络、K-MEANS聚类、支持向量机、多元线性回归、广义线性回归、贝叶斯网络、Cox以及K近邻等.每种算法都有各自的优劣,我们可针对不同的场景选择合适的算法模型进行大数据分析挖掘.
关联规则分析算法可用简单的if-then规则描述数据之间的完备关系,且得出的规则具有可读性,但可能会出现组合爆炸问题;决策树求解基于多个复杂属性的特定目标值时性能较佳;神经网络通用性强,对非线性、有噪音的复杂数据分析效果良好,但有时算法收敛太早,容易出现局部最优解或者过拟合现象;K-MEANS聚类应用简单,无需先验知识,能处理分类型数据.
软件架构图如图5所示.系统接收来自包括隧道形变与表面病变检测系统、屏蔽门与车门风险间隙监测系统、信号执行部件关键设备状态监测系统、突发风雨及线路异物入侵监测系统、列车逻辑控制系统及列车控制行为监测系统和地面设备检测系统输出的隧道、屏蔽门、信号执行设备、环境及列车等综合安全状态信息,系统对各子系统平台的接入方式考虑如图6所示:
图5 软件架构图
图6 系统数据传输接入
系统由分布式大容量数据存储平台进行数据存储,运用数据管理、数据分析、数据统计等先进技术进行融合分析处理.系统的综合输出结果将作为轨道交通系统综合安全保障的一线状态和数据支撑.
数据接入层负责对接所有外部数据,设计方案采用统一管理和组件式集成方式,具体控制流程为任务调度器按需调用服务管理者和FTP文件传输器,其中服务的具体处理部分和FTP文件传输后处理部分交由下层进行个别针对性处理.执行环境包含公共日志服务,负责记录跟踪接入层处理详情.
系统采用网络化架构(图7),以高性能专用硬件及数据库和内部光电交换网络为基础,以Vmware ESX虚拟层为依托,部署在Linux系统上,以Hadoop为框架,采用Mongodb、Mysql、Redis及Mapreduce等分布式和大数据的应用技术开发的专用数据融合管理、业务服务、后台服务软件,形成涵盖突发恶劣天气、特定部位异物入侵、隧道形变、轮对安全、信号执行状态、屏蔽门与车门安全等的综合性数据接入与融合分析的服务平台.
图7 物理架构图
平台的建设包括车辆、信号、轨道、牵引网、隧道、供变电、屏蔽门和AFC等八大专业的内容,采集各专业现有系统生产过程中对列车行车安全、乘客安全及乘客服务产生重要影响的关键数据,建立各专业数据标准体系和安全指标体系,并建立大数据处理分析平台(图8).
图8 平台系统架构
本平台接收来自包括车辆、信号、轨道、接触网、隧道、供变电、屏蔽门、AFC的多个专业检测平台提供的基础数据、安全数据和故障数据,由分布式大容量数据存储平台进行数据存储,运用数据管理、数据分析、数据统计、隐患挖掘等先进技术进行分析处理,最后把处理结果提供给运维一体化保障平台,实现线网监控、隐患预警、运维决策、应急指挥的城市轨道运营安全保障服务.
1)安全保障地面集成平台存储空间不小于10 TB,支持分布式计算能力;
2)具备不少于6个专业的设备安装状态信息接入与融合应用能力;
3)具备100 M/1 000 M以太网接入及文件数据导入能力.
信息集成接入与融合应用平台部署在城市轨道系统大数据平台上,屏蔽门监测、信号执行部件监测、风雨监测平台等系统,通过城市轨道系统OA网络接入大数据中心.
系统完成部署和连通性确认后,在系统功能调试及优化的同时可进行关键技术指标验证;系统的存储能力、网络接入能力偏重于硬件指标,在系统调试阶段即可完成有效的验证;系统的处理能力需在系统完成功能调试后进行验证,以确保验证结果的有效性.
本文针对城轨系统安全信息集成接入与融合应用平台进行了研究,分别从创新性、关键技术、总体架构和系统验证4个角度对平台做了介绍,平台可实现城市轨道线网状态安全评估和数据服务的功能.目前已经完成了对城市轨道系统安全信息集成接入与融合应用平台的设计和开发,经过多次系统验证,确定了系统的科学性和实用性,平台将投入实际应用.