南宁城市轨道交通供电系统大数据平台设计与架构

2020-03-08 06:02:34韦宗毅覃乾

现代计算机 2020年36期

韦宗毅，覃乾

（1.中铁第六勘察设计院集团有限公司，天津300308；2.南宁轨道交通集团有限责任公司，南宁530000）

详细分析南宁既有数字化城市轨道供电系统存在的问题，在总结和剖析大数据基本概念和技术特点的基础上，梳理并找出既有数字化城市轨道供电系统应用于大数据平台的需求分析，详细设计基于大数据平台的城市轨道交通供电系统功能架构。通过典型场景搭建分析，描述所设计大数据平台在南宁城市轨道交通供电系统的应用。最后，阐述南宁基于大数据平台构建的城市轨道交通供电系统面临的挑战，并对下一步发展的方向进行初步探讨。

大数据平台；城市轨道供电系统；功能架构；分布式计算和存储

0 引言

随着城市轨道行业的快速发展，有着城市轨道交通“能源大动脉”之称的城市轨道供电系统获取的数据呈现出类型多、数据量大、门类多样、管理维护人员庞杂等特点。当前南宁建设的既有数字化城市轨道供电系统，普遍依托SCADA系统进行统一的指挥调度与供电信息反馈。随着影像设备、录音设备、新式传感器等设备的建设，传统的供电指挥调度与信息反馈系统收集的信息呈现几何级累计增长。面对不断增长的数据，南宁传统的供电运维检修方法受到较大的制约[1]。

大数据平台建设是近年来国家提出的“第四次工业革命”的重点发展方向，其具备“5V”特性[2]：大量性（Volume）、高速性（Velocity）、多样性（Variety）、价值性（Value）、真实性（Veracity）。由于大数据平台起源于互联网行业，同时，城市轨道交通供电系统行业与其他行业存在一定的差异性，当前的大数据平台并不能完全适用于城市轨道交通供电系统行业[3]。因此，需研究设计并架构适用于南宁城市轨道交通供电系统的大数据平台显得非常必要。

1 数字化供电系统存在问题

当前，南宁轨道公司正使用安全管理系统、机器人巡检系统、检测监视系统帮助人工作业，减轻人工维护检修的重复劳动。如图1为南宁城市轨道交通供电系统相关的保护、监测、控制网络架构图。

图1 南宁城市轨道交通供电系统网络架构图

南宁新建的数字化供电系统普遍存在所采集的图像、音影、数字信息存在重复性高、数据容量大、检测时长长等特点。运营维护部门需要设置专门的数据分析岗位处理海量数据。同时，供电数字化供电系统产生的数据量增长极快，仅通过人工分析和筛选的数据，无法提供有效或有价值的反馈信息帮助运营维护，也无法发挥和体现数字化系统给运营维护带来的便利性，造成建设一套系统、荒废一套系统，甚至抛弃使用数字化系统的现象。因此，解决困扰当前数字化城市轨道供电系统问题的关键在于对系统产生数据信息的有效利用[4]。

2 既有平台的大数据功能需求分析

南宁城市轨道交通供电系统大数据平台主要实现对轨道交通供电系统产生的巨量数据进行数据类型转换、分类存储、数据关联与分析计算、展示、闭环反馈的功能[5]。

（1）数据类型转换功能。既有轨道交通供电系统由于建设所针对解决问题的不同，会产生不同类型的运行数据、图片格式、语音视频格式、文档格式等。需配置统一的数据抽取和采集策略，转化为大数据平台默认与通用的数据类型。

（2）数据分类存储功能。通过数据结构的优化、分布式存储技术，配置扩展性强、存储成本低的分布式数据仓库。建立的数据仓库能高效快速的读写及合理分配存储空间工作，同时也应具备热备冗余技术，防止由于物理存储介质的损坏造成的数据丢失。

（3）数据关联与分析计算功能。大数据平台基于分布式存储技术，快速关联数据仓库信息，部署分布式计算算法，可利用分散而廉价的硬件计算平台，灵活部署复杂的数学分析模型，通过迭代算法，不断深度挖掘数据间信息关联，输出有价值的信息流。

（4）信息展示与发布功能。结合饼状图、柱状图、地图涂抹技术、虚拟现实VR技术等直观化、可视化的向使用者展示数据成果。

（5）高级功能应用。大数据平台提供海量、快速读写、调配数据、去中心化、分布式计算的信息能力，可结合数据挖掘计算、人工智能计算等以往需要采用超级计算机的复杂算法，大规模部署到相对通用计算平台上，实现机器“智能化”应用[6-7]。

3 大数据平台架构设计

大数据平台是可以建立在既有Linux平台下的数据处理系统的软件平台系统。与传统平台建设中，强调网络、服务器硬件配置不同，大数据平台更加强调利用基础标准化矩阵硬件平台，分布式布置一整套可不断拓展、易于嫁接存储与计算的软件体系，达到处理海量数据、运行复杂数学和分析模型的目的[8]。

当前的大数据平台体系主要由基于分布式系统发展而来的Hadoop体系和基于数据库管理发展而来的MPP体系[9]。MPP体系的优势在于可利用完整的SQL语言对巨量的结构化数据库进行操作。但其体系特点不利于动态数据的查询和计算，网络开销大，任务分配不灵活，扩展性有限，不利于供电系统大数据平台的业务拓展。

Hadoop体系设计之初，就是基于分布式系统的高可靠性、高拓展性、高容错性，受到国内外互联网公司的青睐。目前，Google、Yahoo、Facebook利用原生Hadoop系统，部署在上千个服务器集群中，解决搜索与广告业务。国内互联网公司中的百度、阿里、华为、中国移动等企业也利用自开发的基于Hadoop体系的第三方系统，构建自己的大数据应用。使用Hadoop体系建立的大数据平台更贴合于城市轨道交通供电系统行业的特点和需求。

基于Hadoop体系构建的城市轨道交通供电系统大数据平台的功能构架和定位，从下至上需包含三个层级：①数据收集及存储层；②数据计算及信息挖掘层；③应用及展示服务层。如图2所示为城市轨道交通供电系统大数据平台架构图[10]。

3.1 传统数据采集数据流程

供电系统平台主要数据来源于供电运行与维修数据。传统的数据经过平台汇总后，上传至中央级，通过布置相对静止的处理算法后，展示输出，由人工判断数据的可用和可信程度。由于维护工作人员的经验、能力各不相同，往往造成系统出现明显奇点时才判定为故障，错失解决问题的最佳时机。同时，存储器中的海量数据被堆积、覆盖直到数据阵列完成生命周期，采集的数据就会被丢弃而不会再被调出利用。这些蕴含供电系统运行客观规律的系统的数据利用效率低，造成极大的数据资源浪费。

3.2 大数据数据采集层

大数据系统总体把数据类型分结构化数据和非结构化数据。结构化数据为存储在数据库里，可以用二维表结构来逻辑表达的数据。在供电系统中，如电能状态信息、SCADA供电系统状态信息等为典型的结构化数据。非结构化数据为不方便使用数据库化逻辑表达的数据，包括所有办公文档、图片、视频和音频信息等[11]。

大数据采集层针对非结构化和结构化数据，采用多种工具和手段，同时，这些数据采集工具内嵌于传统数据采集层，避免额外的系统开销。其中，结构化数据采集，比较常用及稳定的工具为Sqoop采集工具；非结构化的工具针对的对象类型较多，常用的为Apache社区发布的Kettle、IBM提供的Datastage、Informatica软件等。其使用流程为把非结构化数据进行ETL到HDFS中的Hbase结构中进行类结构化存储。

图2 典型城市轨道交通供电系统网络架构图

3.3 大数据数据平台层

平台层工具建立在传统服务器存储池及进程中。平台层的计算工具和存储工具边界并不十分明晰，如Hive工具就是布置于存储池中，同时也可调用计算工具的软件包。

平台层一般包含分布式计算和分布式存储两个方面。其中分布式存储是大数据平台基础。

在Hadoop体系中，最基础的存储单元为HDFS存储池，主要用于存储经过采集工具加工后的数据。同时，HDFS具备良好的结构化存储特性，传统数据的标准化存储池中的结构化数据也可以方便转换为供给大数据引擎需求的HDFS类型。

存储池中的Hbase存储主要以列的形式，存储从非结构化采集工具采集而来的数据，进行类结构化存储。

Hadoop平台有众多计算工具，其中比较常用和代表的有Spark流计算工具、Storm快速计算工具、MapReduce计算工具。在Hadoop2.0体系中加入了YARN快速数据共享工具，解决任务进行中的计算工具动态调度问题[12]。

Hadoop的基础计算工具为MapReduce，其总体运行思路分为Map和Reduce两个部分。在Map阶段，矩阵机器同时按软件划分读取完整数据库，筛选所需数据；在Reduce阶段，又同时启动其他空闲的矩阵机器，把Map阶段获得的筛选数据进行计算并重组输出运算结果。

MapReduce的计算模型简单好用，但计算过程需经过多次存储读取操作，计算时间过长，由于城轨供电平台产生的数据流具有周期性，因此MapReduce工具适合城轨供电平台的精确模型计算，如维修应急策略库、静态数据库修正与更新等对时间要求不高的模型计算。

Spark计算模型是为解决MapReduce计算模型耗费过多时间开发的。通过YARN数据共享工具，部署于阵列服务器内存中，其本质上是使得Map和Reduce之间的界限模糊，可交叉启动多个Map和Reduce进程，减少对存储空间的读取，提高数据处理的吞吐量。Spark工具运算性能取决于整个大数据阵列服务器的总体性能，同时会增加整体的性能开销，用大数据矩阵服务器的高性能换取实时数据流的处理。因此Spark计算可作为大数据平台的主力计算工具使用。

Storm计算工具类似于数据筛子，被动而静态的筛选关键词，可作为动态计算模型的有效补充。

3.4 大数据数据应用层

大数据平台的展示工具强调共享性、易移植性和通用性的特点，又由于网络技术的快速发展，平台需采用Web浏览器为核心，通过移动终端、桌面终端共享式、多维度的以图表、模拟视频、音视频流等形式展示信息[13]。

大数据平台与传统平台在应用层的显著区别是大数据平台可内嵌第三方数据挖掘和数据分析工具。如目前较为常用的Hive on Spark工具，是基于平台层Hive存储结构的基础上，部署于应用层的软件。可以使用标准的SQL语言，调取合适的计算算法和存储数据进行计算。同时，Hive on Spark对顶层SQL语言封装，避免了专注于算法的工程师还需对大数据平台进行底层维护与操作。内嵌于大数据平台的算法工具是大数据平台的反馈控制器，双方互相配合，形成一套“机器学习”的反馈架构，不断完善算法模型、维修检测决策库等，更加贴合城轨供电系统大数据平台的需求，让系统变得更加“聪明”[14]。

近日，由中国农科院农业资源与农业区划所土壤耕作与种植制度创新团队，成功研制出了秸秆系列颗粒肥，包括秸秆颗粒肥、有机无机复混颗粒肥和有机无机微生物颗粒肥。这是国内首次把作物秸秆以颗粒肥料的形式进行综合利用。

4 平台在轨道交通供电系统场景应用

南宁构建的基于城市轨道供电系统大数据平台具备运行复杂算法、海量数据筛选与存储能力，能为整个城市轨道交通供电系统生态提供有力的分析与决策能力[15]。通过构建典型供电系统应用场景，举例说明应用大数据平台解决实际问题的意义。

4.1 大数据技术对系统设备故障产生的预判

传统的故障检测方法主要靠检修人员不断周期性的巡检，根据经验判断检查故障奇点。设备的寿命判断也是依据检修与故障频率，结合统计学方法定性给出。

大数据平台从供电状态信息网SCADA获取运行参数，调取巡视监控平台视频和红外视频信息，生产厂商提供的设备型式试验报告和全寿命预估报告，描绘设备使用和维护画像。自动提供系统预期工作值；同时，调取设备历史维修与操作记录数据库，通过递归法、演绎法等数据分析算法手段，计算出系统运行的健康状态，评估系统故障风险并按风险大小和缓急，动态输出预警报告。

4.2 大数据技术对检修保养流程的规范

目前南宁供电设备发生故障后，避免故障再次发生，需用人工完成以下步骤：①编写设备的故障诊断报告；②对故障报告进行判定和断级；③编写维修保养方案；④重新制定维修保养作业。传统故障检修保养策略需通过厂家培训，在熟练掌握设备性能和参数的基础上再制定检修策略。培训合格的维修工作人员的时间成本和培训成本较高。人的主观因数影响较大，容易出现故障判断或者维修作业的偏差，导致设备性能的下降，甚至设备损坏。借助大数据技术，在设备生产时，就可以录入设备的维修保养信息、故障风险报告信息等；在设备调试过程时，可人为模拟故障发生信息，录入维修检测的整套流程；在设备投入运行发生故障时，数据平台调用录入的数据，匹配相应的维修数据库，自动输出事故报告、事故结论以及维修作业方法。随着事故样本增多或导入更多的数据实例的修正，所匹配的数据信息更能精确指导维修保养工作，不断更新维修检测决策数据库，有效降低人员培训成本、检修维护时间成本等问题。使用大数据平台输出数据更能实现维修检测的标准化、程序化、流水线化。

5 结语

本文深入剖析了城市轨道交通供电系统引入大数据平台的优势，从大数据的采集、存储、计算、处理、应用等方面，以最小的改造代价，设计了南宁供电系统大数据平台的基本功能，用以满足城轨供电系统场景需求：

（1）分析当前城轨供电系统面临的技术困难，在立足于现有系统的基础上，软件架构并设计的大数据平台，是当前供电系统数字化平台的有效辅助补充工具。

（2）大数据平台通过数据的共融共通，有效地利用了本来存在于城轨供电系统的有价值的数据，进一步挖掘数据的价值潜力，减少了人员主观因素对维修检测的误判，提供了有效地判定和信息共享系统。

但是，目前设计的大数据平台也会存在以下不足，需待后续研究进一步加强：

（1）平台理论设计结合南宁城轨供电系统应用场景理论验证可行，缺乏大数据平台的完整部署，设计的平台功能尚需进一步实践。

（2）平台的数据采集基于通用的结构化或非结构化采集工具，面对城轨供电系统数据的采集工具移植，尚未得到实际工程的验证。

（3）高级应用的算法工具来源于数据挖掘和数据分析行业的通用工具，需在实际的城轨供电系统平台上验证其通用性、兼容性、稳定性和可靠性。