基于地铁机电系统故障统计的大数据分析应用

2017-09-11 06:21李兆君
西部论丛 2017年3期
关键词:数据挖掘故障专业

李兆君

摘 要:针对大数据的5V特点、技术特征,采用大数据常用的处理软件,对大数据常用工具、基本面和应用领域进行全面阐述,从而充分挖掘大数据的重要价值,同时基于地铁机电系统故障统计的大数据分析应用为案例,为用户提供大数据价值挖掘方向和探索目标,并对大数据发展方向进行预测。

关键词:大数据 5V 技术特征 常用软件 常用工具 应用领域 地铁机电 故障统计 分析应用 发展方向

Abstract: According to 5v characteristics, technical features of large data, USES the commonly used data processing software, tools, fundamentals and application fields, which are used in large data comprehensively expounded, so as to fully explore the important values of big data, at the same time based on the mechanical and electrical system failure statistics of big data analysis application as a case, to provide users with large data value direction of mining and exploration target, and the trend of the development of big data to make predictions.

Key words: Big data,5V,Technical features,Commonly used software,Commonly used tools,Application field,Subway mechanical and electrical, Fault statistics, Analysis and application, Development direction.

0引言

大数据(big data,mega data)或称巨量资料,是指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值密度)、Veracity(真实性)。从技术上看,大数据与云计算密不可分,必须采用分布式计算架构[1]。它的特色在于对海量数據的挖掘,依托云计算的分布式数据库、云存储、分布式处理和虚拟化技术。大数据并不在“大”,而在于“有用”的价值含量、挖掘成本比数量更为重要。如何利用这些大规模数据是成为赢得竞争的关键。

1大数据的特点、技术特征、价值

1.1大数据5V特点的五个层面

1)数据体量大:从TB级别,跃升到PB级别;

2)数据类型多:网络日志、视频、图片、地理位置信息等等;

3)价值密度低:以视频为例,连续不间断监控过程中,可能有用的数据仅有一两秒;

4)处理速度快:秒定律。

1.2大数据结构技术特征

以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网,分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

1.3大数据最核心的价值

在于对于海量数据进行存储和分析,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。如图1,大数据价值链。

1)利用大数据对消费者精准营销;

2)利用大数据做企业服务转型[2];

3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值;

4)及时解析故障、问题和缺陷的根源,有目标性改进修程,指导备件采购与仓储,规划人力资源、预算方向。

2大数据常用处理软件及工具

2.1常用软件

有Hadoop、HPCC(High Performance Computing and Communications高性能计算与通信)、Storm、Apache Drill、RapidMiner、Pentaho BI[3]。

1)Hadoop

Hadoop是一个能够对大量数据进行分布式处理的软件框架,是以可靠、高效、可伸缩的方式进行处理的。主要有6个优点:高可靠性,按位存储和处理数据的能力大;高扩展性,在计算机集簇间分配数据并完成计算任务,集簇可以扩展到数以千计的节点中;高效性,能够在节点之间动态地移动数据,并保证各个节点的动态平衡,处理速度快;高容错性,能够自动保存多个数据副本,并且自动重新分配失败的任务;可伸缩性,能够处理 PB 级数据;低成本性,可依赖于社区服务器。

Hadoop可以使用其他语言编写,比如 C++,带有用 Java 语言编写的框架,在 Linux平台上运行是非常理想的。

2)HPCC

HPCC是美国总统科学战略项目,主要由五部分组成:高性能计算机系统(HPCS)、先进软件技术与算法(ASTA)、国家科研与教育网格(NREN)、基本研究与人类资源(BRHR)、信息基础结构技术和应用(IITA )。

3)Storm

Storm是分布式、容错、实时计算且自由、开源软件系统,特点是可扩展、容错、易操作和设置,应用领域包括实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务),使用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等。

4)Apache Drill

Apache Drill有助于Hadoop用户实现更快查询海量数据集,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等,Drill所属的API接口和灵活强大的体系架构,支持广泛的数据源、数据格式和查询语言。

5)RapidMiner

RapidMiner是世界领先的数据挖掘解决方案,数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。

6) Pentaho BI

Pentaho BI 平台以流程为中心的,面向解决方案(Solution)的框架。构建于服务器、引擎和组件的基础之上,提供了系统的J2EE 服务器、安全、portal、工作流、规则引擎、图表、协作、内容管理、数据集成、分析和建模功能。

2.2常用工具

1)用于展现分析的前端开源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等。

2)用于展现分析商用分析工具有Style Intelligence、RapidMiner Radoop、Cognos, BO, Microsoft Power BI, Oracle,Microstrategy,QlikView、 Tableau ,国内的有BDP,国云数据(大数据魔镜),思迈特,FineBI等。

3)折叠数据仓库有Teradata AsterData, EMC GreenPlum, HP Vertica 等。

4)折叠数据集市有QlikView、 Tableau 、Style Intelligence等。

3大数据分析的基本面和应用领域[4]

3.1大数据分析的6个主要基本面

1)可视化分析AV(Analytic Visualizations),可以直观的展示数据,让数据自己说话,让观众听到结果。

2)数据挖掘算法DMA(Data Mining Algorithms),数据挖掘就是给机器看的,集群、分割、孤立点分析,以及算法可深入数据内部挖掘价值[1]。

3)预测性分析能力PAC(Predictive Analytic Capabilities),预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。

4)语义引擎SE(Semantic Engines),用工具去解析,提取,分析多样性、非结构化数据。语义引擎需要被设计成能够从"文档"中智能提取信息。

5)数据质量和管理DQM(Data Quality and Management),数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。

6)数据存储仓库DSW (Data Storage Warehouse) [5],是为便于多维分析和多角度展示数据,按特定模式进行存储所建立起来的关系型数据库。

3.2应用领域

主要应用领域体现在9个领域:改善我们的生活;优化业务流程;理解客户、满足客户服务需求;搜集社交方面的数据、浏览器的日志、分析出文本和传感器的数据,建立数据模型进行预测;跟踪各项成绩;提高医疗和研发;金融交易;改善城市;改善安全和执法;优化机器和设备性能,还可以让积极和设备在应用上更加智能化和自主化。

4 基于故障统计的大数据分析应用实例

在物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。大数据不仅在建设中应用,也应用在智能化运营,比如通过跟踪空调、照明系统等积累下来的超大量数据,找到节能方向,制订节能方案。现以地铁机电系统在运维过程中应用举例。

4.1计划统计

4.1.1计划兑现率

按照五级修程制定工作计划,并实时统计工作计划兑现率,如图2,月度计划申报统计表。

4.1.2人力资源分布统计

1)按能力层次

制订重点作业监控管理监督办法,把故障分为三类,检修作业分为一~四级,每级分别由对应层级的人员监控,如下表1,重点作业监控表:

A-直接影响行车、公共安全、运能及大面积客服质量的故障

B-间接影响并降低行车、运能、大面积客运质量的,但尚不能构成安全隐患的故障

C-除以上以外的故障

表1.重点作业监控表

2)按专业划分

根据作业项目,确定专业维修项目参与人员專业范围,配合专业范围,同时为提高年度检修计划的合理性,针对地铁设备系统接口多、配合多的特点,对关联多的施工作业进行计划资源、空间资源,时间资源进行融合、联合、整合和集中等四种作业类型,以系统专业为主控、以主要专业为主控的原则进行融、联、整、集合作业。既提高效率、减少配合频次,又减少人员、节约时间。

3)按作业内容

根据作业内容,确定专业维修人员技能、持证、数量要求,配合人员技能、持证、数量要求。也可以围绕工作、员工职业生涯,制定培训方案、培训要求、培训周期,同时确定教师、教材、教具等,进行专业化、系统性培训。

4)按时间分布

根据作业计划安排,确定合理排班表。同时也围绕工作、员工职业素质要求,制定招聘方案、招聘计划、招聘专业、招聘数量等,指导招聘工作有序开展。

4.2故障统计分析

1)故障数量分布统计分析

通过调度运维管理平台实时统计故障,基于大数据统计的故障数量和故障处理率统计,如图3,故障数量统计及修复率。

2)故障专业分布统计分析

基于大数据统计的故障分布,可以按专业数量分布,如图4. 故障专业分布图

3)故障等级系统分析

基于大数据统计的故障分布,可以按故障重要性等级进行划分,如图5. 故障等级分布图。

再选择一条线路的一个专业进行详细分析,如FAS专业,按时间、车站、模块分别进行分析。分别如下图6-8,系统故障统计及修复率折线图、车站级设备故障统计折线图、子系统/模块故障统计图。

1)FAS系统故障统计及修复率折线图

2)车站级设备故障统计折线图

按车站统计,如图7. FAS专业车站级设备故障统计折线图。

3)子系统/模块故障统计图

按模块故障统计,如图8.FAS专业子系统/模块故障统计图。

5 小结

综上所述,基于地铁机电系统故障统计的大数据分析应用,可以对人力资源的研究应用,即人员招聘、培训、取证、排班、考勤等有针对性管理;对修程修制的研究应用,即预防性计划修、预防性状态修、故障修,故障容忍度,设备可靠度,智能化巡检内容、标准及频次;对计划编排的研究应用,即五级修程层级、频率、内容、标准、资源配置及调度,是否采用均衡修,如何平均分配,配合专业的安排等;对故障分析的研究应用,即故障类型,从人、机、料、法、环来分析故障原因,找到故障薄弱点,拿出解决措施;对资源整合的研究应用,即人员整合、时间整合、作业整合、空间整合,对检修计划进行合理地融合、联合、整合和集中检修,提高工作效率,提高资源利用率;对物资采购的研究应用,即根据修程用耗材、故障用备件,确定采购物资品名、规格型号、数量、质量等要求,同时对采购周期、储运条件,提出备件采购计划、方案以及确定合理仓储红线;对预算资金的研究应用,即对采购金额、发生时间、发生部门,以及供应链、储运、质保、保险等进行有效管理;对维保模式的研究应用,即是采用自主、委外、联合方式维保,专业性、优缺点对比,时机、效果分析;对效能分析的研究应用,即以“五心”服务为考评[6],规划为设计、设计为建设、建设为运营,土建为设备、设备为行车、行车为客运、客运为乘客、职能为业务、业务为生产、生产为一线的管理理念。

同时,大数据未来的七大趋势:传感器无处不在、数据服务随时可用、大数据浪潮席卷各行各业、数据资产权及立法引发激辩、人工智能全面渗透人类生活、社会关系面临全面变革、人类文明进入全新纪元。

参考文献:

[1] 大数据究竟是什么?一篇文章让你认识并读懂大数据,中国大数据,2013-11-4, [2014-1-12]

[2] 李克强的“大数据观” 凤凰网 , 2015-2-17 ,[2016-5-6]

[3] 大數据处理分析的六大最好工具 , 云创存储,[2014-4-23]

[4] 大数据分析与处理方法介绍 ,中国互联网数据咨询中心 , 2014-06-30

[5] BIM数据仓库构建和BIM数据分析应用 ,中国大数据, 2016-06-25

[6] 《打造“五心”服务品牌铸 就城市服务新标杆》,陈华、罗斌,合肥城市轨道交通有限公司,第十六届全国交通企业管理现代化创新成果,中国交通行业管理协会,2017.12 北京。

猜你喜欢
数据挖掘故障专业
GE LOGIQ P5 彩超故障维修2例
数控机床故障检测与维修
一句话惹毛一个专业
大数据的中低压配网故障智能诊断
部分专业介绍
专业修脚店
汽车出了故障
探秘那些不冷不热的专业
数据挖掘综述
软件工程领域中的异常数据挖掘算法