潘军明 陈小泉
摘 要:数据分析对企业的生产运营具有至关重要的作用。该文以油气田吊机设备数据为基础,利用生产过程中所产生的各种历史数据,采用多种分析模型,从不同角度有针对性地对数据进行分析,得到科学直观的相关性分析结果,并对设备故障进行大概预测。基于这些分析预测结果,现场人员能够及时制订设备预防性维护计划,降低设备的故障率,为生产决策提供数据支持。
关键词:吊机 相关性分析 Pandas Sklearn 故障預测
中图分类号:TH215 文献标识码:A 文章编号:1672-3791(2019)04(c)-0051-03
随着中海油信息化的不断发展,已经建成了资产管理系统、采办系统、设备运行管理系统、物流配送等系统,积累了数以千万计的基础数据和业务数据。而油气田现场部署着各种各样的设备,如何通过数据分析挖掘,给设备管理工作提供指导建议,降低维护成本,提高设备使用价值,已成为公司面临的一个重大问题。
1 问题与现状
在石油勘探开发过程中需要使用到各种机电仪设备,这些设备如果发生故障,需要管理人员进行维护。目前现场只能根据设备的运行时长制订维护计划,不能很好的根据设备运行状态、故障原因,故障次数,维修费用等情况综合起来预测设备故障趋势,以便在下一次故障出现前进行提前维护,减少设备关停的次数,增加设备持续运行时间。因此,该次研究有针对性的选择了吊机为分析对象,梳理出与该设备相关的各类数据,结合实际业务建立数据模型,以大量各种相关数据为基础,对该设备进行深入分析,验证算法的有效性和准确性,从而确定设备的总体故障趋势。
2 分析过程描述
从工单、物料、服务接收单、运行管理、检修工时、故障填报等基础信息中提取5年以来的数据,并进行指标量化(故障次数、维修费用、检修次数、检修时长、运行时长)。
Pandas是一个开放源码的Python库,它使用强大的数据结构提供高性能的数据操作和分析工具。利用Pandas可以完成数据处理和分析的五个典型步骤,加载,准备,操作,模型和分析。利用pandas及作图工具对故障次数与其他属性(指标)进行探寻获得如下图形。
通过数据初探发现图1~图3与图4(线形回归)比较接近,尤其是故障次数/检修次数与图4(线形回归)最拟合。
3 分析与预测
3.1 相关分析
相关系数是用来刻画二维随机变量两个分量间相互关联程度。利用python 数据分析包pandas 中求相关系数方法Corr()进行分析。
通过相关分析得出如图5所示结果,故障次数与自身相关系数为1,与隐患次数相关系为0.39,与检查次数相关系为0.97,与检查时长相关系0.81,与维修费用相关系数为:0.73。当得知各个属性(指标)与故障次数的相关系数后,可通过关联度较高的检查次数、检查时长、维修费用来侧面观察设备的故障发生次数。
3.2 预测分析
sklearn和pandas一样是一个开放源码的Python库,支持回归,分类、聚类等强大的机器学习库。该次将利用sklearn内置的回归模型进行吊机设备的分析和预测。
进行回归分析(线形回归),需要将数据划分为两份数据集,一份用于训练,一份用于对训练结果的检测(测试数据),各自占数据总体比例分别为75%、25%,其数据集划分如图6所示。
从构造数据集和创建预测模型,输出预测结果完整代码如图7所示。根据图7输出结果:预测故障次数为2,与实际故障次数3比较接近。
对于预测模型的好坏,以均方误差作为评价标准:其值越接近0模型越优良。模型评测效果:如图8 输出的均方误差1.733表示该模型很优秀。
4 结语
通过吊机设备的分析后发现,故障次数和查次数、检查时长、维修费相关性较强尤其是与检修次数相关性较为接近,基本上都是线形相关。通过检查次数和隐患次数可对故障次数进行线形回归预测,其模型均方误差值较小,预测的故障次数与实际故障次数比较接近,基本达到对吊机故障的分析预测。
参考文献
[1] 万倩,谢峰,赵明. 基于大数据的设备故障预测[J].广播电视信息,2016(11):71-73.
[2] 续媛君,潘宏侠.设备故障趋势预测的分析与应用[J]. 振动、测试与诊断,2006(4):305-308,333.
[3] 王致杰,王耀才,李冬.现代大型设备故障智能诊断技术的现状与展望[J].煤矿机械,2003(7):102-104.
[4] 何春燕,王超宇.基于python+pandas的数据分析处理应用[J].数码世界,2018(7):386.