丁 萌,樊 伟,王子涵
(1.空军工程大学,陕西 西安 710000;2.大连理工大学,辽宁 大连 116000)
数据挖掘在烟机设备管理中的应用
丁 萌1,樊 伟1,王子涵2
(1.空军工程大学,陕西 西安 710000;2.大连理工大学,辽宁 大连 116000)
针对人为发现烟机设备故障趋势难度大的问题,运用数据挖掘技术提取烟机设备中隐含的、人们事先不知道的但又是潜在有用的信息与知识,并根据这些信息、知识对烟机设备故障问题进行预测分析,将人为发现转化为机器发现,从而为企业提供设备维修方面的决策支持,减少设备维修时间与成本消耗。以卷接电机为实例,利用决策树算法进行分类,分类结果与人为经验相符合,验证了数据挖掘技术在预测烟机设备故障趋势中的可行性。
数据挖掘;决策树;设备故障
目前,国内大多数烟草企业烟机设备仍然采用“以人工定期计划维修为主”的维修方式,且维修计划费用大的惊人,人工定制计划也容易产生设备“欠修”、“过修”等问题。为能够解决该问题,各烟草企业部署了MES系统或ERP系统,但这些系统只是采用传统的统计方法对采集数据进行汇总,并没有对数据进行更专业、更深层次的分析、挖掘,导致对烟机设备的故障趋势预测能力不足,只能定期管理维修工单作业[1]。针对以上情况,本文提出运用数据挖掘技术,即决策树算法对海量采集数据进行发掘,发现其内在知识与规律,为设备的稳定性夯实基础,提高机效,降低企业设备成本。
2.1 数据挖掘的概述
数据挖掘(data mining,DM)是一种决策支持过程[2],是从数据仓库大量数据中提取出隐藏的、先前未知的、有价值的信息的非平凡过程。数据挖掘通过分析每一个数据,通过数据准备、规律寻找和规律表示3个步骤从大量数据中寻找其规律特性,进而为人们提供决策支持。
2.2 数据挖掘的方法
数据挖掘是人工智能与数据库技术相结合的产物,主要用于海量数据的处理、分析、归纳、总结,其中包含神经网络、决策树、粗糙集、聚类、遗传算法等几种比较重要的方法。这些方法的侧重点和用途都不尽相同,本文针对烟机设备(即烟机卷接设备)故障进行预测,根据决策树方法的简易性与强有力的预测功能,选择此方法对卷接设备故障样本库进行挖掘,生成规则库,为故障分类提供决策依据,并达到预期的目的。
3.1 决策树方法简介
决策树是一种应用较为广泛的分类方法,它是对样本数据进行学习与训练,得到具有价值、揭示数据内部关联规则的一种树结构。主要用于预测模型与归纳的知识表示形式。
3.2 决策树的表示
决策树通过树的根以及相应的叶子节点对实例进行分类。树上的每个节点是对实例某个属性的测试,且该节点的每个后继分支对应该属性的一个可能值。分类方法就是从树的根节点开始,测试这个节点的属性,接着按照给定实例的属性值对应的树枝向下移动,然后重复上述过程直到叶子节点。图1是一个典型的决策树。这个决策树根据卸盘机电机的温度与电流来决定电机是否正常工作或报警。
3.3 C4.5算法
决策树基本算法主要有ID3算法、C4.5算法、x2统计算法、并行决策树算法等。根据本文的样本集与这些算法广泛应用度,选择C4.5算法对卷接设备数据进行挖掘、分析设备样本故障数据,更好地预测[3]。
C4.5算法基本原理是计算每个属性的信息增益比,把具有最高信息增益比的属性作为给定集合的测试属性,然后创建一个节点,以此属性为标记,创建属性每个值的分枝,最后按照此划分样本。
假设S是类标记样本训练集,类标号Ci具有m个不同值(i=1,2…,m),CiS是Ci类的样本集合,|S|和|CiS|分别指S和CiS中的样本个数。
(1)对S中样本分类所需的期望信息由下式给出:
(2)又假定按照属性A划分S中的样本,且属性A将S划分成v个不同的类。在该划分之后,为了得到准确的分类还需下面式子度量:
(3)计算信息增益公式:
Gain(A)=INfo(S)-InfoA(S)
(4)在属性A上得到的信息增益比为:
本文采用2012年、2013年两年的卷接设备[5](卷烟机、接嘴机、装盘机、电机等)数据作为初始样本集,同时应用聚类方法中的K-means算法进行聚类。在确定各类的基础上,对2014上半年的采集数据依据C4.5算法进行分类。分类实验结果基本准确,能够起到预测卷接设备故障的效果。但由于卷接设备包括子设备较多,因此只论述卷接电机[16]的决策树结构。图2给出了电机诊断决策树结构,其中值4.4、3.23、1.93、3.17是原始卷接电机数据样本通过C4.5算法得到。
数据挖掘作为一项比较先进的数据处理技术,在国内得到了迅速的发展,也取得了较多成果,但在烟草行业的应用极少,尤其是烟机设备的应用方面。本文针对决策树方法在烟机设备方面的应用进行了探讨,并尝试对设备的故障问题进行了发掘。实践证明,决策树能够很好地对故障问题进行预测分析,在发现有价值的知识与信息方面取得了较好的效果。
[1]卿宇搏,莫学芳,吴上海.故障诊断技术综述及发展趋势[J].中国储运,2012,(11):124-127.
[2]毛国君,段立娟,王实.数据挖掘原理与算法[M].北京:清华大学出版社,2005:1-82.
[3]颜文娟.五种决策树算法的比较研究[D].大连:大连理工大学,2011.
[4]鲁文波.基于声场空间分布特征的机械故障诊断方法及其应用研究[D].上海:上海交通大学,2012.
[5]陶永峰.数据挖掘在烟草行业质量管理中的应用[D].武汉:武汉理工大学,2007.
[6]黄爱辉.决策树C4.5算法的改进及应用[J].科学技术与工程,2009,(01):34-36.
[7]吴泽樟,赵晓雷.烟草制丝设备偷停故障的分析与处理[J].企业技术开发,2013,(04):49-50.
[8]超高.速卷接机多轴同步运动控制技术实验研究[D].湖南:湖南大学,2013.
[9]林德民.批次控制技术在制丝线上的应用[J].自动化仪表,2013,(04):28-31.
[10]梁岳.状态监测系统在烟草制丝线的集成应用[J].机电信息,2014,(27):133-134.
[11]何文婕,刘晋,王能友.制丝线监控系统升级改造[J].中国包装工业,2014,(10):84.
[12]姜鑫,周彬.数据挖掘技术在水电厂主设备状态检修中的应用研究[J].水电自动化与大坝监测,2014,(04):45-47.
[13]纪怀猛.电力系统中的数据挖掘技术[J].长春工业大学学报:自然科学版,2014,(02):35-36.
[14]张迎春.基于数据挖掘技术的保护设备故障信息管理与分析系统[J].无线互联科技,2014,(05):78-79.
[15]姚明镜,张春良,岳夏.故障诊断技术在烟草机械中的应用和发展趋势[J].机械制造,2014,(06):71-72.
[16]王英卓.烟机发电机组油膜振荡的诊断分析与处理[J].电工技术,2014,(08):42-43.
[17]翁海宽,江剑.测试技术在设备故障诊断中的具体应用[J].新技术新工艺,2015,(04):145-148.
[责任编辑:王荣荣 英文编辑:刘彦哲]
Data Mining in Hood Equipment Management
DING Meng,FAN Wei,WANG Zi-han
(1.The Air Force Engineering University,Xi’an,Shanxi 10000,China;2.Dalian University of Technology,Dalian,Liaoning 116000,China)
To the problem that it is very difficult to find failure trend,data mining technology is used to derive implicit but useful information and knowledge that people do not know in advance in tobacco machinery,and then tobacco machinery failure problems are predicatively analyzed based on the information and knowledge,thus transforming man-found to machine-found to provide decision support in equipment maintenance for enterprises and reducing maintenance time and cost consuming equipment.Taking making and plug assembling machine as example,the decision tree is used to classify cigarettes,and the result conforms to people’s experience.It verifies the feasibility of predicting failure trend in hood equipment by data mining.
data mining;decision tree;equipment failure
丁萌(1994-),女,河北唐山人,空军工程大学2012级信息与导航学院信息工程专业学生。
TP 311.12
A
10.3969/j.issn.1673-1492.2015.06.006
来稿日期:2015-09-22