基于ID3决策树算法接触网检修方案的研究

2020-07-21 02:52刘家军刘俊玲杨瀚鹏
电气工程学报 2020年2期
关键词:信息熵决策树接触网

刘家军 刘俊玲 杨瀚鹏

(1. 西安理工大学电气工程学院 西安 710048;2. 浙江华电器材检测研究所有限公司 杭州 310000)

1 引言

接触网是特有的向电力机车供电的输电网络,因其具有无备用、结构复杂、露天设置等特点[1],需要对其进行检修以保证电力机车安全、高效运行。目前电气化铁路日常运营中缺乏一套灵活有效的检修方案,现有的接触网检修方法都是采用试探法,此方法耗时长且没有针对性,使得接触网异常或故障时得不到及时有效的检修,并且不能给日常定期检修提供任何参考依据。

因此,开发接触网安全运行在线监测系统已经是现代接触网技术发展的必然趋势,该系统包含了对接触网各参数的监测和基于ID3决策树算法[2]的接触网检修方案等功能。通过利用ID3决策树算法、ASP.NET网架结构、Web技术、SQL Server2012数据库技术,实现对接触网进行灵活高效地监测和检修。监测部分发现异常或故障时,弹窗报警提醒工作人员进行检修,并把这些异常或故障信息存入数据库,为以后检修服务。日常定期检修时,先查询故障信息库,了解相应故障发生类型和频率,参考基于ID3决策树算法的接触网检修方案对接触网进行检修。基于ID3决策树算法的接触网检修方案不仅提高了天窗检修作业效率,推动了检修作业科学智能化,而且充分利用了接触网日常运行中出现的异常或故障信息以及检修所记录的故障信息,使得检修更加科学高效。

2 接触网检修方案系统设计

2.1 接触网检修研究现状

目前,接触网检修主要有周期检修和状态检修两种检修模式,其中状态检修模式被普遍采用[3]。状态检修是一种预测性的检修,它是根据对接触网设备的检测、统计、分析来诊断出设备的劣化程度,找出相应的原因,并进行针对性的检修。同时,又根据设备的使用年限,在达到使用寿命终极前进行一次性的设备更换或切换[4]。文献[4]在状态检修的基础上提出了接触网精益检修方法,充分利用生产调度信息,采用需要原则对设备进行检修。文献[5]提出了使用激光测量仪对接触网某些设备进行测量,若有异常则进行修复。文献[6]提出机械化检修方式,该检修方式明显提高了劳动生产率,缩短了接触网检修作业时间。文献[7]提出一种可以带电作业检修的方案,即放电接地保护装置检修方案,此方案能保证接触网设备按期检修,预防事故的发生。

2.2 现有检修方案的不足

接触网正常运行是电气化铁路安全运营的前提。当接触网某个装置出现异常或故障时,需要立即对该装置进行检修,且无故障时也要定期检修。传统的检修通常采用试探法,对相关设备逐一进行试探,找出异常或故障的原因,使其恢复正常。该方法耗时长且准确度低,当某个异常因没有及时检修而导致故障时,将直接影响牵引供电系统的正常运行,严重时还会中断电气铁路的行车功能[8]。同时,定期检修时,要对整个接触网进行检修,此过程仍缺乏科学灵活性,且很难发现潜在异常和故障。这些潜在异常,在定期检修时是正常的,检修完后运行很短一段时间后可能会发生异常或故障,这将增加检修工作人员的工作量和不必要的经济损失。

2.3 基于 ID3决策树算法的接触网检修方案总体架构设计

基于ID3决策树算法的接触网检修方案架构分为三层,如图1所示。第一层是人机交互的表示层,由故障信息管理、影响故障的因素和检修方案组成。第二层是业务逻辑层,由表示层中所有相关信息之间的业务逻辑组成,实现逻辑判断和相应处理。第三层是访问层,完成相关功能与数据库和文档之间的数据访问。使用系统的用户包括相关工作人员、铁路技术总工和系统管理人员。

2.4 数据处理及挖掘

数据挖掘需要先确定挖掘对象及其目标,选取合适的模型并进行数据采集,然后对数据进行预处理以便实施选择的数据挖掘算法,最后对数据挖掘的结果进行分析[9],流程如图2所示。基于ID3决策树算法的接触网检修方案的挖掘对象是接触网异常数据或故障数据。首先对这些数据进行预处理,然后对处理好的数据实施选取好的挖掘算法[10],并对挖掘的结果进行分析,得出预测的检修方案。

3 接触网检修方案算法分析与设计

3.1 接触网异常和故障数据分类

目前接触网异常或故障的主要现象包括:主导电回路电气节点过热、线索自电气接续部分断股或断开、线夹连接处烧伤、软横跨环流造成承力索悬吊滑轮处烧伤、绝缘子闪络放电乃至击穿、接触网带电部分对接地体放电、外界物体变化造成接触网对地放电、弓网故障、接触网参数变化等[11]。引起上述异常或故障的主要原因包括:施工及检修质量不合格、接触网部件变形或零件部分脱落、电联结线夹未按规定安装、电联结线夹运行过程中发生螺栓松动、电力复合脂老化、线索、线夹额定载流量不满足现场实际的负荷等。通过SQL Sever2012对故障数据进行预处理,处理好的数据将用于 ID3算法构建决策树[12]。如“线索自电气接续部分断股或断开故障”可分为接触线断开、承力索断开、供电线断开和回流线断开等,而引起线索断开的主要因素包含电联结线夹未按规定安装、电联结线夹运行过程中发生螺栓松动、电力复合脂老化和恶劣的天气。表1~2是预处理后关于线索自电气接续部分断股或断开故障的部分数据,表1中的属性均属于线索故障,表2中的属性是引起线索断开故障的因素。属性M表示电联结线夹未按规定安装;属性R表示电联结线夹运行过程中发生螺栓松动;属性Z表示电力复合脂老化;属性L表示恶劣的天气;属性J表示线索是否发生自电气接续部分断股或断开故障。表中“1”表示“是”,“0”表示“否”。

表1 线索断开故障训练样本数据表

表2 影响线索断开主要因素训练样本数据表

3.2 ID3决策树算法的原理

ID3算法用于分类预测,通过构建决策树,得到需要预测的结果。ID3决策树算法的关键是按照递归思想进行信息增益和熵的计算。“信息熵”是核心,训练集的不确定性越大,则对应的信息熵的值就越大[13]。节点的测试属性标准通过选择最高信息增益的属性来确定的,训练样本子集通过该属性对信息量分类并同时建立分支,再由递归方法建立各节点的分支,最终生成决策树。

假设S的数据集中D为类标记的元组训练集,假定类标号的属性有n个不同值,定义n个不同的类,设Ci中有样本数Ci,D,则一个给定的样本分类所需要的期望信息如式(1)所示

式中,D是元组的类标号;Pi是D中任意元组属于类的非零概率,。选取属性中最高信息增益的属性作为给定集合S的测试属性,用来计算每个属性不同的信息增益,然后创建一个结点并给予标记,给这个属性的每个值创建分支,并根据这些分支进行划分样本[15-16]。此算法不仅理论清晰,且计算简单便捷,在较短时间内就可生成一棵具有科学依据的决策树,并在实际中得到广泛应用。

3.3 ID3决策树的构建

通过调用存储在数据库中异常或故障的数据,使用C#来编写程序,运用ID3决策树算法来构造决策树,算法编程流程图如图 3所示,其伪代码如下。

过程:函数TG(A,B)。生成node节点;if:A中故障样本均属于类别C;将node节点标记为C类节点;end if;利用信息增益,比较属性集B中各属性信息增益值,值最大的属性b*为最优划分属性;for:b*的每一个值bv*;为node节点生成一个分支,令Av表示A在b*上取值为bv*的异常或故障样本子集;if:Av为空,将此分支节点标记为叶子结点,类别标记为A中样本最多的类;else;将 TG(Av,B{b*})作为分支节点;end if;end for;输出:生成以node为根节点的一棵决策树[17]。

接触网运行和检修中出现的设备异常或故障及其影响因素,是集合A的数据来源。通过ID3算法,可以预测出接触网某个设备发生异常或故障的原因;定期检修时,通过调用该算法可预测某个设备可能出现某种异常或故障及其原因,并对此进行检修。

4 ID3算法在接触网检修方案分析应用

4.1 ID3决策树的构建实例

接触网的设备很多,故障情况也多种多样,以线索故障为训练样本,构建决策树。表1~2是从数据库提取的30条某线索故障信息,以此作为训练样本数据表。表1样本数据集合总量N=30条,发生故障有18条,不发生故障有12条。假设P(x1)、P(x2)分别为“是”和“否”目标属性的概率,则P(x1)=18/30;P(x2)=12/30。因此给定样本的目标属性信息熵由式 (1)可得如式(2)所示

通过计算得到该训练样本目标信息熵后,再计算信息增益获得最优的划分属性r*,使在此属性下“是”“否”样本的差异度最大。样本各属性的信息增益计算公式如式(3)所示

式中,r为样本H的属性;V为该属性值的集合;Ent为信息熵。各属性的信息增益为样本H目标信息熵与对应属性r信息熵的差值,通常信息增益值越大,用属性r划分得到的“纯度提升”越大。因此,样本H的最优划分属性如式(4)所示

分别计算各属性的信息熵和信息增益,接触线断开属性信息熵和信息增益如式(5)~(6)所示

承力索断开属性信息熵和信息增益为如式 (7)~(8)所示

供电线断开属性信息熵和信息增益如式(9)~(10)所示

回流线断开属性信息熵和信息增益如式(11)~(12)所示

同理可得,表2中样本的目标属性信息熵为I(P)=0.881 3;“电联结线夹未按规定安装”M属性信息熵为0.836 8,信息增益为0.044 5;“电联结线夹运行过程中发生螺栓松动”R属性信息熵为0.650 1,信息增益为0.231 2;“电力复合脂老化”Z属性信息熵为0.783 8,信息增益为0.097 5;“恶劣的天气”L属性信息熵为 0.881 3,信息增益为0。

由以上计算可得,表1信息增益最大的是“接触线断开”属性,所以该属性是决策树的上层,把该属性作为分裂属性上层,并以此作为树根节点,每个属性产生一个分支。此结果表明线索断开故障最常发生的是接触线断开。表2信息增益最大的是“电联结线夹运行过程中发生螺栓松动”属性,以此属性作为以上决策树分支的节点,表明该属性是影响“线索是否发生自电气接续部分断股或断开”的最大因素。同时考虑各属性之间的联系,再通过分支得到相应节点,最后得出“线索断开”故障最常发生的是“接触线断开”,而“电联结线夹运行过程中发生螺栓松动”是此故障发生最大影响因素。因此,应优先检查电联结线夹是否发生螺栓松动,决策树如图4所示。

4.2 ID3决策树算法的结果分析

由以上训练样本结果可知,针对接触网各种故障,通过计算对应的信息增益,获得样本中最优划分属性,即获得了最大限度划分不同类别的属性及其取值,由此可确定发生某种故障的最主要原因。ID3决策树算法在每次分裂时选择信息增益最大的属性,作为本次分裂属性。每次分裂就会使得树长高一层,这样逐步生长下去,就可以构建一棵决策树。而信息增益最大的属性也就是决定发生某种异常或故障的最大因素。当接触网某个设备异常或故障时,通过调用ID3决策树算法,可获得影响该异常或故障的最大因素,然后工作人员先对该因素进行检查。如是由该因素引起的,则对其进行相关维修;反之,对其他因素进行检查。该方案与对所有因素逐个进行检查的传统方法相比,具有科学性、优先性和快速性,在一定程度上避免了某些异常发展成故障,从而降低对牵引供电系统正常运行的影响。此外,当对某一段接触网进行定期检修时,该接触网相关设备很多,影响设备不正常的原因也多种多样,如仍采取以往的试探法,不仅耗时耗力,且准确度相对较低。而基于ID3决策树算法的检修方案,可获得各个设备发生某种异常或故障及导致该异常或故障的最大影响因素,并优先对该因素进行检修。调用ID3决策树算法的运行结果如图5所示。

5 结论

本文所提的检修方案是接触网安全运行在线监测系统的一个功能模块,从该监测系统获得接触网主要设备异常或故障及影响该异常或故障因素的有效数据,对这些数据进行处理分析,运用ID3决策树算法构建出决策树。通过决策树发掘接触网发生何种异常或故障及其导致此异常或故障的主要因素,从而获得相对科学合理的检修方案。以接触网某个主要设备的部分历史故障数据为训练样本,对ID3决策树算法构建决策树过程进行分析计算,验证了该方案的可行性。此外,接触网安全运行在线监测系统运行结果显示,基于决策树 ID3算法接触网检修方案不但提高了检修作业的灵活高效性和智能化水平,而且为基于数据挖掘的接触网异常或故障检修提供有价值的科学依据。该方案将应用于西安铁路局宝鸡供电段的接触网检修作业中。

猜你喜欢
信息熵决策树接触网
基于信息熵可信度的测试点选择方法研究
BIM技术在电气化铁路接触网中的应用研究
为开通打下基础!这条国际铁路完成接触网平推验收
浅述如何做好高速铁路接触网施工监理工作
中老铁路两国同步架设电气化接触网第一线
简述一种基于C4.5的随机决策树集成分类算法设计
近似边界精度信息熵的属性约简
决策树学习的剪枝方法
基于信息熵的承运船舶短重风险度量与检验监管策略研究
信息熵及其在中医“证症”关联中的应用研究