杨贵宇
摘要:利用数据挖掘技术对电力系统中的大量测控数据挖掘已成为一种有效的故障诊断方法,首先介绍基于关联规则的数据挖掘原理,然后分析了关联规则在变压器故障诊断中的应用方法,实例表明,使用关联规则对电力设备进行故障诊断更高的正确率。
关键词:关联规则;数据挖掘;电力设备;故障诊断
中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)30-7167-02
近年来数据挖掘技术(粗糙集理论,模式聚类, 决策树,关联规则等)得到了快速的发展,在金融、医疗、生物、电力、化工等领域得到了广泛应用。电力设备在运行管理中产生大量的测控数据,如:遥测数据、继保数据、遥信数据和二次计算结果等,这些数据隐含着设备的运行状态,如在实际电力设备发生故障之前的一段时间内,遥测数据可能会发生某种变化,如温度、压力等参数的异常增减,如果能利用数据挖掘技术对历史测控数据进行分析和总结,找出其内在的规律,再用这些内在规律判断当前设备运行的状况,如能及时发现故障征兆并采取有效措施,就可以避免电力系统出现重大的故障,基于关联规则的故障诊断技术能够从历史数据中自动或半自动地获取潜在的诊断知识,从而有效解决故障诊断中知识获取困难的问题,非常适合用来分析变压器状态。
1 基于关联规则的数据挖掘
在电力设备故障诊断领域,采用关联规则在大型关系数据库中进行数据挖掘分析找出设备的状态是电力状态检修的一个新方向,通过分析故障特征量与故障模式之间的可信度,便能确定故障特征量与该故障模式的相关程度, 通过大量的数据挖掘,可以挖掘出设备特征量指标与故障模式之间可能存在一些隐含关联关系,并以此作为电力设备状态检修决策的依据。
1.2 关联规则原理分析
关联规则挖掘(Association Rule Mining)是根据用户给定的最小支持度minsup和最小置信度minconf从事务数据库D中找出所有的关联规则。
1)关联规则:若满足X中条件的数据库元组能推导出Y,则称X与Y关联,记为X=>Y,其中 Y∈I,X∈I,并且 X ∩ Y = Φ,[I=i1,i2,...ik,...,in];
2)支持度:[supportX?Y=countX?YD×100%]其中,[D=t1,t2,...tk,...,tn]为事务数据集,[countX?Y]表示事务中[X?Y] 的事务数;
3)置信度:[confidence(X→Y)=count(X?Y)count(Y)×100%],其中, count(Y)是包含项集Y的事务数目,count(X=>Y)是包含项集X=>Y的事务数目;
4)强关联规则:[X?Ysupport(X?Y)%,confidence(X?Y)%]。
1.2 关联规则挖掘的过程
关联规则对数据事务进行挖掘中,首先,扫描事务数据库T,并对任何个项i进行计数接着对数据进行归一化处理和离散化处理,然后组成适合关联规则挖掘的事务数据库,再根据最小支持度阈值寻找频繁项集,并将其组成新的频繁项集,然后再根据最小可信度阈值筛选出关联规则,对可以合并的关联规则进行合并,确定感兴趣的强关联规则,并作为有用规则输出,最后用关联规则对电力设备进行故障诊断;常用的算法有 Apriori 算法、FP 树频繁项集算法等,文中选用了最有影响的挖掘布尔关联规则频繁项集的Apriori 算法,并对其进行了改进,采用基于散列的技术压缩候选 k项集 Ck(k>1),利用事务压缩对一些候选项进行标记或删除,并对寻找候选项集进行数据划分,减少扫描数据库的次数,此外,在任何点前添加动态项集计数,提高了Apriori 算法的搜索速度。
2 基于关联规则的电力设备故障诊断方法
1)简化事务数据库
事务数据集是使用关联规则进行数据挖掘必须直接面对的对象,在关联规则挖掘过程中,需要收集大量的数据,数据越充分,得出的有用结论的置信度就越高,但由于变压器测控的数据存在很多重复的数据,必须对这些重复的数据进行归一化量化,将其值归一化到[0,1]区间上。
2)分箱
由于经过归一化后得到的数据是连续的数据,为了方便挖掘,我们对连续的数据进行分箱,划分为区间。这些区间是动态的,在挖掘期间我们可以对它们进行进一步合并,三种常用的分箱策略有等宽分箱、等频分箱和基于聚类的分箱,本文使用等宽分箱,每箱的区间长度相同,每个属性的量化属性的分箱大小由操作者确定,由于属性区间被归一到[0,1]区间,默认分箱分为 10 个区间,每个区间大小为 0.1,变压器经过量化后得到动态离散值,再对这些数据进行等宽分箱操作,划分区间。再根据比值编码,选择属性子集,剔除对挖掘任务无关的冗余属性。
3)找频繁谓词
扫描上一步产生的数据,找出满足条件的频繁谓词集。因为变压器色谱数据指标只有 5 项,频繁项集内最大成员只可能为 5 个,不会产生更多的频繁相集,因此可以根据 Apriori算法,找出满足最小置信度的频繁谓词集(满足最小支持度),发现频繁项集后产生强关联规则。
4)关联规则聚类
为了将强关联规则进一步聚类,首先将其映射到 2-D 栅格上,搜索规则的矩形簇,使用聚类将关联规则进一步合并,使用该聚类后,进一步合并出现在规则簇中的量化属性的箱,从而动态离散化属性;例如对故障数据计算后,我们将最小支持度和置信度计算为 0.10 和 0.6,对其进行故障事务数据集的关联规则挖掘,将挖掘结果整理,对收集到的变压器故障色谱分析统计表的数据进行预处理后,然后根据以上步骤,则可以得出关联规则,如:[CH4(0.3-0.34)∧C2H2(0.5-0.54)?铁芯多点接地],而置信度和支持度分别是0.712和0.242,其表示为当CH4和C2H2在数据中含量分别是(0.32)和(0、53)时,71.2%的变压器数据表明该变压器出于铁芯多点接地故障。
3 应用实例分析
为了测试关联规则诊断模型的准确性,以现场运行的100组变压器检测样本的诊断结果为例进行实验,收集的变压器故障数据的特征量包括H2,CH4,C2H6,C2H2,C2H4五种,变压器故障按故障部位划分有七种故障,分别是分接开关故障,铁芯故障,绝缘介质故障,套管故障,绕组故障引线故障和漏油故障;按过热和放电故障类型划分有九种故障,高温过热(>700℃),中温过热(300℃~700℃),低温过热(150℃~300℃),低温过热(<150℃),电能放电,低能放电兼过热,局部放电,电弧放电和电弧放电兼过热。对故障特征量采用监督离散化算法 ChiMerge 算法,其采用自底向上的策略,首先将数值属性的每个不同值看作一个区间,然后对对每个相邻区间进行 χ2检验,然后通过递归算法,找出最佳临近区间,然后合并它们,形成较大的区间,实验结果如表1所示:
从表中可以看出,应用本文提出的并联规则数据挖掘对对变压器故障进行诊断,取得了较为正确的诊断结果,表明了该算法可应用到电力变压器故障中。
4 结束语
将关联规则应用到变压器故障分析中, 通过利用历史故障数据来确定系统的行为模型,从故障数据中发现分类属性与决策属性
间的频繁模式、相关性或因果关系,以便从宏观上把握变压器故障元素间的关联特性,测试表明,本文提出的方案在变压器的故障诊断中有更高的正确率。
参考文献:
[1] 聂倩雯.基于关联规则数据挖掘技术的电网故障诊断[J].电力系统保护与控制,2009(9).
[2] 郑元兵.变压器故障特征量可信度的关联规则分析[J].高电压技术,2012(1).
[3] 熊忠阳.基于关联规则的电力变压器运行故障评估[J].微计算机信息,2010(34)
[4] 杨国庆.数据挖掘技术在电力设备状态检修中的应用[J].上海电力学院学报,2012(2).