基于Apriori算法及方差分析的电力故障原因相关度分析

2016-09-28 03:01黄晓晴黄勇刘辉褚健邓高峰
中国新技术新产品 2016年16期
关键词:项集次数事故

黄晓晴黄 勇刘 辉褚 健邓高峰

(1.广西电网有限责任公司,广西 南宁 530001;2.广西电网有限责任公司南宁供电局,广西 南宁 530001)

基于Apriori算法及方差分析的电力故障原因相关度分析

黄晓晴1黄 勇2刘 辉2褚 健2邓高峰2

(1.广西电网有限责任公司,广西 南宁 530001;2.广西电网有限责任公司南宁供电局,广西 南宁 530001)

电力是国民经济的支柱,是国家经济的命脉。电力事故不仅影响电力系统的稳定,甚至影响到国家经济和社会安全。故障树分析法是一种有效的事故分析方法,能够层层分析事故原因,但是不能直接分析出导致事故发生原因的相关程度。为此,本文提出了一种基于Apriori算法及方差分析的故障树原因相关度的分析方法,首先利用Apriori算法在给定的数据库中进行多遍扫描,得出频繁项集,求出支持度;其次通过方差分析得出不同的原因对上级原因存在明显的差异,得出不同原因的影响程度。有利于今后有针对性地对事故进行防范,降低事故发生的概率,减少事故的发生。

电力故障;Apriori算法;支持度;方差分析

0.引言

电力系统在空间上的广域分布,导致电力事故的发生是不可避免的,事故数据的收集、分析很难全面、系统地进行。分析2003年~2015年中国南方电网电力生产事故,目前同类事故重复现象比较普遍。采用故障树分析法无法确定导致事故发生的上下级原因之间的相关度,不能确定主要的事故防范措施;另一方面,故障树分析法缺乏对事故分析结果的系统应用,要想全面查找到各个根本原因间的逻辑关系,十分困难,不能建立多方面、多维度防范措施,无法真正达到事故预防目的。利用基于Apriori算法及方差分析的故障树上下级原因相关度分析方法,分析事故上下级原因的相关度可以有针对性地对事故进行防范,降低事故发生概率,减少事故的发生。

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集合的算法。Apriori算法通过查找事务数据库中所有支持度大于最小支持度的频繁项集。将Apriori算法利用于事故树上下级原因分析,得出的频繁项集合的支持度便是事故树上下级原因之间的相关度,此时最小支持度应该设定为零;另外,Apriori算法还可以在频繁项集合中产生所有大于等于最小可信度的关联规则,即可分析同级原因的关联规则。

对于电网发生的电力事故来说,在某一个确定的时间段上,电力安全生产管理水平是趋于一个稳定的程度,则对应的电力生产事故发生的可能性也是趋于一个确定的值。因此,在一个确定的时间段内发生的电力生产事故的次数服从正态分布,也就是说在这段时间内导致电力生产事故发生的直接原因事件出现的次数成正态分布。

方差分析法是一种常用的统计方法,方差分析就是将总的方差分解为各个方差的成分,然后利用显著性检验法进行分析判断和做出适当的结论。对需要进行分析的因素进行方差分析,若分析结果落入拒绝域,说明下级因素对上级因素没有显著影响;若分析结果落在拒绝域外,则说明有显著的影响。分析得出存在显著影响的因素,可以针对性地对事故进行防范,降低事故发生的概率。

1. Apriori算法

1.1概述

Apriori算法是一种以概率为基础的具有影响的挖掘布尔型关联规则频繁项集合的算法。同时,Apriori算法是第一个关联规则挖掘算法,也是最为经典的算法。Apriori算法利用逐步检索的迭代方法寻找出某数据库中项集合的密切联系,通过这种密切联系来形成规则。Apriori算法中包含了几个重要的概念,其中项集(Itemset)就是项的集合,包含K个项的集合为k项集;项集合出现的频率表示在某数据库中,包含项集合的个数,称为项集合的频率。通过制定的最小支持度,如若某项集合满足最小支持度,则称它为频繁项集。

Apriori算法是一个基于频集理论递推的方法,它利用“频繁项集的所有非空子集必定是频繁的,非频繁项集的所有超级必定是非频繁的”这一性质来实现。其根本原理是:通过查找数据库中的所有数据项,从而得到一个大项集L1,如果大项集L1为非空,根据此大项集得到一个候选项集合C1,然后对该数据库中的每一个数据项数据项t,求出t在C1中的全部子集Ct。子集Ct中的每一个的候选项集c,令c加l。当扫描该数据库一遍后,筛选出候选项集合C1中所有计数大于或等于最小支持度的项集组成频繁项集合。

1.2Apriori算法步骤

Apriori算法的挖掘任务分为以下问题:

(1)找出某数据库中所有支持度大于或等于最小支持度的候选项集。具有最小支持度的候选项集称为频繁项目集。

(2)在频繁项集合中产生所有大于等于最小可信度的关联规则。

1.2.1具体步骤

首先确定在该数据下的最小支持度。

Apriori算法采用了候选项集合的概念,通过查找数据库中的所有数据项,得到一个大项集L1,根据大项集得到候选项集,若候选项集的支持度大于或等于最小支持度,则该项集合为频繁项集合(Large Itemset)。此支持度为频繁项集合的概率。

假设一个简单事务数据库D的模型,数据库D的数据如图1所示的事故树。分别求取一级原因A、B、C与事故之间的关联程度,二级原因A1、B1、C1分别与一级原因A、B、C的关联程度,三级原因A11、B11、B12、C11分别与二级原因A1、B1、C1的关联程度,四级原因B111与三级原因B11的关联程度,须从数据库中计及事故的次数以及各原因的次数。

表1中:001—010代表10个电网事故故障树编号,A、B、C、D、E分别代表事故一级原因。

表1 简单事故树数据库的模型

若要求取一级原因与事故之间的额关联程度首先通过扫描数据库D,生成项集,见表2。

表2 生成阶段

其次利用Apriori算法对数据库中的项集进行扫描,计数每个项集在数据库中的次数,即在每一次迭代过程中,Apriori算法都产生了一个大项集,然后计算每一个候选项集所出现的次数,最后在预先给定的最小支持度s=0%的基础上确定大项集。

对上表所示的各个项集进行计数,通过扫描数据库D中的数据得出表3所示的计数次数并求出其支持度。

表3 计算阶段

由于某种事故原因导致事故发生是存在可能性的,尽管有些导致事故发生的概率很小,但是最终却不可避免,所以在此设定最小支持度为s=0%,即出现的事故原因都应该纳入考虑范围。

发掘大项集,也就是支持度大于预先给定的最小支持度的项的集合。

在第一次迭代的第一步中,所有单个项都作为候选集。接着计算每一个候选集的出现次数,然后在最小支持度s的基础上选择频繁项集。表3所示的S分别代表该项集的支持度即上下级原因之间的相关程度。

1.2.2具体实例

分析某110kV八所站1#主变因遭受雷击,造成中压侧B相线圈损坏示例,其故障树如图2所示。

由上述事故树分析得出该事故是由一级原因环境因素、物的因素-物理性危险和有害因素,二级原因自然因素、制造质量不良、设备缺陷、规划设计不周和三级原因雷击、工艺缺陷、绝缘不良、绝缘配合不当引起的。

利用Apriori算法对2003~2015年2046个事故树进行扫描计数,统计到以上原因的次数和最小支持度见表4。

表4 

如图3所示,相关度的计算结果在事故树模型的基础上表示出来,可以直观地看到各级故障原因之间的相关程度。通过进一步的计算便可以得出底层原因对该次事故的影响程度。

2.方差分析

在实际问题的研究过程中,影响某一事物的因素往往很多。其中每一个因素的改变都有可能影响产品的数量和质量,并且有些因素影响大,有些因素影响小,所以要找出对产品数量和质量影响显著的那些因素。方差分析是检验各因素对实验结果影响程度的一种有效方法。

方差分析又称“变异数分析”或“F检验”。多元方差分析要求样本须满足3个基本条件:(1)抽样样本是从母体中随机选取;(2)样本必须服从正态分布并且样本相互独立,(3)在各种处理条件下的样本方差必须相同,也就是必须满足方差齐性。对于一个企业或者一个行业来说,在某一个确定的时间段上,安全生产管理水平是趋于一个稳定的程度,某一稳定的值,则对应的事故发生的可能性也是趋于某一个稳定程度和某一个确定的值。因此,在一个确定的时间段内发生的电力生产事故的事故原因次数服从正态分布,也就是说在这段时间导致事故发生的直接原因事件出现的次数成正态分布。考虑电力事故下的各级事故原因是多因素影响下的,利用多元方差分析对下级原因对上级原因的影响程度作为一个研究母体。

2.1数学模型

电力生产事故是一种由于人、物、环境等的因素失去控制或错误引起的意外事件,可以认为是系统正常过程中出现的各类异常或者是所不期望的效应,或是某些计划好的事情没有按照计划本身执行,出现在计划外的偏差。而在理想情况下,事故是不会发生的,由于在人、物、环境和管理4种情况下差生偏差,事故就显然发生了。

将某一段确定时间内、特定范围内发生的所有电力生产事故事故原因集合在一起作为母体,即将导致这段时间、这个特定范围内事故发生的原因事件作为母体,不同级的事故原因作为影响因子。结合对事故原因特点的统计分析,假设在各种的影响因子组合水平下的样本方差相同,满足方差分析的条件后,建立多元方差分析模型进行事故原因统计分析。

2.2统计分析

每个事故考虑下级原因对上级原因的影响程度,把上级原因所对应的所有下级原因作为影响因子,将事故下级原因发生对相应的上级原因发生的影响关联程度假设为一级相关和二级相关,以A、B、C代表不同的下级原因,用1,2代表一级相关和二级相关,得到表5的所示的结果.。

表5 下级原因影响因子的水平组合表

2.3模型统计结果计算分析

根据伤亡事故原因统计的特点,假定母体Yn服从正态分布N(μijk,σ2),其中

式(1)中,ai,bj,ck分别表示下级原因A、B、C在各自对应水平上的效应。其中效应表示一个下级原因在某种水平上对母体平均数的影响程度。事故次数对应的数学模型如式(2)。

在公式(2)中,μ表示母体平均数,δijk是组合内部Yn因σ2引起的抽样误差。公式(2)须满足3个约束条件,即:a1+a2=0,b1+b2=0,c1+c2=0。

(1)假设条件

假设3个下级原因中任意两个原因之间没有任何交互作用,为了检验下级原因A、下级原因B和下级原因C三种影响因子对母体所产生的效应,则需要进行影响效应的显著性分析。假设的条件有以下3个:

假设H1:a1=a2=0

假设H2:b1=b2=0

假设H3:c1=c2=0

其中a1、a2代表下级原因A在各自水平上的效应。

若假设H1成立,则表示下级原因A在这一段时间内对上级原因的发生无显著影响;否则,下级原因A在这一段时间内对上级原因的发生有显著影响。同样,假设H2和H3成立,则分别表示下级原因B和下级原因C在这一段时间内对上级原因的发生无显著影响,否则,分别表示下级原因B和下级原因C在这一段时间内对上级原因的发生有显著影响。

(2)计算平均数

①计算总平均数

电力生产事故发生总平均数在某一段时间内、某特定范围内导致电力生产事故发生的直接原因事件出现的基本情况,用表示。

②计算各原因分水平平均值

下级原因A、下级原因B和下级原因C三个影响因子分别在一级相关和二级相关两种水平上有其对应的平均值,反映一个原因在对应各种水平上导致上级原因发生的平均次数。

对于下级原因A来说,其两种水平上的平均值分别用k1A和k2A表示。

同样,对于下级原因B因素和下级原因C来说,其在两种水平的平均值分别用k1B、k2B和k1C、k2C表示。

2.4计算离差平方和

离差平方和反映下级原因A、下级原因B和下级原因C三种影响因子对平均上级原因发生次数的离散程度,用QT表示。

式(10)可以进行分解:

其中:QA是下级原因A引起的离差平方和;QB是下级原因B引起的离差平方和;QC是下级原因C引起的离差平方和;QE表示误差的大小。下级原因A引起的离差平方和QA反映了下级原因A在两种相关水平上的平均值之间的差异;同理,QB和QC分别反映了下级原因B和下级原因C在不同的两种相关水平上平均值之间的差异。

2.5判别量计算

(1)首先确定自由度

自由度等于水平减1,即QA、QB、QC的自由度都为1,QT的自由度为7。

(2)F值计算

利用分解定理可知,FA、FB、FC均服从自由度为(1,4)的F分布。

2.6假设检验

为了验证3个假设H1、H2和H3是否成立,首先需要给定显著水平α,通过查询F分布上侧分位数表,从表中得出与显著水平α相同自由度对应的Fα值,使得P{F≥Fα}=α成立。

根据计算得到FA,如果存在FA≥Fα(1,4),则该数值表示小概率事件,则拒绝假设H1,即认为这一段时间内、特定范围内下级原因A对所对应的上级原因的发生有显著贡献;如果存在FA<Fα(1,4),则该数值表示小概率事件没有发生,则接受假设H1,即可认为这一段时间内、特定范围内级原因A对所对应的上级原因的发生没有显著影响。

同样,根据计算得到的FB、FC值,如果存在FB≥Fα(1,4)、FC≥Fα(1,4),则该数值表示小概率事件,则分别拒绝假设H2和H3,即认为这一段时间内、特定范围内下级原因B或下级原因C对所对应的上级原因的发生有显著贡献;如果存在FB<Fα(1,4)、FC<Fα(1,4),则该数值表示小概率事件没有发生,则分别接受假设H2和H3,即认为这一段时间内、特定的范围内下级原因B或下级原因C因素对所对应的上级原因的发生没有显著贡献。

3. 实例统计分析

3.1基础统计量统计

为了验证模型的实际可操作性,对中国南方电网自2003年~2015年期间发生的2046起电力生产事故按照本文建立的模型进行统计分析,其中上级原因(一级原因)环境因素出现的次数为855次,下级原因(二级原因)自然因素、生产环境不良、外力破坏分别出现的次数为557、68、338次,以其中某一年的54次为例,所对应的二级原因自然因素、生产环境不良、外力破坏(分别用A、B、C表示自然因素、生产环境不良、外力破坏)引起一级原因环境因素出现的次数见表6。

表6 中国南方电网2003~2015年电力生产事故环境因素多元方差分析基础统计

3.2方差分析表

根据建立的模型,通过计算公式计算得到的数值,采用表格的形式给出,即得到表7的多元方差分析表。

3.3统计结果分析

假设给定的显著水平α=0.1,查询F分布上侧分位数表可知:F0.1(1,4)=4.54。根据表3得到的FA和F0.1(1,4)相比较:存在FA>F0.1(1,4)=4.54,因此拒绝假设H1,即认为二级因素A对一级原因有显著影响。同样,将FB、FC与F0.1(1,4)比较:存在FB<F0.1(1,4)=4.54,FC<F0.1(1,4)=4.54,因此拒绝假设H2和H3,即没有显著影响。由此可以得出自然因素的影响较为显著,与统计结果相符合。

表7 中国南方电网2003年~3015年电力生产事故环境因数多元方差分析

结论

利用基于Apriori算法和方差分析的故障树上下级原因相关度分析方法,分析事故上下级原因的相关度可以有针对性地对事故进行防范,降低事故发生概率,减少事故的发生。首先利用Apriori算法得出数据库中事故上下级原因的相关程度,即支持度。在此基础上建立了基于多元方差分析的电力生产事故原因统计分析模型,采用假设检验的方法给出某一段时间内、某特定范围内对电力生产事故原因的发生具有显著贡献的直接原因事件类别,为安全管理工作指出偏重点,着重预防该类事故原因;并通过按照建立的模型对某一段时间内发生的电力生产事故原因进行实例统计分析,说明了该方法的可行性和有效性。

[1]蔡建壮,白同朔,侯志俭.电力系统偶然事故选择中异常数据的鉴别与处理[J].中国电机工程学报,2002(8):27-31.

[2]牛丽敏.Apriori算法分析与改进综述[J].桂林电子科技大学学报,2007(1):27-30.

[3]杨小勇.方差分析法浅析——单因素的方差分析[J].实验科学与技术,2013(1):41-43.

[4]陈波,董鹏,邵勇.基于Apriori算法及其改进算法综述[A].中国通信学会.中国通信学会第五届学术年会论文集[C].中国通信学会,2008:6.

[5]钱光超,贾瑞玉,张然,等. Apriori算法的一种优化方法[J].计算机工程,2008(23):196-198.

[6]李学远.基于方差分析的故障测距算法的研究[D].重庆大学,2007.

[7]颜雪松,蔡之华.一种基于Apriori的高效关联规则挖掘算法的研究[J].计算机工程与应用,2002(10):209-211.

[8]饶正婵,范年柏.关联规则挖掘Apriori算法研究综述[J].计算机时代,2012(9):11-13.

[9]罗可,贺才望.基于Apriori算法改进的关联规则提取算法[J].计算机与数字工程,2006(4):48-51+55.

[10]李涛,王林元,康峰,等.基于多元方差分析的伤亡事故统计分析方法研究[J].石油化工安全环保技术,2014(2):31-35+2+1.

[11]马明.基于多元统计方法的城市道路交通事故分析研究[D].武汉理工大学,2010.

[12]王慧,李阳萍.基于多元方差分析的我国中部六省新型工业化水平差异性研究[J].科技管理研究,2013(11):93-98.

[13]吕栋雷,曹志耀,邓宝,等.利用方差分析法进行模型验证[J].计算机仿真,2006(8):46-48.

[14]孙国红,沈跃,徐应明,等.基于多元统计分析的黄河水质评价方法[J].农业环境科学学报,2011(6):1193-1199.

[15]刘明磊.正交试验设计中的方差分析[D].东北林业大学,2011.

[16]杨瑞波.事故树分析法在电力事故分析中的应用[J].云南电力技术,2015(4):52-55.

TP391

A

猜你喜欢
项集次数事故
机场航站楼年雷击次数计算
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
学中文
一类无界算子的二次数值域和谱
小恍惚 大事故
一种频繁核心项集的快速挖掘算法
一种新的改进Apriori算法*
分布式数据库的精简频繁模式集及其挖掘算法*