(1) 山东师范大学信息科学与工程学院,250358,济南; 2) 山东超越数控电子股份有限公司,250013,济南)
随着航空工业和飞机制造业的快速发展,工业生产不断向大型化、高速化、智能化的方向迈进,航空电子设备的结构越来越复杂、功能越来越强大、维护难度也越来越高[1,2].常用的机内测试(Built-in Test)故障检测方法仅仅能够得到相对离散和独立的故障信息,但是无法把故障信息之间的关联关系挖掘出来.故障处理不仅需要关键部件的故障判断规则,还需要挖掘故障设备之间的影响规则.因此,对航空事故进行分析,挖掘故障设备潜在的致因关系,对预防和控制飞机交通事故的发生具有重要的意义.
很多学者从不同的领域对事故的影响因素进行了分析.黄常海[3]采用Apriori关联规则挖掘算法,在影响船舶交通安全的海量数据信息中,挖掘出与船舶交通事故关联度较高的因素,并能迅速发现船舶交通安全隐患问题并及时预警,减少甚至避免船舶交通事故的发生.贾熹滨[4]将Apriori算法应用于道路交通事故关联关系分析中,以新浪网站交通事故新闻为数据源,从新闻事件中提取引发交通事故的相关因素,挖掘出导致事故发生的多种组合因素,总结出多发交通事故的规律,进一步保障道路交通安全.张春[5]采用Apriori关联规则挖掘算法对大数据进行分析,得到与故障关联的信息,充分发现高速动车组在设计、制造和运维过程的一些关联耦合关系,可以利用发现的关联规则准确、及时地进行故障判断,并且能够指导运维人员及时、高效地处理高速动车组的故障.虽然Apriori算法[6]在上述应用领域中取得了一定的成就,但是在航空领域关联分析当中较少涉及.因此,本文将Apriori算法应用于航空领域,针对歼-10战斗机从故障设备关联关系方面进行相关性分析,从机载检测系统提供的海量故障数据中开展故障设备关联规则挖掘,并对关联规则进行分析,寻找到航空机件之间的典型故障伴生现象.
2.1 Apriori算法原理分析Apriori 算法是一种最有影响力的挖掘布尔关联规则的频繁项集的数据挖掘算法,广泛应用于商业、网络安全、移动通信等各个领域,其核心是基于两阶段频集思想的递推算法.该算法的基本思想是循环扫描所有事务数据,逐层搜索[7],通过连接产生候选项目集,然后通过剪枝生成频繁项集,进而挖掘出隐藏于项目集合之间的关联关系、频繁模式或因果关系等有价值的信息.利用Apriori算法产生频繁项目集的具体挖掘过程,如图1所示.
2.2 Apriori算法描述经典算法Apriori提出了挖掘关联规则的基于2阶段频繁集的方法[8],算法描述如下:
图1 Apriori算法核心思想
a. 输入: 事物数据库D; 最小支持度 minsupport.
b.输出:D中关联规则的集合R.
c. 算法过程:
F1=find_frequent_1- item set(D) ;∥扫描数据集D, 找出所有频繁1项目集的集合F1
F=∅; ∥清空输出集合
for(k=2;Fk-1≠∅ ;k++) {
Ck= apriori_gen(Fk-1, minsupport) ;
for each transactiont∈D{ ∥扫描D中的每条事务进行候选计数
Ct= subset(Ck, t) ; ∥取得由事务t产生的候选集合
for each candidatec∈Ct
c.count ++; }∥对候选集合中的每个候选计数加1
returnF=UkFk; ∥得到频繁项目集的集合
R=generate_rule (F);∥由频繁项目集产生关联规则
return(R) ;
航空飞机型号有歼-10双座机、歼-10、歼-10A以及歼-10A表演机等,通过对歼-10机载检测系统记录数据[9]进行提取,共得到2 600多种故障现象.为了便于挖掘飞机故障设备之间的关联关系,本文以歼-10型号飞机作为研究对象.歼-10是中国最新一代单发动机多用途战斗机,具有很强的超视距空战、近距格斗和空对地攻击能力.歼-10有1 800多个设备,通常发生故障的有双组合微型气压表、液压传感器、超短波电台、发动机流量/温度传感器、前轮转弯控制盒、单色多功能显示器、电磁液压阀锁、电液压力伺服阀等.在歼-10航空飞机正常运行过程中,当一种机件设备发生故障时,对其它的机件设备会有一定的影响,往往发生故障的设备不只一种,可能是两个设备,或三个设备甚至多个设备同时发生故障.表1给出部分故障数据的示例.
表1 机件故障数据示例
图2 频繁项目集的产生过程
3.1频繁项目集的产生过程扫描歼-10故障设备数据库D,数据库中的每一项均为候选项,此时所有候选项的集合称为候选项目集C1,从候选项目集C1中找出满足阈值(即支持度不小于0.5%)的频繁1-项集,记为F1.其中,支持度的定义[8]如下:
假设要进行关联规则挖掘的数据集为D,其中的每一个元素tk(k=1, 2, …,n)都对应1个事务,tk中的元素ij(j=1, 2,…,p)则称为项目.设I={i1,i2,…,im}是所有项目的集合,I的任意子集X称为D中的项目集,数据集D中包含项目集X的事务数称为项目集X的支持数,记为︱X︱,那么,项目集X的支持度记作:
(1)
表2 关联规则记录表 %
若support(X)≥用户指定的最小支持度(minsupport),则称X为频繁项目集.
将F1中的每一项进行两两组合来产生候选项目集C2,得到的这些包含2个元素的项目集不一定都是频繁项目集,所以需要进行剪枝.剪枝的办法是对C2中的项进行阈值判定,若支持度小于0.5%则将该2项目集剔除,经过该步骤之后,剩下的则是频繁项目集F2,即频繁2-项集.依次类推,可以生成3-频繁项目集,直至生成所有的频繁项目集.
在上述产生频繁项目集的过程中需要定义支持度阈值,本文设最小支持度为0.5%,并按照如图2所示的流程进行频繁项目集的计算.在这里假设:a) 如果一个集合是频繁项目集,那么它所有的子集都是频繁项目集;b) 如果一个集合不是频繁项目集,那么它所有的超集都不是频繁项目集.
3.2由频繁集挖掘关联规则在挖掘故障设备间的关联关系的过程中,需要从图2得到的频繁项目集中挖掘出符合条件的关联规则.采用的办法是遍历所有的频繁项目集,然后从每个频繁项目集中依次取1,2,…,k个元素作为后件,该项目集中的其他元素作为前件,根据支持度和置信度计算公式进行计算并筛选即可,其关联规则支持度和置信度的定义[8]如下:
关联规则是形如X→Y的蕴含式,其中X∩Y=Z,关联规则X→Y的支持度是D中事务包含(X∪Y)的百分比,即概率P(X∪Y),记作
(2)
关联规则X→Y的置信度是D中事务包含X事务的同时也包含Y的百分比,即条件概率P(Y/X),记作
(3)
本实验中假设最小支持度为0.5%,通过MATLAB对故障设备进行相关性分析实验.由上述整个挖掘过程最终得到的44条故障设备关联规则,如表2所示.
3.3挖掘结果分析支持度是对关联规则的重要性的度量,表示关联规则的频度;可信度是对关联规则的准确度的度量,表示规则的强度.当规则的支持度和置信度均不小于用户设定的最小支持度、最小置信度时,我们称之为强关联规则[10].下面根据最小支持度和最小置信度来得到所有的关联规则,在这里若设定最小置信度为15%,则同时满足于最小支持度和最小置信度的强关联规则如表3所示.
表3 强关联规则记录表 %
表3中的数据说明了当航空某型飞机机件发生非正常运行情况时,各种机件之间存在故障共生关系,关系结果如下:
1) 当双组合微型气压表设备发生故障时,液压传感器设备有26.44%的概率会发生故障;
2) 当超短波电台设备出现故障时,发动机设备有15.67%的概率会发生故障;
3) 当流量/温度传感器设备出现故障时,液压传感器设备有20.00%的概率会发生故障;
4) 当前轮转弯控制盒设备出现故障时,单色多功能显示器设备有18.42%的概率会发生故障;
5) 当电液压力伺服阀设备出现故障时,电磁液压阀锁设备有23.33%的概率会发生故障;
6) 当电磁液压阀锁设备出现故障时,电液压力伺服阀设备有70.00%的概率会发生故障.
针对航空飞机在平时运行过程中设备产生故障的现象,本文提出了运用经典Apriori算法进行关联规则挖掘,利用算例验证了算法的可行性.根据航空设备以往历史检测数据而挖掘出了可行且有效的航空设备故障关联规则,并将这些规则应用到实际运行中的航空设备中.由于经典Apriori算法在产生频繁集的过程中,需要不断重复扫描数据库,可能降低执行效率.因此,优化Apriori算法提高算法执行效率,进而实时高效地挖掘出故障设备之间的深层关联关系,还有待进一步的探索和研究.