基于关联规则的多普勒天气雷达故障挖掘算法分析

2021-11-10 08:54肖光梁单振宇
机械与电子 2021年7期
关键词:项集多普勒关联

程 雷 ,肖光梁,程 攀,姚 文,单振宇

(1.丹东市气象局,辽宁 丹东 118000;2.辽宁省气象灾害监测预警中心,辽宁 沈阳 110116;3.营口市气象局,辽宁 营口 115001)

0 引言

由于电子产品、探测设备、监控系统等逐渐向信息化、现代化、集成化方向发展,计算机数据处理技术的飞速提升,使得这些先进技术在多普勒天气雷达系统中的应用取得了极为显著的效果[1]。多普勒天气雷达的安全稳定运行和维修保障体系就是这些先进技术成果运用的重要体现[2-3]。一般情况下,多普勒天气雷达依靠技术人员对软硬件知识和维修保障能力解决基本故障,以保障设备的持续、平稳运行;但由于多普勒天气雷达对工作环境有较高的要求,很容易受到温度、湿度和同频干扰等因素影响,导致发射机、接收机及天线等故障且以致图像异常,而一旦多普勒天气雷达发生故障没有及时诊断和修复,就会影响多普勒天气雷达系统的安全运行[4];特别是在多普勒天气雷达出现较为严重的故障时,还需要查找故障码,配合厂家专业技术人员进行故障诊断和定位,确保及时修复,以保障多普勒天气雷达数据的利用率。

因此,研究开发一种有效的算法用于快速、准确挖掘出多普勒天气雷达系统故障,及时对故障进行修复,确保多普勒天气雷达系统的可使用性以及可靠性。目前,用于多普勒天气雷达故障挖掘的算法还存在一些不足,主要表现在以下几个方面:故障挖掘率较低;故障挖掘准确性不高;故障误挖率和漏挖率较高[5]。

本文利用关联规则挖掘技术支持间接数据挖掘的优点,对丹东多普勒天气雷达等台站保障系统中的故障数据进行处理和分析,构建了多普勒天气雷达故障挖掘模型,以实现多普勒天气雷达各种类型故障的准确挖掘。

1 关联规则挖掘技术

1.1 基本原理

关联规则挖掘主要包括以下2个步骤:将事务数据库中的所有频繁项集一一找到,预先设定的关联规则算法的最小支持度(Supportmin)小于等于事务数据库中的这些项集出现的频繁性;由事务数据库频繁项集产生强关联规则,即这些强关联规则必须满足预先设定的最小支持度Supportmin和最小置信度Confidencemin。

1.2 相关定理

在多普勒天气雷达故障挖掘过程中,将会用到关联规则的一些相关定义和定理[6-7]。

定义1:假设多普勒天气雷达故障事务数据集D中包括频繁项集X的事务数被称作X的支持数,可以用|X|表示,则可得X的支持率计算公式为

(1)

|D|表示多普勒天气雷达故障事务数据集D中包含的事务数。如果Support(X)大于等于最小支持度Supportmin,则说明X为多普勒天气雷达故障事务数据库的频繁项集。

(2)

定义3:根据上述计算可得多普勒天气雷达故障关联规则的置信度为

(3)

(4)

(5)

定理1:如果X和Y均表示多普勒天气雷达故障事务数据库项集,且满足X⊆Y,则有

Support(X)≥Support(Y)

(6)

根据上述计算可知,如果X是多普勒天气雷达故障事务数据库非频繁项集,则Y也是;如果X是多普勒天气雷达故障事务数据库频繁项集,则Y也是。

关联规则支持率与置信度决定了多普勒天气雷达故障挖掘的有效性,以及最终检测判断结果的可信度,二者的阈值选取通常根据相关领域专家以及故障挖掘者本身的经验作为依据。

2 基于关联规则的多普勒天气雷达故障挖掘算法

2.1 基于关联规则的多普勒天气雷达故障数据预处理

在实际收集得到的多普勒天气雷达故障数据数量是非常庞大的,这些数据中通常存在着冗余和错误、缺失等情况,为了尽可能降低故障挖掘时间消耗,提高挖掘精准度,可以将收集到的多普勒天气雷达故障数据集划分成不同区域[8],具体划分过程描述如下:

a.将多普勒天气雷达故障数据集划分成若干个单独数据集,根据多普勒天气雷达保障系统的维修时间,将多普勒天气雷达保障系统故障数据库全年数据按季度划分,在各个季度多普勒天气雷达故障数据库中采集频繁项集,并且只进行1次检索。

b.对各个季度多普勒天气雷达故障数据频繁项集进行聚类融合,获得整个多普勒天气雷达故障数据频繁项集预备数据集。再进行一次搜索,检查预备数据集中是否还有有效的故障频繁项集。

根据以上2个步骤可知,对多普勒天气雷达故障数据进行关联规则挖掘只需要对故障数据集进行2次检索,这样不仅能够降低故障挖掘时间消耗,而且能够提高多普勒天气雷达故障数据预处理效率。利用上述介绍的关联规则基本原理、相关定义定理对多普勒天气雷达故障数据进行关联规则挖掘,即可建立具体的挖掘流程。

多普勒天气雷达保障系统的运行状态可以用于描述对应的故障信息。对多普勒天气雷达保障系统故障的判断取决于故障出现的区域范围。通常情况下,多普勒天气雷达保障系统的故障发生时可以将上述处理好的故障数据划分相应的故障区域范围。多普勒天气雷达故障判断过程需要构建原始判断表,利用构建的原始判断表中的各个项目描述相应的多普勒天气雷达故障特征[9]。假设多普勒天气雷达系统故障事件有7个,构建故障事件初始判断表为

Φ={H1,H2,H3,H4,H5,H6,H7}

(7)

H1、H2、H3、H4、H5、H6、H7分别代表多普勒天气雷达站的发射机故障、接收机故障、天线系统故障、伺服系统故障、信号处理系统故障、监控主机故障和多普勒天气雷达站无故障。根据上述分析可知,如果预先设置的多普勒天气雷达故障数据的关联规则置信度阈值较小,则会产生效用较低的关联规则,此时会增加多普勒天气雷达故障挖掘时间消耗,大大降低故障信息检索效率。只有形成高效率的故障数据关联规则才能将数据库中没有价值的关联规则滤除。为了尽可能避免这些情况的发生,在利用关联规则进行多普勒天气雷达故障挖掘过程中,应预先设置较小的关联规则置信度阈值,同时利用相应的排序算法对多普勒天气雷达故障数据进行预处理,以多普勒天气雷达故障事件初始判断表中的某一事件为例,其故障数据处理计算公式为:

(8)

(9)

(10)

zmin=15.3%;bmin=66%;μmin=1。其中,b、z、Q、W分别代表多普勒天气雷达故障数据库中需要进行关联项集的子集、发生故障数据关联范围、故障数据集的子集和发生故障数据关联范围的子集;zmin、bmin和μmin分别表示多普勒天气雷达故障数据关联范围、关联范围子集的最小决策度和二者之间的相关系数。

根据上述计算即可实现多普勒天气雷达故障信息的预处理。为了保证故障数据处理的有效性,可以设置多普勒天气雷达故障存在误差的故障特征信息,判断关联规则算法对故障数据处理的容错能力,便于及时作出调整。

2.2 多普勒天气雷达故障挖掘模型

在上述利用关联规则算法对多普勒天气雷达故障数据进行预处理基础上,构建多普勒天气雷达故障挖掘模型,模型主要包括2个部分:一部分用于挖掘已知多普勒天气雷达故障类型和导致故障的原因,利用关联规则算法挖掘故障数据之间的关联规则,最终获得多普勒天气雷达故障关联规则库,根据规则库中的关联规则,对新收集的故障数据进行检测和故障类型判断,进而找到导致故障的原因并及时排除;另一个部分用于挖掘未知的多普勒天气雷达故障类型和故障原因,通过挖掘一个时间窗口内多普勒天气雷达故障数据之间的关联规则生成故障数据关联规则库,根据库中已有的关联规则对新采集获得的故障数据进行检测,能够有效推理出后续可能会出现的新多普勒天气雷达故障,通过预先采取措施能够实现多普勒天气雷达故障的预测和预防。由此可知,多普勒天气雷达故障挖掘模型主要由多普勒天气雷达故障数据采集装置、关联规则挖掘装置、故障数据关联规则库、多普勒天气雷达故障检测装置和故障处理装置5个部分组成。

利用上述构建的挖掘模型进行多普勒天气雷达故障挖掘,具有以下优点:

a.利用关联规则挖掘算法能够准确、及时地发现多普勒天气雷达故障数据之间的关联规则,对引起故障的故障源进行高精度定位。

b.由于多普勒天气雷达站中的故障数据存在着并存关系、因果关系等,一旦在系统正常运行过程中发生故障,通过采用关联规则算法就可以对多普勒天气雷达故障进行识别和预警,防止故障的进一步恶化。

3 多普勒天气雷达故障挖掘算法的性能测试

在MATLAB软件环境下,采用Tennessee Eastman(TE)检测数据集作为多普勒天气雷达故障挖掘数据集进行所提算法的性能测试。

多普勒天气雷达系统没有发生故障时的正常采样数据幅值如图1所示。

图1 多普勒天气雷达系统正常采样数据幅值

在多普勒天气雷达系统运行了7 min、17 min、27 min和41 min时,人工注入了多普勒天气雷达故障数据。采用本文提出的关联规则挖掘算法和目前研究比较成熟的神经网络挖掘算法,以及贝叶斯挖掘算法,对图1中人工注入的多普勒天气雷达故障数据进行挖掘。各个算法的故障挖掘结果分别如图2、图3和图4所示。

图2 关联规则挖掘算法的故障挖掘结果

图3 神经网络挖掘算法的故障挖掘结果

根据图2~图4的对比结果可以发现,采用神经网络算法并不能将多普勒天气雷达系统运行过程中人工注入的所有故障数据全部挖掘出来;采用贝叶斯算法则只能将连续注入的部分即7 min、17 min、27 min和41 min时人工注入的多普勒天气雷达故障数据挖掘出来,置信度内数据幅值明显度较差,且误会挖率和漏挖率较高,挖掘效果并不理想;而采用本文提出的关联规则挖掘算法能够将多普勒天气雷达系统运行过程中人工注入的所有故障数据全部挖掘出来。至此,并不能充分证明关联规则挖掘算法的性能优势,还需要在挖掘效率和故障类型判断等方面做进一步检验。

图4 贝叶斯挖掘算法的故障挖掘结果

对不同类型的多普勒天气雷达故障进行挖掘,对比3种不同算法的挖掘性能,选取挖掘效率、误挖率和漏挖率作为评判指标,具体检验结果如图5所示。

图5中,A、B、C、D、E、F、G分别对应式(7)中构建的多普勒天气雷达故障事件初始判断表中的7个不同故障事件类型。从图5中3种不同挖掘算法的性能测试对比结果中可以清楚看出,采用贝叶斯算法得到的不同类型的多普勒天气雷达故障平均挖掘率是3种算法中最低的,其次是神经网络算法,最高的是关联规则挖掘算法。这是由于关联规划挖掘算法具有2大优势:能够准确、及时地发现多普勒天气雷达故障数据之间的关联规则,对引起故障的故障源进行高精度定位;通过已有的关联规则库能够有效推理出后续可能会出现的多普勒天气雷达故障,通过预先采取措施能够实现多普勒天气雷达故障的预测和预防。从图5中还能够清楚地看出,对于正常运行的多普勒天气雷达系统中人工注入的7种故障,采用关联规则挖掘算法不仅具有较高的平均故障挖掘率,而且平均误挖率和平均漏挖率也始终保持在较低水平,这是由于所提算法在进行故障数据挖掘之前,对采集的海量多普勒天气雷达故障数据作了一系列预处理,突出了强关联故障数据,排除了弱关联故障数据,相比于神经网络算法和贝叶斯算法具有明显优势。

图5 3种不同挖掘算法的性能测试

4 结束语

通过采用本文提出的基于关联规则的多普勒天气雷达故障挖掘算法,在丹东多普勒天气雷达等台站中可以消除采集获得的海量多普勒天气雷达数据中的冗余、错误和缺失数据,将具有强关联的故障数据保留;而后建立了多普勒天气雷达故障挖掘模型,通过挖掘一个时间窗口内多普勒天气雷达故障数据之间的关联规则,生成故障数据关联规则库,根据库中已有的关联规则对新采集获得的故障数据进行检测,能够有效推理出后续可能会出现的新多普勒天气雷达故障。实验结果显示,采用所提算法可以取得较为理想的结果,能够满足丹东等台站间多普勒天气雷达系统故障数据挖掘要求。

猜你喜欢
项集多普勒关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
多路径效应对GPS多普勒测速的影响
“一带一路”递进,关联民生更紧
不确定数据的约束频繁闭项集挖掘算法
奇趣搭配
智趣
经阴道彩色多普勒超声结合血β-HCG值对宫外孕早期诊断
基于多普勒效应的车随人动系统
一种改进的多普勒雷达跟踪算法
一种新的改进Apriori算法*