数据挖掘在航空信息系统中的应用*

2021-01-19 11:00任广皓张桂刚
计算机与数字工程 2020年12期
关键词:敏感性数据挖掘信息系统

任广皓 张桂刚 王 健

(中国科学院自动化研究所 北京 100190)

1 引言

随着人工智能、神经网络等技术的兴起,在航空信息系统的研究中,基于数据驱动的方法占据了科研与工程应用的主流[1~2],尤其是故障诊断、寿命预测等健康管理领域[3~5]。相比传统的专家库、人工判读等方式[6~7],贝叶斯方法、支持向量机等机器学习算法不依赖于物理失效模型[8~10],对特定领域下的专家知识的需求也相对较低[11]。然而,基于数据驱动的方法对于数据质量的好坏异常敏感。因此,对于数据的有效挖掘不仅是各类基于数据驱动方法的实现基础,也是影响其最终结果的关键因素。

目前,传感器越加智能化、微型化,价格也越来越低廉[12]。通过配置的各类传感器,可监测的参数数量呈爆炸式增长。据统计,空客A350飞机的监控参数达40万个[13],波音787飞机约15万个[14]。此外,需处理的数据体量也呈指数增加,资料显示,针对空客A350这一机型,仅执行一个航班所采集到的数据就达到0.5Tb[15]。此外,飞机这一高度复杂的整体中,所采集的数据间本就存在着大量的冗余[16~17]。基于以上背景,高维度、高冗余的数据质量问题变得尤为严重。由此可见,针对海量参数下的数据挖掘对于航空信息系统有着重要的工程及研究意义。

论文聚焦于航空信息系统的数据层面,通过数据挖掘技术对参数进行场景敏感性挖掘以及参数间的冗余性分析,进而解决参数维度高、数据冗余而导致的算法效率低、精度差的问题,并通过真实场景下的案例研究,验证处理方法的有效性,为新一代飞机等航空信息系统的故障诊断与健康状态管理系统的设计与研制提供数据维度下的支撑。

2 研究思路及实验设计

针对于航空信息系统,数据质量问题主要体现在:由于诸多的采集传感器所导致的数据维度过高的问题,以及由于系统间的高关联性所引起的数据冗余性大问题。因此,其数据挖掘主要集中在场景敏感性以及冗余性分析。论文以故障诊断为应用背景,分别进行故障敏感性和数据冗余性挖掘分析。并基于真实的航空信息系统数据,构建完整的数据挖掘管道。论文中所使用的数据来源为某型号发动机100架次真实的飞行运行数据。其中每个采样时刻包含发动机监测参数306个;不同故障场景18+7+6=31个,涵盖故障类型3种。具体情况整理如表1所示。

表1 实验中故障数据描述

数据挖掘管道流程图如图1所示。

图1 数据挖掘管道路线图

首先,对于所采集的信号,以采样率16Hz进行采样。通过发动机自身故障检测开关量实现对于数据的自动标注。考虑到不同参数数量级与量纲的不同,对数据统一进行标准化处理。然后,对数据进行故障敏感性分析以及参数冗余性分析。对于敏感参数挖掘结果,考虑到特征空间以及模型泛化需求,以并集方式进行输出;对于参数相关性挖掘结果,则聚焦于对展示出强相关的参数的删除,选取模型结果的交集进行输出。对于结果的有效性评估,通过专家验证的方式,判断真实的数据环境下,算法挖掘结果是否与实际情况相符。

3 实验结果展示

在实验过程中,对于3类故障模式(喘振、应急切加力、转备份)数据均通过本文提出的数据挖掘方法进行了分析。本部分主要以喘振故障的有关结果作为展示。

3.1 故障敏感性分析结果

故障敏感性分析分为浅层挖掘与深层挖掘,其中浅层挖掘包含单因素敏感性分析与基于可解释性模型的敏感性分析。深层挖掘则聚焦于非特定模型下的样本信息挖掘,包括基于边际贡献与排列重要性的敏感性分析。

3.1.1 故障敏感性浅层挖掘结果

故障敏感性浅层挖掘包括单因素敏感性分析与基于可解释性模型的故障敏感性分析。其中,单因素敏感性分析是通过对参数的单一统计学指标进行量化实现对故障敏感性的浅层挖掘,如:参数均值、协方差的变化情况;可解释机器学习法主要通过模型自身的可解释性对参数的敏感性进行挖掘,本论文采用了工业届常用的决策树、支持向量机方法。针对某一故障场景下的故障敏感参数挖掘可视化结果如图2、3所示。

图2 某故障场景下故障敏感参数(仅以两个为例)

图3 某故障场景下非敏感参数结果(仅以两个为例)

3.1.2 故障敏感性深层挖掘结果

考虑到可解释模型对于模型的选择具有一定约束,故障敏感性深层挖掘聚焦于非固定模型下的样本信息挖掘,能够实现针对深度不可解释模型的样本挖掘,包括基于边际贡献与排列重要性的敏感性分析。其中,基于边际贡献的敏感性分析计算了博弈论中的夏普利值;而基于排列重要性的敏感性分析则是通过对于样本扰动,观察结果的反应行为进而实现对参数的故障敏感性分析。具体实现上,本论文利用多层感知机进行故障识别,针对识别结果的混淆矩阵选取真阳性与真阴性结果进行分析。针对某一故障场景下的故障敏感参数挖掘可视化结果如图4、5所示。

图4 某故障场景下排列重要性敏感性挖掘部分结果

3.1.3 故障敏感性分析结果

本部分针对故障诊断这一场景,对含有故障的某发动机的真实运行数据,共计306个参数进行故障敏感性分析,最终成功获得了17个故障敏感参数作为后续故障诊断模型的特征。该分析结果得到了专家知识的验证。其中,针对喘振故障的故障敏感参数分析结果如表2所示。

表2 喘振故障敏感参数

3.2 数据冗余性分析结果

数据冗余性分析计算了各参数之间的相关性,根据统计学定义,相关系数绝对值大于0.8的参数间具有强相关关系,可以选择删除。本论文中使用的方法包括了皮尔森相关性分析,皮尔曼相关性与肯德尔秩相关性分析以及多元回归分析。相关性分析结果如下所示。

1)皮尔森相关性分析

高压转子转速与低压转子转速、风扇导叶角角度与低压转子转速、压气机出口总压与主燃油总管压力、进口总温与大气总温、低压转子转速与压气机导叶角角度、风扇导叶角角度与压气机导叶角角度间显示出较强相关关系。

图5 某故障场景下基于边际贡献敏感参数挖掘部分结果

2)斯皮尔曼相关性分析

涡轮后排气温度与高压转子转速、压气机出口总压与主燃油总管压力、进口总温与大气总温间显示出较强相关关系。

3)肯德尔秩相关性分析

进口总温与大气总温间显示出较强相关关系。其中,对于皮尔森相关性分析的可视化结果如图6所示。

多元回归分析通过构建参数间线性或非线性关系式来衡量参数间的相关性。本论文通过构建参数间的线性回归模型实现对数据的相关性分析,可视化结果展示如图7所示。

图6 皮尔森相关性分析结果

图7

可以看到,对于参数主燃油总管压力(参数9),其与参数压气机出口总压(参数7)之间存在较强的相关性。

本部分在故障敏感参数挖掘结果的基础上进行数据冗余性分析,通过对于3类不同样本的相关性分析,发现参数主燃油总管压力和压气机出口总压间存在着强相关关系,即数据间存在冗余,该结果亦得到了专家知识的验证。

4 结语

本文利用数据挖掘技术结合人工智能手段对航空信息系统中参数的场景敏感性以及数据冗余性进行挖掘。通过对真实案例的实验,构建了针对于故障诊断这一应用场景的数据挖掘管道,且结果均通过专家知识的方式进行了验证,所提出的方法能够为之后的相关算法模型提供更优质的数据输入,从源头提高模型效率以及精度。

猜你喜欢
敏感性数据挖掘信息系统
CT联合CA199、CA50检测用于胰腺癌诊断的敏感性与特异性探讨
改进支持向量机在特征数据挖掘中的智能应用
计及需求敏感性的电动私家车充电站规划
建设工程招投标管理中智能化信息系统的运用
2022年信息系统与运营管理专栏征稿
基于信息系统的计量标准管理
探讨人工智能与数据挖掘发展趋势
痤疮患者皮肤敏感性的临床分析与治疗
基于事故数据挖掘的AEB路口测试场景
基于排队论的信息系统装备维修保障效能分析