军用航空器事故关键质量特性的数据挖掘模型

2024-02-22 07:45曹俊彬李俊杰王正武刘万锁
计算机工程与设计 2024年2期
关键词:坠机数据挖掘关键

曹俊彬,邵 航,姜 坤,李俊杰,王正武,刘万锁

(空军工程大学 航空机务士官学校,河南 信阳 464000)

0 引 言

习主席指出,当今世界正经历百年未有之大变局[1]。纵观全球,世界强国必是航空强国,航空强国必有航空领域国家战略科技力量[2]。在大数据与人工智能时代,航空科技领域成为了大数据与人工智能技术落地应用的重要行业领域[3]。同时,数据挖掘与人工智能技术也成为了赋能航空科技发展,保障航空质量安全水平的有力技术支撑手段。

航空质量控制,特别是军用航空质量控制,强调通过对机务人员上岗资质、航空装备完好状态、航空装备使用寿限等使用状态层面进行全面质量管理,来全面提升航空质量水平,保障航空质量安全。

质量缺陷与安全事故是同株异面的双生花。航空质量控制涉及与航空安全相关的人、机、料、管、环的方方面面。ISO9001标准指出:“质量是一组固有特性满足要求的程度”[4],质量特性则是满足某种要求的质量水准所表现出的某些固有特性[5]。而关键质量特性则是“若超过规定的特性值要求,会直接影响到产品安全性、产品整体功能或者顾客对产品满意程度的质量特性[5]”。

探寻军用航空器事故包含的关键质量特性,就是通过对各种途径采集到的关于航空器质量安全保障的属性值开展数据分析,将所采集到的属性值数据根据业务流程特点分解到机务专业对于的人、机、料、管、环等层面,以及可以被标记与识别的二级层面,进而从预防军用航空器事故发生的角度,开展全面质量管理;这个过程就是寻找引致军用航空器事故的关键质量影响因素,以便在今后的工作中以更有效的航空质量控制手段加以约束,从而使得航空质量安全水平得到根本性的提升。

本研究将构建一种军用航空器事故关键质量特性的数据挖掘模型,以对内和对外的两种数据分析需求为牵引,以“从数据到情报”的信息层级跃迁为导向,组建不同功能模块层次,最终输出可供航空维修一线人员参考使用的军用航空器事故关键质量特性分析情报,辅助航空装备维修保障和质量控制人员改善工作流程与作业方式,提高航空装备的质量安全水平。

1 模型构建

该军航事故关键质量特性的数据挖掘系统模型满足了我方对外和对内两个方面的数据分析需求,既有利于智能感知外军航空兵器的建设与运用情况,为我国安全态势分析与外军战略企图研判提供智力支持;又有利于智慧管理我军航空兵器的维修与保障情况,为内部质量安全绩效考核与装备维护完好状况掌控提供决策依据。

在数据挖掘系统模型的功能架构上,采用4阶3层的模式架构,即通过A层、B层和C层3个数据处理功能层的计算与处理,使得有关事故数据按照“数据→信息→知识→情报”[6]的信息层级跃升,最终提炼出军航事故的关键质量特性,形成可供决策与行动的航空质量安全情报。其中,A层为数据收集与预处理层,该层从互联网和内部网这两个相互物理隔离的网络中,以人工智能方法和数据库方法爬取信息、抽取字段、并组建标准化和字段化的事故档案;B层为数据挖掘与知识发现层,该层集成了众多先进的机器学习算法,并提供了算法扩展和二次开发的接口,做到了算法互通,以最前沿、最有效的机器学习算法对标准化字段化的军航事故档案开展数据挖掘和知识发现;C层为数据可视化与情报分析层,该层集成了众多先进的可视化方案,以数据可视化的方式展示数据挖掘与知识发现的成果,并促进知识发现成果的可视化智能决策。将经过数据挖掘得到的与关键质量特性有关的情报成果,分解为航空质量控制专业所关注的,如:人员资质、完好状态、使用寿限等层次的情报产品,分发给与之相关的机务保障部门使用,可以切实地提升航空装备维护保障的质量安全水平。军航事故关键质量特性的数据挖掘系统模型,如图1所示。

图1 军航事故关键质量特性的数据挖掘系统模型

生成标准化、字段化的航空事故档案是进行下一步数据挖掘的前提与基础。我们通过以外部网络空间为主渠道的数据获取方式,来获得与我们所需的国际军用航空器事故相关的文本、图片、音频、视频等海量异构的数据信息,通过网络爬虫和人工智能技术将这些信息转化为标准化、字段化的航空事故档案。如图2所示,就展示了将网络新闻文本转换为标准化、字段化的事故档案的过程。

图2 外需版军航事故档案标准字段内容的生成过程

通过自然语言处理模块对新闻文本进行分词,并使用深度神经网络对分词以后的特性语句(如包含时间、机型等信息的语句)进行识别并自动填入档案的字段。与此同时,(数据获取与预处理模块)经过训练的高级深度神经网络还具备自动纠偏的功能。例如:在本例中,该坠机事件发生的真正时间是2019年3月31日(并非页面时间2021-06-18),它由“3月份最后一天”和“2019年坠毁的第10架飞机”这两个语句通过深度学习的逻辑分析整合而成。

2 算法设计

根据数据挖掘系统的需求分析和结构设计,主要考虑从互联网获取的外军军航事故的进行数据挖掘的数据特性和任务实际,本文设计了如图3所示的数据挖掘与知识发现层算法流程,该算法流程可以实现对外军军航事故的时间、空间和关联规则层面的关键质量特性的挖掘与分析。

图3 军航事故关键质量特性数据挖的算法流程

所设计的算法流程目前拥有关键时间质量特性、关键空间质量特性以及关键关联质量特性3个数据挖掘子模块,所设计的功能模块和算法流程具有兼容性和开放性,并且留有二次开发的接口,在同一个系统平台之下,可以整合利用不同的计算机语言所编写的程序及软件,且支持使用本系统的单位自行开发定制化的功能模块。

2.1 关键时间质量特性挖掘模块

本模块基于对时间相关字段的统计分析和指标计算,建立起关键时间质量特性的分析框架,并为后续的时间序列分析和时间关联分析等算法的加入做好了数据储备。

首先,对标准化、字段化的事故档案的日期、星期等与时间有关字段进行计数;然后,以合适的可视化方法进行初步描述性统计,以反映星期规律和季节规律等;最后,可以调用有关算法进行时间序列分析,并对装备失效和事故致因行为进行早期预警。

为了更精确和更深入地定量分析坠机事件的安全态势状况,本文设计了依从时间序列统计的有伤率(Injury Ratio)、无伤率(Safety Ratio)和坠机风险态势指标(Situation Ratio)3个量化指标,其定义式如下

(1)

式中:N表示数据集中坠机事件的总量;坠机事件被不重复也不遗漏地二分为有伤亡的坠机事件(其数量为Ninj)和无伤亡的坠机事件(其数量为Nsaf)。

最后,本模块的挖掘结果,还可以作为时间序列分析等高级数据分析方法的数据输入。

2.2 关键空间质量特性挖掘模块

本模块基于GIS系统,聚焦军航事故空间特性,使用GIS软件内置地学算法,对所提取的标准化、字段化的军航事故档案地理特性字段进行可视化分析,包括但不限于计数分析、密度分析、堆叠分析、缓冲区分析等,进而发现这些事故在地理空间上的规律,为辅助决策提供直接的空间分析依据。图4是本研究拟启用的关键空间质量特性挖掘的GIS系统功能模块。

图4 关键空间质量特性挖掘的GIS系统功能模块

2.3 关键关联质量特性挖掘模块

本模块基于关联规则开展数据挖掘,它被用于无监督知识发现,即搜索大量变量之间的有趣联系[7]。Apriori算法[8]由美国学者Rakesh Agrawal和Ramakrishnan Srikant于1994年提出,该算法引入先验信念的概念来减少关联规则的搜索空间[9]。将度量关联规则有效性的计量指标定义如下:

(1)X⟹Y的支持度(Support):定义为前项和后项在整个数据集中同时发生的频率[10]。其中:N表示事务数据集的事务数总和,σ(Z) 表示表示事务集Z的频数,TX表示包含项目X的事务集,TY表示包含项目Y的事务集[10]

(2)

定义X自身的支持度为

(3)

(2)X⟹Y的置信度(Confidence):定义为支持度与前项频率之比[10],即发生过X后,同时也会发生Y的概率,即

(4)

(3)X⟹Y的提升度(Lift):定义为置信度和后项频率之比[10],即度量X与Y的之间的独立性,代表了关联强度和规则价值(一般地,Lift值大于1,规则才有价值[11]),即

(5)

(4)X⟹Y的出错度(Conviction):定义为X出现而Y不出现的概率,意义在于度量规则预测错误的概率[12],即

(6)

3 算例展示

3.1 数据集说明

本文搜集了从2002年11月至2021年1月共218个月被网络媒体公开报道过的100起Y国空军坠机事件,事件数据集涵盖了根据我国军机分类标准划分的歼击机、攻击机、运输机、教练机、直升机和无人机共6个机种,涉及20个机型。按照表1的字段格式整理并录入Excel 2016版本软件,另存一份CSV UTF-8格式文件到本地以备用。查看整理后的部分数据见表2。

表2 Y国空军坠机事件数据集

3.2 Y国空军坠机事件的时间质量特性

根据对数据集星期字段的数据透视计数结果,绘制Y国空军坠机事件星期分布的柱状统计,如图5所示。

图5 100起公开报道的Y国空军坠机事件的星期维度分布

坠机事件发生的概率与飞机的出动强度和维修任务强度息息相关,一般飞行日的事故概率较高,机械日的飞行事故概率较低。由图5可知,近20年的历史数据告诉我们:Y国空军的坠机事件的分布并非均匀,也有自己的“生理期”[13]。Y国空军在周一、周四和周末的坠机数量明显低于平均水平,由此可以推测:Y国空军大多数部队的机械日是周一和周四,飞行日是周二、周三和周五,周末实行双休制度。周三是两个连续飞行日的第二日,飞行员和机务人员的身心疲劳度增加;且随着累计飞行时间增加,飞机零部件的安全性能下降,根据轨迹交叉理论[14],当诸多不安全因素发生交叉时,就会诱发安全事故。另外,按照周四至周六坠机数量的中值,周五坠机数量的期望值应该为8.5架,但实际值却是期望值的近3倍,这表明Y国空军有在周五出动大机群执行战训任务的习惯。

根据时间质量特性挖掘模块设置的计算指标,对有伤率(Injury Ratio)、无伤率(Safety Ratio)和坠机风险态势指标(Situation Ratio)3个量化指标进行计算和可视化展示,如图6和图7所示。

图6 一周内Y国空军坠机有伤率与坠机无伤率分布

图7 一周内Y国空军坠机有伤事件与坠机无伤事件数量之比

由图5结合图6和图7可知,周三的坠机数量最多,但是周四的有伤率和坠机风险态势指标最高,从航空安全的角度而言:周三周四的坠机概率最大,即“周三周四”效应。周日坠机数量最少,但周一的无伤率最高,坠机风险态势指标最低,从航空安全的角度而言:周日和周一的飞行任务最安全,即“一周之交”效应。

3.3 Y国空军坠机事件的空间质量特性

基于与Quantum GIS 3.6.2版本软件的数据接口,对数据集“所属地区”(District字段)数据透视的计数结果进行分档填色地图形式的地理可视化,图例分级采用詹克斯自然最佳断裂点分类(Jenks natural breaks,JNB)方法[15],得到图8。

图8 100起公开报道的Y国空军坠机事件的地理分布注:所示的Y国版图仅为该国的合法领土,不含存在争议的地区。

坠机数量的烈度分布,与Y国空军的训练计划安排有关,也在一定程度上反映了不同区域的战机出动烈度,以及相关的空军战备资源储备情况;在无法获取外军的训练手册与训练计划的情况下,通过坠机事件的数据挖掘可以一定程度地反推外军组训施训的计划与意图。

由图8可知,Y国空军坠机事件发生最多的区域是位于Y国西北部的拉贾斯坦邦,是其对阵B国的战略要冲,表明:在Y国高层的空军战略层面,最大的威胁与假想敌是B国;Y国空军在应对Z国的战略方向上并没有放松准备,与Z国Z省西部直接毗邻的喜马偕尔邦,与Z国Z省南部直接毗邻的阿萨姆邦,与Z国J省接壤的存在争议的克什米尔地区,以及直面Z国但被N国隔开的北方邦,这些地区的坠机烈度仅次于拉贾斯坦邦,且在坠机总数上超过了拉贾斯坦邦,对Z国西部的Z省和J省形成了半环形的针对之势。

3.4 Y国空军坠机事件的关联质量特性

本研究使用基于R语言的算法集成,对数据集展开基于Apriori算法的关联规则挖掘,输出关联规则的热力散点图(如图9所示)、分组矩阵图(如图10所示)和网络结构图(如图11所示)。

图9 Y国空军坠机事件关联规则的热力散点图注:parameter=list(support=0.2,confidence=0.2),找出对应的70条关联规则。

图10 Y国空军坠机事件关联规则的分组矩阵图

图11 Y国空军坠机事件关联规则的网络结构

具有高提升度的关联规则呈现出“低支持度-高置信度”的特性,大部分规则的支持度在[0.2,0.3]以内;而置信度的分布则跨越[0.2,0.9],较为集中的高置信度区间是[0.7,0.9];提升度基本上都在1.2以上,表明所示的规则均是有意义的,且颜色越深价值越大。

分组矩阵图以杰卡德距离[16](Jaccard Distance)来衡量不同规则之间的相似程度,并将共同点较多的规则聚合成类,以此体现聚类规则的分布情况[17]。图中圆点的尺寸大小表示支持度的大小,圆点的颜色深浅表示提升度的大小。如图10所示,先导(LHS)被聚为23类,后继(RHS)被聚为10类(另有3个聚类因聚类效果不明显,被程序自动删除)。以规则的结果,即后继(RHS)为线索,梳理高价值(lift>1.6)的规则群组,见表3。

表3 从分组矩阵图提炼的高价值规则群组

具有高提升度的高价值规则被抽象为了6个群组,涉及坠机事件的机种、原产国、事故致因和事故结果的4个层面。为了进一步分析重要的关联规则及其因果关系,使用网络结构图对关联规则进行可视化,如图11所示。

网络结构图表达了关联规则的因果关系,展现出重要的关联规则。箭头源头表示先导,箭头指向表示后继[17],颜色的深浅表示提升度的大小,尺寸的大小表示支持度的大小。图11所示的关联规则网络图谱中,主要呈现出“致死规则”和“幸存规则”两种隐性知识。

“致死规则”是 {飞行员伤亡=有}⟺{原因=操作失误,星期=星期五,时段=上午}, 翻译为自然语言:“因人为操作失误而导致的坠机事件,会很大概率上导致飞行员的伤亡。”飞行员因为操作失误而导致原本飞行姿态正常的战机陷入险情,其背后可能隐藏着飞行员精神状态不佳、应急操作不熟、身体状况抱恙等隐性原因。飞行员自身的应急处置是守护自己与战机安全的最后一道屏障,如果失守,所致的飞行事故必然是惨重的。此外,致死飞行事故大多发生在星期五上午,可能是某些Y国的体制因素导致飞行员在周五上午处于一周中生理与心理状态的低谷,且周五上午飞机出动强度较大所致。

“幸存规则”是 {飞行员伤亡=无}⟺{机种=歼击机,原产国=苏联,原因=机械故障}, 翻译为自然语言:“驾驶苏系歼击机因机械故障而导致坠机的,往往不会发生飞行员伤亡。”,这条规则具有“意料之外,情理之中”的艺术性,但也是科学严谨的。一方面,Y国空军保有的苏系歼击机,如米格-21等,是上世纪50-70年代首飞的老旧机型,超龄服役、维护不佳、维修不力等因素使其本身就易发生机械故障;另一方面,苏系歼击机具有一定的可靠性,在发生机械故障后能给予飞行员一定的应急处置时间,也给予了飞行员在最危急的关头选择弹射逃生的时间。

3.5 算例结果与启示

本文以Y国空军坠机事件数据集为例,对构建的军用航空器事故关键质量特性数据挖掘模型进行了具体的技术测试,结果表明:该模型能够很好地处理与分析来自国际互联网的外军军航事故数据,并从时间、空间、关联三大维度来挖掘事故背后的关键质量特性,能提取对我方有益的航空装备情报,特别是苏系飞机维修保障装备情报;做到了以数据挖掘技术赋能航空装备保障的智慧决策,为航空质量安全水平提升提供了有力支撑。

本算例得到的关于军航事故的关键因素与特性规律,还能被进一步地细化分解。例如:与时间有关的关键因素和特性规律,可进一步被分解到与机务保障日程相关的班组工单层面,并能与人、机、料、管、环的安全因素维度相关联,进一步得出更加符合机务保障工作实际细节的具体影响因素;时间字段通过数据扩展,可以关联到具体任务和具体飞机所处的气象环境,并与地理空间特性挖掘的结果相结合,得出引致军航事故发生的外部环境质量特性;通过关联分析,将引致军航事故发生的外部环境质量特性与飞机本身固有的可引致军航事故发生的内部环境质量特性(如:机型特有的机械结构或维护环节)相结合,得出相对完整的军航事故关键质量特性知识图谱和关联规则,为机务保障和维修管理提供班组级的智能化、定制化维修细节应对方案。

4 结束语

本文提出了一种军用航空器事故关键质量特性的数据挖掘模型,由2个主要的需求牵引型功能板块和3个功能层次模块所组成。以算例验证了本模型的可行性与可靠性,得到以下结论:

(1)以100起被公开报道的Y国空军坠机事件数据集为算例基础,验证了模型的有效性,并提取出了时间、空间、关联三大维度的规律,且具备被进一步分解到航空机务各专业所关注的要素的潜质。

(2)数据挖掘得到的关键质量特征知识,会被向量化地存入系统内置知识库,具有可扩展性和可复用性,能作为训练集数据,对特定输入情况下、未来潜在的军航事故进行预测与预警。

(3)内部数据和外部数据通过挖掘与精炼,在内置知识库中积累为一个巨大的军航事故关键质量特性向量空间,这些质量数据将成为未来基于数字孪生的军航事故状态监测与质量控制数据分析平台的重要基础。

所构建的军用航空器事故关键质量特性的数据挖掘模型初步达到了设计的目标,下一阶段还需要将封装好的系统投入实际使用,以检验其有效性,并通过运行反馈,不断迭代与完善,将会为未来基于数字孪生技术的数据挖掘与分析系统的研发提供良好的数据基础与技术启示。

猜你喜欢
坠机数据挖掘关键
出人意料的坠机
从波音公司坠机事故看安全与效益
硝酸甘油,用对是关键
高考考好是关键
探讨人工智能与数据挖掘发展趋势
埃塞坠机,157人遇难
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
生意无大小,关键是怎么做?