陈农田,李俊辉,满永政,宁威峰
(中国民用航空飞行学院,四川 广汉 618307)
飞行安全贯穿整个飞行过程,其中飞行进近着陆阶段因飞机飞行高度较低、速度较小、时间短、操作繁杂等特点,一旦发生突发情况,飞行员反应时间不足,极易导致飞行事故发生,如8.24黑龙江伊春坠机事故、2.14韩亚航空航班事故、5.8深圳南航空难等飞行进近着陆阶段事故[1]。国际民航组织在《安全管理手册》中指出:对征候或事故等相关信息的准确及时报告是安全管理的基本活动[2]。中国民航局提出基于信息数据驱动的安全风险管理模式,注重安全关口前移,开展基于不安全事件信息分析的安全规律分析,对保障民航安全具有重要意义。
目前,针对民航安全致险因素提取方法的研究主要集中在事故原因统计、人为因素分析和基于飞行数据的异常检测等方面:汪磊等[3]采集626起事故调查数据,从事故发生季度、类型、机型等多个维度进行统计分析,发现冲偏出跑道和飞机失去控制事故发生概率相对最大;薛宇敬阳等[4]以事故致因“2-4”模型为基础,利用统计方法对通用航空飞行事故展开分析,得出违章操作是发生频数最高的原因类型;田磊等[5]对中国通用航空的安全现状进行简要分析发现,诱发事故的直接原因为人为因素,主要包括违规操作、航空人才匮乏、缺乏应急训练等;庞兵等[6]利用改进的人为因素分析分类系统模型,对航空事故人为因素进行分析,并利用关联性方法分析不同因素之间的关联关系;彭宇等[7]对基于飞行数据的异常检测技术进行阐述,得出飞行数据可用于监测航空器关键部件的健康状态、发现机组飞行操纵差错等方面。
信息的结构是多源性的,文本中同样存在部分潜在的、有价值的信息。国内外学者将文本挖掘技术应用于多领域的事故分析之中:Figueres等[8]对铁路事故报告进行挖掘,利用网络分析法聚类出4类风险,并分析风险之间关联;Rao等[9]根据民用直升机事故案例识别高风险致因序列,构造新的机上事故致因链;李解等[10]利用文本分析方法对国内地铁施工安全风险事故报告进行挖掘,分析出29项致险因素,为地铁施工风险防范提供帮助;吴伋等[11]通过文本挖掘方法(tf-idf法)确定人为因素是船舶碰撞事故致因中的首要因素;陈芳等[12]利用潜在狄利克雷(LDA)主题模型挖掘管制运行风险主题及其关键词,将Word2vec和语义分析相结合,确定主题重要排序与风险之间的关系。
综上,文本挖掘技术已较为成熟,且在不同领域致险因素提取中发挥较好的作用。本文在前人研究基础上,拟利用文本挖掘方法分析进近着陆不安全事件致险因素,以期为进近着陆阶段安全风险管理提供参考。
文本挖掘是从文本数据中获取未知信息的1种数据挖掘方法,以数理统计和计算机语言学为基础,将非结构化数据转化成结构化数据,并加以有效利用,在自然语言学科、机器学习、统计学科等领域得到应用,为大数据时代的数据分析与处理提供技术支持[13]。文本挖掘流程如图1所示。
图1 文本挖掘流程示意Fig.1 Schematic diagram for flow chart of text mining
要全面掌握与分析飞行进近着陆存在的致险因素,所选语料库应反映其阶段不安全事件中所存在的危险,从而有效挖掘风险的发展规律及衍生后果。美国航空安全事故报告在线数据库(ASRS)是由航空一线人员(包括飞行员、管制员、机械师、乘务员和签派员)提供的自愿保密性安全信息库,其反映当前航空系统中存在的漏洞与隐患。报告通常包括事故日期、事故发生地点、飞行环境(计划、阶段、任务)、事故类型及结果等结构化数据,以及对整个航空事件经过进行描述的非结构化数据。
本文以2016—2020年ASRS数据为主要数据来源,并收集筛选我国进近着陆阶段飞行不安全事件/事故对语料库进行扩充,共产生2 267条数据。
常见文本挖掘工具包括ROST CM和NLPIR-ICTCLAS,但2者只能添加1个用户词典,对涉及气象、航空安全领域、飞行专有名词等词汇的语料进行文本挖掘存在不便。
Python语言是1种解释型脚本语言,其包含许多文本挖掘所需要的科学包和依赖项,具有简单、易读、可扩展的优势,在文本实际处理过程中限制较少。Anaconda是Python的科学计算发行版,本文选用Anaconda自带Python的Spyder开发环境,对飞行进近着陆安全信息文本进行数据分析、结果可视化等。
文本挖掘预处理过程是将文本信息中非结构化数据转化成结构化数据,以便计算机识别处理[14]。通常包含小写化、去标点、去停用词、词干提取等步骤。
1)文本分词。利用Python中的nltk分词工具对飞行进近着陆信息文本划分为词。由于航空领域有许多专有名词、缩写格式、业界词汇,如“正短期飞行冲突告警(STCA)、仪表进近程序(ILS、VOR、NDB等)”等,为避免分词时将词汇分割,可通过构建飞行进近着陆事件致因词典以提高分词的准确性。
2)去除停用词。去停用词指剔除影响挖掘效果的噪声词以改进挖掘精度。对于无法表示致险因素的词如“航班日期”、“航班号”和“航线名称”等,以及出现频率较高的词如“airplane”、“crew”、“event”和“reason”等均从信息文本中剔除。此外,还有部分高频且对事故致险的理解没有帮助意义的词,如“to”、“is”、“of”,包括标点符号予以剔除。
对于长文本分析问题主要采用词袋模型(Bag Of Words,BOW)和词向量模型进行处理[15]。本文采用BOW提取原始文本特征项,通过设定一定阈值,将词频作为提取指标,生成以原始特征项为集合的特征词典。选取语料库中出现频率较高的500个词作为特征词典,利用Python语言CountVectorizer模块,将每个文本用500维的向量表示,得到进近着陆信息文本的原始特征项集。维度过高会导致致险因素分析困难,因此考虑做降维处理,以得到更为清晰的目标值。
齐世伟[16]通过对比不同特征降维方法发现,在召回率和查准率方面,χ2统计方法具有明显优势,如式(1)所示:
(1)
式中:n表示整个文本的个数;a表示属于ci类且包含特征项t的文本频率;b表示不属于ci类且包含特征项t的文本频率;c表示属于ci类但不包含特征项t的文本频率;d表示不属于ci类也不包含特征项t的文本频率。整个语料库值如式(2)所示:
(2)
Python语言中存在sklearn特征选择包,结合统计功能进行归纳总结,最终得到进近着陆致险因素特征降维结果,见表1。
表1 进近着陆致险因素特征降维结果Table 1 Results of dimension reduction on characteristics of risk factors of approach and landing
利用Python软件将文本转换为向量空间模型(Vector Space Model,VSM),其定义主要包括以下4方面:
1)定义1文档:第i份进近着陆安全信息文本为Di。
2)定义2特征项:能基本表述文本信息的词语、短语等,本文指致险因素,用Tk表示。
3)定义3 特征项权重W:表示每项特征项能表述安全信息文本Di的完整程度,用tf-idf公式表示,如式(3)所示:
(3)
(4)
式中:|D|为文件总数;|{j:ti∈dj}|为ti的文件数目。综上,致险因素特征如式(5)所示:
tf-idf=tfi,j×idfi
(5)
根据式(3)~(5)得到致险因素特征的tf-idf值,将其作为特征项权重Wik得到由特征项构成的VSM,见表2,利用Python语言将结果可视化如图2所示。
图2 进近着陆致险因素词云图Fig.2 Word cloud for risk factors of approach and landing
表2 进近着陆安全信息文本向量空间模型(部分)Table 2 VSM for safety information text of approach and landing (partial)
飞行进近着陆事故/事件一般是人、机、环、管4种因素相互作用的结果[17]。根据进近着陆致险因素特征、降维结果以及原文事件,构建人为因素、飞机故障、环境因素、管理因素4种影响因素类别下进近着陆致险因素模型,如图3所示。
图3 致险因素归类Fig.3 Classification of risk factors
灰色关联法(Grey Relation Analysis,GRA)是灰色系统理论方法之一,可对系统不同因素之间、不同系统之间发展过程中随时间变化而变化的情况进行分析,定量分析其关联性[18-19]。由于进近着陆飞行事故/事件诱发因素多且难以量化,因此采用灰色系统理论分析方法定量分析各致险因素与发生事故/事件的关联度,包括以下5个计算步骤:
1)确定参考数列和比较数列。设X0(0)={x0(0)(k)|k=1,2,…,n}为参考数列,影响可靠性指标Xi(0)={xi(0)(k)|k=1,2,…,n}为比较数列。
2)数据预处理。为保证分析结果的准确性,在进行GRA分析时要对最初收集数据进行统计、筛选、无量纲化等处理,如式(6)所示:
(6)
3)关联系数计算。数列x0(1)与xi(1)第k点的关联系数如式(7)所示:
(7)
式中:Δi(k)=|x0(1)(k)-xi(1)(π)|为第k个指标与最优指标的绝对差;ζ为分辨系数,取值范围[0,1]。
4)关联度计算。关联度计算即取各关联系数的平均值,如式(8)所示:
(8)
5)数据整理。将各关联度进行排序,其值越大,即影响程度越深。
将2 267条文本数据经筛选后按不同年份依此分为5组,然后计算向量空间模型的tf-idf值,将overspeed、abnormal attitude等作为操纵不当的子因素进行加和统计,得到致险因素分值相关数据,见表3。其中,将tf-idf值作为各致险因素特征在各自组别中发生频率的集合。
表3 进近着陆致险因素tf-idf值统计结果Table 3 Statistical results of tf-idf values for risk factors of Approach and landing
利用灰色关联分析方法,选取不同组别进近着陆事故/事件最大tf-idf统计值作为参考数列,各致险因素按组别产生的tf-idf统计值为比较数列,代入式(7)~(9)计算关联度,其中参考序列为{53,49,52,52,60}。
计算进近着陆发生事故/事件与不同的致险因素间的关联度,计算结果见表4。计算进近着陆事故/事件与致险因素类别之间的关联度,计算结果见表5。
表4 致险因素间关联度计算结果Table 4 Calculated results of correlation between risk factors
表5 致险因素类别之间的关联度Table 5 Correlation between types of risk factors
致险因素影响程度比较可视化结果如图4所示。由图4可知,通过GRA关联度分析发现应加强飞行员决策处置能力(操纵不当、决策错误、执行力不足等)的训练,空管部门应加强机场进近着陆管控(实时监控、跑道管理)力度;通过分析事件/事故与4种致险因素类别的关联度可知,人为因素是导致飞行进近着陆事件/事故的主要因素。同时应注重恶劣天气对飞机进近着陆的影响。
图4 致险因素影响程度比较结果Fig.4 Comparison on influence degree of risk factors
1)通过向量空间模型、词云图对提取的特征进行可视化展示,其中包含operation、turbulence、conflict等30个致险因素特征降维结果。
2)将30个致险因素归纳为人为因素、飞机故障、环境因素和管理因素4种类别下进近着陆致险因素分类模型之中,通过GRA分析方法对不同致险因素与事件/事故发生关联度进行比较发现,飞行员操纵不当、管制员指令错误、湍流、起落架的机械故障等因素成为重要致险原因。
3)通过比较4种致险因素发现,人为因素比重较大,但仍需加强对其他3类致险因素的管控力度。