叶雪飞,傅 强
(中国民用航空飞行学院飞行技术学院,广汉 618307)
国际民用航空组织的事故统计数据表明,超过70%的不安全事件/事故与人为差错直接或间接相关。文献[1]着眼于飞行员的疲劳问题分析。文献[2]提出了两种度量方法来评估和比较飞行过程中的人类行为。文献[3]从人机工效、人误、组织这三方面对现有各类民航人因方法的特点进行了详细的分析。文献[4]针对典型的人为因素事故案例,采用基元事件分析法进行深度分析。文献[5]基于信息加工过程设计管制人因差错量化工具,将管制任务中的差错界定为错报、虚报、漏报三种差错。文献[6]提出适用于航空维修人误概率计算的人因失误率预测法和认知可靠性预测法综合分析模型。文献[7]提出一种飞机驾驶人因可靠性评估模型。文献[8]根据对飞机控制系统开发原理的分析,提出将飞行员能力的定量标记整合到系统中。文献[9]分析了由人为因素导致飞行事故的各种危险情况,提出了利用开发的模型预防此类事故的方法。
上述文献对民航人因要素的识别判断有很大的指导意义,但通过对以往文献的回顾,尚未发现针对暴露安全问题的人因要素之间是否存在关联关系而开展的研究。在民航运行各阶段中存在着众多人因要素,各人因要素综合作用导致不安全事件的发生。因此本文提出如下假设:
假设同时暴露民航安全隐患的人因要素之间存在隐含关联规则。
本文提出利用关联分析的方法,探究民航不安全事件中人因要素间的关联,关联规则[10]是数据挖掘领域的重要分支,近年来,关联规则的应用涉及多个领域。文献[11]提出一种基于改进Apriori 算法的肺癌风险评估因素分析的方法。文献[12]提出了一种基于Apriori 关联规则算法的功能区识别算法。文献[13]使用Apriori 算法,深入探讨数据挖掘技术的实现过程,明确课程间关联关系的强弱。文献[14]结合层次分析法(AHP)与灰色关联分析法建立高速公路服务区运营风险评价指标体系。
基于上述研究,本文提出基于Apriori 关联分析和灰色关联分析的综合分析方法,研究民航不安全事件中的人因要素,找到不安全事件中最关键的人因要素,进一步探究不安全事件内部演化机理,促进民航安全运行。
关联规则的Apriori 算法[15]是一种先验概率算法,在分类上属于单维、单层、布尔关联规则。它利用频繁项集特性的先验知识,采取层次顺序搜索的循环方法来完成频繁项集的挖掘工作。
Apriori算法中定义如下。
定义1项与项集:数据库中不可分割的最小单位信息称为项;项的集合称为项集。设I={i1,i2,…,in}表示数据集D全体项的集合,则I 中任意一个子集X为D的项集,若X有k个项,则称X为k-项集。
定义2关联规则:关联规则是形如X→Y的表达式,其中X和Y为项集。
定义3支持度(Support):Support( )X是指X出现在数据集D中的比例,即描述关联样本中某个特征出现的概率。存在如下关系:
式中:σX和 ||D分别为数据集D中包含项集X的事务数目和数据集D的事务总数。
定义4置信度(Confidence):描述两个特征之间相互关联的强度,指在事物B中包含X、Y事物数的百分比,置信度则表示出现前项时,后项同时出现的概率。关系如下:
定义5强关联规则:强关联规则需同时满足最小支持度阈值和最小置信度阈值,其中,最小支持度阈值和最小置信度阈值为设定值。
Apriori 关联分析算法主要以搜索满足最小支持度和最小置信度的强关联规则为目标,Apriori算法的流程主要分为四个步骤:
一是设置阈值;二是通过连接步得到候选k-项集;三是通过剪枝步得到频繁k-项集并判断是否为最高阶;四是判断强关联规则。
流程如图1所示。
图1 Apriori算法逻辑
灰色关联分析[16]是根据因素之间发展趋势的相似或相异程度,来分析和确定系统诸因素间的关联程度或因素对系统主行为的贡献程度的一种方法,其目的是寻求系统中各因素间的主要关系,找出影响目标值的重要因素,从而掌握系统的主要特征。灰色关联算法中定义如下。
定义6母数列与子数列:母数列即为参考数列,记作A0=( )A0(1),A0(2),…,A0(n) ;子数列即为被比较数列,依次记作,A1,A2,…,Am。
定义7关联系数:关联系数描述了系统发展过程中因素之间相对变化的情况,也就是关联程度大小。其计算公式为
式中:ρ为分辨系数,通常取ρ=0.5;Δ0i(k)为数据变换后数列的差值,而Δmin和Δmax分别为最小差值和最大差值。
定义8关联度:关联度为同一子数列中关联系数的均值。其计算公式为
灰色关联分析算法主要以计算关联系数和关联度为目标,需要确定分析序列并进行数据变换,灰色关联分析算法的流程如图2所示。
图2 灰色关联算法逻辑
(1)确定分析序列。不安全事件的产生可能是众人因要素共同作用的结果,而不同人因要素出现的频次随着时间的变化而变化,对人因要素的灰色关联分析本质就是比较分析众多人因要素在不安全事件中时间趋势发展的变化。因此,使用分类汇总的办法,以各人因要素在不同时间段的频率为子序列(被比较数列),以不同时间段的频率的总数为母数列(参考数列)。
(2)数据变换。由于要分析母数列与子数列的变化趋势,而数据的量纲不一定相同,各数列差别较大,因此需要对原始数列进行处理,使之无量纲化和规一化。在灰色关联分析中常用的数据变换方法有三种,分别是初值化处理、均值化处理和区间值化处理,本文采用均值化处理方法。
本文选取的数据来自美国航空安全自愿报告系统(aviation safety reporting system,ASRS)。研究数据时间跨度为2015 年1 月至2019 年12月。本文主要研究其中Human Factors,Local Time Of Day 这两个字段的内容,其中,Human Factors 主要记录不安全事件中的人因要素。Local Time Of Daye 记录不安全事件在当地发生的时间,按6 个小时划分为四个时间段。Human Factors 涉及12 类人因要素,每一个个案涉及到的人因要素并不固定,本文针对人因要素重新进行编码,HF表示人因,见表1。
依据Human Factors 字段,对案例中的人因要素进行0-1编码。1表示某一起不安全事件涉及该人因要素,0表示该起不安全事件与该人因要素无关。遍历所有个案后,将数据集转化为0-1矩阵。
基于对人因要素之间联系的探究,针对0-1矩阵进行数据分析,绘制关联网络图。人因要素网络如图3所示。
图3 人因要素关联性网络
在图3 中,设置显示字段为12 类人因要素的真值(即只显示=1 的值)。人因要素间连线的粗细代表人因要素同时出现的频数,同时出现的频数越高,其连线越粗,反之则越细。图中显示的连线分为三个类别,频次依次为1500 以上、1000到1500和1000以下。
通过人因要素网络图可以对人因要素两两之间的关联关系进行初判。由图3结合网络输出数据,不难得出以下结论:①情景感知问题和沟通不当问题同时出现的频次最高,达2178次;②情景感知问题和困惑问题同时出现的频次较高,达1912 次;③情景感知问题与分心问题同时出现的频次较高,达1672次。
SPSS Modeler软件中设置最低条件支持度为6%,最小规则置信度为50%,最大前项数为5,找到如表2所示的7条关联规则。
表2 人因要素关联规则挖掘结果
结合各人因要素含义,对支持度和置信度的实际意义可以解释为:当出现前项中的人因问题时,通常会存在后项中的人因问题,这7条规则的后项都是情景感知问题。支持度最高为18.46%,该规则表明同时出现困惑和情景感知问题的概率最大。置信度最高为67.01%,该规则表明同时出现困惑和分心问题时,出现情景感知问题的概率最大。
(1)关联系数代表着该子序列(即该人因要素)与母序列时间维度上的关联程度值。图4 为各人因要素不同时间段的关联系数,其值越大,颜色越深,代表关联性越强。其 中, Time1=0001-0600, Time2=0601-1200,Time3=1201-1800,Time4=1801-2400。图中颜色最深的子序列为HF07,即情景感知问题,表明情景感知问题与不安全事件的关联性最强,其次为HF01,即沟通不当问题。
图4 人因要素关联系数热力
(2)由关联系数的均值得到关联度,关联度值介于0~1 之间,关联度越高,意味着子序列与“参考序列”(母序列)之间关系越紧密,因而该人因要素评价越高。针对所有子序列进行排序,得到各人因要素排名。表3 为12 类人因要素关联度及其排名。
从表3 可以看出:针对12 类人因要素,情景感知问题评价最高(关联度为0.949),其次是沟通不当问题(关联度为0.877)和分心问题(关联度为0.840)。
强关联规则中后项均为情景感知问题,支持度最高为18.46%,该规则表明同时出现困惑和情景感知问题的概率最大;置信度最高为67.01%,该规则表明同时出现困惑和分心问题时,出现情景感知问题的概率最大。
对12 类人因要素进行关联度计算,分析得出情景感知问题、沟通不当、分心、时间压力、困惑、故障排除能力不足、工作负担、其他生理问题、疲劳、人机交互问题、培训或资格认证缺失和其他/未知导致不安全事件的关联度依次为0.949、0.877、0.84、0.797、0.766、0.705、0.675、0.617、0.604、0.57、0.562、0.432,从而确定情景感知问题为关键因素。
利用Apriori 和灰色关联分析综合分析模型对民航不安全事件中的人因要素进行关联规则的挖掘,为未来民用航空安全管理和控制提供了辅助手段,为今后制定短期的安全目标提供了理论参考。
建议完善安全管理体系,明确管理人员职能,完善监督检查机制,增强应急突发事件处置的培训和训练,强化情景意识和决断意识。