基于聚类分析的中美航空事故调查报告中安全建议的研究

2019-09-10 20:41孙文龙
海外文摘·学术 2019年1期
关键词:聚类分析

孙文龙

摘要:航空事故发生后进行事故调查必不可少,安全建议作为事故调查报告的核心对以后预防事故的再次发生起着至关重要的作用。本研究运用文本聚类分析的方法,通过编写Python代码以及借助于MATLAB工具,运用k-means聚类算法实现了对中美航空事故调查报告中的安全建议的文本聚类分析。聚类的结果表明,在对安全建议文档相似度的计算上,“余弦相似度”比“欧氏距离”在对安全建议的处理上有着更好的效果。同时,本研究还讨论了在对安全建议进行聚类过程中所存在的几点不足以及在提高聚类效果方面提出了一些见解。

关键词:安全建议;聚类分析;python; MATLAB

中图分类号:V328.2

文献标识码:A

文章编号:1003-2177(2019)01-0124-03

0引言

随着我国民航事业的快速发展,民航飞机的安全性也越来越高,并且以其快捷、舒适的优势逐渐成为人们出行最受欢迎的交通工具之一。但一些不安全事件、事故征候还是时有发生,特别是航空事故还是无法彻底避免,在航空事故发生后必须要进行事故调查,民航事故调查的目的是为了防止事故/事件的再次发生,为了达到这一目的,事故调查方在调查的过程中和最终调查报告发布时都会针对调查过程中发现的安全系统的缺陷发布各种安全建议。

聚类分析是数据挖掘和机器学习中常见的技术,在学术和工业领域被大量使用,因此本研究运用聚类技术对这些安全建议进行处理,充分发挥计算机强大的计算能力,利用聚类技术实现安全建议文本数据的自动分类,能够给民航事故调查员提供思路以及各单位人员在安全管理中作为参考依据,最终提高中国民航的安全水平。

1研究方法

文本挖掘主要涉及到数据挖掘、自然语言的处理、模式识别、信息检索等技术。本研究中利用的文本聚类分析方法是文本挖掘技术的一种,在数据挖掘方面特别是在对大数据的分析与处理方面应用广泛,是一个非常有效的数据处理分析方法。聚类分析有以下特点:

(1)聚类是在对数据没有深入了解的情况下,通过聚类算法自动把数据集划分为多个类别,每一个类别称为簇。

(2)聚类的目标是:在同一个类别中的数据相似度比较高,而在不同类别中的数据相似度比较低。聚类和分类不同,它是一个无监督学习的过程。

(3)聚类分析是一个逐步试探的过程,它根据数据集本身的特点进行自动的分类,与事先设定好的分类规则无关。

安全建议是文本的一种,因此本研究运用文本聚类的方法对中美航空事故调查报告中的安全建议进行文本聚类的处理,最终实现安全建议的自动分类。

安全建议的文本聚类处理流程图如图1所示。

在对安全建议文本集进行文本聚类的过程中,从“中英文分词”到“特征权重表示”阶段处理是通过编写Python语言代码来实现;“聚类算法的选择”以及“聚类结果的输出”阶段是借助于MATLAB工具来实现。

2数据来源

本研究收集了中国民航在2017年发布的事故/事故征候/不安全事件调查报告130份,在这些报告中共发布了安全建议319条;美国NTSB在2013-2017年发布的航空类安全建议302条,针对这两组数据进行了分析。

3研究过程

3.1中英文分词

分词指的是将一些汉字序列或者是英文的句子切分成一个个单独的词,然后把这些词与机器词典中的词条进行匹配,如果在词典中能够找到上面切分出的单个词,说明匹配成功(识别出一个词)。对于本研究来说,分词结束以后,每一条安全建议就被切分成了多个词组的形式。

3.2停用词过滤以及特征降维

由表1可知,分词结束后也产生了很多无意义的词,比如中文的像“的”、“后”、等等,英文的像“of、“to”等等,把类似这种无意义的词归结为停用词,因此为了提高最终聚类结果的准确性有必要把這些停用词过滤掉,这时本研究引入了中英文的停用词表,其中包括中文的停用词3832个,英文的停用词891个。

通过以上的分词以及停用词过滤,把最终得到的词称为安全建议的特征词,Python运行后最终得到了1740个中文特征词,1638个英文特征词,部分特征词如表1所示。

3.3建立特征空间

建立安全建议文本的特征空间是进行安全建议文本聚类分析的重要组成部分,本研究采用的是应用最广泛的向量空间模型。向量空间模型的原理是把一组文档的集合表示成向量空间中的多个向量,在本研究中也就是把每条安全建议用一个向量来表示,每个特征词对应一个坐标轴,将每个安全建议特征词的权重大小作为对应每个坐标轴上的值,假设用Weight来表示权重的大小,有N个特征词,则某一条安全建议d对应的向量为:

其中|D|是文本集中所有文档的总数,分母是其中包含词语ti的所有文档的数目。本研究通过计算某个安全建议特征词的tf*idf来作为该特征词的权重。最终得到了中英文安全建议的权重矩阵。

3.5聚类算法的选择

本研究采用的是k-means聚类算法。在完成对安全建议数据的结构化转换之后,需要根据每条安全建议间的相似度进行聚类。在k-means聚类算法中,对于每条安全建议间的距离运算过程,本研究采用的是“欧式距离”和“余弦距离”。

欧氏距离是应用最常见的距离度量,它衡量的是向量空间中各个点之间的绝对距离(直线距离)。公式如下:

3.6聚类结果的输出

本研究把Python处理得到的中英文权重矩阵分别导入MATLAB软件,调用其中的聚类处理模块,分别选择“欧式距离”和“余弦相似度”进行聚类。由于k-means算法需要事先设定k的大小,因此本研究设置初始簇个数分别为3、4、5,探究不同的k值对聚类结果的影响,然后根据聚类的结果统计每一个聚集中的中英文安全建议数目

通过分析得出:“余弦距离”在对中美安全建议的处理方面效果更好,主要基于以下评价标准:

(1)类簇的数量是否合理:用“余弦距离”对安全建议进行聚类,每一类中的数量分布相对“欧氏距离”更加均衡。

(2)类簇的可解释程度高低方面:通过对以上不同类别中的安全建议内容进行分别阅读认知,发现用“余弦距离”处理得到的结果中,每一类中的安全建议相对“欧氏距离”更像一个整体,相似度更高一些,可解释程度也更高。

一般以类中数量适中,类簇可解释程度较高作为聚类效果较好的标志。

4结语

在研究过程中,得出以下结论:(1)由于安全建议中也存在较多的民航专业词汇,如果单独用jieba词库进行分词会产生较多有歧义的词,因此如果在jieba词库里面再加入民航专业词汇,这样最终的分词效果会更好;(2)中美航空事故调查报告中的安全建议作为短文本的一种,每条安全建议大约都是几十个词最多也就一百个词左右,并且安全建议的数量相对较多,中美安全建议的总词数都分别达到了两万多字,经过文本的预处理过程最终筛选出的特征词分别高达一千多个,与每条安全建议词的数量相差巨大,这样会导致权重表格比较稀疏,最终会影响聚类的效果;(3)欧氏距离衡量的是空间各点的绝对距离,跟各个点所在的位置坐标直接相关;而余弦距离衡量的是空间向量的夹角,更加体现在方向上的差异,而对绝对的数值不敏感。因此造成了聚类结果的差异。

猜你喜欢
聚类分析
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究