基于因子分析和K-means聚类的空中交通复杂性评价

2016-12-15 07:38温瑞英王红勇
太原理工大学学报 2016年3期
关键词:复杂程度空中交通航空器

温瑞英,王红勇

(中国民航大学 空中交通管理学院,天津 300300)



基于因子分析和K-means聚类的空中交通复杂性评价

温瑞英,王红勇

(中国民航大学 空中交通管理学院,天津 300300)

针对航空器服务架次不能精确刻画空中交通复杂程度的现状,提出一种通过多指标度量空中交通复杂性的方法。首先通过实测雷达数据计算得出9个空中交通复杂性评价指标值,并对复杂性指标进行了相关性分析及因子分析的适用性检验;采用因子分析方法最大程度地消除了指标间的相关性,并从多个复杂性评价指标中提取了空中交通总量和空中交通密度2个因子;基于所提取的因子,建立了空中交通复杂性综合评价函数,并利用K-means聚类方法将空中交通复杂程度归为5类,最后通过时段流量和实测陆空通话数据进行了验证。结果表明,当空中交通复杂程度分别为低、高时,15 min 内的航空器数量分别为10,24架,陆空通话时长分别为315 s,636 s,对应的通话饱和度分别为35%,70%.随着空中交通复杂性等级的提高,时段流量和通话饱和度增加。

空中交通;交通复杂性;因子分析;K-means聚类;相关性

不断增长的空中交通流量对我国空管系统的服务能力提出了更高要求。现阶段以单位时间内所能提供的航空器服务架次为主的评价方法已经难以准确描述高密度、大流量下的空域运行状况。为此,国内外诸多科学家将复杂性科学思想引入到空中交通管理领域中,以期望能够更全面、更客观地反映空中交通系统的实际运行规律。美国新一代航空运输系统已将复杂性研究列入了重大研究计划,同时其也是单一欧洲天空空中交通管理研究项目中复杂性管理的研究基础[1-2]。美国国家航空航天局对动态密度做了大量的研究,结果表明考虑交通密度、管制员意图等要素的描述方式更能精确、定量反映空中交通复杂性[3-6]。MOGFORD et al通过问卷调查方法确定复杂性因子,建立了复杂性计算模型,并实现了空中交通复杂性分析[7]。KLEIN et al提出通过采用航空器密度、高度和速度变化等7个简化的动态密度指标来对扇区进行动态划分[8]。国内学者丛伟等采用灰色关联聚类方法对复杂性指标进行了精炼[2]。王红勇等通过研究航空器的迫近效应建立了扇区交通复杂度的计算模型[9-10]。上述研究主要侧重于如何选取复杂性指标和确定复杂性因子权重等方面,鲜有涉及对空中交通复杂性的分类研究。空域系统的服务能力与空中交通复杂程度密切相关,依据不同复杂性因子对空中交通复杂性进行评价非常必要。

本文基于因子分析和K-means聚类提出了一种评价空中交通复杂性的方法。采集厦门空管站的实测雷达数据计算得出9个空中交通复杂性评价指标数据,采用因子分析方法最大程度地消除了指标间的相关性,并从多个复杂性评价指标中提取了空中交通总量和空中交通密度2个因子。基于所提取的因子,建立了空中交通复杂性综合评价函数,利用K-means聚类将空中交通复杂程度归为5类,并利用时段流量和实测陆空通话数据验证了该分类方法的有效性。

1 指标的选取及数据处理

本文选取了厦门空管站2号管制扇区的实际雷达数据进行统计分析,数据为2013年9月—2014年1月,每天08∶00—21∶00的实测数值,将每15 min 的实测数据作为1个样本,最终有效样本数为5 180个。

1.1 空中交通复杂性评价指标的选取

实际管制工作中,如果某一交通要素的改变会影响管制员对交通状态的处理难度,增大管制员的工作负荷,则这一交通要素可作为一项空中交通复杂性的评价指标[10]。本文采集了厦门空管站的实测雷达数据,通过相关计算得出9个空中交通复杂性评价指标值,主要包括15 min内服务的航空器架次,即时段流量X1(架次),同时指挥的最大航空器数量X2(架次),同时指挥的平均航空器数量X3(架次),速度改变值大于或等于20 km/h 的累计航空器总数X4(架次),高度改变值大于或等于200 m 的累计航空器总数X5(架次),航空器间的水平间隔在0~20 km 范围内且垂直间隔小于 2 000 m 的累计航迹点总数X6(架次),航空器间的水平间隔在20~60 km 范围内且垂直间隔小于2 000 m 的累计航迹点总数X7(架次),航空器间的水平间隔在60~100 km 范围内且垂直间隔小于2 000 m 的累计航迹点总数X8(架次),与导航台的水平距离在0~30 km 范围内的累计航空器总数X9(架次)。

1.2 数据预处理

由于不同指标之间的单位不一样,数据之间明显存在量纲和量级大小不一致的问题,会对分类结果造成一定影响。本文采用Z-Score的标准化方法对采集数据进行归一化处理来消除这一影响,计算公式如下所示。

(1)

2 评价方法及原理

2.1 R型因子分析法

R型因子分析法的基本原理是通过对所选变量进行相关性分析,根据相关性大小对变量进行分组,同组之间的变量相关性较高,不同组之间的变量相关性较低,将关系比较复杂的多个原始变量总结为数量较少的几个因子。这种方法能够克服多指标之间的相关性和重叠性,利用较少的变量来代替原来较多的变量,并且代替后的因子可以反映原来多个变量的绝大部分信息[11-12],其相应的数学模型为:

(2)

式中:X=(X1,X2,…,Xm)T为实际测量的n个样本数据所构成的m维随机向量[13];F=(F1,F2,…,Fp)T,(p≤m)是m个变量的公共因子,其是相互独立且不可观察的理论变量,在这p个因子中,每一个因子均应当反映样本某一方面的特性,这是因子进行命名的主要依据;ε=(ε1,ε2,…,εm)T为特殊因子,表示原始变量中不能够被公共因子变量所解释的部分;A为因子载荷矩阵。因子分析法的具体计算步骤如下:

1) 采集m维随机向量的n个样本,构造样本矩阵,利用式(1)对指标数据进行归一化处理,得相应标准化矩阵;

2) 计算各个标准化指标之间的相关系数矩阵R,并利用KMO和Bartlett球形度检验等方法来检测因子分析法对所取样本数据的适用性;

3) 求矩阵R的前l个特征值,记为λ1≥λ2≥…≥λl,其对应的特征向量为u1,u2,…,ul,根据特征值的大小(一般取大于1的特征值)和累积方差贡献率(累计方差贡献率达85%以上)来确定因子个数;

4) 求公共因子载荷矩阵A,如果所得到的因子其实际意义不是很明确时,需要将因子进行旋转从而使得所选的因子更加具有命名解释性[12-13];

5) 采用回归估计法计算因子得分系数,将所提取的因子表示为各个标准化因子的线性组合。

2.2 K-means聚类算法

利用因子分析计算结果得出各个时段的复杂性综合得分,选取欧氏距离作为复杂性模式划分的相似性度量系数,利用K-means对空中交通复杂性等级进行聚类[14-15],具体步骤为:

1) 首先选定所要划分的等级数k,并为所选的每一个等级选择一个初始中心点,亦即每个簇的初始簇中心,记为mj(j=1,2,…,k);

2) 按照式(3),通过计算数据集合中各点与各个簇中心的欧氏距离,将数据集中各点划分到与其距离最近的簇中,形成初始分类,式(3)中Yi为n个样本数据的复杂性综合得分值;

(3)

3) 按照步骤2)所形成的初始分类,更新每个簇的中心点,取每个簇中所有对象的平均值为新的中心点;

4) 采用平方误差准则作为迭代收敛的依据,即不断重复执行步骤2)和步骤3),根据式(4)计算E值,当两次迭代所计算的E值的绝对值小于某个给定的限定值时,循环终止,从而形成最终聚类结果。

(4)

3 评价指标的因子分析

3.1 因子分析的适用性检验

对所选取的9个评价指标进行标准化处理并计算指标间的相关系数,具体数据如表1所示,可以看出大部分指标间的相关系数较高,表明所选的9个指标其两两之间大多具有较强的相关性[13]。

表1 各评价指标之间的相关系数矩阵

表2为Bartlett和KMO检验结果,Bartlett球形度假设检验统计量的观测值为88 265,对应概率p接近于0,因此可以认为所选的9个评价指标间并非相互独立。变量间偏相关性检验的KMO统计量为0.91,表明指标间存在较强的相关性,原有9个评价指标适合作因子分析。

表2 Bartlett和KMO检验

3.2 因子个数的确定

求解相关系数矩阵的特征值,并根据特征值的大小和累积方差贡献率来确定所选因子个数。表3给出了各个指标的公因子方差比,变量Z1的公因子方差比是0.895,其含义为按照所选标准所提取的公因子对Z1的方差作出了89.5%的贡献,其余数值以此类推,由表中数据可见,当提取公因子后公共因子对所有变量的方差所作的贡献均在81%以上,证明各个评价指标的信息丢失较少,因子提取的总体效果在可接受范围之内。

表3 公因子方差比

表4给出了因子分析过程中原有变量总方差被解释的比例,由表可见,因子1的特征值为6.778,它对9个原始变量总方差的解释程度达75.307%;因子2的特征值为1.056,它对9个原始变量总方差的解释程度达11.729%,因子3的特征值为0.403,其值小于1,说明这个因子对9个原始变量的解释力度较小,将其作为公共因子不如直接引入原始变量效果好,之后剩余其它因子的特征值依次减小,说明这些因子均不应该被提取。所以根据上述分析结果,将因子数量选定为2,由表4可知其累积方差贡献率为87.036%,也就是说所选的这两个因子共同解释了9个原始变量总方差的87.036%,丢失的信息较少。

表4 解释的总方差

3.3 因子的命名

通过3.2中所选出的2个因子,需具有一定的现实意义并可命名。表5给出了旋转前的因子载荷矩阵,可以看出,9个变量在因子1上的载荷都很高,均为73%以上,这表明9个原始变量与因子1的相关程度较高,因子1解释了绝大部分变量的信息;因子2的载荷系数较小,表明其与9个原始变量的相关程度较小,对9个原始变量的解释效果较弱。本文采用最大方差法对因子载荷矩阵进行正交旋转,从而使得所提取的因子更具有命名解释性。具体计算原理是通过正交旋转,使得旋转后因子荷载矩阵的每一列元素的方差之和达到最大,亦即使得同一列上的荷载值尽可能地靠近1或靠近0,从而突出每个因子和其荷载较大的变量之间的关系,该因子所代表的实际含义就能够通过这些荷载值较大的变量做出合理的解释[12]。通过表4可以看出,旋转后的累积方差贡献率并没有发生改变,其仍然为87.036%,但是却重新分配了各个因子解释原有变量总方差的比例(因子1解释了原有9个变量总方差的50.112%,因子2解释了原有9个变量总方差的36.924%),从而使得因子更具有命名解释性。表5给出了旋转后的因子载荷矩阵,可以看出Z1,Z2,Z3,Z4,Z5,Z9这6个变量在因子1上的载荷较高,均在71%以上,说明因子1主要解释了这几个变量,可命名为空中交通总量因子,主要包括航空器的数量和航空器航行诸元的改变总量;Z6,Z7,Z8这3个变量在因子2上的载荷较高,均在84%以上,说明因子2主要解释了这几个变量,可命名为空中交通密度因子。

表5 旋转前后的因子载荷矩阵

3.4 因子得分

利用回归估计法计算因子得分系数,将上述所提取的2个因子表示为9个标准化变量的线性组合,结果如式(5)、式(6)所示。式中F1,F2为所提取的因子得分。

F1=0.267Z1+0.188Z2+0.162Z3+

0.301Z4+0.343Z5-0.244Z6-

0.179Z7-0.132Z8+0.119Z9,

(5)

F2=-0.117Z1-0.02Z2+0.21Z3-

0.164Z4-0.233Z5+0.474Z6+

0.416Z7+0.364Z8+0.065Z9.

(6)

4 空中交通复杂性评价分析

4.1 计算复杂性综合得分

以各个因子的信息贡献率为加重权数,综合因子得分,可求得各个时间段的空中交通复杂性综合得分,结合式(5),式(6)和表4,得具体计算公式为:

Y=0.501 12F1+0.369 24F2.

(7)

式中:Y为各个时间段的复杂性综合得分;F1和F2的系数为各因子的信息贡献率,具体数值见表4.综合得分值高,表明空中交通复杂性程度越高。

4.2 复杂性评价结果分析

本文以15min的雷达数据为一个样本,有效样本数高达5 180个,显然对这5 180个数据进行排序,分析其复杂性不太合理。为了对空中交通运行状态进行有效评价,利用K-means进行聚类,将空中交通复杂程度归为5类,具体结果如表6所示。可以看出,5类复杂性的聚类中心分别为-1.01,-0.37,0.15,0.7,1.54(聚类中心点的值代表该时段内空中交通复杂性综合得分的平均值,负值代表空中交通复杂程度低,正值代表空中交通复杂程度中等以上),其对应的空中交通复杂程度为低、较低、中等、较高、高,每种复杂程度对应的有效样本数的比例约为18%,22%,33%,22%,5%,说明空中交通复杂程度两级分化现象不明显,复杂程度中等的交通态势所占比例最高。

表6 空中交通复杂性分类

为了进一步对空中交通复杂性等级进行验证,本文选取了时段流量和陆空通话饱和度进行分析。时段流量即所选扇区15min内管制员所指挥的航空器总数,通话饱和度指15min内实测陆空通话时长与该时间段总时长(900s)的比值。时段流量与陆空通话饱和度随复杂性等级的变化关系如表6所示,可以看出,空中交通复杂程度为低时,所选扇区15min内管制员指挥的航空器总数平均为10架,陆空通话时长平均为315s,对应的通话饱和度为35%;而当空中交通复杂程度为高时,所选扇区15min内管制员指挥的航空器总数平均为24架,陆空通话时长高达636s,对应的通话饱和度大于70%。随着复杂性等级的提高,时段流量和陆空通话饱和度都有不同程度的增加,说明空中交通态势的复杂程度可以反映管制员所指挥的航空器数量大小以及相应陆空通话负荷的高低。

5 结语

交通复杂性评价指标能够精确刻画空中交通复杂程度。本文基于实测雷达数据计算得出9个空中交通复杂性评价指标数据,采用因子分析方法从多个评价指标中提取了空中交通总量和空中交通密度2个因子,并建立了空中交通复杂性综合评价函数。利用K-means聚类分析,将空中交通复杂程度归为5类,并通过时段流量和陆空通话饱和度验证了分类的合理性。结果表明,随着空中交通复杂性等级的提高,时段流量和通话饱和度增加;空中交通复杂程度两级分化现象不明显,复杂程度中等的交通态势所占比例最高。

[1] 张进,胡明华,张晨.空中交通管理中的复杂性研究[J].航空学报,2009,30(11):2132-2142.

[2] 丛伟,胡明华,张晨.复杂性指标体系的构建及精炼方法研究[J].交通运输系统工程与信息,2012,12(5):130-134.

[3]PARIMALK,ALBERTS,SHERRIM,etal.Complexitymeasurement:anairtrafficcontrolsimulationanalysis[J].InternationalJournalofIndustrialEngineering,2009,16(1):61-70.

[4]LAUDEMANI,SHELDENS,BRANSTROMR,etal.Dynamicdensity:anairtrafficmanagementmetric:TM-1998-112226[R].California:NASA,1998.

[5]FEDJAN,MILANJ,VOJINT.Developingagenericmetricofterminalairspacetrafficcomplexity[J].Transportmetrica,2011,7(5):369-394.

[6] 戴福青,洪兰收.空域交通复杂度计算方法研究[J].中国民航大学学报,2010,28(3):1-4.

[7]MOGFORDH,GUTTMANJA,MORROWSL,etal.Thecomplexityconstructinairtrafficcontrol:Reviewandsynthesisoftheliterature:DOT/FAA/CT-TN95/22[R].WashingtonDC:FAAOfficeofAviationResearch,1995.[8] KLEIN A,RODGERS M D,LEIDEN K.Simplified dynamic density:A metric for dynamic airspace configuration and next gen analysis[C]∥IEEE.28th Digital Avionics Systems Conference.Florida:Orlando,2009.

[9] 王红勇,赵嶷飞,王飞,等.空中交通管制扇区复杂度评估研究[J].交通运输系统工程与信息,2013,13(6):147-153.

[10] 王红勇,温瑞英,赵嶷飞.基于聚类分析的空中交通复杂性模式划分方法[J].科学技术与工程,2014,14(30):272-276.

[11] 张林泉.基于因子分析的应用研究[J].哈尔滨师范大学自然科学学报,2009,25(5):60-63.

[12] 邵生俊,杨春鸣,马秀婷,等.黄土的独立物性指标及其与湿陷性参数的相关性分析[J].岩土力学,2013,34(2):27-33.

[13] 王继顺,王传斌,闫敏伦,等.基于因子分析法的各地城镇就业情况综合评价模[J].数学的实践和认识,2013,43(19):10-18.

[14] 杨波,刘海洲.基于聚类分析的交通小区划分方法的改进[J].交通与运输,2007,23(B07):5-7.

[15] 王千,王成,冯振元,等.K-means聚类算法研究综述[J].电子设计工程,2012,20(7):21-24.

(编辑:朱 倩)

Evaluation of Air Traffic Complexity Based on Factor Analysis and K-means Clustering

WEN Ruiying,WANG Hongyong

(AirTrafficManagementCollege,CivilAviationUniversityofChina,Tianjin300300,China)

Aiming at the current situation that the aircraft quantities served by the air traffic controller can not accurately depict air traffic complexity,a multi index measure method was proposed. First, 9 typical complexity evaluation indexes were calculated on the basis of the radar data. The relationships among various air traffic evaluation indexes were studied and the applicability test of factor analysis was done.Then by using factor analysis method the correlations among the indexes were eliminated. The evaluation factors of total air traffic quantity and air traffic density were extracted from multiple ones.On the basis of the extracted factors a comprehensive evaluation function of air traffic complexity was established.By using the K-means clustering method, air traffic complexity was divided into five types. Finally these five types of air traffic complexity was verified by the time flow and the measured air-ground data. When the air traffic complexity was low or high, the number of aircraft served by controller was 10 or 24, the time length of communication was 315 or 636 seconds,and the call saturation was 35% or 70%,respectively,within 15 minutes. The results show that with the increase of air traffic complexity, the time flow and call saturation increase.

air traffic;traffic complexity;factor analysis;K-means clustering;correlation

1007-9432(2016)03-0384-05

2015-12-02

国家自然科学基金委员会与中国民用航空局联合资助项目: 基于复杂网络的空中交通复杂性演化机理与控制策略研究(U1333108);天津市应用基础与前沿技术研究计划: 空中交通冲突风险传播机理研究(14JCQNJC04500)

温瑞英(1977-),女,山西忻州人,讲师,博士,主要从事空中交通管理的研究,(E-mail) wenruiying@163.com

TP182

A

10.16355/j.cnki.issn1007-9432tyut.2016.03.020

猜你喜欢
复杂程度空中交通航空器
空中交通管制员职业适应性和职业心理素质研究
美国2017年度四年级数学测试题赏析
打着“飞的”去上班 城市空中交通路网还有多远
探究高校会计与财务的复杂性
基于ADS-B的航空器测高系统误差评估方法
初中几何教材认知复杂程度的比较研究
——以中国、新加坡教材的三角形问题为例
航空器的顺风耳——机载卫星通信
火星航空器何时才能首飞
口孜东煤矿81煤层断裂复杂程度定量评价
空中交通防撞系统(TCAS Ⅱ)的排故与维护