孙进进,王苗苗
(1.中国民航大学 机场学院,天津 300300;2.长安大学 公路学院,陕西 西安 710000)
对于事物的分类,过去人们主要利用统计学方法对事物进行分类处理,这些分类方法往往带有较强的主观性和任意性,不能很好地揭示待分类物之间的内在本质差别和联系,而且数据处理的量级以及计算效率较低。自组织特征映射神经网络(SOM)是一种无监督竞争式学习的前馈网络,这种神经网络接收外界输入时,将会对应分成不同的相应区域,各相应区域对特定的输入具有不同的响应特征,而且这个相应分类过程是网络自动完成的。这种分类方法能够反映输入样本的本质特征,大大消减一致性准则中的人为因素。
国内外已有许多学者对机场分类进行研究。例如,美国联邦航空局FAA按照旅客吞吐量占当年旅客总运输量的比例将美国的机场分为4类。我国杨英宝等依据旅客吞吐量以及机场当地的GDP和人口等指标对机场进行分类。褚衍昌同样依据吞吐量与机场当地经济指标进行分类,但通过对众多指标的主成分分析,找出关键指标。
人工神经网络具有并行处理和自适应、自组织的学习能力,对处理非线性问题十分有效。现有多种神经网络类型,如误差反向传播BP(Error back prorogation)、径向基函数神经网络RBF(Radical Basis Function)和SOM网络等。其中自组织特征映射神经网络SOM(Self-Organizing feature Map)是由Kohonen提出的神经网络数值模拟方法。SOM模拟大脑神经系统的自组织特征映射功能,可在训练中无监督自组织学习,通过学习提取数据中的重要特征或内在规律。进而实现分类分析的功能。
SOM是输入层、输出层的构成两层网络。与传统的聚类方法相比,SOM网络形成的聚类中心可以被映射到一个曲面或平面上,以保持固定不变的拓扑结构。在输入层的神经元个数为n,M=n2个竞争层组成的一个两维平面的神经元阵列上,输入层和竞争层的各神经元之间能够实现完整的全连接。
SOM的基本结构中,网络的输出层为一个二维的平面拓扑结构。输入层和竞争层各神经元之间可以实现全向连接,即每个输出节点与所有的输入节点之间存在连接,每个连接权重被用来指示连接强度。各个神经元的连接权值具有一定的分布,每个输入节点与输出节点通过连接权重w相连接,输出层节点j与输入层各个阶段xi(i=1,2,…,N)的连接权Wij为第j类的聚类中心;竞争层之间实行横向连接,邻近的神经元互相激励,而相互较远的神经元则互相抑制,而更远的神经元之间又具有较弱的激励。
SOM运行分为训练和工作两个阶段进行,当输入模式的类别发生改变后,获胜节点也将在节点二维平面上改变。在获胜节点相互连接的外侧因为存在相互刺激兴奋作用,所以产生一个较大的响应,然后获胜节点及其周围获胜邻域内节点的权向量值也将进行不同程度调整,其调整的方向、大小根据距离获胜节点的远近而变化。通过自组织网络中的大量的输入训练样本用来调整网络的权值,最终使得输入层的每个节点成为对一个特定的输入模式敏感的神经细胞,其对应的一个权向量的成为某个特定输入模式的中心向量。当有两个类别的特征向量非常接近时,这意味着这两个节点的在节点拓扑图上位置接近,从而在输出层上形成输入模式类别的特征向量图。
SOM训练结束,输出层中对于每一个输入模式类的特定关系是完全确定地,这个网络即可用来模式识别。当你任意输入一个模式,网络输出层神经元中一个特定的类将有最大的响应,从而实现自动分类。
1)对由归一化处理过的随机数组成输出层的权值向量进行初始化,并对学习率赋予初始值。
2)从训练样本集中接收一个输入模式并进行归一化处理。
3)计算点积,寻找获胜节点,以计算得到的点积结果中最大的作为获胜节点,如果输入是非规范的未经归一化处理,则需计算欧氏距离,以欧式距离最小的作为获胜节点。
4)确定获胜邻域,以中心时刻作为确定权重的调整时间域,在训练期间获胜邻域随时间逐渐收缩。
5)对获胜邻域内所有节点进行权值调整。
6)判断是否结束,在SOM网络中有没有类似的BP网络的输出误差的概念,以学习率是否到达预定条件作为结束依据。未到达则返回第二步。具体算法流程见图1。
图1 算法流程
遴选8个因素作为运输机场的聚类指标,依次为旅客吞吐量(x1)、货邮吞吐量(x2)、起降架次(x3)、航站楼面积(x4)、航线条数(x5)、机场服务城市的就业人数(x6)、GDP(x7)、外商直接投资(x8)。从关键指标看出,影响机场分类还是基于机场自身的运营数据指标,这些指标直接反映机场的运营规模和发展情况。除此之外,也不能忽视机场地区的社会经济发展状况对机场分类带来的影响,例如,机场所在地的经济总量、人口规模等,这些指标都直接或间接影响机场的运营与发展情况。
本文采用2010年全国主要机场的指标数据进行聚类分析。由于2010年排名前40位机场的客、货吞吐量分别占全国吞吐量的90%、92%以上,所以本文选取排名前40位机场作为聚类分类对象。
使用的SOM网络模型是基于MATLAB语言构建,利用其中的神经网络工具箱可以方便实现整个学习、训练和模拟过程,输入层共8个节点,分别对应上述机场评价指标体系中的8项指标。以40个机场为样本,确定的网络输入模式为
其中:k=1,2,…,q(q=40,n=8),构成样本数为40,指标为8的输入矩阵。竞争层组织结构根据分类方法将SOM神经网络的竞争层结构选为[8,1]类型,即将40个样本最终分别划为8类进行学习,使用Newsom函数创建一个SOM网络:net=netsom([01],[81])。其中,[01](为网络输入P的最大值和最小值,[8,1]为竞争层的网络结构;SOM网络参数设置,拓扑函数默认为‘hextop’,距离函数为‘linkdist’,排列阶段邻域半径为两个神经元的最大可能距离,排列阶段学习速率设定为1,排列阶段学习次数为10000次,调整阶段邻域半径为1,调整阶段学习速率为0.02。
通过SOM神经网络对所选指标数据的处理和分析,最终得到2010年全国主要的40个机场的分类结果,见表1。
从表2可以看出,第一类至第二类机场的客货量突出,起降架次较多,航线条数密集,所在城市的各项数据明显领先于其他机场所在城市。我国机场布局中的大型枢纽机场,所在的城市属于国家的政治经济、中心,是我国经济最为发达、人口流动量大的城市。其中第一类机场的各项指标均明显高于其他机场,是国家级的航空枢纽。第二类机场指标稍弱与第一类机场,为大区域级航空枢纽。
第三类、第四类的客运量基本持平,但是第三类的货运量和所在城市的经济指标明显大于第四类,因此,区域级的航空枢纽,特别是区域的物流集散中心。第四类机场所在城市为旅游性城市,机场的航线条数、起降架次以及航站楼面积均大于第三类,也是区域的航空枢纽。第三类与第四类机场均是服务于各自所在的主要经济圈,机场所在城市经济发达,人口密度较大,所以机场客流量较大,未来成长潜力巨大。
表1 分类结果
表2 各个类别的平均指标
第五类机场客货量中等、航线条数中等、所在城市的人口较多、GDP较高,多为所在地区的客流中转中心,为地区级的航空枢纽。
第六类机场客货量不多,所在城市经济发展水平较高,人口密度稍多,多为省会级的航空枢纽。
第七类、第八类机场客货量较低,航线条数一般,多为中小型机场,所处城市人口不多,经济发展水平不高,多为中西部省份经济中心城市,其旅游资源比较丰富,第八类人口密度众多,除个别城市外,机场运输量近几年增长平稳。
将SOM原理应用于民用机场的聚类分析中,其分类结果有较强的客观性,能够准确地把握各个类别的本质联系。这种民用机场的新地分类方法,将对全国整体机场布局研究以及各个机场在未来制定运营策略和定位分析上都具有非常重要的现实意义。
[1] 赵晓丹,齐志.基于SOM神经网络的聚类方法研究[J].吉林省经济管理干部学院学报,2008,22(2):1-3.
[2] 董志毅,夏新平,褚衍昌.我国机场分类的影响机理与聚类分析研究[J].商场现代化,2006(36):1-2.
[3] 伊春华.基于SOM神经网络的人力资本聚类分析[J].辽东学院学报,2006,13(1):1-2.
[4] 韩力群.人工神经网络理论、设计及应用[M].北京:化学工业出版社,2007.
[5] 褚衍昌.机场运营效率评价及改善研究[D].天津:天津大学,2009.
[6] 赵威,李磊,李琳.基于SOM 网络的中原城市群可持续发展水平研究[J].河南科学,2009,27(12):3-4.
[7] 褚衍昌,于剑,李艳伟.民航运输产业竞争力的组合评价方法[J].交通运输工程学报,2009,9(6):6-8.