摆倩倩,李 志
(1.东部机场集团有限公司,南京 211100;2.中国民用航空华东地区空中交通管理局江苏分局,南京 211100)
随着社会经济与市场环境的多元化发展,多机场区域内机场旅客吞吐量的增长速度和变化趋势受区域经济、航空运输服务水平及外部市场环境等[1]复杂因素影响,普通线性模型无法对预测对象间的相似性、相异性进行准确判断。目前,民航机场旅客吞吐量预测方法多以统计学理论为基础,建立基于机器学习的神经网络[2]、支持向量机[3]及二者的组合预测模型[4]。Marie-Sainte等[5]分别采用萤火虫算法(FA)和粒子群优化算法(PSO)搜索线性回归系数(LR)的最优值,基于此提出两种混合预测方法,对比选择预测误差小的模型进行洛杉矶国际机场的航空需求预测;Gunter等[6]采用GVAR模型对全球20个最繁忙机场的航空客运需求进行预测,探讨全球机场网络系统中机场间的连通性,并将国家层面的经济驱动力作为变量纳入预测模型,适用于多机场客运量预测;Qin等[7]考虑交通系统的混沌性及影响因素的复杂性,将基于季节趋势分解(STL)与蚱蜢优化算法(GOA)改进的回声状态网络(ESN)和自适应增强算法(Adaboost)结合,分别对航空、铁路运输月度客流数据进行预测,证明了该方法的有效性;栗慧琳等[8]考虑到航空运输市场的季节性特征,提出以二次分解重构策略为核心的STL-CEEMDAN-SAAKAB预测模型,通过航空客流数据的分解与重构取得了较优的预测效果;高伟等[9]采用熵值法确定不同指标的权重,结合BP神经网络法进行机场旅客吞吐量预测;肖淑敏等[10]建立了基于多元线性回归法、时间趋势外推法、灰色GM(1,1)模型的组合预测模型,并将熵值法用于各模型预测结果的权值确定,对北京大兴国际机场、北京首都国际机场2030年的旅客吞吐量进行战略预测;王京元等[11]提出一种针对机场群的旅客吞吐量预测方法,综合考虑了民航与高铁间、机场间的竞争,建立双层Nested Logit模型量化分析双重竞争环境下的多机场旅客吞吐量发展趋势。但上述预测方法均未考虑新冠疫情造成客流量大幅削减的现实情况,不适用于当前时期的机场旅客吞吐量预测。
自新冠疫情爆发以来,我国民航业受到巨大冲击,2020年国内重点航线航班执行率不足30%,受出入境措施限制国际航班计划大量削减或暂停,机场旅客运输量断崖式下跌,民航旅客运输量同比下降36.7%,2021年恢复速度仅为5.9%;2021年下半年至今,随着疫情防控常态化的稳步推进,国内形势不断向好,人们被抑制的出行需求逐渐释放,公商务出行及游客量进一步回升。基于以上分析,文中定义民航业当前所处发展时期为“后疫情时期”,即新型冠状病毒疫情爆发后,随着疫苗的成功研发及疫情防控的常态化进行,疫情已基本受控但尚未完全消失,仍呈小规模爆发且迁延较长时间,对国际经济、政治、生产体系、人类生活方式等各方面产生深远影响时期。
关于后疫情时期的机场旅客吞吐量预测研究,Li等[12]认为COVID-19爆发后,航空运输需求的大幅下降主要受供给限制和需求疲软两方面因素影响,按照旅客年龄、出行目的将航空出行旅客划分为若干不同特性组合的人群,模拟测试不同人群受疫情影响后需求水平的下降程度,量化结果表明,二者在客运减少总量中的占比分别为42.6%、57.4%。此外,供给限制对20~40岁之间的休闲旅客出行需求影响最大,需求疲软对41~60岁之间的商务旅客出行需求影响最大,为航空公司分析旅客出行特征及相关行业复苏计划的实施提出了建议。杨璐等[13]通过构建以多元线性回归和灰色GM(1,1)为基础的预测模型,结合疫情期间起降量修正模型,假设2021—2024年机场航班起降量将呈匀速恢复并对石家庄机场的起降量进行预测。然而,随着2021年疫情逐步受控,我国经济增长屡次出现强势反弹,部分时期的消费及旅游需求呈现报复性增长。据去哪儿航旅大数据统计,2021年3月至5月国内航线旅客运输量甚至超过了2019年同期水平,可见,我国民航业呈现出有别于国际市场的快速复苏特征,一旦疫情消退,航空旅客出行需求增长速度将在短期内达到较高水平,客流匀速恢复修正模型不适用该时期对于大、中型枢纽机场的航班量预测。
面板数据模型同时具备时间序列与截面数据分析功能,常用于截面个体异质性、截面整体动态性的预测研究。文中以反映区域经济及民航运输相关产业发展现状的指标数据为基础,通过层次聚类法将预测对象细化分类,并确定最优聚类簇数量K[14];建立高斯混合模型(GMM)进行聚类分析[15],明确预测对象中个体所属的簇,针对不同簇建立相应的面板数据预测模型。最后,通过对疫情爆发前后的历史数据分析,根据疫情对国内、国际旅客影响程度的不同,分别建立疫情影响因子修正模型对面板数据模型预测值进行修正,并以江苏省9个机场的旅客吞吐量预测为例,验证预测方法的科学性与实用性。
通过Z-score法对原始数据进行标准化处理,算式为
(1)
式中:x′为各数据列的Z-score标准化值;x为原始数据序列;μ,σ为序列x的平均值及标准差。
为确保面板数据模型预测结果真实有效,避免伪回归,采用单位根检验、LLC检验和Fisher-PP检验结果判断数据的平稳性,协方差分析法用于模型形式设定检验。
1.2.1 机场分类方法
对于多机场地区的客流量预测,文中采用GMM聚类分析法将具有相似数据特征的样本归类,针对不同类型机场分别建立相应的面板数据预测模型。
GMM模型是一种概率式聚类方法,它假设所有数据样本均由给定聚类簇数K的多元高斯分布生成,每一个分布被称为高斯混合模型中的一个成分且对应聚类后的一个簇,K个多元高斯分布组合而成的混合分布概率密度函数为
(2)
GMM在训练时使用极大似然估计法与期望最大化(EM)算法求解参数估计值[16],参数估计完成后,对待验证数据样本点可根据贝叶斯定理计算其属于每一个簇的后验概率,并将样本归于后验概率最大的簇,直至所有样本完成分类为止。
最后,通过CH系数、轮廓系和DB指标进行聚类效果的判定。
1.2.2 面板数据模型构建
计量经济学中的数据主要分为时间序列数据、截面数据和面板数据3种。时间序列数据指统计指标、统计单位均相同且按时间顺序记录生成的数据列,通常反映微观个体某段时间内的信息。截面数据指同一指标在同一时间(时期或时点)按不同统计单位记录形成的数据列,反映若干微观个体在某一时间点的信息。面板数据指在时间序列上同时取多个截面,这些截面上的样本观测值构成的样本数据,反映若干微观个体在不同时期内的信息,兼具时间序列与截面数据的特征。
基于面板数据分析的回归模型称为面板数据模型,基本形式为
yit=αi+β1x1it+β2x2it+…+βkxkit+εit
(i=1,2,…,N;t=1,2,…,T)
(3)
式中:yit为个体i在时点t的观测值;αi为随机变量,表示第i个个体对应的截距;t为面板数据时间序列中的某个观测时点;k为解释变量总个数;εit为误差项;N为面板数据所含个体总数;T为时间序列最大长度。
根据αi的不同取值,可将面板数据模型分为以下3类:
1)不变系数模型
αi≠αj=αβi=βj=β
(4)
2)变截距模型
αi≠αjβi=βj=β
(5)
3)变系数模型
αi≠αjβi≠βj
(6)
面板数据模型通过多维分析,把握数据动态发展规律,构建时间与个体效应共存的预测模型,在扩充样本容量、提高模型预测结果准确性方面效果显著,为深入研究截面单位较多而时期较少的行为模型提供了方法论。
文中采用协方差分析法进行模型的形式设定检验,主要基于如下两个假设
具体检验步骤如下:
步骤1:首先,记S1,S2,S3为变系数模型、变截距模型、不变系数模型的最小二乘估计残差平方和,且
步骤2:构造原假设H2、H1的检验统计量F,算式为
步骤3:经计算,若F2 步骤4:若F1 目前,国内疫情已得到有效控制,而国外形势不容乐观,根据疫情对国内、国际旅客吞吐量影响程度的不同,通过疫情影响因子对面板数据模型预测结果做出相应修正。 1.3.1 国内、国际旅客吞吐量平均占比计算 通过疫情爆发前历史数据计算机场的国内、国际旅客吞吐量平均占比 (11) (12) 式中:ωi为国内旅客吞吐量占比;v为国内旅客吞吐量,万人次;,v′为国际旅客吞吐量,万人次;ωo为国际旅客吞吐量占比。 1.3.2 疫情影响因子计算 2020年是我国民航业受疫情影响最严重的一年,数据样本极具代表性。2021年随着疫情防控措施的稳步推进,国内航线逐步恢复运营,而国际机场旅客吞吐量的恢复与增长较国内呈明显的分化趋势。文中以2019—2021年机场旅客吞吐量数据为基础,通过疫情影响因子R分析疫情前后及疫情期间机场旅客吞吐量受影响程度 (13) 1.3.3 国内、国际旅客吞吐量预测 对国内、国际旅客吞吐量进行预测,RI和Ro分别表示国内、国际旅客吞吐量疫情影响因子。 1)国内旅客吞吐量预测值修正。目前国内疫情呈多点散发态势,位于疫情爆发核心区域的机场旅客吞吐量无疑会受到强烈影响,但从全国看,局部疫情虽会影响民航市场恢复进程,却并不能改变整体稳步回升趋势,除部分旅游城市的中小型机场外,其余机场的国内旅客吞吐量受影响程度与全国平均水平基本一致。 根据全国机场国内旅客吞吐量受疫情影响减少的平均比率,对国内旅客吞吐量预测值进行修正,得到算式为 v修正=v预测(1-RI) (14) 2)国际旅客吞吐量预测值修正。由于国际疫情仍未得到有效控制,部分国家及地区疫情蔓延导致国际出行旅客需求严重受限,机场国际航班大量削减甚至暂停,目前我国国际航班量仍保持较低水平。据中国民用航空局发布的全国机场生产统计公报数据,2021年我国机场国际旅客吞吐量3 051.1万人次,较2019年下降96.8%,国际航空运输协会官方预测航空旅行需求将于2024年恢复至疫情前水平。若以此为目标,假设2022年第三季度起国际疫情得到有效控制,并逐步开放国际航线的旅客运输,据乐观估计,全球疫情受控后,国际航空出行需求的恢复速度将在2年内呈指数级增长,综上,定义疫情影响衰退因子为 Cn=(1-Ro)×100n-1 (15) 可得国际旅客吞吐量预测值修正为 (16) 文中以江苏省的机场旅客吞吐量预测为例,阐述面板数据模型在机场旅客吞吐量预测方面的应用。 江苏省机场分布较为密集,截至目前,省内投入运营的民用机场共9个。通过江苏省民航旅客运输市场发展趋势调查,结合《运输机场航空业务量预测编制指南》中关于航空运输业务量预测参数选取的分析建议,选择2006—2016年《江苏省国民经济和社会发展统计公报》及《民航行业发展统计公报》中与江苏省各地区机场旅客吞吐量(Y)密切相关的地区GDP、全年接待游客数、铁路客运总量[17]数据构成初始变量集(原始数据从略),依次记为自变量Xi(i=1,2,3)。为更准确地辨别序列特征,合理选取预测模型变量,先进行4组序列的标准化处理,再采用LLC(检验1)与Fisher-PP(检验2)两种方法进行单位根检验,结果如表1所示。 表1 单位根检验结果 表1数据显示,检验结果在5%显著性水平下拒绝了原假设,即水平序列数据平稳、无单位根,因此,不需进行协整性检验,可直接用于面板数据建模。 江苏省机场众多,规模等级各异,受所在地区的航空业发展环境、区域经济水平、旅游资源等影响,不同定位、不同类型机场间旅客吞吐量的影响因素及各因素对旅客吞吐量的影响程度均存在较大差别。就大中型枢纽、干线机场而言,对周边中小城市客流的集聚效应明显,主要依靠密集的航线分布、丰富的航班时刻资源、优质的旅客服务及票价优势等保障旅客吞吐量的持续平稳增长;而中小支线机场,受地理位置、周边机场旅客分流等因素影响,由于客源有限、航班客座率较低,所以对经济指标的依赖程度相对较低[18]。 将2006—2016年的数据用于模型拟合,2017—2019年的数据用于模型验证。先通过E-views软件对江苏省9个机场进行聚类分析,分类数取值范围介于[1,9]之间,聚类系数随聚类簇数K的变化曲线如图1所示。 图1 聚合系数随聚类簇数量变化曲线 由图1可知,聚类簇数量为3时,曲线出现明显拐点,故取K为3建立高斯混合模型(GMM),并进行江苏省机场的聚类分析。 通过主成分分析法对数据进行降维处理,结果显示前2项主成分的贡献率依次为63.58%和26.27%,累积超过85%,KMO统计值为0.821,Bartlett检验的近似χ2值为31.684 (p<0.001),表明分析数据适用于因子分析法且具备良好的结构效度,依次取贡献率最大的2个成分为横、纵坐标,对各机场分类后的可视化结果如图2所示。 图2 机场分类结果 为直观判断GMM聚类法分类效果,现采用K-means算法进行对比分析,其中,CH系数、轮廓系数的大小反映样本聚类的紧密程度,值越大表示类内样本越紧密,类间分离度越大,聚类效果越好;DB指标则与前两者相反,取值越小的聚类效果更优,检验结果如表2所示。 由表2数据可知,文中GMM算法的CH系数与轮廓系数较K-means算法分别提高了8.3%和69.5%,DB值较K-means算法降低7%,聚类效果更优。 表2 不同聚类算法检验指标对比 以T1机场中南京(NJ)、无锡(WX)机场的吞吐量预测为例,通过式(9)~(10)的计算结果进行判断,应采用变系数模型拟合样本,整合后结果如表3所示。 表3 T1机场变系数模型拟合结果 由表3数据可知,模型回归系数显著,整体拟合优度较高。同理,经检验应分别对T2、T3机场建立变截距模型,各机场2017—2019年旅客吞吐量预测值及误差率如表4所示。 由表4预测结果可知,文中基于GMM聚类及多维面板数据分析建立的模型对江苏省9个机场的吞吐量预测误差介于1.58%~3.95%之间,且平均值小于3%,预测误差波动小,整体预测效果稳定,适用于多机场客流量的同步预测。 表4 T2、T3机场旅客吞吐量预测值与误差率 然而,自2020年爆发新冠疫情,民航旅客运输量呈断崖式下跌,据《从统计看民航》中出入境旅客吞吐量数据分析,结合式(13)的计算可知,2021年我国机场国内、国际旅客吞吐量较2019年分别下降30%和97%。根据2017—2021年国内民航机场受疫情影响的具体特征,对表5所示的江苏省机场旅客吞吐量预测值进行修正。 对2017—2019年江苏省9个机场国际、国内旅客吞吐量统计数据及国际旅客吞吐量增长趋势进行分析,得到各机场国际出行旅客吞吐量平均占比,用向量B=(11.62%,13.04%,19.8%,12.95%,13.78%,11.51%,11.96%,9.2%,13.5%)表示。采用面板数据模型预测江苏省机场2022—2024年旅客吞吐量,并对预测值进行反归一化处理,按照向量B所示比例分配后的初始预测值如表5所示。 国内疫情防控常态化背景下,民航市场复苏过程仍需经受局部疫情爆发的考验,取江苏省机场国内旅客吞吐量疫情影响因子RI=0.3。 对于国际旅客吞吐量,取Ro=0.97,则C1=0.03,根据式(15)~(16)可求得预测年度疫情影响衰退因子Cn,并计算修正值,结果如表5所示。 表5 江苏省机场旅客吞吐量预测 由修正后预测值可知,随着国内疫情防控状态持续向好,若2022年下半年国际形势能够得到有效控制,国际旅客出行需求将极大恢复,预计2023年底机场旅客吞吐量可恢复至疫情前水平。 机场旅客吞吐量预测是机场进行资源配置、建设规划与决策的重要基础,尤其多机场区域内,预测对象间既存在差异又具有较强相关性,不同类型的机场旅客吞吐量影响因素不尽相同,各因素对不同预测对象的影响程度也略有差异,通过对上述问题的研究得出以下结论。 1)面板数据模型在区域多机场旅客吞吐量及相关变量数据分析中保留了截面个体异质性,同时削弱了变量间的多重共线性,充分利用时间维度与对象维度信息进行旅客吞吐量预测。 2)结合GMM聚类分析法,通过提取预测对象间的共性特征进行机场分类,更具针对性地选取子系统预测变量,并建立相应的旅客吞吐量预测模型,进一步减小了由于变量选取不当造成的误差。 3)通过疫情影响因子模型修正预测结果,进一步提高该模型的泛化能力与预测精度,为民航相关企业分析市场环境、探索中长期发展战略以及航空公司调整航线网络结构、评估民航市场走出“疫情危机”后的发展趋势提供了参考依据。 4)针对多机场区域的旅客吞吐量预测研究仍存在较大延展空间,进一步探究如何细化分析系统内机场间的客流竞争影响、量化疫情等社会环境因素在不同年龄段及不同出行目的旅客人群中的影响程度等,对提高机场旅客吞吐量预测精度具有重要意义,将是笔者未来的研究方向。1.3 疫情影响因子修正模型
2 预测实例分析
2.1 数据检验
2.2 机场分类
3 机场旅客吞吐量预测
4 结 语