摘 要:为研究不同城市机场间短期机票价格预测的问题,文章将机票数据按照OD、座舱类型、购票时间进行分类,并分场景构建SARIMA模型。采用当前时序的数据标定模型的参数,预测下一时序的机票价格。以2023年7月北京—上海的机票价格数据为例,通过4组实验场景和改进的北京首都—上海虹桥实验场景发现,分场景的SARIMA模型可以较为准确地预测短期机票价格。
关键词:航空运输;票价预测;时间序列;短期机票价格预测
中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2024)13-0136-05
Short-term Airfare Prediction Based on SARIMA Model
GAO Dong, WEN Jianbo, ZHANG Kailun, YU Jialu, ZHANG Siqi
(Travelsky Mobile Technology Limited, Beijing 100041, China)
Abstract: In order to study the problem of short-term airfare prediction among airports in different cities, this paper classifies ticket data by OD, cabin type, and ticket purchase time, and constructs a SARIMA model based on different scenarios. It uses the data from the current time series to calibrate the parameters of the model, predict the ticket price for the next time series. Taking the airfare data from Beijing to Shanghai in July 2023 as an example, through four experimental scenarios and an improved Beijing Capital—Shanghai Hongqiao experimental scenario, it is found that the SARIMA model with different scenarios can accurately predict short-term airfare.
Keywords: air transportation; airfare prediction; time series; short-term airfare prediction
0 引 言
随着旅客出行需求的不断增加,航空运输作为一种快捷、高效的出行方式备受广大旅客的欢迎。在航空运输业不断发展的新格局下,越来越多的旅客希望在合适的时间以较低的价格购买到满意的机票,以便合理安排出行计划,降低出行成本,提高出行体验。然而,由于机票价格具有实时波动性,购票问题是一个较为复杂的问题。旅客往往需要花费大量的时间和精力去追踪机票价格并选取最优惠的机票,这极大地浪费了旅客的时间和精力。机票价格预测可以有效解决这个问题并更好地帮助旅客安排出行计划。因此研究这个问题具有重要的理论意义和实用价值。
在机票价格预测的研究中,机器学习模型成为热门的研究方向,通过对历史数据进行分析和建模,能够预测未来机票价格的趋势。常用的机器学习模型包括线性回归、决策树、支持向量机和神经网络等。近年来,随着深度学习技术的发展,基于深度学习的机票价格预测方法也受到越来越多的关注。这些方法通过构建神经网络模型,能够自动地从海量数据中提取到对机票价格产生影响的季节、时间、航班、舱位、城市间的交通状况等特征,并进行预测。通过构建复杂的神经网络模型,可以将机票价格与这些特征进行关联,从而提高预测的准确性,为航空公司和旅客提供重要的决策依据,为更好地规划行程和控制成本奠定基础。
关于不同城市间航班的机票价格预测问题,目前国内外有较多研究。Wang等[1]通过多目标优化方法选择机票数据集的最佳特征子集,利用最优子集找到匹配度最高的最佳预测方法并构建动态自适应模型。Kalampokas等[2]考虑了3个不同领域的人工智能模型,包括机器学习、深度学习的6个CNN模型和量子机器学习的2个CNN模型,以解决机票价格预测问题。Zhao等[3]提出了一种创新性的民航票价预测系统,该系统具有多属性双阶段关注(MADA)机制,可以整合从同一维度提取的不同类型数据。Prasath等[4]采用KNN技术,利用机器学习回归方法估算特定时间的机票价格。顾兆军等[5]建立了一个先序移动平均数模型,并根据基于时间序列的机票预测算法来求解模型。华逸群等[6]将模糊时间序列引入机票价格预测问题中,将预测结果与传统的时间序列AR模型、移动平均和指数平滑比较来验证模糊时间序列模型的高效性。林友芳等[7]设计了以卷积神经网络为核心的两阶段机票价格预测模型,对未来机票最低价格进行了预测,并通过实例分析验证了本文所采用的模型相较于4种常用基准模型的突出优势。单文煜等[8]分别使用随机森林和XGBoost算法建立预测模型,并在经典机器学习模型基础上做一定改进。姚悦[9]利用时间序列模型对票价进行初步预测,再使用随机森林模型对时间序列的残差值进行调整,提出了SARIMA-RF串联组合模型。王双等[10]以历史机票数据作为研究对象,运用线性回归模型、梯度提升模型、随机森林模型、CART决策树模型、K近邻模型和MLP模型评估不同数据子集预测结果的优劣。结果表明,MLP模型应用于5个子集的预测效果均表现良好。
上述文献从多个角度探讨了机票价格预测问题。其中,一些研究采用了机器学习和深度学习模型来预测机票价格,如线性回归、决策树、支持向量机、卷积神经网络、随机森林、XGBoost等模型;另外一些研究则考虑了特定领域的人工智能模型,包括量子机器学习和模糊时间序列等模型。这些模型都可以从历史数据中自动提取特征,并对未来机票价格趋势进行预测。此外,还有一些研究提出了创新性的预测系统或算法,如多属性双阶段关注(MADA)机制、先序移动平均数模型等。这些研究结果均表明,利用机器学习和深度学习模型可以有效地预测不同城市间航班的机票价格,并且在实际应用中具有很高的准确性和实用性。
1 问题描述与建模
1.1 受时间变化影响的机票价格预测
机票价格分析是一个较为复杂的动态变化分析,受到购票时间、淡旺季、打折活动、航司决策等因素的影响。常用的机票价格预测方法主要分为基于票价时间发展规律的时间序列方法和基于票价影响因素的机器学习方法。由于机票实时价格的影响因素较多,本文从简化问题的角度出发,主要采用基于票价时间发展规律的时间序列方法来预测机票。
机票价格从时间发展上具有趋势性、随机性和波动性的特点,因此季节性的时间序列模型可以较好地反映价格的分布规律。采用时间序列的方法来预测机票价格时,选择一个可以快速衡量机票数据变化特征的模型尤为重要。实际生活中纯季节性模型很少见,更常见的是混合季节性模型SARIMA。本文采用SARIMA模型来合理分解时间序列并进行机票价格的预测,可以较为准确的分析机票价格随航班起飞时间、提前购票天数的变化规律。
1.2 短期预测模型SARIMA
SARIMA模型可以表示为如式(1)所示的形式。该模型的季节周期为s,对应时间序列xt的季节差分表示为∆sxt,∆sxt的计算过程如式(2)所示:
非平稳时间序列xt经过d阶差分和D阶季节差分后变成平稳时间序列yt,记作式(3):
若yt满足季节周期为s的ARMA(p,q)×(P,Q)S模型,那么xt满足非季节阶数为(p,d,q),季节阶数为(P,D,Q),季节周期为s的非平稳乘积季节ARIMA模型,即式(1)所示的模型。同时,其自回归和移动平均函数定义为式(4):
式中:(P,D,Q)为模型中季节性的部分,(p,d,q)为模型中非季节性的部分。δ为常数项,φ(L)和θ(L)为一般自回归和移动平均成分,ϕ(L)和ϑ(L)为季节自回归和移动平均成分,常差分和季节差分为∆d = (1-L)d和 。
1.3 初始机票数据分析及时间序列划分
由于7月、8月的机票价格均受到暑期客流出行的影响,变化规律具有相似性,因此本文仅对提前购票时间在1个月内的机票价格进行预测。2023年7月北京—上海不同机场间共有108个直飞航班,其中,每天均起飞的航班共60个,如MU5104、HO1254、MU5183。这些航班在一个月内的头等舱购票人数不超过28人,公务舱、经济舱的购票人数约为1:2.5。因此,在分解时间序列时,本文主要研究经济舱价格的变化规律。本文以2023年7月31日60个航班为例,展示了提前一个月内购票的经济舱机票价格,如图1所示。
根据图1,旅客集中选择在飞机起飞的一周内来购票。同时,受到不同航司机票打折活动的影响,每周内有几天机票价格会有短暂的下降。因此,本文选择进一步分解时间序列,将一周内的时间分为前半周、后半周来分析。
2 模拟计算
将2023年7月乘客在北京—上海不同机场间一周内购票的机票数据作为研究对象,OD分为北京首都—上海虹桥、北京首都—上海浦东、北京大兴—上海虹桥、北京大兴—上海浦东4种类型,座舱分为公务舱、头等舱、经济舱3种类型。对于经济舱,提前购票时间分为提前购票0~4天(前半周)、提前购票5~7天(后半周)两个范围。本文分别对4种OD的3种座舱类型两种购票范围的机票价格进行预测,如图2所示。
首先,我们利用ADF检验、白噪声检验来检查原始机票数据的平稳性,如表1所示。本文对初始非平稳的数据进行后续的差分处理,从而通过网络搜索法确定每个ARIMA模型的参数。
由SARIMA模型是通过我们之前讨论的ARIMA模型多项式中引入了季节性的项得到的,因此该模型的各个参数由ARIMA模型的参数来确定,如表2所示。
通过不同需求场景的机票数据建立SARIMA模型后,需要对模型的有效性和参数的显著性进行检验,如图3所示。
检验指标包括均方误差MSE、均方根误差RMSE,本文以静态预测为例,对不同OD经济舱的检验指标进行展示和分析。此外,我们需要对当前不同情景的预测效果进行量化分析,本文选用大部分研究采用的绝对平均误差MAPE评价预测的准确度。上述指标如表3所示。
3 结果分析
将8月机票价格预测值和实际值进行比较,如图4所示。
通过表3和图4可知,4种场景的绝对平均误差MAPE的值整体低于18%,SARIMA模型在分类场景中具有较好的适用性。北京首都—上海虹桥在当前时序的拟合误差较大,但是对未来发展趋势的预测效果较好。北京首都—上海浦东、北京大兴—上海虹桥、北京大兴—上海浦东在当前时序的拟合误差较小,但是对未来发展趋势的预测效果一般。在参数检验的基础上,为了进一步优化模型,本文主要对北京首都—上海虹桥不同座舱类型一周内购买的机票的提前购票天数进行重新划分,按照新的时间序列进行重新预测。
在新的预测阶段,通过反复实验发现当一周内的提前购票天数按照0~3天、4~7天进行划分的时候,北京首都—上海虹桥不同座舱类型的机票价格预测的精度明显提高,分别如表4、图5所示。
此时,不同座舱的时间序列模型分别为SARIMA(1,1,2)(2,1,2,5)、SARIMA(0,1,0)(2,1,0,11)、SARIMA(2,1,2)(0,1,2,5)、SARIMA(1,1,0)(2,1,0,9)。
通过表4和图5可知,改进时间序列后的优化模型中北京首都—上海虹桥的误差值整体降低,对8月同期机票价格的预测效果明显改善。其中,绝对平均误差MAPE的值下降了0.28%~2.96%。
4 结 论
本文得到的主要结论如下:
1)根据不同机场OD、不同座舱类型、不同购票时间构建的机票价格预测SARIMA模型综合了季节性时间序列与ARIMA模型的双重优势:绝对平均误差MAPE的值整体低于18%,这说明SARIMA模型在分类场景中具有较好的适用性。
2)通过不同场景SARIMA模型对机票价格进行预测并与实际值对比的实验可知:改进时间序列的优化模型中北京首都—上海虹桥的误差值整体降低,对8月同期机票价格的预测效果明显改善,反映了改进时间序列划分方式对提高模型预测精度的积极作用。
参考文献:
[1] WANG S,LIUT T,DING L. Airline Ticket Price-Prediction Model Based on Integrated Feature Extraction [J].Journal of Computational Methods in Sciences and Engineering,2022,22(4):1053-1068.
[2] KALAMPOKAS T,TZIRIDIS K,KALAMPOKAS N,et al. A Holistic Approach on Airfare Price Prediction Using Machine Learning Techniques [J].IEEE Access,2023,11:46627-46643.
[3] ZHAO Z C,YOU J G,GAN G Y,et al. Civil Airline Fare Prediction with a Multi-Attribute Dual-Stage Attention Mechanism [J].Applied Intelligence,2022,52(5):5047-5062.
[4] PRASATH S N,KUMAR M S,ELIYAS S,et al. A Prediction of Flight Fare Using K-Nearest Neighbors [C]//2022 2nd International Conference on Advance Computing and Innovative Technologies in Engineering (ICACITE).Greater Noida:IEEE,2022:1347-1351.
[5] 顾兆军,王双,赵亿.基于时间序列的机票价格预测模型 [J].中国民航大学学报,2013,31(2):80-84.
[6] 华逸群,曹健.机票价格预测的模糊时间序列方法 [J].小型微型计算机系统,2016,37(11):2547-2551.
[7] 林友芳,蒋鹏,郭晟楠,等.基于卷积神经网络的机票低价预测 [J].北京交通大学学报,2019,43(5):1-9.
[8] 单文煜,吴垠,陈鹏.基于机器学习的机票价格预测研究 [J].现代计算机,2020(22):35-38.
[9] 姚悦.基于多预测模型的机票价格预测 [D].南京:东南大学,2021.
[10] 王双,徐瑶,韩建云,等.基于机器学习算法的机票价格预测研究 [J].民航学报,2022,6(5):16-20.
作者简介:高栋(1982—),男,汉族,浙江绍兴人,高级工程师,硕士研究生,研究方向:系统工程、机器学习;温建波(1990—),男,汉族,河北张家口人,工程师,本科,研究方向:系统工程、机器学习;张凯伦(1991—),女,汉族,河北唐山人,工程师,硕士研究生,研究方向:数据分析、数据仓库;于嘉璐(1998—),女,汉族,河南洛阳人,初级工程师,硕士研究生,研究方向:数据分析、数据仓库;张思琪(1990—),女,蒙古族,辽宁朝阳人,工程师,硕士研究生,研究方向:数据分析、数据仓库。