基于数据驱动的旅游需求预测研究

2022-07-04 11:58胡亚敏方润月
关键词:客流量九寨沟神经网络

胡亚敏,杨 力,方润月

基于数据驱动的旅游需求预测研究

*胡亚敏1,杨 力2,方润月3

(1. 安徽理工大学人文社会科学学院,安徽,淮南 232001;2.安徽理工大学经济与管理学院,安徽,淮南 232001;3.安徽理工大学数学与大数据学院,安徽,淮南 232001)

合理预测景区客流量不仅可以为景区提供参考,更是旅游治理体系和治理能力现代化建设的内在要求。基于九寨沟风景区官网于2012年5月至2021年5月披露的每日客流量数据,运用Python爬取与九寨沟旅游相关的搜索行为数据和九寨沟每日平均气温,构建ARIMA、SVR模型和加入百度搜索指数与日平均气温的LSTM神经网络模型,对九寨沟风景区客流量进行拟合和预测。结果表明,LSTM神经网络模型预测精度高于ARIMA和SVR模型,加入百度搜索指数和日平均气温的LSTM神经网络模型可以显著提升客流量预测精度。

旅游需求预测;九寨沟;LSTM神经网络模型;ARIMA模型;SVR模型

在全域旅游、文旅融合发展的背景下,旅游需求预测有助于旅游市场的平稳运行,也是旅游治理体系和治理能力现代化建设的内在要求。学术界有关旅游客流量的预测研究取得了丰硕成果,在预测时段上,可以分为中长期预测和短期预测,涉及的预测方法主要有时间序列模型、计量经济模型和机器学习三大类。早期的研究方法多以时间序列模型为主,其中应用最为广泛的是Box-Jenkins模型,包括MA(移动平均模型)、AR(自回归模型)、ARMA(自回归移动平均模型)和ARIMA(综合自回归移动平均模型)[1-3],其原理是通过研究历史规律,建立线性回归关系,对变量的稳定性有较高要求,无法深入研究客流量的形成原因[4]。为解决上述问题,学者们将时间序列模型与其它模型进行了组合。如韩兆洲等[5]建立了GIOWHA-GALSSVR-SARIMA组合模型,预测广东省接待过夜游客数。李乃文等[6]结合ARIMA模型与RBF神经网络估测了我国入境旅游人数。计量经济模型则多以ADLM(自回归分布滞后模型)和VAR(向量自回归模型)为主[7-8],主要研究外部因素,如汇率、价格、收入等对客流量的影响,可探究变量间的定量关系和因果关系,在一定程度上弥补了时间序列模型的缺陷。近些年,计量经济模型也逐渐与其它模型进行组合,例如,Assaf等[9]引入了空间自回归固定效应模型,并将贝叶斯模型引入了VAR,提高了预测精度。随着人工智能技术的发展,机器学习在预测客流量方面的应用越来越多,集中于人工神经网络、深度学习和支持向量机上。如陆文星等[10]基于改进的PSO-BP神经网络算法预测了黄山短期客流量;陆利军等[11]则以张家界为研究对象,创建了EMD-BP神经网络。在支持向量机研究上,陈荣等[12]基于SEA的AGA-SVR模型预测了节假日的客流量,王兰梅等[13]用灰狼算法优化支持向量回归,提出了GWO-SVR模型。

深度学习是在人工神经网络的基础上发展而来的,具有较强的拟合能力,因此被广泛应用于公交、地铁客流量预测、股票价格预测、GDP增速预测等多个领域[14-17]。目前,KELM(核极限学习机)和LSTM(长短时记忆神经网络)是深度学习在旅游客流量预测方面运用较多的两种方法。Shaolong Su等[18]融合了百度指数和谷歌指数构建的客流量KELM序列模型拥有较高的预测精度和稳健性。倪田[19]搭建了SPCA-LSTM模型研究四姑娘山日客流量;Rob Law等[20]通过构建旅游需求预测概念框架,添加注意机制,验证了LSTM模型在旅游需求预测中的能力。

纵观旅游客流量研究发展历程,可以发现,研究方法和手段不断从单一模型走向多元组合模型,从数理统计走向动力理论。基于此,本文以九寨沟风景区为研究对象,引入百度搜索指数,分别构建包含搜索指数和日平均气温的LSTM神经网络模型和不包含因素的ARIMA模型、SVR模型,对九寨沟风景区客流量进行拟合和预测,同时对三类模型的预测结果进行比较。

1 数据来源及描述

1.1 数据来源

首先,采用九寨沟官网于2012年5月25日至2021年5月18日披露的每日进沟人数作为旅游客流量数据来源。其次,通过气象网站收集九寨沟每日最低温度和最高温度,取其平均值,形成每日平均气温数据。最后,借助自编译的Python搜寻器工具从百度指数网站收集与九寨沟客流量相关的5个关键词(“九寨沟”、“九寨沟天气”、“九寨沟旅游攻略”、“九寨沟门票”、“九寨沟景点”)的每日百度搜索指数。综上,共统计了2526条数据,删去景区限流期间的数据后,最终得到1887条数据,分别整理成所需的数据集,供本研究分析。

1.2 客流量变化趋势

2017年8月8日,受地质灾害影响,九寨沟闭园整修,待重新开放后因各种原因限流,后又遇新冠肺炎疫情。因此,为降低不可控因素对客流量预测造成的影响,研究特将数据划分为两个阶段,分别是2012年5月25至2017年8月7日及2018年3月8日至2021年5月18日。通过图1和图2可以看出,客流量呈现明显的季节趋势,因此采用时间序列的季节性预测方法来进行拟合。

图1 2012年-2017年客流量变化趋势

图2 2018年-2021年客流量变化趋势

1.3 百度搜索指数变化趋势

通过比较前文选取的5个关键词的百度搜索指数趋势可以发现,百度搜索指数的变化趋势(图3)与景区客流量变化趋势大致吻合,说明百度搜索指数对预测客流量具有一定的参考价值。

图3 百度指数关键词搜索趋势

2 预测模型构建

2.1 LSTM神经网络模型

LSTM神经网络是RNN的延伸拓展结构,在提取时间序列数据的非线性成分时具有显著优越性,且能够通过存储单元处理长期依赖性问题,克服了RNN的局限性,适合用于本研究。LSTM的网络结构如图4所示。

图4 LSTM网络结构图

LSTM中的一个存储单元由一个记忆细胞、遗忘门(f)、输入门(i)和输出门(o)组成。f表示遗忘门的阈值,通过sigmoid激活函数控制上一个存储单元的遗忘概率,输出为0即上个存储单元的信息全部遗忘,输出为1即绝对保留上个存储单元的信息。i表示输入门的控制信号,用于决定新信息被更新的程度,通过tanh激活函数生成新记忆后与控制信号逐元素相乘,最终决定新信息进入神经元状态的数量。o表示输出门的控制信号,通过sigmoid激活函数决定神经元状态需要被输出的部分,当前神经元状态经过tanh激活函数处理后再与该控制信号逐元素相乘,得到最终的输出结果。LSTM神经网络的前馈计算公式具体如下:

2.2 ARIMA模型

ARIMA模型是自回归移动平均模型的广义模型,是结合自回归(AR)和移动平均(MA)过程建立起的时间序列的复合模型。ARIMA模型的构建过程如下:

2.2.1 数据预处理

首先对时间序列数据进行平稳性检验,若原序列不平稳,采用差分或先对数变换再差分的方法,将非平稳时间序列转换为平稳序列。本研究采用ADF单位根检验法进行检验。

2.2.2 模型识别

针对平稳序列,通过观察ACF自相关图和PACF偏自相关图截尾情况大致判断、的值。再进一步按照AIC信息准则定阶,选取AIC值最小时的阶数作为自相关阶数和移动平均阶数。

2.2.3 参数估计

对确定好阶数的模型进行参数估计。由于旅游景区存在旺季和淡季,因此关于客流量的时序数据可能包含季节因素,带季节性的ARIMA模型也许更能反映九寨沟景区游客人数的时间序列数据特征。

2.2.4 模型检验

检验残差是否为白噪声序列,若残差序列通过白噪声检验,说明时间序列中有用的信息已经被提取完毕。本文采用残差序列的QQ图和自相关性对残差进行检验。

2.2.5 序列预测

运用最终确定的ARIMA模型,以2012-2021年九寨沟客流量数据为基础,分别对划分出的训练集和测试集进行预测。

2.3 SVR模型

支持向量回归(SVR)是基于支持向量机(SVM)提出的一种回归算法。本文研究的客流量是非线性数据,需要通过非线性变换将训练样本映射到高维空间,使得在高维空间中样本的分布更有规律性。

设给定的训练样本(xy),=1,2,…,;x=Ry∈;x为输入向量,即客流量的影响因素;yx对应的输出值,即客流量的预测值;为训练样本个数,依据如下表达式进行估计:

其中,x为训练集输入值,为测试集输入值。

3 实证分析

在理论基础上,进行模型训练,首先对数据进行标准化处理,随后运用LSTM、ARIMA、SVR模型分别进行训练并进行对比分析。

3.1 数据标准化处理

大数据分析中,数据来源不同,量纲及量纲单位不同,采用标准化方法消除由此带来的偏差,使其具有可比性。在本次建模前先对数据进行标准化处理,即对样本矩阵作如下变换:

3.2 LSTM模型预测分析

3.2.1 初步训练分析

数据进行标准化处理后,对得到的1887条数据按照7:3的比例从原始数据集中随机划分出训练集和测试集,将训练集用于模型拟合的数据样本,将测试集用于模型泛化能力的评估。基于Python的深度学习框架torch.nn建立了关于九寨沟旅游景区客流量预测的LSTM模型。以5个百度搜索指数和九寨沟日平均温度作为输入的6个特征,日客流量作为输出特征。

设定模型的原始参数为:optimizer:Adam,num_layers:6,hidden_size:5,表示LSTM神经网络中含有6个隐藏层,每层中的神经元数为5,Adam作为模型优化器。以此对建立的LSTM神经网络模型进行训练,并绘制模型在训练集和测试集上的预测值与样本真实值的对比图,如图5所示。

由于本次实验选用的数据相对较多,为了更清晰地反映预测情况,以下所有对比图均随机选取了其中的150个数据点来绘制预测情况。从图5中可以看出,训练集和测试集的预测精度均不高,预测值与真实值之间吻合得较差,存在一定的偏差。采用平均绝对误差(MAE)、均方根误差(RMSE)作为模型的衡量指标,定义如下:

结果显示,初始模型的平均绝对误差MAE为2086.8638,均方根误差RMSE为2505.802,表明模型具有进一步优化的空间。

3.2.2 优化训练分析

考虑建立的初始模型并不是最优模型,对景区客流量的预测存在较大偏差,因此,进行了模型优化以使得模型的性能更好。本研究利用grid search进行模型最优参数的选择,先为模型中不同的超参数设置一个值列表,随后通过遍历每个超参数的组合来评估模型的性能,并选出使得模型性能最佳的参数组合,最后运用最优参数组合进行预测。

利用Python的sklearn库中的GridsearchCv来进行最优参数的选择。考虑影响LSTM模型的主要参数为optimizer、num_layers和hidden_size,因此将用于最优模型选择的参数组合设置如下:parameters:[{'optimizer':['Adam','SGD'],'num_layers':[3,6],'hidden_size:'[5,10,15]}。

图6 不同超参数组合对应的RMSE图

图6表示不同超参数组合对应的RMSE。可以看出优化器为Adam,隐藏层数为3,每层中的神经元数为15时,LSTM模型的均方根误差最小。因此选择的最优参数组合为parameters:{ optimizer ='Adam',num_layers =3, hidden_size =15}。利用最优参数组合对九寨沟景区客流量预测的结果如图7所示。

从图7中可以看出优化后的模型对于九寨沟景区客流量的预测更加接近于真实值,相比初始LSTM模型,其性能有较大的提升,优化后模型的训练误差和测试误差均处于较低水平(见图8)。优化后模型的平均绝对误差MAE为807.3074,均方根误差RMSE为957.775,相较于优化前的模型均有了明显的下降,模型得到了良好的改善。

图8 优化后模型的误差图

3.3 ARIMA模型预测分析

利用Python软件,构建ARIMA模型进行预测。由于原始序列数据值较大,因此首先对原序列做对数变换。从客流量的变化情况来看,客流量数据存在明显的季节性趋势,即随着时间的推移而定期重复的循环趋势。因此预测前对数据使用季节差分去除季节性趋势,去除趋势后的时序图如图9所示。

图9 去除季节性趋势后的时序图

首先对去除季节性趋势后的九寨沟景区客流量时序数据进行ADF平稳性检验,检验原始序列的平稳性。结果显示,=5.23324×10-5< 0.05,表明在0.05的显著性水平下,原序列通过平稳性检验,序列平稳(见表1)。

表1 平稳性检验

Table 1 Stationarity test

Test Statistic Value-4.80873 p-value5.23324e-05 Lags Used22 Number of Observations Used1498 Critical Value(1%)-3.43472 Critical Value(5%)-2.86347 Critical Value(10%)-2.5678

其次,对模型进行定阶。为了确定ARIMA模型中自相关阶数和移动平均阶数,绘制了自相关图和偏自相关图初步判断、的值(见图10)。

图10 自相关图和偏自相关图

由图10可知,自相关系数拖尾,偏自相关系数截尾,符合AR(p)模型的特征。其中偏自相关图显示在滞后8阶之后,偏自相关系数大致回到置信边界内。进一步根据AIC最小准则不断调整的大小,最终确定的九寨沟景区客流量ARIMA模型为ARIMA(8,0,0),模型结果如表2所示。

表2 ARIMA模型结果

Table 2 ARIMA model results

Result:ARIMA Model:AIC: constar.L8.num AR.8ARMA1332.4368Coef.0.0865-0.2513Real1.2373BICHQICt1.5876-10.1481Imaginary0.00001385.70811352.269P>|t|0.11240.0000Modulus1.2383

随后检验ARIMA模型的残差序列是否为高斯白噪声序列。结果显示,残差序列的Ljung-Box检验结果的值均大于0.05,DW检验值为1.997,接近于2。从QQ图中也可以看出残差近似服从正态分布,即残差序列为白噪声序列,不存在自相关性,表明构建的ARIMA模型是有效的。

图11 ARIMA模型残差QQ图

最后将构建的ARIMA(8,0,0)用于预测九寨沟景区的客流量,从图12中看出ARIMA模型对于数据的拟合效果不是很好,预测值与真实值之间偏差较大。模型的MAE为2694.018,RMSE为4300.942。

图12 ARIMA模型的预测值与真实值的对比

3.4 SVR模型预测分析

图13 SVR模型的预测值与真实值的对比

从图13中可以看出,SVR模型的预测值与真实值之间存在偏差,预测结果精度不高。SVR模型的MAE为3691.463,RMSE为4845.491。

3.5 模型评价及对比分析

本研究采用LSTM神经网络模型、ARIMA模型和SVR模型对九寨沟景区客流量进行预测,运用平均绝对误差(MAE)和均方根误差(RMSE)评估三个模型的预测性能。结果表明,LSTM神经网络模型的预测更加接近于真实值,且LSTM神经网络模型较ARIMA模型和SVR模型在MAE和RMSE上都有明显的下降。与ARIMA模型相比,MAE下降了70%,RMSE下降了77%;与SVR模型相比,MAE下降了78%,RMSE下降了80%(如表3所示),表明LSTM神经网络模型较ARIMA模型和SVR模型的预测精度更高,也更适合运用于九寨沟景区客流量预测。

本研究主要是针对九寨沟景区客流量数据这一复杂多变的非线性时间序列数据做预测,且数据样本量相对较多,使得LSTM模型的学习能力得到充分发挥,而ARIMA模型和SVR模型显得无能为力。同时,LSTM神经网络考虑了时间、日平均温度和百度搜索指数等多重因素,对九寨沟景区客流量预测与真实输出在总体趋势上均能达成一致。ARIMA模型仅考虑时间因素,将客流量数据作为时序数据处理,没有考虑其它因素对客流量的影响,SVR模型则对大规模数据训练比较困难。因此,LSTM神经网络模型相较于ARIMA模型和SVR模型预测性能更好,也更适合用于预测景区客流量。

表3 三种模型预测精度比较

Table 3 Comparison of prediction accuracy of three models

模型MAERMSE LSTM807.3074957.775 ARIMA2694.0184300.942 SVR3691.4634845.491

4 结论与展望

本研究以九寨沟景区2012年5月25日至2021年5月18日客流量数据为基础,分别采用LSTM模型、ARIMA模型和SVR模型进行预测。结果表明,LSTM模型预测精度较高,在很大程度上可以反映九寨沟风景区每日客流的情况,也较ARIMA模型和SVR模型更适合用于预测客流量此类时间序列数据。

由于客流量数据本身的复杂性,深度学习模型无疑比传统的时间序列分析模型ARIMA、ARIMAX或机器学习模型SVR、RF、ANN更适合用于客流预测,拟合能力更强,预测准确性更高。但LSTM模型仍存在一定缺陷,受数据来源限制,LSTM考虑的外部因素只有气温和百度搜索指数,因素较少,若能获取更加完整精确的相关气象数据如:降水量、空气质量等,同时考虑爬取“携程”、“去哪儿”等知名旅游网站的评论数据,扩充影响因素,筛选出多重重要因素代入模型,会提高模型的预测精度,取得更佳的预测效果。

[1] 孙烨,张宏磊,刘培学,等.基于旅游者网络关注度的旅游景区日游客量预测研究——以不同客户端百度指数为例[J].人文地理,2017,32(3):152-160.

[2] Peng B,Song H Y,Geoffrey Crouch. A meta-analysis of international tourism demand forecasting and implications for practice[J]. Tourism Management,2014,45:181-193.

[3] Ulrich Gunter,Irem Önder. Forecasting international city tourism demand for Paris: Accuracy of uni-and multivariate models employing monthly data[J]. Tourism Management,2015,46:123-135.

[4] 张玲玲,张笑,崔怡雯.基于聚类方法的百度搜索指数关键词优化及客流量预测研究[J].管理评论,2018,30(8):126-137.

[5] 韩兆洲,方泽润.基于GIOWHA-GALSSVR-SARIMA组合模型在旅游需求预测中的应用[J].数学的实践与认识,2019,49(19):69-79.

[6] 李乃文,韩婧婧.基于时间序列修正算法的我国入境旅游人数预测[J].资源开发与市场,2015,31(01):126-128,130.

[7] 任婕.基于向量自回归模型的旅游热门景点预测方法研究[J].现代电子技术,2020,43(3):158-161.

[8] 黄鲲.九寨沟网络关注度分析及客流量预测模型构建[D]上海:上海师范大学,2016.

[9] George Assaf A, Li G,Song H Y,et al. Modeling and forecasting regional tourism demand using the bayesian global vector autoregressive (BGVAR) Model[J]. Journal of Travel Research,2019,58(3):383-397.

[10] 陆文星,戴一茹,李楚,等.基于改进PSO-BP神经网络的旅游客流量预测方法[J].系统科学与数学, 2020, 40(8):1407-1419.

[11] 陆利军,廖小平.基于EMD-BP神经网络的游客量预测研究[J].统计与决策,2019,35(4):85-89.

[12] 陈荣,梁昌勇,葛立新.基于SEA的AGA-SVR节假日客流量预测方法研究[J].旅游科学,2016,30(5):12-23.

[13] 王兰梅,陈崇成,叶晓燕,等.网络搜索数据和GWO-SVR模型的旅游短期客流量预测[J].福州大学学报:自然科学版,2019,47(5):598-603.

[14] 赵建立,石敬诗,孙秋霞,等.基于混合深度学习的地铁站进出客流量短时预测[J].交通运输系统工程与信息,2020,20(5):128-134.

[15] 李佳,黄之豪,王佳慧.基于独立循环神经网络方法的GDP预测[J].统计与决策,2020,36(14):24-28.

[16] 乔若羽.基于神经网络的股票预测模型[J].运筹与管理,2019,28(10):132-140.

[17] 陈深进,薛洋.基于改进卷积神经网络的短时公交客流预测[J].计算机科学,2019,46(5):175-184.

[18] Sun S L, Wei Y J,Tsui K L,et al. Forecasting tourist arrivals with machine learning and internet search index[J]. Tourism Management,2019,70(FEB.):1-10.

[19] 倪田. 基于机器学习的旅游景区日客流量预测方法研究[D].西安:西安理工大学,2020.

[20] Law R, Li G, Fong D, et al. Tourism demand forecasting: A deep learning approach[J].Annals of Tourism Research, 2019,75:410-423.

THE PREDICTION OF TOURISM DEMAND BASED ON DATA DRIVEN

*HU Ya-min1, YANG Li2, FANG Run-yue3

(1. School of Humanities and Social Science, Huainan, An hui 232001, China; 2. School of Economics and Management, Huainan, An hui 232001, China; 3. School of Mathematics and Big Data, Anhui University of Science & Technology, Huainan, Anhui 232001, China)

Reasonable prediction of tourist flow in scenic spots can not only provide reference for scenic spots, but also is the inherent requirement of modernization construction of tourism management system and management capacity. Based on the daily passenger flow data disclosed by Jiuzhaigou scenic spot official website from May 2012 to May 2021, the search behavior data related to tourism in Jiuzhaigou and the daily average temperature were extracted, and the passenger flow of Jiuzhaigou scenic spot was fitted and predicted by constructing ARIMA model, SVR model and LSTM neural network model of adding factors. The results show that the prediction accuracy of LSTM neural network model is higher than ARIMA model and SVR model, and the LSTM neural network model with Baidu search index and daily average temperature can significantly improve the prediction accuracy of passenger flow.

tourism demand forecast; Jiuzhaigou valley; LSTM model; ARIMA model; SVR model

1674-8085(2022)04-0007-08

F590.3 文献识别码:A

10.3969/j.issn.1674-8085.2022.04.002

2021-12-31;

2022-03-15

国家社会科学基金重大项目子课题研究项目(20ZDA084)

*胡亚敏(1998-),女,安徽宣城人,硕士生,主要从事管理决策与分析研究(E-mail:1934360318@qq.com).

猜你喜欢
客流量九寨沟神经网络
基于神经网络的船舶电力系统故障诊断方法
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
基于数据挖掘的景区客流量预测模型研究
己亥秋日九寨沟采风得句
地铁开,玩起来
赴九寨沟道上(外四首)
题九寨沟(外五首)
震后九寨沟纵览(外四首)
基于灰色预测理论在交通枢纽客流量的实际应用