成渝经济圈5A 级旅游景区网络关注度研究

2022-06-20 14:50范乐瑶
合作经济与科技 2022年13期
关键词:关注度季节性经济圈

□文/冯 潇 范乐瑶

(电子科技大学成都学院 四川·成都)

[提要] 通过爬虫程序获取百度指数平台上2012~2021 年成渝经济圈5A 级旅游景区月搜索指数数据,分析各景区网络关注度的年度和月度趋势特征;利用Python3 对2012~2019 年月度数据构建SARlMA 模型,并运用网格搜索法对模型进行参数寻优;利用最优模型SARlMA(0,1,1)(0,1,1)12 对2020~2021 年月网络关注度进行预测,并将预测结果与ARlMA 模型的预测结果进行对比分析。研究表明:(1)成渝经济圈各5A 级旅游景区的网络关注度存在较大差异,其中成都市和乐山市的5A 级旅游景区网络关注度较高;(2)成渝经济圈5A 级旅游景区网络关注度时间分布具有显著的季节性和假期性特征;(3)SARlMA 模型比ARlMA 模型预测精度更高,更能反映成渝经济圈5A 级旅游景区网络关注度的趋势特征。

游客在进行旅游活动之前,通常会通过互联网对旅游景区进行搜索,而这种网络关注情况被认为是旅游目的地客流量的前兆。因此,研究旅游景区网络关注度变化趋势,对把握游客旅游意向、分析未来潜在客流量、促进旅游持续发展等具有重要意义。

基于百度指数的旅游景区网络关注度研究主要分为以下四类:第一,探究景区网络关注度的时空特征,该类研究侧重于使用季节性集中指数、地理集中指数等,或通过GIS 空间分析法分析网络关注度的时空特征。如,杜梦珽等(2020)利用洪崖洞百度指数搜索数据,研究洪崖洞网络关注度时空分布及变化特征;朱豆豆等(2021)分析新疆8 个热门景区网络关注度的时空差异特征,并运用回归和相关性分析法探究其影响因素。第二,利用景区网络关注度的时空特征提出相应的营销策略。如,周晓丽(2019)基于五台山日网络搜索数据构建五台山客源市场的“重要性-发展潜力”矩阵,并提出相应的营销策略。第三,探究景区网络关注度和实际客流量的相关关系。如,马莉等(2018)研究发现长三角地区40 个城市的每日实际游客量与网络关注度之间存在因果关系,即网络关注度是游客量变动的前兆。第四,利用景区网络关注度对未来游客量趋势进行预测。如,康俊锋等(2020)基于上海市的百度搜索数据和旅游人数数据构建ARIMA 旅游趋势预测模型。

本文以成渝经济圈5A 旅游景区的月百度搜索指数为研究对象,分析2012 年1 月~2021 年12 月5A 级旅游景区网络关注度的时间变化特征,建立SARIMA 模型对各景区网络关注度进行预测,以把握未来旅游网络关注度变化情况,为成渝经济圈5A 旅游景区及旅游管理相关部门提供决策依据。

一、研究方法

(一)季节性集中指数。季节性集中指数(R)用于反映一年内旅游网络关注度的季节性变化:

其中,xi为第i 月的网络关注度。R 值越大,表明年内每月网络关注度差异越大,即关注度受季节性影响较大,淡旺季较明显;R 值越接近于0,表明年内每月网络关注度分布较均匀,即关注度受季节性影响较小,淡旺季不明显。

(二)ARlMA 模型。ARIMA 模型,即差分自回归滑动平均模型,是由Box 和Jenkins(1970)提出的时间序列预测方法,该方法通过差分处理将时间序列转化为平稳时间序列,利用其过去值预测未来值,并将误差项累加以消除预测中的随机波动。ARIMA 模型构建的基础为ARMA(p,q)模型:

其中,p 和q 分别为自回归阶数和移动平均阶数。若原序列在d 次差分之后得到平稳时间序列wt,并对wt建立ARMA(p,q)模型,即得到ARIMA(p,d,q)模型。

(三)SARlMA 模型。SARIMA 模型,即季节性差分自回归滑动平均模型,是在ARIMA 模型的基础上进行了季节性调节,对具有季节性波动的时间序列有较高的预测精度。该模型可以表示为ARIMA(p,d,q)×(P,D,Q)S,其中,(p,d,q)为模型非季节性部分,与ARIMA(p,d,q)模型参数的含义相同,(P,D,Q)S为模型季节性部分,P 为季节性自回归阶数,D 为季节性差分阶数,Q 为季节性移动平均阶数,S 为季节性周期长度。

二、实证分析

(一)数据来源。百度指数是以网民海量搜索数据形成的数据分享平台,提供了2011 年至今各关键词的每日搜索量数据。基于百度指数平台,本文将景区关键词检索到的移动端搜索指数和PC 端搜索指数之和称作“网络关注度”,反映游客在互联网上对成渝经济圈5A 级旅游景区的关注程度。将成渝经济圈中所有5A 级景区的代表性关键词进行搜索,发现重庆市黔江区濯水景区没有被百度指数收录,故本文以成渝经济圈的11个5A 级景区为研究对象,其中四川省7 个、重庆市4 个,如表1 所示。本文通过Python 爬虫程序搜索景区关键词,获取了2012 年1 月~2021 年12 月11 个景区每月百度移动端和PC端搜索指数数据。(表1)

表1 成渝经济圈5A 级旅游景区地域分布与搜索关键词一览表

(二)成渝经济圈5A 级旅游景区网络关注度时间分布特征

1、景区网络关注度年度分布特征。分类汇总求出11 个5A

级旅游景区的年度网络关注度,并绘制图1。从整体来看,2012~2017 年游客对成渝经济圈内5A 级旅游景区的网络关注度呈逐年上升趋势,而2018~2021 年的关注度均较2017 年有不同程度的下降,其中2020~2021 年受新冠肺炎疫情的影响,游客出行受到一定限制,故11 个景区整体关注度下降较明显。从各旅游景区网络关注度数量上看,11 个景区的网络关注度存在明显差异,受网络关注最高的5A 级旅游景区是成都市青城山-都江堰旅游景区,其次是乐山市乐山大佛景区和峨眉山景区。2012~2021 年3 个景区的网络关注度远高于其他8 个景区,表明3 个景区的知名度较高,游客出游意愿更强。而受网络关注最低的两个景区是邓小平故里旅游区和朱德故里景区。与其他9 个景区不同,邓小平故里旅游区和朱德故里景区属于红色文化型旅游景区,而游客对两个景区网络关注度较低,表明这两个景区的红色文化影响力和知名度有待进一步的提升。(图1)

图1 成渝经济圈5A 旅游景区网络关注度年度变化图

2、景区网络关注度月度分布特征。图2 显示了每年成渝经济圈5A 级旅游景区网络关注度月度分布情况。从平均值变化趋势上看,平均值曲线表现为倒“V”型,其中7~8 月是成渝经济圈旅游备受关注的高峰时期,说明成渝地区能够吸引更多的学生和家长,暑假期间该地区亲子游、毕业游等市场火爆。此外,4 月和10 月也是受关注较高的时间段,说明清明节、“五一”节和国庆节成渝地区气候较为适宜,同样是旅游、登山的热点时段。而11 月~次年1 月成渝经济圈5A 级旅游景区关注度为全年最低,说明成渝地区冬季气温较寒冷,游客出游意愿不强。对比每年网络关注度月度变化趋势,发现2012~2019 年的成渝经济圈5A 级旅游景区网络关注度月度变化趋势近似,而受疫情因素影响,2020 年2 月和2021 年8 月的关注度走势与其他年份差异较大。计算2012~2021 年成渝经济圈5A 级旅游景区的季节性强度指数,结果见表2。表2 显示,每年的季节性集中指数均大于1,表明成渝经济圈5A 级旅游景区网络关注度的季节性差异显著,存在明显的淡季和旺季。(图2、表2)

表2 成渝经济圈5A 级旅游景区网络关注度季节性强度指数一览表

图2 成渝经济圈5A 级旅游景区网络关注度月度变化图

(三)实证分析。选取2012~2019 年成渝经济圈5A 级旅游景区的月网络关注度数据为训练集,基于Python3 建立SARIMA 模型,对2020~2021 年月网络关注度进行预测,同时建立ARIMA 模型进行对比分析。

1、平稳性检验。图3 显示,2012~2019 年成渝经济圈5A 级旅游景区的网络关注度变化情况与趋势,从图中可识别出该序列为非平稳时间序列,且具有周期性,故需要对原始序列数据进行差分处理,使其变为平稳时间序列。根据单位根(ADF)检验结果,1 阶差分后的检验统计量的值为-3.0657,小于显著性水平5%的临界值,即1 阶差分后的序列是平稳的,无需进行2阶差分,因此确定非季节性差分阶数d=1。(图3、表3)

图3 2012~2021 年成渝经济圈5A 级旅游景区网络关注度月时序图

表3 序列差分ADF 检验结果一览表

2、SARlMA 模型与ARlMA 模型构建。对1 阶差分后的序列数据绘制自相关函数(ACF)与偏自相关函数(PACF)图。图4显示ACF 和PACF 在12 阶、24 阶位置出现尖峰,表明序列有周期为12 个月的波动,故SARIMA 模型中季节性周期长度S为12。为更准确地确定SARIMA(p,1,q)(P,D,Q)12模型的其余参数,本文通过网格搜索法进行遍历寻参,选择贝叶斯信息准则BIC 作为模型的评估指标,并绘制热力图5 所示。图5 显示,当非季节性自回归阶数p 和移动平均阶数q 分别取0、1,且季节性自回归阶数P、差分阶数D 和移动平均阶数Q 分别取0、1、1 时,SARIMA 模型的BIC 有最小值485.0,此时模型最优。(图4、图5)

图4 成渝经济圈5A 级旅游景区网络关注度月度数据的ACF 与PACF 图

图5 不同参数下SARIMA 模型BIC 值热力图

绘制图6,对SARIMA(0,1,1)(0,1,1)12模型的残差序列进行诊断,可知该模型残差序列基本稳定,无趋势或季节项,且残差服从正态分布,不存在自相关,故可判定该模型残差序列为白噪声序列,说明SARIMA(0,1,1)(0,1,1)12模型提取序列信息较充分,拟合效果较好。同理,基于网格搜索法对ARIMA(p,1,q)模型进行遍历寻参,如图7 所示,此时最优模型为ARIMA(1,1,1)。(图6、图7)

图6 SARIMA(0,1,1)(0,1,1)12 模型残差诊断图

3、模型预测与对比分析。运用建立的SARIMA(0,1,1)(0,1,1)12模型和ARIMA(1,1,1)模型对2020 年1 月~2021 年12 月成渝经济圈5A 级旅游景区网络关注度进行预测,并采用均方根误差(RMSE)作为模型的评估指标:

其中,y^i为预测值;yi为真实值。模型的拟合结果和预测结果如图8 所示,可看出SARIMA(0,1,1)(0,1,1)12模型的拟合效果优于ARIMA(1,1,1)模型,且SARIMA(0,1,1)(0,1,1)12模型更能够预测后疫情时代游客对成渝经济圈5A 级旅游景区网络关注度的趋势变化。根据表4 中的RMSE 计算结果可以得知,SARIMA(0,1,1)(0,1,1)12模型在训练集和测试集上的误差均小于ARIMA(1,1,1)模型,表明利用SARIMA(0,1,1)(0,1,1)12预测成渝经济圈5A 级旅游景区网络关注度的准确度更高,实用性更强。(图8、表4)

表4 SARIMA 模型和ARIMA 模型预测误差对比一览表

?

图8 SARIMA 模型和ARIMA 模型拟合预测对比图

三、结论

本文基于2012 年1 月~2021 年12 月百度指数平台的月搜索数据,对成渝经济圈5A 级旅游景区网络关注度的年度、月度变化趋势进行统计分析,利用SARIMA 模型对景区网络关注度月度变化趋势进行预测,并与ARIMA 模型进行对比分析。

总地来看:(一)受疫情因素影响,2020~2021 年游客对成渝经济圈5A 级旅游景区整体关注度呈下降趋势。2012~2021年11 个5A 级旅游景区的网络关注度之间存在较大差异,游客对青城山-都江堰、峨眉山和乐山大佛关注度较高,出游意愿更强。(二)成渝经济圈5A 级旅游景区网络关注度的季节性差异显著,存在旺季和淡季之分,即7~8 月暑假期间通常是成渝经济圈地区旅游备受关注的旺季时期,而寒冷的冬季则是旅游网络关注度的淡季时期。(三)SARIMA 模型比ARIMA 模型更能够拟合并预测成渝经济圈5A 旅游景区的趋势特征,具有较好的实用性。但该模型完全依赖于数据本身,没有考虑疫情等其他影响因素,因此研究过程具有一定的局限性,未来可引入网络关注度的影响因素,并组合其他时间序列模型对网络关注度进行预测研究。

猜你喜欢
关注度季节性经济圈
季节性需求放缓 钾肥价格下行
蔬菜价格呈季节性回落
远离季节性过敏
雄安新区媒体关注度
全国两会媒体关注度
暴力老妈
首都经济圈建设存在问题及对策建议
论兰州经济圈体育公共服务体系建立的必要性
首都经济圈京津冀分产业区位优势研究
优势互补 整合资源 实现环渤海经济圈巨龙腾飞