郑蕙 李庆玲
基金项目:湖南省自然科学基金项目(青年基金)“基于网络数据驱动的景区客流迁移建模与预测研究”(基金号:2018JJ3259);教育部产学研协同育人项目“数字孪生技术在旅游数据中心应用与人才培养实践(2020年第一批次)”。
21世纪后,我国旅游业开始迈入大众化旅游时代,中国旅游市场更加蓬勃发展,中国成为世界最大的国内旅游市场、世界第一大国际旅游消费国、世界第四大旅游目的地国家,呈现出“国内旅游市场高速发展、入出境市场平稳发展”的态势。使用搜索引擎查询、规划旅游行程已经成为越来越多人的选择,并进行了大量实证研究。国外利用网络搜索关注度指标数据进行预测的历史最早可以追溯至2009年,研究者们通过对谷歌记录的大量网络搜索关注度指标数据进行分析,构建出基于谷歌搜索数据的监测模型。国内对于利用网络搜索关注度指标数据进行研究的起步相对较晚,也逐步建立了百度指数旅游相关数据与热点旅游城市客流量之间的数据模型,成功预测景区客流量。总结国内外的文献后,可以看出虽然利用搜索引擎提供的网络搜索关注度指标数据进行学术研究的起步较晚,但是已经发展得较为成熟,不仅相关研究数量众多,更涵盖了多个领域,其研究结果在多个领域得到了证实,具有一定的实践意义。
本文确定旅游六要素“吃、住、行、游、购、娱”关键词的取词范围,将关键词地域限定于湖南省长沙市,取“美食、住宿、地图、旅游、特产、景点”为基准关鍵词,并在此基础上加入“天气”这一对旅游活动重大影响的延伸关键词,在基准关键词下拓展了“岳麓山”“橘子洲”“湖南省博物馆”“长沙工艺品”“长沙臭豆腐”等一共12个关键词数据,借助百度指数查询与长沙市相关的旅游方面的关键词,作为网络搜索关注度指标数据,查询、统计、分析相关数据的搜索指数。通过查询2008—2018年长沙市统计局官网发布的多篇《长沙统计年鉴》可知此期间长沙市实际接待国内游客数量的年度数据,用Y表示,详细数据如表1所示。
本文通过百度指数平台收集了2008年1月1日—2018年12月31日范围内12个网络搜索关注度指标数据的年度搜索指数。受平台数据影响,2008年1月1日—2010年12月31日的搜索数据仅限于PC趋势数据,2011年1月1日以后数据为综合搜索指数数据。在对前文提到的12个网络搜索关注度指标数据进行加总处理后,将美食、住宿、地图、旅游、特产、景点、天气、岳麓山、橘子洲、湖南省博物馆、工艺品、臭豆腐12个关键词分别记为X1,X2,X3,…,X11,X12,得到网络搜索关注度指标数据。
通过SPSS进行Pearson相关系数分析,对前文提到的网络搜索指标数据与长沙市实际国内游客数量进行相关性分析(见表2)。Pearson相关系数有衡量线性关联性程度的功能,相关系数的绝对值大小体现了变量之间的相关性强弱,相关系数的绝对值越大,相关性越强。相关系数越大,说明网络搜索关注度指标数据变化趋势与长沙实际国内游客量变化相似程度之间越接近且相似。
将X记作网络搜索关注度指标数据,Xi(i= 1,2,3,……,n)记作时间序列数据,用以表示每一年的网络搜索关注度指标数据,X—为网络搜索关注度指标数据,每年数据的平均值数据,Y记作长沙市年度实际国内游客数量,Yi(i=1,2,3,……,n)记作时间序列数据,Y—
记作Y每年数值的平均值数据,rXY记作X、Y的Pearson相关系数。rXY绝对值越大,表示X与Y之间的相关性则越强,rXY为正时,X与Y之间为正相关,反之则相反。0.8~1.0极强相关;0.6~0.8强相关;0.4~0.6中度程度相关;0.2~0.4弱相关,但相关系数的取值总是在-1.0~1.0。显著性记为sig,sig=0.000说明显著性水平p值小于0.001,即相关系数在0.001水平显著,水平越小,判定显著性的证据就越充分。数据说明,选定的网络搜索关注度指标数据与长沙市国内游客量具有一定的相关性,相关系数越高则相关性越强,相关系数可在一定程度上反应长沙市国内游客量状况;景点(X6)、特产(X5)、橘子洲(X9)占据相关系数的前三,呈现出极强的相关关系;工艺品(X11)、地图(X3)相关系数为负,说明这2项数据与长沙市国内游客量相关性极弱,难以从这两项数据判断长沙市国内游客数量。
本文采用主成分-逐步回归分析法,结合长沙市2008—2018年国内游客数量数据以及根据百度指数搜索总结得出网络搜索关注度指标数据,进行数据分析后建立预测模型,利用长沙市2019年实际国内游客数量数据对预测模型进行检验,证明网络搜索关注度指标数据与长沙市实际国内游客数量有相关关系,且能够基于网络搜索关注度指标数据预测游客数量,利用ARIMA预测模型对长沙市未来5年内的国内游客数量计算预测值,做出2008—2024年长沙市国内游客数量变化趋势图,并进行相关分析。
(一)主成分分析
主成分分析指多个指标经过降维处理后转化成少数几个综合指标的方法,利用主成分分析能够达到在确保数据信息损失最小的原则下,达到压缩指标个数、简化数据的目的。降维处理后的综合变量依旧保留原始变量的众多信息,且能够使变量之间互不相关。本文一共收集了12个网络搜索关注度指标数据,由于原数据之间具有一定的相关关系,为了避免具有相关关系的变量数据太多而导致研究结果的信息重叠,本文将通过主成分分析处理原先的所有变量数据,根据比较影响系数大小,得出综合变量数据。
(二)逐步回归分析
回归分析是进一步检测变量之间相互依赖关系程度的一种统计分析方法。从相关分析的结论中得出,运用SPSS软件中的多元回归分析方法对各重要指标自变量与因变量进行回归分析,采用了较为常见的逐步回归法,通过观测所有变量顺序进入回归方程式中,以期观测各变量对回归模型的影响是否显著。
逐步回归的基本思想是:一个一个引入变量,每引入一个变量时,要对已选入的变量进行逐个检验。当原引入的变量由于后面变量的引入而变得不再显著时,则剔除该变量。这个过程反复进行,直到既无显著的变量选入方程,也无不显著自变量从回归方程中剔除为止,使最后得到的解释变量集为最优。
在逐步回归模型运算中,以各个X为自变量,Y为因变量做线性逐步回归,得到逐步回归方程的检验结果。利用SPSS进行逐步回归分析,计算結果如表3所示。
在表3的模型摘要中,主要计算了R,最主要是做R检验,R检验表示:在模型拟合度检验中,调整后的R2=0.984,说明自变量可以解释因变量98.4%的变异度,R2越接近1,则说明模型的拟合效果越好,说明在引用X6变量引用至回归方程时,网络搜索关注度指标数据与长沙市国内游客数量的拟合程度较高,网络搜索关注度指标能够很好反应长沙市国内游客数量。
(三)基于AMIRA预测模型的长沙市国内游客数量趋势
根据长沙市2008—2019年实际国内游客数量进行AMIRA预测模型,预测长沙市未来5年内的游客数量,得到长沙市2020—2024年国内游客数量预测值,如表4所示。
根据长沙市200—2019年实际国内游客数量,基于AMIRA模型预测长沙市2020—2024年国内游客数量预测值,形成2008—2024年国内游客数量变化趋势图,如图1所示。
由图1可以看出,在2008—2024年,长沙市国内游客数量正处于不断增长的发展趋势中,增长势头良好,长沙市旅游产业依旧具有较大的发展空间。
与长沙市国内游客数量相关系数较高、联系较为密切的是长沙景点、长沙特产、橘子洲、岳麓山、长沙美食、长沙臭豆腐、湖南省博物馆、长沙天气这些网络搜索关注度指标,相关系数越高表示旅游者在搜索旅游地相关信息的搜索频率越高,体现了旅游者对此类旅游信息的关注程度和消费需求。从旅游六要素的类型看,这些网络搜索关注度指标数据主要涵盖了游、购、食3个方面,说明旅游者尤其关注长沙旅游产业以下几个方面:①加大旅游景点建设力度,提升旅游服务卓越品质;②关注旅游购物市场,完善旅游购物消费机制;③推动长沙美食营销,扶持长沙特色美食发展。
本文收集了长沙市2008—2018年国内游客数量的数据,并收集了相同年度范围内部分与长沙旅游有关的“长沙景点”“长沙美食”等网络搜索关注度指标数据,利用Pearson相关系数对这两类数据进行研究分析后发现,网络搜索关注度指标数据与游客数量之间具有较强的相关关系。实证发现,以长沙市网络搜索关注度指标数据为自变量,利用主成分-逐步回归预测模型能够预测出长沙市国内游客数量的实际值,且预测效果良好,相对于利用传统数据进行的传统预测模型结果准确率更高,且时效性更强。
(作者单位:湖南工商大学旅游管理学院)