康梓蝶,李啸虎
(新疆财经大学 旅游学院,乌鲁木齐 830012)
伴随经济的快速发展,旅游业的发展也进入了快速增长期,大众旅游消费需求不断升级,对旅游产业发展提出了更高的要求。为避免景区发生因游客量过多而出现承载能力不足的问题,有关部门应在游客量的把控上引起重视,尤其是游客量的预测。精准的预测能够使旅游者、旅游企业以及旅游目的地三方获利,在提高旅游经济发展的同时,一方面有助于旅游目的地景区做出更好的规划,另一方面也能给游客带来更好的旅游体验。
合理的预测需要进行科学的判断,不仅仅需要关注当地景区的承载能力,还需要根据规划和安排做出一系列的应急措施,避免对景区造成不可修复的伤害。对于景区游客量的预测,目前的研究方法多种多样,传统的方式大多使用年鉴数据对各省市按需求进行预测,亦或是根据政府及相关统计部门发布的统计报告对景区进行预测等。但是这些传统的方法均存在着一定的缺陷,如数据的滞后性会严重影响预测的有效性,甚至直接影响到预测结果的精准度。
自百度推出搜索检测工具以来,网络搜索引擎便开始进入大众视野,并应用于多个不同领域,从医学到投资、从城市房地产到消费者信心指数,不断被证明其预测结果的准确性。由于及时弥补了传统数据的缺陷,网络搜索迅速获得大众青睐。以百度指数为例,平台不仅提供实时数据,还可以查询任意时间段的历史数据,给使用者带来极大便利的同时,也消除了滞后性的缺点。
将网络搜索指数运用到旅游业,通过网络搜索引擎的特殊功能获取关于大众的有效信息,并加以合理分析并得出有效结论,可对未来一定时期的游客量进行预测。网络搜索平台的关键词搜索功能,可以获取平台关键词在任何时段内的搜索数据,并了解大众在相应时间段内所关注的内容。由此看来,在网络搜索平台对景区关键词进行搜索,一方面可以挖掘用户对该景区的关注度,潜在游客数据则为景区游客量的预测提供一定的基础。另一方面可促进景区相关旅游部门更加有效地做出合理的规划、科学的安排以及有效的决策。
基于此,以2021年1月1日至2021年12月31日新疆天山天池景区每日接待游客量的数据和关键词“天池”“天山天池”“天山天池天气”以及“天山天池天气预报”的百度指数数据为基础,利用协整检验和格兰杰因果检验,探讨百度指数与天山天池景区游客量的关系,再结合多种模型进行预测,并对比评价预测效果,为景区客流量的预测提供理论基础。
大数据时代背景下,网络信息化发展越来越快,网络搜索引擎已经成为大众搜集信息、查找资料的大型网络平台。网络搜索引擎公司百度发布的搜索检测工具,命名为“百度指数”,用户可以通过在“百度指数”搜索工具对关键词进行检索,从而了解特定时段内大众对某一事件的关注度。该搜索工具的推出迅速引起了学者的关注,在研究如何提高大众对糖尿病的认识时,有学者从百度指数入手通过用户对糖尿病的关注度去判断研究方法的有效性[1],国内学者的相关研究较晚,最早的研究方向主要集中在网络关注度[2]。
随着研究的不断推进,众多学者一致认为网络搜索关键词的搜索数据与研究的实际行为之间存在着一定的关联性。并且在很多领域都取得了十分显著的成果,如投资领域[3-5],有研究表明将百度指数中股票名称的搜索频率作为投资者关注度的新颖且直接的代理指标,结果表明这样做使得市场更加有效率[3]。对于城市网络特征的研究[6-7]也提到了通过对用户关注度数据进行分析,基于百度指数的区域城市网络时空变化受经济发展基础、城市功能定位、大事件效应以及城市网络营销等因素的影响[6]。而关于消费者信心指数的研究[8-10],通过网络搜索指数数据进一步了解消费者心理与行为,从而提供新的途径,可提高消费者信心指数预测准确性与时效性。
目前,网络搜索指数在旅游行业的应用也很多,但大都集中在网络关注度时空特征研究[11-13],如通过网络指数搜索,选取季节性集中指数、地理集中指数等指标研究旅游目的地旅游网络关注度的时空分布特征。但是对于游客量预测的研究却较少,大多数学者在对网络搜索数据与游客量的关系进行研究时,未进一步对游客量的预测进行研究。关于游客量预测的研究方法,主要是包括指数平滑[14]、灰色预测[15]、BP神经网络[16-17]和线性回归[18]等模型构建方法,通过对往期的年度数据、月度数据以及每日数据与实际游客量对比再构建相应的模型进行预测。任欢在对杭州市日游客规模预测进行研究时,运用ARMA模型和VAR模型进行预测,结果表明百度指数的时间和空间属性对游客规模预测有重要意义和价值[19]。Adil Mohd在网络预测游客到达研究中,运用STL-BiLSTM方法将时间序列分解为趋势、季节性和残差。趋势提供了总体数据的大致方向。季节性是一种规律和可预测的模式,在固定的时间间隔内再次发生,而残差是一种无法预测的随机波动。由此证明该篇文章中提出的Bi LSTM网络比考虑的其他方法具有更好的精度[20]。
综上所述,关于网络搜索指数与实际游客数据进行对比预测的研究较少。大多直接使用历史数据并借助计量经济学相关模型进行预测研究,或是仅停留在研究省市和旅游景区的游客数量与网络搜索数据的关联性。文章在原有国内外文献的基础上,通过百度指数搜索获取关键词的数据,研究与实际游客量二者之间的关系,利用计量经济学中的单位根、协整以及格兰杰因果检验进一步确认,最后运用ARMA模型和自回归分布滞后模型进行预测,将预测结果与实际游客量进行对比,确保预测的准确性。
新疆天山天池风景名胜区,地处新疆维吾尔自治区昌吉回族自治州阜康市境内博格达峰下的半山腰,距乌鲁木齐市97公里。地处纬度88°00′~88°20′E,经度43°45′~43°59′N,平面海拔1928米,交通十分便利。天山天池景区总面积为548平方公里,包括八大风景区,即天池景区、灯杆山景区、马牙山景区、博格达峰景区、花儿沟景区、白杨沟景区、水磨沟景区、北部沙漠景区,以及十五个景群和三十八个景点,动植物资源十分丰富,观赏和科考价值极强。
天山天池风景区以完整的垂直自然景观带和雪山冰川、高山湖泊为主要特征,以独特的民族民俗风情为文化内涵,是开展旅游活动的绝佳去处。目前,天池景区凭借其独特的资源和区位优势在新疆旅游业发展中居于重要地位,旅游产品和线路主要集中在天池湖面区域,并且旅游活动的季节性十分明显,主要集中在夏季,每年5月至10月为旅游旺季,游客量达全年的90%左右。旅游产品基本上属于“半日游”,景区旅游收入主要来源于门票、区间车、游船以及缆车等项目。作为国家首批5A级风景区,2016年天山天池被国家旅游局评为“旅游秩序最佳景区”,吸引大批游客前来,游客量逐年增加,仅2019年游客量达330万人次。
百度指数搜索平台由全球最大的中文搜索引擎公司百度推出,是以百度用户搜索数据为基础的数据共享平台,是目前互联网乃至整个数据时代最重要的统计分析平台之一。因致力于提供“简单可依赖”的信息获取方式而得到了用户的一致认可。进入百度指数平台首页输入想要获取的关键词后,会跳转出趋势研究、人群画像以及需求图谱三大主要板块,从趋势研究中可以得到关键词每日搜索的数据以及任意时间段和任意省份的PC端、移动端以及整体的搜索数据;需求图谱板块会根据用户搜索的关键词提供相关联的其他词语,呈现用户在了解一个景区的同时所关注的其他信息;人群画像是百度指数平台对每一个收录的关键词提供的相应搜索者的性别、年龄以及兴趣分布的占比,包括各个省份搜索者的占比和排名。
基于此,选取百度指数检索平台作为数据获取的来源,通过爬虫技术获取关键词PC端+移动端的百度指数搜索数据之和,即关键词2021年1月1日至2021年12月31日的日搜索数据,与天山天池风景区2021年全年每天的实际游客量进行对比分析。
在网络搜索平台进行关键词的选取,是研究用户实际行为与网络搜索相关性的重要环节。对于网络搜索平台关键词的获取方法,从学者们现有的研究中可知并未达成一致。目前,关键词的选取方法主要包括技术取词法、直接取词法和范围取词法三种[21]。大部分研究都是直接通过网络搜索平台进行关键词的搜索从而得到特定时间范围内的相关搜索数据,从数据本身进行相关性分析后得出结论。
从游客出行的角度出发,根据吃住行游购娱六个方面进行关键词的检索,首先选择部分关键词,如“天山天池”“新疆天山天池”“天山天池门票”“天山天池开放时间”“天山天池天气预报”“天山天池住宿”“天山天池旅游攻略”“天山天池美食”等作为目标关键词进行检索。其次,由于百度指数关键词收录的限制,初步得到了21个关键词的搜索数据。下一步将天山天池实际游客量与关键词的百度指数搜索数据录入SPSS,进行相关性分析,分析结果如表1所示,通过观察关键词与天山天池实际游客量的皮尔森相关系数[22]可以看出,除国信租车和新疆大盘鸡以外,其他关键词与实际游客量都存在着一定的相关性。最后通过关键词与实际游客量绘制的趋势图进行对比,最终选取“天池”“天山天池”“天山天池天气”和“天山天池天气预报”为目标关键词。
表1 关键词与天山天池实际游客数量的皮尔森相关系数
将获取的天山天池2021年的日游客量和关键词的百度指数数据进行对比分析,观察其趋势图走势。以关键词“天山天池天气预报”为例,如图1所示,二者走势大致相同,六七月增长最快,八月骤降,九月稍微回升,由此得出六七月去天山天池旅游的人数最多,关注天山天池天气预报的人也最多。二者可能存在着一定的相关关系,但是还需要进行下一步的实证分析。
为了减少异方差对检验结果的影响,对游客日流量和百度指数数据取对数,以ATT代表取对数后的天山天池实际日游客量,TL代表取对数后的天池日搜索量,TTL代表取对数后的天山天池日搜索量,TTW代表取对数后的天山天池天气日搜索量,TTWF代表取对数后的天山天池天气预报日搜索量。
对天山天池实际游客量和4个关键词的搜索数据进行相关性分析,得到的五个原始时间序列的描述性统计量,如表2所示。从实际游客量来看,天山天池每日旅游者数量序列最大值为18,234,最小值为27,最大值和最小值数据相差较大,说明在2021年之中不同时间到达天山天池的游客量差距较大。从四个关键词百度指数序列的描述性统计量来看,可以看出游客对旅游的天气信息关注度更高。
图1 天山天池2021年实际日游客量和百度指数关键词“天山天池天气预报”的日搜索量
表2 天山天池日游客量与四个关键词百度指数序列的描述性统计量
由于所用样本数据均为时间序列数据,为保证序列的平稳性和避免伪回归现象出现,在建立计量经济学模型之前对时间序列进行单位根和协整检验。
2.5.1 单位根检验
在对时间序列进行平稳性检验时,采取ADF检验作为单位根的检验依据,结果如表3所示,天山天池实际游客量以及关键词“天山天池”“天池”“天山天池天气”和“天山天池天气预报”时间序列数据在通过一阶差分之后,ADF值均小于1%临界值、5%临界值以及10%临界值,说明变量都具有平稳性,因此拒绝原假设。这是由于原来的五个时间序列都是一阶单整时间序列,满足进行协整检验的前提条件。下一步通过协整分析检验天山天池实际游客量与“天山天池”等关键词之间是否存在长期均衡关系。
表3 变量的单位根检验结果
2.5.2 协整检验
协整检验采用恩格尔和格兰杰提出的两步协整关系检验法,即EG两步法,用于检验两个变量之间是否具有长期均衡关系[23]。EG两步法要求在时间序列平稳的前提下,还必须满足自变量和因变量均为同阶单整。除此之外,协整检验还要求变量回归结果的残差也要达到稳定性要求。
通过单位根检验证明了所用变量均满足协整检验条件,下面进行协整检验,首先建立天山天池每日实际游客量与关键词“天山天池”“天池”“天山天池天气”和“天山天池天气预报”之间的回归方程。其次对回归方程的残差进行单位根检验,观察自变量和因变量之间是否存在协整关系,若残差序列稳定则存在协整关系。
残差的ADF检验值等于-6.989667,相较于1%显著性水平的临界值-2.571383,5%显著性水平的临界值-1.941704,10%显著性水平的临界值-1.616111来说都更小。因此,证明回归结果的残差通过了稳定性检验,说明百度指数搜索关键词与天山天池景区客流量之间存在长期均衡关系。确定最终的协整方程如下(括号中的数值为变量的t值):
ATT=2.97986(1.070783)+2.174913*TTL(9.360615)-1.503498*TL(-3.320163)+0.088515*TTW(2.320541)+0.224048*TTWF(5.598462)
(1)
方程(1)中TTL、TTW和TTWF前的回归系数为正,表明对应的关键词“天山天池”“天山天池天气”和“天山天池天气预报”与天山天池实际游客量存在正相关,意味着这3个关键词的搜索量一旦增加会带来天山天池实际游客量相应增加,其中关键词“天山天池”前的回归系数最大,为2.174913,其次“天山天池天气预报”的回归系数为0.224048,最后“天山天池天气”的回归系数为0.088515。而关键词“天池”前的回归系数为负,说明随着天池搜索量的增加会引起天山天池景区的实际游客量减少。从协整方程中可以看出,百度指数关键词的搜索频数每增加或减少一个单位,天山天池实际游客量会增加或减少相应的单位。
2.5.3 格兰杰因果关系检验
协整检验证明了百度指数与天山天池实际游客量之间具有长期稳定关系,但是却未能说明二者之间是否具有因果关系,因此需要利用格兰杰因果检验进一步确定两者的因果关系。格兰杰因果检验不仅可以确定因果关系,最重要的是还可以判断自变量和因变量之间是否有预测能力。根据赤池信息量准则(AIC)、贝叶斯信息准则(SC)以及残差序列,选择最优滞后期进而判断是否具有因果关系。最终根据格兰杰检验得出“天山天池”“天池”“天山天池天气”和“天山天池天气预报”4个关键词与天山天池实际游客量的因果关系结果,如表4所示。
如表4所示,关键词“天山天池”“天池”“天山天池天气”和“天山天池天气预报”与天山天池的实际游客量之间均存在双向因果关系。例如:假设1关键词“天山天池”不是引起天山天池实际游客量的格兰杰原因,F值为27.8122,P值无限接近于0,即拒绝原假设,说明关键词“天山天池”是引起天山天池实际游客数量的格兰杰原因,同时假设2天山天池实际游客量不是引起关键词“天山天池”的格兰杰原因,F值为4.81584,P值为0.0086,拒绝原假设,说明天山天池实际数量是引起关键词“天山天池”的格兰杰原因,即关键词“天山天池”与天山天池实际游客量之间存在双向的因果关系。
表4 格兰杰因果检验
为了探讨百度指数的搜索数据对天山天池实际游客量是否具有预测能力,以天山天池2021年1月1日至2021年11月30日的每日游客量作为预测的样本数据,以此建立ARMA模型和自回归分布滞后模型,对2021年12月1日至2021年12月31日的游客数量进行预测,将预测游客量与实际游客数据进行对比分析,以此判断预测模型的预测精度,并检验加入关键词百度指数的模型预测效果。
2.6.1 ARMA模型的建立与分析
以天山天池实际游客量的时间序列数据建立ARMA模型进行预测,再将模型的预测结果与实际的游客量进行比较分析。第一步根据天山天池实际游客量的原始时间序列得出自相关图和偏自相关图,如图2所示,通过观察自相关图和偏自相关图发现,二者都出现了拖尾的现象。
图2 自相关图和偏自相关图
其次,确定几个不同的ARMA模型,通过比较它们的AIC值,SC值和预测模型的均方根误差,最终确定的模型为ARMA(3,0,1)型,该模型的AIC和SC值最小,调整后的模型拟合优度最高,且预测的均方根误差较小。最终确认的模型估计结果如下(括号中的数值为变量的t值):
ATT=7.31344(7.258599)+[AR(1)=1.187,(8.292394)AR(2)=-0.34,(-2.686287)AR(3)=0.135,(2.13165)MA(1)=-0.47](-3.400201)
(2)
方程(2)调整后的拟合优度为0.899,AIC的值为1.503265,SC的值为1.560699,然后利用方程(2)对样本外2021年12月1日至12月31日天山天池每日的旅游人数进行预测,实际旅游人数和预测人数的对比图,如图3所示,根据2021年1月1日至2021年11月30日的数据样本预测的12月1日至12月31日天山天池的游客量与实际游客量的变动趋势大体一致,二者数据也非常接近。
图3 2021年12月份天山天池实际旅游人数和预测人数的对比(ARMA模型)
2.6.2 自回归分布滞后模型的建立与分析
由于天山天池风景区实际游客量与关键词“天山天池”“天池”“天山天池天气”和“天山天池天气预报”之间存在长期的均衡关系,同时二者之间也具有格兰杰因果关系,所以在ARMA模型的基础上,考虑将百度指数搜索的关键词作为解释变量进行预测,即在方程(1)中加入“天山天池”“天池”“天山天池天气”和“天山天池天气预报”这四个关键词进行回归。由于百度指数搜索数据与实际游客量之间有一定的滞后,运用Eviews10.0确定自变量与因变量的最佳滞后期,由此最终确定的回归模型为ARDL(3,3,2,2,0)型,调整后回归模型的拟合优度为0.928,AIC的值为1.223170,SC的值为1.395471,对比ARMA模型来说,加入了百度指数后的自回归分布滞后模型得到的结果拟合优度更高,且AIC和SC的值更低,增强了对天山天池实际游客量的解释能力。
将ARDL的预测数据与实际游客量的数据进行对比,如图4所示,通过结果对比发现,模型加入关键词百度指数后预测值更加接近真实值,模型具有良好的预测能力。
图4 2021年12月份天山天池实际旅游人数和预测人数的对比(ARDL模型)
以新疆天山天池风景区为例,基于2021年1月1日至2021年12月31日天山天池每日的实际游客量以及“天山天池”“天池”“天山天池天气”“天山天池天气预报”这四个关键词的百度指数搜索数据,利用计量经济学中的单位根检验、协整检验和格兰杰因果关系检验,分析了新疆天山天池实际游客量与百度指数关键词搜索数据二者之间的关系,并通过引入ARMA模型,将天山天池2021年1月1日至2021年11月30日每日的实际游客量作为样本,对2021年12月1日到12月31日的游客量进行预测,在此基础上加入关键词的百度指数构建自回归分布滞后模型,将加入关键词后的模型预测效果与没有加入关键词的模型预测效果进行对比,得出了以下结论:
(1)新疆天山天池实际游客量与百度指数搜索的关键词“天山天池”“天池”“天山天池天气”以及“天山天池天气预报”间存在着长期均衡关系,并且其中“天山天池”“天山天池天气”以及“天山天池天气预报”与天山天池实际游客量是正相关,也就意味着,随着这三个百度指数关键词搜索次数的增加,天山天池的实际游客量也会随之增加。相反,“天池”与天山天池实际游客量是负相关,说明随着这个百度指数关键词搜索次数的增加,天山天池的实际游客量反而会出现相应的减少。
(2)天山天池的实际游客量与百度指数搜索的关键词“天山天池”“天山”“天山天池天气”以及“天山天池天气预报”之间存在着双向的格兰杰因果关系,说明它们之间相互影响,即“天山天池”“天山”“天山天池天气”以及“天山天池天气预报”的百度指数搜索次数的变化会导致天山天池的实际游客量的出现相应的变化,与此同时,天山天池的实际游客量一旦发生变化,也会导致“天山天池”“天山”“天山天池天气”以及“天山天池天气预报”的百度指数搜索次数的变化。
(3)通过对天山天池的实际游客量建立ARMA模型,以天山天池2021年1月1日至2021年11月30日为数据样本,对2021年12月1日至12月31日的游客量进行预测,将预测结果与实际游客量进行对比;其次,在此基础上加入关键词“天山天池”“天山”“天山天池天气”以及“天山天池天气预报”进行回归,构建自回归分布滞后模型进行预测,将加入关键词后的预测效果与加入前的预测效果进行对比,得出:加入百度关键词后的预测精度更高,拟合优度更好,与实际游客量更为贴近,由此说明网络搜索数据大大提高了传统预测模型的预测效果。
(4)预测结果的精度越高,说明预测更加精准,能够为游客、旅游企业以及政府相关部门提供一定的信息,避免在旅游高峰期到来之际出现景区承载量不足等一系列与季节性相关的问题发生,且滞后期的出现也能够让相关部门提前做好应对准备。以百度指数为例的这一系列搜索引擎,提供大众搜索关键词的次数频率,由此可以判断出各景区的潜在游客数量,搜索数量大则说明关注该景区的潜在游客较多,从而也说明这些潜在游客到该景区旅游的可能性较大。但是必须是在实际旅游者和关键词搜索的指数之间具有相关性,具有长期的均衡关系和因果关系的前提下,才能有这样的预测。
以新疆天山天池为例,基于2021年景区每日游客量及关键词百度指数,利用单位根、协整和格兰杰因果检验,通过ARMA模型、自回归分布滞后模型对客流量进行预测,最终得出:加入关键词百度指数后,计量经济模型的拟合优度更高,预测效果更好,可以为相关部门提供决策依据,在旅游高峰期前做好应对措施。但是只选取了单个研究区,缺乏与其他区域进行对比来验证研究结论的正确性;其次,样本数据较少,无法对比模型短期和长期的预测精度。后续研究会将多个景区,长短期数据分别对比,提高预测精度,对客流量预测进一步深入研究。