林思涛,林 钊,陈家琦,吴凤舞,张学健
(福州外语外贸学院 大数据学院,福州 350202)
随着国内经济飞快发展和人民生活水平的提高,人们对物质文化的需求也在不断增长。愈来愈多地,人们在闲暇时间选择外出旅游,接触新鲜事物、提高生活品质,旅游业因此蓬勃发展。与此同时,客流量的持续攀升也造成了交通堵塞、景区拥挤等问题,而传统旅游管理方式已无法应对这一现状,给城市和景区的管理带来了极大的困扰。若能够及时预测未来一段时间内的游客量变化,提供更准确的旅游景点客流量预测,相关部门就可以提前制定安全防范措施和客流引导,避免拥堵事件的发生,更加合理地利用旅游资源。
传统的旅游需求预测模型,主要是针对定量与定性方面的研究,其共同特点是先建立时序数据的主观模型、再进行预测。因此,传统模型缺乏对数据样本的学习过程,不具有自学习和泛化能力,对客流量的预测误差较大。随着人工神经网络(ANN)的快速发展,越来越多的学者开始将BP 神经网络(BPNN)及支持向量回归(SVR)等算法应用于旅游需求预测领域。
如今,大数据时代的到来,人们可以通过互联网了解更多的旅游相关知识,搜索引擎中对旅游业的优化也在逐渐完善。针对网络搜索数据在生活中的应用,尤其是在经济、社会管理领域以及市场营销预测中,网络搜索数据的应用越发广泛。2013 年,H7N9禽流感的大爆发,对国内的家禽养殖经济造成了巨大的经济影响。谭小林等人利用网络搜索指数,对H7N9 爆发趋势进行相关性分析,利用对网络搜索关键词的跟踪,可以预测H7N9 禽流感爆发的进程。袁恒研究了利用网络搜索指数对市场的预测,探讨了国内网络搜索数据的市场预测价值。迟依涵研究了基于网络搜索数据的房地产价格预测。赖凯声等人研究了网络搜索数据与社会心理学相关性;马碧云基于网络搜索数据对旅游客流量进行了非线性预测的研究。戚明远利用网络搜索数据对商品住宅市场进行相关性的研究。王炼等人从中国电影市场来研究网络搜索数据对票房量的预测。白笑笑利用网络搜索数据,可以预测冰箱的销量并对冰箱的需求进行了分析。
遗传算法(Genetic Algorithm,GA)是一种近似优化的算法,起源于对生物体系中的天然演化,通过电子计算机的模拟展开研究。
在GA 算法中,每一种染色体组型都对应了算法的一种解决对策。通常情形下,可以使用适应度函数(fitness function)判断解决对策的优劣。因此,从每种染色体组型到求解结果的适应度就构成了一种映射。可以将GA 算法求解的整个过程看作在多元函数中寻求最佳解的过程。
可如此设想,在一个多维曲面中有众多的“顶峰”,每个顶峰对应的便是局部最优解。而其中会有某个“顶峰”的海拔最高,则这个“顶峰”就是全局最优解。那么,GA 算法的主要任务便是尽可能爬到最高的顶峰,而不是限制于某个小山峰。
BP(Back Propagation)神经网络,是一种多层前馈型的神经网络,主要包含输入层、隐含层(中间层)和输出层。BP 神经网络层与层之间采用全互连方式,由数量众多的单神经元通过可调的连接权值实现全连接。中间层(隐含层)可以有一层或多层,而同一层间的各神经元却不能相互连接。
BP 神经网络的传播方式分为前向传播和反向传播,其信号分为函数信号和误差信号。在前向传播过程中,函数信号从输入层经过中间层(隐含层)流向输出层,成为一个输出信号。若输出情况与期望的情况相差过大,则进入反向传播。此时,在网络的一个输出神经元中产生误差信号,一层接一层地反向传播调整权值和阈值,直到误差都在允许范围为止。BP 神经网络的典型拓扑结构如图1 所示。
图1 BP 神经网络拓扑结构Fig.1 BP neural network topology
BP 神经网络可用于分类、聚类、预测等。目前,大部分的神经网络都是以BP 神经网络为基本架构,并针对现实应用续以后期的优化完善而得。因此BP 神经网络已经成为目前使用得最广泛的神经网络模型之一。
基于GA 算法优化的BP 神经网络模型,是由BP 神经网络系统架构的确定、GA 算法优化以及BP 神经网络预测三部分组成。其中,BP 神经网络系统架构的确定,主要是以拟合函数中输入、输出的参数个数来确定其模型架构。根据模型的参数个数,可以判断出GA 算法进一步优化的参数个数,从而判定出GA 算法中个体的编码长度,由GA 算法优化的参数就是BP 神经网络的初始阈值和权值。因此,如果已确定BP 神经网络模型的系统结构,就可知阈值和权值的个数。群体中所有个体均包括了某个网络系统中的所有权值和阈值,通过统计适应度函数确定了个体适应度值,用GA 算法通过选择、变异和交叉训练,寻找出适应度值最高的个体。BP 神经网络模型采用GA 算法获得的最佳个体,对网络系统完成初始权值和阈值的赋值,网络系统经训练后将输出预测样本。GA 算法优化BP 神经网络模型权值和阈值的流程如图2 所示。
图2 GA-BP 神经网络流程图Fig.2 GA-BP neural network flow chart
首先,本文从“食、住、行、娱、游、购”六个方面选定关键词。通过遴选,选定“厦门美食”、“厦门酒店”、“厦门交通”、“厦门景点”、“厦门地图”、“厦门特产”等基准关键词。其次,在百度搜索指数官网对基准关键词进行查询,同时找出其它相关度较高的关键词。最后,根据皮尔逊相关系数(Pearson)、斯皮尔曼相关系数(Spearman)以及显著性检验值,计算得到的关键词的百度搜索指数与厦门旅游客流量的相关度强弱,选定了“厦门美食”、“厦门大学”、“沙坡尾”、“双子塔”、“厦门岛内”、“演武大桥”6 个关键词,见表1。
表1 百度搜索关键词指数与厦门旅游流量的相关性检验Tab.1 Keywords correlation test between Baidu search index and tourist traffic in Xiamen
由于文章利用的因变量与自变量均为时序变量,因此在模型建立前,为保证所有变量的平稳性,需要对旅游客流量和各关键词百度搜索指数进行平稳性检验。通过使用ADF 检验法对因变量与自变量进行平稳性检验,运行得出各变量均是一阶单整,结果详见表2。
表2 变量平稳性检验Tab.2 Variables stationarity test
在本文构建的模型中,遗传算法初始种群个数为30,进化代数为50,交叉概率为0.8,变异概率为0.2。BP 神经网络部分,由一个输入层、一个隐蔽层以及一个输出层构成。其中,隐蔽层的节点经过程序计算得出最佳隐含层节点个数为4。模型的学习率为0.01,训练步长为25,学习目标为0.000 1。GA-BP 神经网络训练状态如图3 所示。由图3 可知,该模型经过18次迭代,达到设定学习目标。
图3 GA-BP 神经网络训练状态Fig.3 Training state of GA-BP neural network
本文从百度指数官网和厦门市文旅局获取了2017 年1 月到2020 年12 月的百度搜索指数和旅游客流量数据,由于2020 年新冠肺炎疫情爆发,旅游客流量骤减,故不考虑2020 年的异常数据。本文模型建立的训练集取自2017 年1 月到2019 年6 月、共计30 个月的月度数据,模型的预测目标设置为2019 年7 月至12 月、共6 个月内厦门市客流量。预测结果如图4 所示,预测结果参数见表3。
表3 厦门市客流量预测结果Tab.3 Forecast results of passengers flow in Xiamen
图4 BP 神经网络优化效果图Fig.4 Optimization effect of BP neural network
从上述结果总体来看,利用GA-BP 神经网络模型得到的预测结果误差均比BP 神经网络模型的预测结果误差小。另外,本文采用平均绝对误差、均方误差、均方误差根、平均绝对百分比误差等4 种模型预测误差的检验标准,分别对2 个模型进行检验对比,结果见表4。
表4 模型精度检验指标Tab.4 Model accuracy test index
通过检验结果可以看出,GA-BP 神经网络模型各项误差值均远小于BP 神经网络模型,说明本文建立的GA-BP 神经网络模型对客流量的预测能力远高于BP 神经网络。
文章通过爬取2016 年1 月到2019 年6 月期间,“厦门美食”、“厦门大学”、“沙坡尾”、“双子塔”、“厦门岛内”、“演武大桥”共6 个关键词的百度搜索指数及旅游客流量数据,建立了BP 神经网络模型和GABP 神经网络模型,并对厦门旅游客流量进行预测验证。通过模型预测结果与误差指标对比分析,得出遗传算法优化后的BP 神经网络模型的预测精度和稳定性比标准BP 神经网络模型都要高,充分说明了遗传算法可以避免BP 神经网络陷入局部极小值。因此,GA-BP 神经网络在这一预测方面具有更大的优势。该预测模型可为有关部门及商家提供更精确的旅游客流量预测参考,提高旅游地相关产业的资源配置效率,保证旅游景点各行业的平稳运行。