金悦奇 柏昌顺 朱杰
[摘要]通过采集和挖掘互联网大数据,以舟山普陀山景区为例,研究网络关键词搜索量、网上酒店预订率、网络气象预报等大数据与景区旅游客流量的数据相关性。采用Lasso回归算法构建预测模型,并提出基于大数据的景区客流量预测系统设计。
[关键词]大数据;客流量预测;Lasso回归;数据挖掘
[DOI]1013939/jcnkizgsc201716322
随着国内旅游需求的不断提升,快速有效地预测旅游景区客流量已经成为提高旅游景区服务品质和建设智慧旅游景区的重要课题。传统的旅游客流量预测主要是基于静态的历史数据进行预测分析,通常会忽视或者不能及时反映一些重要因素对客流量的影响,如天气变化、互联网热点。而借助互联网大数据技术可以通过实时数据采集、跟踪研究目标景区游客在互联网上产生的大量行为数据,进行挖掘分析,使得在实际景区客流量预测应用中具有动态响应及时等优越性。本文以舟山普陀山景区为例研究基于互联网大数据的景区客流量短期动态预测及其系统设计。
1景区客流量有关大数据分析
11景区客流量数据探索分析
本文以普陀山景区为例对影响客流量因素进行大数据分析,首先对互联网大数据按照是否适合计算机自动采集进行抽取,将抽取的数据作为基础数据来源; 其次再根据舟山景区的特点筛选相关性强的因素。初步选取以下因素作为自变量,包括天气因素:气温(x1)、风力(x2);OTA酒店预订率(x3);关键词搜索指数(x4);节假日因素(x5):包括一般节假日和特定宗教节日;经济因素:经济景气指数(x6)、消费者信心指数(x7)等,分析它们与景区客流量(y)之间的关系。
根据以上选定因素对舟山普陀山景区2015—2016年数据进行描述性统计分析,获得主要变量数据的统计描述如表1所示。
在描述性统计分析了解数据的整体情况后,然后进行相关分析,通过Pearson相关系数初步判断应变量与自变量之间的线性相关程度。其中,经济因素:经济景气指数(x6)、消费者信心指数(x7)与景区客流量(y)之间线性相关不明显,而且变化幅度很小。因此,筛去经济景气指数(x6)、消费者信心指数(x7)两个变量。
12模型构建
在以上数据分析的基础上,建立回归预测模型,算法上主要采用Lasso回归方法,Lasso方法较传统的最小二乘法等更利于参数估计和变量选择。Lasso回归优化问题可以表示为:
2景区客流量预测系统设计方案
21预测系统框架与流程
景区客流量预测系统由网络数据采集子系统、数据库存储与处理子系统和预测输出子系统等组成。其中,网络数据采集子系统负责自动化采集互联网相关大数据;数据库存储与处理子系统负责将网络数据采集子系统收集的互联网相关大数据进行规范化并存储处理;预测输出子系统负责将数据库存储与处理子系统处理好的数据应用回归预测模型计算并按照需要的方式输出结果。整个景区客流量预测系统的基本框架与流程如下图所示。
景区客流量预测系统流程
上图中系统主要流程可以分为:
(1)数据导入:从互联网大数据中初步选取预测模型所需数据,然后导入预测系统数据输入接口。
(2)数据预处理:将导入的数据统一处理成规范化格式,以便数据库存储及预测模型处理。
(3)机器学习:将预处理的数据进行挖掘、分析对回归预测模型参数进行验证和调整。
(4)多元回归预测:根据回归预测模型计算未来若干期的景区客流量预测数据。
(5)预测输出:将预测模型计算结果通过需要的方式如可视化等进行输出。
22预测系统功能设计
系统主要核心功能包括互联网数据采集、数据处理及存储、自适应的预测输出三部分功能。其中,互联网数据采集功能的实现主要通过两类途径:一是通过互联网络大数据平台,如百度、APIStore等提供的互联网大数据API接口,主要采集的相关数据格式为JSON。例如,天气预报、节假日、搜索指数等。二是对互联网特定相关网站网页进行抓取通过DOM分析取得对应数据。例如,OTA酒店预定、景区等数据则采用HTMLParser等网页分析工具实现对指定网页相关数据抓取。
数据预处理及存储功能主要采用PDO+TinyDB+Rserve组合。其中,PDO是访问数据库的一个轻量级的、一致性的接口,它提供了一个数据访问抽象层。TinyDB是一种适合存储JSON格式的轻量级面向文件的数据库。Rserve是R语言与其他语言如Java/PHP/Python等进行通信的服务程序,支持基于TCP/IP的远程连接,支持远程执行R脚本。
预测模块功能设计采用以adaptive LASSO回歸为基础的自适应算法。首先根据adaptive LASSO算法先确定一组回归系数,然后通过这组回归系数进行叠代演进。最终的预测结果通过基于JS的异步模块输出,该功能主要采用XMLHttpRuquest对象技术,在创建的XHR对象上注册回调方法来实现异步输出。
3预测有效性验证
景区客流量预测系统的主要作用是为相关决策提供依据,所以预测数据的误差是评价预测系统有效性的重要指标。为能够较准确地验证评价景区客流量预测系统的有效性,选择最近5期的系统预测数据与舟山普陀山管委会统计的实际值进行误差分析,主要采用平均绝对误差、均方根误差和平均绝对百分误差三个统计量指标从不同角度来验证客流量预测系统的有效性。预测结果的各项评价指标值如表2所示。
根据表2的预测统计量指标数据,各项误差值均在实际需求可接受的合理范围内。因此,该客流量预测可以被视为是有效的。
4结语
本文分析了互联网大数据与旅游景区客流量之间的相关性,挖掘了大数据中影响景区客流量的主要因素,并且基于Lasso回归构建了景区客流量预测模型。在预测模型的基础上设计了包括互联网数据采集、存储、分析输出等功能的客流量预测系统,通过对舟山普陀山景区客流量的实际数据预测,验证了基于大数据的旅游景区客流量预测的有效性。
参考文献:
[1]ThomasWMiller预测分析中的建模技术:商务问题与R语言解决方案[M].北京:电子工业出版社,2016
[2]Lawrence SMaisel,Gary Cokins大数据预测分析[M].北京:人民邮电出版社,2014
[3]类兴彪,韩兴勇气候舒适度与年内客流量逐月变化相关性分析——以舟山为例[J].旅游论坛,2010,3(1):106-111
[4]胡晓虹舟山旅游气候舒适度与客流量年相关性研究[J].北方经济,2012(24):76-77
[5]苏培培风景区旅游客流量短期预测方法研究[D].合肥:合肥工业大学,2013
[6]沈振,王捷基于灰色预测模型的长三角水运量预测[J].中国航海,2010,33(3):101-104
[7]宋国峰,梁昌勇,梁焱,等改进遗传算法优化BP神经网络的旅游景区日客流量预测[J].小型微型计算机系统,2014,35(9):2136-2141