基于旅游大数据的旅游网络关注度与游客量相关性挖掘

2020-12-11 02:41张传才梁留科苏小燕余汝艺边青全刘亚静
洛阳师范学院学报 2020年11期
关键词:关联矩阵客流量关注度

张传才, 梁留科, 苏小燕, 余汝艺,边青全, 杨 康, 刘亚静

(1.洛阳师范学院国土与旅游学院, 河南洛阳 471934; 2.河南省旅游公共服务大数据产业技术研究院, 河南洛阳 471934)

0 引言

大数据时代为潜在游客获取旅游信息提供了前所未有的便利, 同时为旅游管理部门提供了先进的管理方法, 为旅游研究提供了海量异构的数据资源, 大数据技术及方法体系已经融入到旅游行业的各个方面. 旅游行业因其行业广、 规模大、 移动范围广的特点, 而更加依赖于大数据. 因此旅游大数据的解决目标在于整合多种大数据信息, 为国内旅游业提供大数据解决方案, 促进旅游业的转型升级. 旅游网络数据和客流量数据的关系问题是旅游大数分析的基本问题[1]. 旅游网络关注度数据是旅游网络数据的重要组成部分, 反应了潜在游客的旅游出行意向和旅游出行冲动. 根据旅游网络关注度可以了解旅游市场兴趣的分布及发展趋势等状况, 为客流量预测、 客流预警、 旅游市场营销提供强大的数据支撑.

已有多位学者对旅游网络关注度与客流量的相关性进行了系列研究. 马丽君等研究了九寨沟2016年的移动游客网络关注度与客流量的关系, 表明二者存在双向格兰杰因果关系[2]. 奚万松等以浙江金华双龙洞景区为例研究了旅游景区网络关注度与客流量关系, 研究表明因旅游出行相对旅游网络关注度具有滞后性, 日百度指数和日客流量之间并无显著的线性关系[3]. 杨锦坤等研究认为旅游网络关注度的前兆效应在弱化, 这与移动互联网的发展具有一定的关系[4]. 郑玉莲等研究了芜湖方特四个园区网络关注度对客流量的影响强弱关系[5]. 汪秋菊等研究了客流量与旅游网络关注度的耦合关系[6], 王玉霞等研究认为首都博物馆的客流量与网络关注度之间存在波动周期性关系, 通过自回归模型验证了首都博物馆的网络关注度对客流量的前兆效应[7]. 此外, 还有多个学者对旅游网络关注度与客流量的相关性进行了研究[8].

与已有研究不同, 本研究综合运用大数据挖掘分析软件Rapid Miner和ArcGIS从省内市际和省际两个区域尺度研究旅游网络关注度的时空特征以及与客流量的相关性特征, 从一定程度上丰富了本课题的研究丰度, 进一步探索了二者在不同时空尺度上的相关性问题, 对旅游管理与市场营销具有一定的参考价值.

1 旅游大数据加工、 清洗与研究方法

1.1 研究区概况

洛阳, 简称“洛”, 或别称洛邑、 洛京, 河南省下辖市. 洛阳北扼黄河, 南望伏牛, 东镇虎牢, 西据崤函. 洛阳地处中原, 自古就有“天下之中”的称号. 洛阳有5 000多年文明史, 是国务院首批公布的历史文化名城之一. 洛阳作为华夏五千年文明的发祥地之一, 先后有105位帝王定鼎于九州. 截止到2015年洛阳拥有三项世界文化遗产, 在洛河两岸分布有夏都二里头遗址、 偃师商城等都城遗址.

洛阳是中国重要的旅游目的地之一, 洛阳市以“千年帝都, 牡丹花城, 丝路起点, 山水洛阳”的形象举世闻名, 洛阳有五个5A级景区, 即白云山风景区、 龙门石窟、 老君山、 龙潭大峡谷和鸡冠洞, 有4A级景区23家. 2019年洛阳市接待国内外游客已经超过1亿人次, 其中接待入境的游客有150.1万人次, 增长6.2%. 旅游总收入1 321.02亿元, 增长15.0%; 其中创汇收入4.48亿美元, 增长3.7%.

1.2 旅游大数据的来源

客源大数据是关键数据源, 来源于洛阳旅游大数据分析平台. 搜索大数据的数据丰度很大, 本研究中的搜索大数据主要使用从百度大数据平台采集的综合搜索指数. 本文中网络关注度用百度指数表示. 数据丰度包括河南省内各市来洛游客量和洛阳5A景区的百度指数数据, 以及全国各省来洛客流量和对洛阳5A景区的百度搜索指数, 时间尺度都为2016~2019年四个年份的年度数据.

1.3 旅游大数据的加工与清洗

旅游大数据的加工与清洗是进行旅游大数据分析的基础. 数据加工的方法有很多,比如数据抽取、 数据计算、 数据分组、 数据转换等. 为了使用大数据分析挖掘软件Rapid Miner对洛阳旅游的网络关注度与客流量的相关性进行研究, 数据经过清洗、 整理和归纳, 对2016~2019四个年份的旅游网络关注度数据和客流量数据进行结构化制表. 为了从时空角度研究旅游网路关注度的特征, 创建ArcGIS的旅游网络关注度和客流量数据库.

1.4 研究方法

基于洛阳旅游大数据分析平台提取河南省各地市来洛的客流量数据和全国各省来洛的客流量数据, 通过百度指数采集软件抓取河南省各地市对洛阳5A景区的网络关注度和全国各省对洛阳5A景区的网络关注度数据, 建立ArcGIS的旅游网络关注度和客流量数据库, 使用ArcGIS的分级和图表可视化功能, 制作旅游洛阳网络关注度时空特征分析图和客流量时空特征分析图. 另一方面, 通过在Rapid Miner中构建5A景区旅游网络关注度和客流量的关联矩阵, 探索客流与5A景区旅游网络关注度的相关性以及各个景区旅游网络关注度的相关性.

2 网络关注度与客流量时空特征分析

2.1 网络关注度时空特征分析

基于构建的旅游网络关注度和客流量数据库, 使用ArcGIS软件绘制, 全国各省对洛阳旅游网络关注度的专题图(见图1).

图1 各省2018与2019年对洛阳旅游的网络关注度

根据图1, 全国各省对洛阳旅游的网络关注度的高区主要分布在中国中东部地区, 2019年的百度指数和反应了网络关注度的整体情况. 从图1可以看出, 洛阳旅游的整体网络关注度情况主要分布在河南省的周边省份, 与距离具有正相关性. 除相邻省份之外, 洛阳旅游网络关注度高的省份还包括北京、 辽宁、 浙江和广东等. 广东省距离河南省距离相当远, 但对洛阳旅游5A景区的网络关注度表现出异常的高, 研究认为这与广东的经济水平十分高具有较大的关系. 从2018年和2019年的洛阳旅游网络关注度可以看出, 除广东省外, 中东部地区旅游网络关注度比较高的省份和直辖市, 基本都是龙门石窟据百度指数高位, 这与龙门石窟作为洛阳旅游的代表性景区和龙门石窟的知名度具有很大的关系. 广东省对洛阳旅游网络关注度出现异常情况, 广东省对白云山的网络关注度出现异常高的情况, 竟然明显高于对龙门石窟的网络关注度, 出现这种情况的原因有待深入研究.

2.2 客流量时空特征分析

基于构建的旅游网络关注度和客流量数据库, 使用ArcGIS软件绘制全国各省来洛阳旅游客流量的专题图(见图2).

图2 各省2018与2019年来洛阳旅游人数

根据图2, 来洛客流量周边省份明显高于其他省份和地区, 因此, 可以认为距离是影响来洛客流量的主要因素. 从图2可以看出, 从2016年至2019年, 各省来洛客流量出现明显的上升趋势, 变化速率快的省份仍然是相邻省份, 因此相邻省份仍然是洛阳旅游的主要贡献者.

2.3 洛阳旅游网络关注度与客流量的综合分析

根据图1和图2, 各省对洛阳旅游的网络关注度东部地区都比较大, 但是来洛客流量却仅集中在相邻省份, 因此, 二者在空间上仍然存在差异. 除与河南相邻的省份之外, 中东部省份对洛阳旅游5A景区的网络关注度高, 但是来洛客流量低于河南的相邻省份. 因此, 这些省份的潜在游客量十分庞大, 目前至洛阳的公共交通十分方便, 通过加大宣传力度等营销手段, 促使这些省份的潜在游客尽可能多的参与实际出行, 成为真正的来洛游客. 广东省对洛阳5A景区的网络关注度异常的高, 从一定程度上说, 广东省的客源市场潜力十分庞大.

3 网络关注度与客流量的相关性挖掘

3.1 市际尺度网络关注度与客流量的相关性挖掘

根据洛阳旅游大数据分析平台, 分别抽取2016年至2019年河南省17个地市(不包含济源)来洛阳旅游的人数. 通过百度指数爬虫软件提取2016年至2019年河南省17个地市(不包含济源)对洛阳5A景区的百度搜索综合指数. 将四个年份的客流量数据和洛阳5A景区的网络关注度数据进行结构化处理, 运用Rapid Miner大数据分析挖掘软件中的关联模型中的关联矩阵模型对结构化的客流量数据和洛阳5A景区的网络关注度数据进行关联矩阵构建, 获取客流量与旅游网络关注度6种指标两两间的相关系数. 图3显示了2016年、 2018年和2019年的6种指标的关联矩阵.

所有介于0到1之间的关联系数都表示正关联, 而介于0到-1之间的关联系数则表示负关联. 正关联意味着另一个属性的值会随着一个属性值的上升而上升. 正关联还意味着当一个属性的值下降时, 另一个属性的值也会下降. 如果一个属性值下降而另一个属性值在上升, 则它们之间的相关性为负相关.

根据图3所示的河南省17个地市的客流量和5A景区网络关注度建立的关联矩阵, 可以看出2016年、 2018年和2019年河南各个地市来洛客流量与洛阳5A景区网络关注度的相关性很低, 从数据显示看, 有的相关系数低于0.4, 即不具有相关性. 因此, 研究认为河南省各地市来洛旅游更大程度上不依赖于网络搜索, 而是通过媒体宣传信息等手段获取旅游出行相关信息.

图3 河南省各地市来洛客流量及对洛阳5A景区的百度指数

3.2 省际尺度网络关注度与客流量的相关性挖掘

根据洛阳旅游大数据分析平台, 分别提取2016年至2019年四个年份的全国各省来洛阳的客流量. 通过百度指数爬虫软件提取2016年至2019年四个年份全国各省对洛阳5A景区的网络关注度数据. 运用Rapid Miner大数据分析挖掘软件中的关联模型中的关联矩阵模型对结构化的客流量数据和洛阳5A景区的网络关注度数据进行关联矩阵构建, 获取客流量与旅游网络关注度6种指标两两间的相关系数. 图3显示了2016年、 2018年和2019年各省的6种指标的关联矩阵.

根据图4, 各省来洛客流量与对洛阳5A级景区的网络关注度创建的关联矩阵, 可以看出客流量与各省对洛阳5A景区的网络关注度, 除2019年客流量与对龙门石窟的网络关注的相关系数为0.674外, 其他两两相关系数都是大于0.8, 即具有极大相关性. 各省对洛阳5A景区的网络关注度间的相关系数绝大部分与是大于0.8, 具有极大的相关性.

根据图1、 2显示的在中国中东部各省对洛阳5A级景区的网络关注度与来洛客流量关系, 以及图4表现出来的强关联性, 排除相邻省份外的其他省份, 进行旅游营销的必要性是十分强的.

图4 客流量与洛阳5A景区6个指标间的两两关联矩阵

4 结论与展望

4.1 结论

基于洛阳旅游大数据分析平台获取2016年至2019年四个年份的客流量数据, 基于百度指数爬虫软件采集相应四个年份的网络关注度数据. 基于ArcGIS研究了洛阳旅游网络关注度的时空分布特征, 基于Rapid Miner大数据分析软件从河南省各市地层次和全国省级层次探索了2016年至2019年四个年份客流量与旅游网络关注度的相关性挖掘. 研究表明: 河南省各地市来洛客流量与洛阳5A景区网络关注度间基本不具有相关性; 全国各省来洛客流量与各省对洛阳5A景区的网络关注度具有很强的相关性; 除河南相邻省份外的中东部省份更具有较强的旅游市场深入开发和旅游深度营销的潜力.

4.2 展望

从年度尺度上对洛阳客流量与网络关注度的相关性进行了分析, 时间尺度较粗, 在月尺度和周尺度以及旅游黄金周和日尺度上是否表现出相似的规律有待深入研究. 另外, 游客出行相对旅游网络搜索具有一定的滞后性, 因此在日尺度上, 二者间的相关性规律有待深入研究.

猜你喜欢
关联矩阵客流量关注度
n阶圈图关联矩阵的特征值
单圈图关联矩阵的特征值
变胞汽车焊接机器人拓扑分析与动态焊接参数建模
基于灰色预测理论在交通枢纽客流量的实际应用
基于灰色预测理论在交通枢纽客流量的实际应用
基于嵌入式系统的商场客流量统计算法
基于Petri网的L企业产品设计变更执行流程优化研究
雄安新区媒体关注度
全国两会媒体关注度
暴力老妈