基于游记大数据的华山景区游客行为模式研究

2018-07-14 06:26常雪松赵雅敏
中国园林 2018年3期
关键词:华山游记目的地

邵 隽 常雪松 赵雅敏

1 研究背景

游客出行模式分析是景区和目的地规划管理的重要基础,在识别旅游者行为模式的基础上,才能合理制定景区和目的地战略、规划旅游线路、推荐旅游产品、科学进行游客影响管理。社交媒体上旅游者主动发布的游记等数据的出现,为分析旅游活动和偏好提供了一种更有效的方法。鉴于目前低成本大数据分析在景区规划和目的地规划实践尚显不足,有些景区缺乏基于游客出游活动模式的规划统筹。中国许多景区对游客信息和行为的调查统计较为粗放,缺少对旅游者行为的数据的积累,甚至有些知名景区仍缺少现有客源的客源地分布情况,这将严重制约景区的规划管理。本研究以华山景区为研究对象,利用游客发布的游记大数据,对旅游者出行方式、目的地联动以及满意度评价进行挖掘分析,回答“景区内游客集中在哪里?游客从哪里来?还会去哪里?对景区是否满意?”等问题,从而为景区和目的地规划设计提供支持。

2 研究进展

2.1 游记大数据的特征

游记大数据既具有大数据的5V基本特征,即数据规模大(volume)、数据种类多(variety)、数据变化快(velocity)、数据真实性(veracity)、应用价值高(value)[1-2],同时又具有景区时空大数据的多源性、客观性、动态性、现实性、精细性等特征[3]。此外,由于用户自发生成游记内容,出于分享经验、记录生活日志等个人原因,在社交媒体上记录、分享和发布游记,并主动分享在互联网,这些数据可以免费获得[4-5],因而游记大数据具有低成本特征。游记大数据包含文本、照片、视频等多种形式的数据类型,许多游记还包含用户或网站用地理、时间、文字描述和信息来标注的地理标签数据[6],这些数据含有旅游者在周边地区出行的行为信息和目的地资源信息[7-8],形成了游客数字足迹,可以用来挖掘旅游者在特定目的地区域的时空轨迹和出行模式[9-10]。此外,通过游记大数据可以随时了解游客对景区资源及旅游产品的喜好程度,或对景区管理水平及服务质量的满意程度[3]。

游记大数据出现之前,分析游客行为模式依赖的传统方法比较有限,通常有:面对面访谈[11]、问卷调查[12-14]、政府或旅游组织发布的二手数据[11,15-16]、观察法[14]、移动跟踪设备[17-19]等。这些数据收集方法通常成本比较高、相对耗时,且获取的样本数量和信息量有限[6,20-21]。与传统方法获取的数据相比,游客大数据记录了自然发生的游客实际行为,规模上相当可观,使用上成本很低,且包含信息非常丰富。游记大数据来源于先进的中共享服务和移动技术支持的平台[22-23]。游记中对目的地或景区的文字描述、地理位置、访问时间、图片等信息内容很多都可以由用户控制[6,22]。

2.2 相关研究简述

鉴于游记大数据具有上述特点,分析游记数据成为新兴的研究领域。通过分析游记大数据,可以观察、记录和分析游客出行模式和行为[24],进一步识别地标[25],识别游客频繁使用的线路和空间,为目的地规划管理提供参考。目前旅游和景区规划领域的游记大数据研究仍处于早期阶段,主要集中在对游客出行模式和行为的研究以及旅游推荐系统的设计[6]。利用旅游者发布在社交媒体上的大数据对游客出行模式的研究有不同的尺度。在国际尺度,Hawelka等(2014)利用twitter数据挖掘国际游客出游模式[25],根据2012年记录的近10亿条推文,研究了不同国家的流动性状况,考察了流动率、旋转半径、目的地的多样性以及资金流入和流出的平衡等特征。在国家尺度,李栋和杨阳(2017)研究利用新浪微博的大数据对2014年黄金周出行进行了研究[26],其他研究多集中于城市尺度[4,17,20,27]和城市公园尺度[28-29],目前少有景区尺度的研究。由于Flickr上的游客发布的图片为主的数据的结构化比较好,方便研究者获取数据,目前城市尺度的研究集中于利用Flickr上的游客图片数据和文本信息[4,27]。这些研究除发掘发现游客感兴趣的旅游景点外,还对不同客源地游客的出游模式和行为进行了比较[20]。研究人员还利用带地理标签的照片大数据来分析游客的偏好和活动[4,30]。Guo等(2015)[31]采用紧凑模式挖掘和序列模式挖掘方法,从去哪儿网发布的结构化旅游博客中收集地理信息,用于分析某一特定领域的兴趣、旅游活动和旅游使用服务,并进一步扩展了旅游领域地理标记研究中的数据采集技术。

本研究将在景区尺度对游记大数据进行挖掘分析,关注旅游者在景区内部和外部的移动模式,深入分析景区满意度,并将研究结果用GIS软件直观图示,为景区及所在目的地规划管理部门了解客源市场特征提供帮助。

3 研究方法

本研究的研究问题是界定华山的客源市场,挖掘游客在华山景区内的出行模式和行为偏好,了解对华山的满意度情况,以及游客在华山外的目的地联动情况。

3.1 数据获取

在蚂蜂窝和携程网游记攻略频道,以“华山”为关键词搜索游记文本素材。于2016年5月20日,通过火车头网页爬虫工具对游记网页内容进行抓取。除游记文本素材外,对相关游记中出游时间、花费、停留时间、关联目的地、作者常住地等结构化标签数据也进行了抓取。共抓取游记文本素材1 468篇(84.5万余字)。其中,蚂蜂窝网抓取768篇(58万余字),携程网抓取700篇(26.5万余字)。

3.2 数据整理和清洗

首先,将数据进行结构化处理,按照游记标题、游记作者、游记正文等基本要素以及出游时间、出游花费、停留时间、作者常住地等游客行为信息导入EXCEL中,成为本地原始游记数据库。其次,对数据进行内容清洗,删除基本信息大量缺失的数据(221篇,6.6万余字)、删除按照正则表达式抽取出的游记网站模板数据(86篇,4.3万余字)和广告文本数据(81篇,2万余字)。最后,删除重复和空白内容(共0.8万余字)、删除过短(10个字符以下)或纯符号等无意义内容(0.4万余字),例如“我到了!”“这张照片好漂亮……”“写在前面的话!”等。

经过整理筛选,共得到高质量华山游记素材1 080篇(70.4万余字)。其中,蚂蜂窝网游记549篇(43.9万余字),携程网游记531篇(26.5万余字)。

3.3 文本分词

对整理好的游记素材进行分词。分词原理是应用汉语词典进行匹配分词,即所谓机械分词法,这种方法是将待分析的华山游记字符串与标准汉语机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,并将其以前后空格形式进行切分。

利用ROST CM、NLPIR等工具和平台进行分词。首先,将“华山”“西峰”“绝壁”“日出”“栈道”“渭南”“杂肝泡”“香椿辣子”……等华山景区特有词汇添加到自定义分词词汇表;其次,按照既定方法对文本素材分词,完成后过滤掉各种副词、虚词等无意义词汇,整理得到有效词频列表。

3.4 语义分析

语义分析技术主要包括语义网络结构图绘制和情感分析。

语义结构网络图的原理是将所有词语相互关联度的强弱关系进行拓扑图展示。首先,将文本素材按照句号、问号、感叹号、省略号等整句结束标点进行分行;其次,根据修正后的高频词表对文本素材的每一行进行特征词提取和所有行特征词的共现频次统计,得到行特征词共现矩阵;最后,利用Netdraw,Gephi等软件将共现矩阵可视化,形成语义结构图。

情感分析主要是对游记文本进行基于情感词库的情绪倾向性分析,分析对象是分词和分行完成后的文本素材。首先,引入情感词典作为情感分析的基本依据,引入常见中文否定词库作为反向情绪判断的依据,引入常见中文副词库作为情感程度判断的基础。其次,将游记全文每一行的词汇与情感词库中进行匹配,并根据中文语言习惯中的多重否定规则进行情绪最终倾向的判断,根据副词表达的不同情感程度判断最后得分。最后,综合所有判断结果,给出游记每行的情感分析,正分为积极情绪,负分为消极情绪,零分属于中性语句,没有情感倾向。同时,得分绝对值越高,该情绪倾向程度越大。

4 分析结果

4.1 华山游客行为模式

华山游记大数据分析的高频关键词如表1所示,语义网络图如图1所示。可以看出,游客到访和感兴趣的景区内的地点主要是东南西北四峰,五峰中的吸引力较小的中峰未被列入。东峰与日出景观关系最大。西峰与日落景观关系最大、西峰体力消耗较大。北峰、西峰与索道关系较大。游客到访的主要景点包括:玉泉院、金锁关、苍龙岭等。游客在景区内的分布与华山景区内的自然条件、索道设计和旅游产品设计基本相符。

从图1还可以看出,西安对华山旅游影响很大。兵马俑、华清池、黄河(壶口瀑布)、西安市区等成为华山游客最常去的关联景区。在出行的交通方式上,远程游客主要通过飞机(西安/咸阳机场)以及火车到达华山。

对游客出游行为中的出游时间、花费、停留时间的分析结果分别如图2~4所示。华山到访游客的出游时间集中在4—10月份,与中国北方景区普遍存在的较强季节性有不同,华山旅游受季节的影响不是很显著。华山游客人均花费主要集中在1 000~3 000元,高端旅游消费较少。到访华山游客的停留时间主要为3~5d,但值得注意的是,结合游客目的地分析,游客还会到访兵马俑、华清池、黄河(壶口瀑布)、西安市区等其他目的地,因而在华山景区范围内的停留时间并不长。华山景区应从供给侧进行旅游产品升级,吸引游客增加停留时间,增加旅游消费,继续发挥在渭南地区旅游中的龙头作用。

4.2 华山游客客源地

图1 华山游记语义网络图来

图2 华山游客出行时间分布

图3 华山游客出游人均花费

图4 华山游客停留时间

对游记中作者常住城市进行统计,得出包含客源城市数量和占比(表2)。利用GIS软件,得到图5。华山游客以外省游客为主,按照人数由多到少可分为6个层级:北上广一线城市群,郑州、太原等周边地区,成都、重庆等西南地区,武汉、长沙等华中地区,沈阳、大连等东北地区和其他地区。这表明,华山客源市场与空间距离、经济水平、交通便捷程度密切相关,与华山的空间距离越近、经济发展水平越高、交通越便捷,则客源市场份额越高。

4.3 华山游客关联目的地

对整理好的游记数据中结构化的关联目的地数据进行整理,同一游记中到过的关联的目的地标记为同一行程内的节点,得到以华山为核心的周边旅游节点列表(表3)。对华山与所有相关旅游节点进行关联度强弱分析。利用GIS软件将关联度分析结果可视化(图6)。单独以华山作为目的地的游客为17.4%,占比较小。游客把华山与西安市区、秦始皇陵/兵马俑、华清池、延安、壶口瀑布、黄帝陵、骊山等陕西省其他高等级资源作为共同目的地。游客还会将华山与洛阳市区、嵩山少林寺、龙门石窟;青海湖、嘉峪关等周边省份高等级资源作为共同目的地。西安市区与华山成为游客捆绑游览最多的目的地。

游客的多目的地选择提示了华山景区与河南、青海、甘肃等周边省份进行区域合作联合营销的可能性。此外,考虑到华山地处渭南,而渭南市域大部分地区却在目的地联动中未能出现,这说明华山确实对渭南其他地区存在“形象遮蔽”效应。华山管理部门继续发挥华旅集团在渭南区域的发展平台作用,全面整合华山、渭南等陕西东线乃至黄河金三角区域内旅游资源,带动渭南区域旅游整体发展与提升。结合大数据分析显示的客源地分布数据,针对不同客源市场,进行针对性的产品设计和区域宣传。

4.4 游客满意度

对游记数据进行情感分析(表4),其中游客积极评价共11 686条,占比56.60%;游客中性评价共6 126条,占比29.67%;游客消极评价共2 833条,占比13.72%。

表1 华山游记高频关键词

对游客不满意评价数据进行的厚数据分析,将负面情绪中得分最低的前100条游记语料筛选出来,此为游客最不满意的方面。逐条对每条游客最不满意的评价进行内容分析,并按照“食住行游购娱”旅游要素以及旅游基础建设和服务方面进行归类分析。研究发现,游客对华山不满意的方面集中于服务设施、景区拥堵、景区垃圾、自驾导航等方面(表5)。

5 结论与讨论

本研究首次在景区微观尺度上利用旅游者主动生成的游记大数据进行语义分析数据挖掘,并用GIS呈现研究结果,直观展示了游记大数据对景区客源市场分析的有效性。游记大数据挖掘结果显示:华山客源市场目前仍以华山登山观光体验为主,西安市区与华山成为游客捆绑游览最多的目的地,除了西安市区外,兵马俑、华清池、延安等景区均是与华山联系紧密的景区,游客对景区设施服务和运营管理有许多不满之处。景区主管部门和目的地政府应整合利用包含游记大数据在内的多种数据来源,实时获取资源、环境、设施、人员等景区时空大数据,利用大数据中心及云计算平台提供的实时数据分析,根据相关大数据分析其偏好与需求,匹配景区资源、环境、设施等教育科普内容与信息服务,从而实现大众服务的智能精准化管理[3]。通过智能景区系统的规划建设,职能部门应能够实时监控景区内游客客流分布、交通状况、服务设施使用状况,及时采取分流疏导措施,保障游客旅游安全和秩序。结合舆情分析结果和设施使用状况,升级服务和设施品质,合理规划基础设施的设置和容量,改善游客体验,吸引游客进行正面的口碑传播。

本论文尚有一些不足之处:1)由于社交媒体上数据来源网站的市场占有率和对主体旅游者的覆盖度的限制,研究结果的代表性可能有偏;2)未区分自助游客和跟团游游客的出游模式异同;3)受研究时间限制,本研究尚未细分挖掘游客年龄层次等人口学统计学特征信息。本研究是对景区尺度的游记大数据的尝试性研究,未来有待继续开展的相关研究包括:1)对游记大数据中的图片数据内容进行分析;2)对不同客源市场的旅游模式和出游进行偏好分析;3)开展基于游记大数据与传统统计数据源的交叉验证分析。

表2 华山游记作者客源地分布

表3 华山游记目的地占比情况

图5 华山游记作者客源地分布(底图引自必应地图)

图6 华山景区游客多目的地选择

表4 华山游客满意度高频词情绪分析结果

表5 华山游记游客不满意评价表

猜你喜欢
华山游记目的地
Spatial correlation of irreversible displacement in oscillatory-sheared metallic glasses
恋爱中的城市
迷宫弯弯绕
咏华山
地心游记(十)只剩我一个人
华山论“剑”
寻梦环游记
寻梦环游记
动物可笑堂
超市游记