王耀斌,陈海龙,刘 逸,宋 颖,张丽霞,张生举
(1.西北师范大学 旅游学院,兰州 730070; 2.中山大学 旅游学院,广州 510275; 3.甘肃财贸职业学院,兰州 730070)
在信息化时代,互联网技术与智能通讯终端的广泛使用,孕育出种类繁多的社交媒体平台,彻底改变了信息交互和生产的方式。社交媒体平台以其开放、交互和即时的特点使旅游者可以快速地表达观点,由此产生海量的文本数据,成为旅游管理部门和旅游行业研究游客行为的重要信息源,更是旅游学与地理学关注的热点。这些在线评论不仅是用户情绪表达的重要载体,而且还具备极其关键的时间和空间属性,由此可以得到整体性的空间结构和行为特征[1],这是传统数据所无法达到的研究深度。在此背景下,旅游学与地理学研究近年来高度关注网络文本的信息挖掘技术和情感分析,专注于技术与特征挖掘,对情绪的处理较为简单,大多采取正负面两类情绪[2-6],为游客情绪研究提供了方法借鉴。基于此,本研究根据情绪相关理论,构建捕捉游客6类情感的分析模型,挖掘游客情绪脉搏的时空特征,把握时空尺度下游客情绪的变化规律。
网络集群行为(network cluster behavior)是随着互联网发展而形成的新形态集群行为,网民在“虚拟社区”中自由表达,包括且不限于新闻网站、贴吧、微博、微信推文等在内的公共网络场域[7-8]。杜骏飞认为网络群体事件的本质是网民群体围绕特定主题、基于不同目的、以网络聚集的方式制造社会舆论、促发社会行为的传播过程[9];乐国安等在研究中用“网络集群”概括网络集群行为中的群体[10-11]。传统网络集群研究侧重于测量社会公众情绪,如青平等在研究中证明网络意见领袖进行感性动员时容易在网民中引起愤怒情绪[12];夏学銮从社会学角度出发,认为网络集群行为是某一时间内、网民自发或有组织地聚集在某一网络公共场域、进行网络表达的行为[7]。目前,网络集群方面的研究大多是从社会学、政治学的视角展开,尚未有利用网络集群对游客情绪开展大规模的时空测量研究。
情绪是人对外界事物感知过程中产生的即时的、感性的心理反应[3],而活动中的认知会产生快乐、愤怒、悲伤、恐惧等不同的心理体验[13],反映出人们对事物的看法、态度以及利益诉求,带有显著的特异性心理过程[14]。康奈尔大学的研究人员S.A.Golder等对Twitter上的5亿多条推文进行内容分析,涉及84个国家的200万余个账户,通过分析关键词,发现Twitter用户的情绪变化走向趋于一致,且每日不同时间段的整体表现也很接近,相较于周中,周末的情绪表现更为积极[15];Harvard University和Northeastern University的学者分析了3亿条tweets(推文)的关键词,发现在东海岸居住的人不如居住在西海岸的人快乐[16]。基于此,学者设计出“晴雨表”,用来反映美国人的心情波动。Twitter在众多国际突发性事件中扮演着抢先报道的角色,也因此被称为人类情绪的脉搏。利用Twitter平台数据进行分析的相关研究带来启发,认为将旅游平台的游客在线评论进行处理后,通过技术手段分析游客评论文本,继而所得到的游客情绪时空变化即为“游客情绪脉搏”[1]。目前,相关研究集中于旅游体验、满意度、旅游目的地形象等几个方面,如白凯等将西安回民街的入境游客作为对象,在情绪体验和忠诚度的基础上构建结构方程模型,探究入境游客的情绪体验和忠诚度的关系[17];在大数据思想启发下,于静将线上微博平台内容与线下问卷结合,构建了游客情感分析模型,以时空思维为主线,把握游客情感的时空规律[18];在评论数据的应用上,索志辉等从游客体验视角对开封旅游目的地形象展开研究[19];在国内5A级景区的研究上,袁诚等对景区分布特征的研究停留在经济效应层面,未涉及游客情感[20];徐宁宁等从情绪评价理论出发,探索游客在旅游目的地的自然环境和人文环境中产生的积极情绪,未有细分维度下的游客情绪变化探索[21];王敏基于网络文本和扎根理论分析了游客对殷墟旅游形象的感知[22]。学者们对情绪影响因素、情绪变化等进行的大量研究为开展游客情绪脉搏的大规模测量提供了借鉴。
游客情绪表达具有复杂性和特殊性,在进行游客情绪脉搏的时空特征研究时无法直接使用现有的情绪分析方法和情绪词库。因此,本研究借助在线平台评论数据,建立适用于在线旅游平台的游客细粒度情绪词库,使用Spark实现Bayes算法,构建游客情绪细粒度分析模型,分别从时间、空间维度把握网络集群行为视角下游客情绪脉搏的时空特征,挖掘影响游客情绪变化的因素,为进一步研究游客情感提供思路和方法借鉴。
根据文化和旅游部的国家5A级景区名录,将截至2018年12月31日中国内地31个省份258个5A级景区作为研究目标,根据景区资源类型,将5A级景区分为4类,包括81家自然景观类景区、100家人文景观类景区、64家自然和人文景观类景区以及13家主题公园。
以游客在全国5A级景区行游后在携程网和去哪儿网发布的网络评论为研究对象,时间为2010年1月1日至2018年12月31日。其中有9家景区于2018年10月17日确立为5A级景区,时间上接近数据收集的截止时间,因此,其在线评论不纳入研究范围,最终选取249家5A级景区。旅游者行游后在旅游平台发表的评论数据均会被收集,这意味着不同景区、不同时间段的评论用户ID不一致。
通过数据抓取初步获得1 526 754条评论,剔除重复评论和用户默认好评,删除字符串、乱码、数字以及英文缩写等无效评论,最终得到900 136条有效评论。
为使数据来源具有说服力、研究具有可靠性,检验了数据的可信度。按照汉语拼音首字母排序,在4类景区中分别挑选5个景区,将其百度搜索指数与2017年在线评论量做Pearson相关性分析以检验数据可信度(表1)。Pearson相关系数的绝对值R决定自变量和因变量相关程度。自然景观类5个景区评论数量与百度指数的R值为0.812 3,人文景观类R值为0.891 4,自然和人文景观类R值为0.972 9,主题公园R值为0.874 7,表明4类景区评论数量与百度指数都具有强相关性;而20个景区与百度指数的相关系数R值为0.442 8,表明所有景区评论数量与百度指数间具有中等程度相关,说明运用评论分析游客情绪脉搏具有一定可信度。
表1 四大类型景区个别代表性景区游客百度指数与在线评论量对应表
结合P.Ekman对情绪的分类[23]、董颖红构建的微博客情绪词库[24]、大连理工情感词汇本体、HowNet词库、Hu & Liu构建的英文情绪词库以及相关研究中应用的情感分析技术[25-27],结合已有的情绪词汇,通过人工阅读筛选、分类、汇总,提炼适用于网络情境的游客细粒度情绪词库,发现完成词汇分类后一致的比例达到86%。再二次筛选剩余14%不一致的分类词,得到适用于旅游平台的游客细粒度情绪词库,含206个厌恶情绪词、152个愤怒情绪词、271个悲伤情绪词、363个喜悦情绪词、108个恐惧情绪词以及89个惊奇情绪词。
为方便编码和查找,将喜悦情绪、惊奇情绪、厌恶情绪、愤怒情绪、悲伤情绪和恐惧情绪分别用数字0~5代替。对同一批在线评论进行人工阅读,数量达5万条,每条评论的整体情绪类别分别用数字0~5标注,得到判定一致的评论45 721条,将其作为训练样本。
利用庖丁分词器对所有评论文本进行分词切分,结合游客细粒度情绪词库和训练样本,以朴素贝叶斯(Naive Bayesian)为思想基础,使用Spark实现Bayes算法,以词汇匹配技术作为辅助,对给定的待分类项,判定其情感归属类别,最终构建游客情绪细粒度分析模型[1]。
为了检验游客情绪细粒度分析模型判定结果的准确度,人工阅读另外5 000条评论,判定在线评论文本的整体情绪类别,得到4 632条一致判定的评论文本。应用游客情绪细粒度分析模型对4 632条评论文本进行处理,发现95.01%的游客评论情绪判定结果与人工阅读判定结果一致,表明该细粒度分析模型具有较高准确性。应用游客情绪细粒度分析模型,将获取的所有评论进行判定,得到带有情绪细分结果的.csv格式文件。
从时间、空间和时空结合3个维度,借助Excel,SPSS 19.0和ArcGIS 10.5软件,对游客情绪脉搏时空变化进行可视化处理。
将所有景区按照地点归类后,对31个省份的249家5A级景区在线评论情绪判定结果进行统计分析。根据情绪结果归纳为3个时间段,即2010—2012年、2013—2015年和2016—2018年,绘制3个时间段内31个省份的游客情绪脉搏(图1)。
图1 2010—2018年31个省份5A级景区游客情绪脉搏
2010—2012年,便携设备尚未普及,评论意识不够,评论量非常少,且这个时间段北京、海南、江西、上海、天津5个省份的5A级景区缺少评论。数据处理结果显示:游客喜悦情绪占绝大部分比例,平均在60%,与另外5种情绪占比差距较大;个别省份出现喜悦情绪之外的某类情绪占比突出,如青海和宁夏游客的惊奇情绪占100%,而喜悦情绪则为0;四川游客的悲伤情绪占60%以上,几乎没有喜悦情绪;华东、华中、西北、西南等地区有10个省份游客的细粒度情绪分布一致,喜悦情绪平均占40%,另外5种情绪占10%~20%。
2013—2015年评论数据量比较可观,且所有省份的5A级景区均有评论。各省份游客的厌恶情绪与悲伤情绪均占10%左右,惊奇占15%,愤怒占20%,喜悦占45%;相较于其他省份,广西游客的悲伤情绪占比较高;另外4种情绪占比均低于其他省份,与其他省份情绪分布明显不同;江苏游客的喜悦情绪占比最高,惊奇情绪占比显著低于其他省份。该阶段的全国各地游客情绪呈现的变化一定程度上映射出国内旅游行业亟需转型升级的状态。
2016—2018年评论数据量显著高于前两个时间段,占总数据量的50%以上。喜悦情绪占比回升到70%左右,其他5类情绪在10%以内的范围内波动且各类情绪占比明显下降。其中西藏和上海游客的喜悦情绪占比明显偏低,西藏游客的惊奇情绪和上海游客的愤怒情绪占比偏高,结合两地的旅游环境和时代特征来说,西藏作为“世界屋脊”本身就会给大多数游客带来惊奇体验,而上海作为国际性现代化大都市,游客的满意度和愉悦感在一定程度上有所丧失。
从时间维度来看,同一省份不同年份的游客6类情绪占比差异显著。游客整体的喜悦情绪占比从40%增长到60%,惊奇情绪、厌恶情绪、愤怒情绪及悲伤情绪所占比例逐渐减小,最终稳定在20%以下,游客基本没有恐惧情绪。
将所有在线评论按照自然景观类景区、人文景观类景区、自然和人文景观类景区、主题公园进行划分,绘制4类景区游客2010—2018年的情绪脉搏曲线图(图2)。
由于2010—2012年旅游在线平台评论极少,各景区数据量相差悬殊,样本不具有代表性,游客情绪脉搏出现大幅度波动。2013年后,自然类、人文类、自然和人文类以及主题公园等4类景区游客的6类情绪变化呈现一定相似性,各类景区的喜悦情绪呈整体增长趋势,但自然和人文类景区喜悦情绪在2013—2015年占比有所回落,主题公园类喜悦情绪在2018年时回落至70%,4类景区游客的厌恶、愤怒、悲伤、惊奇情占比稳定在20%,几乎没有恐惧情绪。
基于ArcGIS 10.5,将游客的喜悦情绪、惊奇情绪、厌恶情绪、愤怒情绪以及悲伤情绪按占比进行可视化。恐惧情绪占比不到1%,不再标注。根据所占比例从40%开始以10%为跨度对喜悦情绪进行标注,从0开始以10%为跨度对惊奇、厌恶、愤怒和悲伤进行标注,得到2013—2015年5类情绪的空间分布对比图(图3)。从图3看出,东北、西北、华东、华南、西南的部分省份游客喜悦情绪占比较高,西南、西北、华北、华中的部分省份游客惊奇情绪占比较高。2010—2012年各区域情绪占比差异明显,东、中、南部的喜悦情绪居多,2013—2015年各区域情绪占比差异缩小,部分省份游客的悲伤和愤怒情绪占比较高,2016—2018年全国游客的喜悦情绪占绝大多数,各区域其他5类情绪占比差异不大。总体来看,国内游客情绪脉搏2010—2018年的变化趋于稳定且各区域同一类情绪占比差异缩小。
图3 喜悦、惊奇、厌恶、愤怒、悲伤情绪对比
将游客在线评论按照7个分区、31个省份归类处理,使用ROST CM6软件分析得到排名前10的高频词。国内7个分区中,东北地区的游客在线评论高频词中“极地”“公园”“表演”等与国内其他分区表现出明显差异,反映出东北地区游客对极地海洋公园、动物表演等给予极高关注和重视;华中地区和华东地区范围内的5A级景区数量占全国5A级景区总数的43.4%,而华中地区和华东地区的人口总量占全国总人口的44.3%,发展水平相对较高的华东地区和华中地区的游客在线评论中“身份证”“排队”明显高于其他地区,暗含了游客对排队时间久的抱怨和不满心态;西北地区的高频词中“历史”“西安”“兵马俑”以及华北地区“故宫”“历史”排在前列,而“讲解” “导游”均紧跟其后,体现出游客对著名经典景点的向往、知识的渴求以及对历史的探索精神。
31个省份的高频词有“景色” “景区” “方便”“便宜”“地方”“值得”“时间”等,对应在线评论文本内容为“景色优美”“票价便宜”“交通方便”“值得一来”“导游热心”等,一定程度上反映出国内游客行游中关注门票价格、交通便利性以及景区类型,而出现频次很高的“导游”则说明在游客体验中服务主体起到关键作用[1]。
总体看,各分区的代表性景点出现在各区的高频词中,东北有“海洋极地世界”、华东有“上海”“东方明珠”、华中有“黄鹤楼”“三峡”、华北有“故宫”“长城”、西北有“西安”“兵马俑”、华南有“南山”“观音”、西南有“古城”“雪山”,反映出游客对地区著名景点的高关注度。“优美” “满意”“精彩”“开心”“热情”等词在游客情绪词库中均在喜悦情绪词类中,对应的评论文本可大体归纳为风景优美、表演精彩、服务热情和玩得开心,反映了游客对5A级景区的整体评价与感知,说明景区的资源禀赋、交通区位以及基础配套设施对游玩质量和游客的情感体验具有决定性作用;“排队”“拥挤”“仓促”等则属于愤怒情绪和厌恶情绪,反映了游客在等待时关注的问题和心理感受,可帮助提醒管理层重视景区运营与管理的提质升级。
借助Gephi生成语义网络图(图4)。根据评论文本内容,多层词群围绕中心节点,生成多个语义簇,中心词和边缘词之间的距离与其间的关联性成正比,词频的高低表现为线条颜色的深浅,即共现次数越多,线条越深。整体来看,语义簇呈“核心-过渡-边缘”结构:核心层由“便宜”“值得”“导游”“方便”“服务”“景区”等词构成,与景区的品质、景点的特色紧密相关,即5A级景区的核心特质;过渡层为“热情”“态度”“讲解”“网上”“门票”“行程”等,主要与景区相关的服务、产品相关;边缘层为“文化”“身份证”“交通”“司机”“优惠”“满意”“快捷”“历史”等,反映出游客对整体行程的评价。
图4 游客在线评论语义网络
在时间维度上,游客整体情绪脉搏分为3个阶段,分别是2010—2012年、2013—2015年和2016—2018年。在这3个阶段中,喜悦、惊奇、厌恶、愤怒、悲伤5类情绪变化显著,仅有恐惧情绪变化不明显。在空间维度上,游客情绪脉搏呈现出显著的空间差异,喜悦是强度最高且差异最大的情绪类型,且与经济发展水平不一致;其次是惊奇和愤怒这两类情绪,同样与经济空间结构不一致,而且这两者的空间结构有一定的相似性;其他情绪没有显著的空间差异。在资源种类上,自然类景区和人文类景区游客的情绪起伏差异不大,但与主题公园的差异较为明显。
本研究基于旅游评论数据,一方面,通过建立旅游平台专属游客情绪词库,构建游客情绪细粒度分析模型,把握国内游客情绪脉搏的时空特征,为旅游研究开辟新的思路;另一方面,通过文本内容分析,发现游客关注“票价便宜”“交通方便”“值得一来”“服务热心”,反映出游客行游决策受门票价格、交通便利性以及景区类型影响较大,而出现频次很高的“导游”则说明在游客体验中服务主体起到关键作用,因此,可提醒景区管理部门应结合游客实时评论,做好景区的运营管理和提质升级。本研究的局限在于仅对游客情绪脉搏的时空特征进行把握,尚未对情绪变化机制展开解释,后续还需进一步挖掘,在旅游情感地理方面进一步探讨。