白刚
桂林旅游学院 旅游管理学院,广西 桂林 541006
随着互联网技术的高速发展,旅游者越来越倾向于利用互联网进行旅游产品预订、点评、社交等活动,在各类平台产生了海量的数据.其中,游客点评或评论数据是一类非结构化的文本数据,在各类社交网络中大量产生和存储.文本评论数据具有非结构化、碎片化的特征,是游客经过思考和语言组织表达的思维内容,情感比较稳定,文本中包含了游客对旅游目的地的情感倾向,而情感倾向表达了游客的旅游体验感知[1].
对游客情感倾向的提取和分析有助于发现游客感知的旅游目的地形象维度和具体影响因素[1].情感倾向的特定维度,例如拥挤感知存在显著的地理差异[2],游客的情感特征与时间地理学相关[3].文本评论的情感倾向亦是了解旅游者游后行为意图[4]的高效来源.
评论文本数据的情感倾向提取方法目前以基于情感词典的方法[5-7]、基于机器学习和大数据的方法[8-14]为主.基于情感词典的方法准确率受到词典颗粒度和学科分类准确性的高度影响[15],但应用简单;基于机器学习和大数据的方法在监督学习后可获得较高的准确率和效率,但需要以大量的人工标注训练集为基础.
2021年“五一”小长假期间,国内旅游人次达2.3亿,按可比口径恢复至疫前同期的103.2%,实现国内旅游收入1 132.3亿元,其中32%的游客采用了互联网预订等方式(新华网http://www.xinhuanet.com/2021-05/05/c_1127410778.htm),成都、重庆等城市成为热门旅游目的地,游客量分别超过390万和280万(中国互联网资讯网http://www.199it.com/archives/1242394.html).游客量的增加带来了高旅游收入,但同时也可能引起旅游体验的波动,对网络评论文本情感倾向的地理差异及其特征分析有助于发现游客情感的时空变化[16],可为旅游目的地理解旅游者行为产生重要的决策支持[3],并可发现各类因素对游客情感的影响[11],了解游客感知的目的地形象[17],判断游客忠诚度的影响因素和作用机制[18].
本文选取成都和重庆为研究目的地,以2021年“五一”期间新浪微博评论文本为研究对象,结合情感词典和机器学习的方法对评论文本进行情感标注和打分,对情感评分结果进行定量分析,同时对评论文本进行定性分析,以探求游客情感倾向的地理差异及特征,明确影响因素.
本文通过对评论文本包含的情感倾向进行分析,理解旅游者游中或游后的情感评价行为,进一步探索游客情感倾向的地理差异性及情感倾向的具体指向特征和维度,并寻找影响情感倾向的主要因素.本文研究的核心问题是:① 对完成情感倾向打分的评论数据进行定量分析,从客源地距离、游客量等变量入手,发现游客情感评价的地理差异;② 通过对文本内容的符号逐级编码和概括,探索游客对目的地情感评价的具体指向维度,并通过符码关联性分析等方法进一步解读影响情感倾向的具体因素.
本文采用定量和定性混合的研究方法.
采用统计分析和空间分析等方法对评论数据集进行定量分析,具体流程为:① 爬取对应目的地微博评论数据.采用Python语言构建爬虫程序爬取2021年“五一”期间目的地为成都和重庆的评论和相关用户信息,获取记录13 352条.② 数据清洗.对爬取的数据进行有效性处理,去除无效和重复数据,并对广告、非评论等数据进行人工去除,由于微博用户群体原因,港澳台数据不完整,手动去除后最终得到有效数据11 064条.③ 情感打分.采用笔者提出的混合情感词典和机器学习情感标注方法对评论文本数据进行打分.④ 统计分析和空间分析.定量分析中去除量纲,采用Z-Score对数据进行标准化处理.在定量分析的基础上,对成都和重庆的情感得分进行排序,选取情感积极和消极分值各前200的评论文本进行定性分析.采用三级编码的方法对文本数据进行分析,逐级概括出游客对目的地情感的指向维度及影响成都和重庆游客情感倾向的核心因素.
对旅游目的地为成都和重庆的评论文本进行自动情感评价打分,得分为正数的表示情感积极倾向或好评,得分为负数的表示情感消极倾向或差评,得分为0表示情感中性.成都积极、中性和消极评价占比为57%,31%和12%;重庆积极、中性和消极评价占比为54%,36%和10%.两目的地游客情感评价比例近似,评价具有明显的积极倾向.将打分后的数据按照客源地计算情感得分均值、情感得分离散系数和好评率,对数据进行标准化后的结果如表1所示.
表1 成都、重庆情感倾向
由表1可知,目的地为成都的游客情感评分均值高值客源地为青海、海南、安徽和新疆,其次为天津、上海、湖南和山西,低值客源地为福建、河北和山东;好评率高值客源地为青海、安徽和江西,好评率低值客源地为福建、甘肃、江苏和河北;根据离散系数可知情感得分波动剧烈的客源地为四川、甘肃、江苏、广东和山东.目的地为重庆的游客情感评分均值高值客源地为安徽、新疆和福建,低值客源地为吉林、云南、贵州;好评率高值客源地为新疆、天津、海南、湖北、福建,低值客源地为黑龙江、广西、青海、云南、吉林和贵州;情感得分波动剧烈的客源地为浙江、甘肃、四川和上海.
将表1数据导入RStudio软件中,以目的地为分类变量对情感得分均值、离散系数和好评率分别进行方差齐性检验和独立样本t检验,p值均大于0.05,说明成都和重庆的情感倾向在统计学意义上没有显著差别.
对成都和重庆游客情感倾向的离散系数和好评率进行全局莫兰分析[19],权重矩阵为客源地与目的地之间的欧氏距离,发现全局莫兰指数(Global Moran’sI)的p值均大于0.05,表明两目的地游客情感倾向的空间自相关性不显著,且客源地与目的地之间的距离不是影响情感倾向的主要因素,需要通过定性分析评论文本进一步探讨其他影响因素.
按照4分位将情感积极得分比率(好评率)分为4个等级,取值区间为半开区间,分别为低值[0%~25%),中值[25%~50%),次高值[50%~75%)和高值[75%~100%),地理分布如图1所示,白色表示未获取到有效数据.
审图号:GS(2019)1823号(中华人民共和国自然资源部监制).图1 成都、重庆好评率等级分布
从图1可以看出,目的地为成都的游客好评率得分高值客源地为青海和安徽,低值客源地为甘肃、江苏、上海和福建;目的地为重庆的游客好评率得分高值客源地为天津、新疆、湖北、福建和海南,低值客源地为黑龙江、吉林、青海、甘肃、云南、贵州、广西和浙江.成都和重庆好评率在高值和低值范围内地理差异显著,且均无空间集聚特征;次高值客源地均呈现出明显的空间集聚特征,两目的地游客好评率次高值区具有高度相似性,以华中和华南各省(自治区)为主要客源地.
对成都和重庆游客评论情感倾向分值进行排序,选择积极和消极情感得分前200的评论文本作为定性分析资料,采用三级编码的方法进行逐级特征概括和提取.
3.1.1 开放式编码
对成都和重庆评论文本进行汇总,导入MAXQDA 2020中进行编码.进一步依据词语/句子间含义相近的原则进行归并[20],归纳为目的地、旅游主体、旅游目的、客观感知、主观体验5个主类属,其中包括多个亚类属.
分别对成都和重庆的积极倾向、消极倾向文本进行编码,开放式编码过程和结果如表2-表5所示.
表2 成都积极情感文本编码
表3 成都消极情感文本编码
表4 重庆积极情感文本编码
表5 重庆消极情感文本编码
续表5
3.1.2 总体分析
成都和重庆的积极和消极文本编码最终得到5个主类属符码数量总体比例分布如图2所示.其中,主类属“目的地”符码占比接近;主类属“旅游主体”占比均在10%以内,两个目的地消极情感文本编码以“我”为主要符码,说明持消极态度的游客主要为单体游客.
图2 主类属符码占比
成都和重庆积极文本主类属“旅游目的”占比(21.1%和13.5%)均高于消极文本主类属“旅游目的”占比(4.8%和4.5%).其中,成都积极和消极文本主类属“旅游目的”所包含的亚类属中,“美食”占比分别为92%和79%;重庆积极文本主类属“旅游目的”所包含的亚类属分别为粉丝(48.8%)、情感(29.0%)、观光(17.5%)、美食(4.7%),重庆消极文本主类属“旅游目的”所包含的亚类属分别为观光(64.8%)、粉丝(17.6%)、美食(17.6%).成都和重庆游客旅游目的差异明显,重庆旅游目的较成都多元化,旅游吸引物更为丰富.
“客观感知”和“主观体验”是编码的核心部分.如图3所示,“客观感知”包含的亚类属中情感积极文本编码“视觉感知”和“形象感知”为主要亚类属.成都积极情感文本编码情感亚类属中“时间感知”占比较大;消极文本编码成都与重庆差异较大,成都主要亚类属为视觉感知(31.9%)和体觉感知(43.8%),重庆为体觉感知(42.3%)和形象感知(37.8%).
图3 客观感知亚类属符码占比
由图4可知,“主观体验”主类属包含的亚类属中,无论是积极还是消极情感文本编码,情感体验均占主要比例.
图4 主观体验亚类属符码占比
3.2.1 积极情感特征
在表2中,“旅游目的”主要指向“美食”,从“主观体验”中“味觉体验”的开放式符码可以看出游客对成都饮食的高度认可,进一步由代码接近度(图5)可以发现,“主观体验”中的“好吃”“便宜”等符码与饮食有高度关联.亚类属“观光”虽然占比较小,但在“客观感知”主类属中从视觉感知和形象感知角度,在风景、建筑、城市整体等方面将成都描述为“非常有小资情调,像江南温婉雅致的烟火气城市”,反映了 “观光”仍旧是游客来成都的主要目的之一,且对城市景观认可度较高.
图5 代码接近度
在表4中,重庆“旅游目的”的亚类属范围较成都更广,“粉丝”比例最高,反映了重庆明星粉丝营销、影视营销的效果,其中符码“肖战”“何平”“拳击冠军”等高频词出现,偶像的吸引力和经济带动价值很高.在“旅游主体”的开放符码中,“伙伴”“朋友”频次大于“我”频次,与他人同游重庆的意愿高于单人;“情感体验”亚类属的开放符码包含强烈的正向情感,通过搜索引擎以关键词“重庆 浪漫”进行搜索,有超过83万条记录包含最浪漫的10个地方、求婚圣地、浪漫地标、浪漫公园等结果,反映出重庆的城市形象中“浪漫”的输出较为成功.
3.2.2 消极情感特征
尽管成都和重庆消极情感占总体评价的比例相对较低,但仍反映出目的地的“短板”.针对消极情感的文本编码进行分析,能够提取出旅游目的地具体的“短板”指征,可为目的地进一步提升城市形象提供参考.
在表3中,成都消极情感文本编码主类属“客观感知”的符码集中指向了“天气热”“人多/拥挤”“机器坏了”,与“主观体验”主类属中“情感体验”的“累得够呛”“心情糟糕”“绝不出来玩”有强代码关联.综合观察表2和表3发现,成都积极情感目的地符码与消极情感目的地符码完全不同,反映出旅游点本身对游客情感影响较大.表3景点中的“宽窄巷子”“九眼桥”等成都热门旅游景点具有强吸引力,导致游客量暴增,“拥挤”的产生导致游客在评论文本中反应出较大的期望感知差距.表2中亚类属“时间感知”高比例符码指向“清晨”“傍晚”等温度较低时段,进一步说明高温对游客情感的消极影响较大.
由表5可知,重庆消极情感文本编码主类属“客观感知”的亚类属“体觉感知”和“视觉感知”包含符码集中指向“热”“人多/拥堵”“爬坡”,与亚类属“主观体验”中“情感体验”的符码“累”“再也不来”及亚类属“氛围体验”的符码“爬不动楼”有强代码关联.亚类属“形象感知”的开放符码将重庆描述为“起伏不断,弥漫火锅味的5D魔幻山城”,整体为中性情感描述.在表4和表5中,亚类属“景点”的符码中“洪崖洞”“李子坝”“解放碑”都存在,表明热门景点存在游客量超载等情况,但不同游客感知和体验不同,可进一步对游客群体进行细分研究以发现消极游客群体特征,为景点提升游客满意度提供参考.
本文对2021年“五一”期间去往成都和重庆的游客在微博上评论文本的定量分析发现,两地游客好评率均大于50%,好评率空间自相关性表现不显著,但好评率次高值[50%~75%)客源地呈现出明显的空间集聚特征,以华中和华南省(自治区)为主.成都和重庆的高值和低值范围地理差异显著,且均无空间集聚特征.
进一步对文本材料编码进行定性分析,最终得到包含多个亚类属的目的地、旅游主体、旅游目的、客观感知、主观体验5个主类属.将这些类属与文本资料的内容进行关联,发现两地旅游主体在积极情感文本符码中均包含多人群体和单体,消极情感文本符码中则均为单体.成都和重庆的游客旅游目的有较大差异,成都游客以美食和观光为主,重庆游客则以观光、粉丝和情感为主,重庆游客的旅游目的更多元化.将主类属核心“客观感知”和“主观体验”与文本内容进行综合分析发现,成都游客对成都的饮食和风景高度认可,部分景点的高知名度引发的拥挤、部分城市基础设施的损坏及天气炎热是成都消极情感的主要来源.重庆的城市形象“浪漫”输出比较成功,是旅游主体多为群体的主要原因之一,同时粉丝营销效果明显,吸引了大量明星的粉丝,在亚类属“情感体验”表达中呈现出强烈的正向情感.重庆的消极情感集中表现在天气热、人多和爬坡引起的疲劳等方面,在消极文本中城市形象感知符码情感表达为中性.
通过对编码的综合及概括,成都形象描述为“非常有小资情调,像江南温婉雅致的烟火气城市”,重庆形象描述为“起伏不断,弥漫火锅味的5D魔幻山城”.成都和重庆地理位置接近,在旅游形象定位上却有明显差异.
尽管本文从文本资料分析中发现了游客积极和消极的总体特征,但由于微博数据本身的维度限制,缺乏足够的游客人口特征,因此未能进一步对游客群体进行细分以探求人本维度情感特征的数据,今后尚需进一步通过实地调研等方式拓展数据,采集维度.