沈俊鑫 林佳慧 李 晶
(1. 昆明理工大学管理与经济学院 云南昆明 650500;2. 宁波工程学院经济与管理学院 浙江宁波 315211)
在全球新冠肺炎疫情的背景之下,旅游业发展举步维艰。相比2019年,2020年的国内旅游收入下降了34964.62亿元,同比下降61%,旅游人次也大幅下降,不足2019年旅游人次的一半。同时,旅游行业仍然存在虚假宣传、强迫消费、安全卫生等问题[1],而文化和旅游部又提出要以高质量旅游服务供给引领和创造新需求,助力建设高标准旅游市场体系,不断增强广大游客的获得感、幸福感、安全感[2]。因此,学者们越来越关注游客的偏好、兴趣特征,从游客感知出发,提高旅游服务质量,推动旅游业复苏。但是,旅游服务质量的传统研究大多采用定性方法建立旅游服务质量指标体系,通过问卷调查获取游客满意度评价,量化后再采用其他方法进行研究。然而通过建立指标体系来获取游客对旅游目的地的评价,并不能完整地展现游客对旅游目的地的看法[3]。同时,问卷调查缺乏弹性,不能了解问卷以外的信息,而且受限于研究者的认知水平,可能会遗漏一些更深层和细致的信息,甚至会出现认知偏见和错误的预设。然而,随着互联网的快速发展和社交媒体的推广与普及,游客开始在旅游社交平台或是网站上发布大量关于旅途的评论信息,研究者可以通过评论数据获取游客对旅游目的地的整体看法,大数据的时代来临也为处理这些评论数据提供了工具。此外,云南拥有丰富的旅游资源,旅游业作为云南省的支柱性产业,对其经济增长有显著的拉动作用。鉴于此,本文将运用游客情感分析的理论,通过扩充游客评论情感词典,提高情感分析的准确性,以赴云南旅游的游客评论为文本数据,感知游客对云南旅游服务质量的态度与看法,探寻其对旅游目的地的情感倾向与特征,揭示游客产生不同情感倾向的原因,希望对云南旅游业的复苏和发展提供积极参考。
随着旅游业的快速发展,旅游市场竞争日趋激烈,学者们开始关注旅游服务质量,试图通过提高服务质量来增强旅游目的地或旅游企业的竞争力。Gronroos[4-5]最早提出了顾客感知服务质量模型,接着将服务质量理论引入旅游学的研究中,从顾客视角出发,定义旅游服务质量的概念。随后,Voget和Fesenmaier[6]提出服务提供者和企业无法真正了解游客的需求,应该关注游客本身,才能达到提升旅游服务质量的目标。而随着旅游服务质量理论的发展与传播,国内学者也从广义与狭义两方面对旅游服务质量进行了定义[7]。在旅游服务质量的评价模型方面,学者们大多采用的是传统的SERVQUAL、SERVPERF和IPA等服务质量评价模型,创新度不够。比如,闫金娟和赵希勇[8]以SERVPER评价模型为理论基础,运用德尔菲法选择指标,构建了乡村旅游服务质量评价体系。国外学者运用SERVQUAL模型评价西里西亚博物馆的旅游服务质量[9]。此外,还有学者运用IPA模型对旅游服务质量提升进行了深入的研究[10]。在研究方法方面,国内学者主要使用的是模糊综合评价法和灰色关联法。其中,学者们大都是运用模糊评价法构建旅游质量评价指标体系,对游客体验的旅游服务质量进行评价[11-12];也有学者从模糊数学的角度建立旅游服务质量的模糊评价模型[13];王恩旭等[14]则是运用灰色关联法分析入境游客对旅游服务质量的满意度,发现交通、娱乐和购物服务质量相对较差。
总体来说,学者们偏向用不同方法、模型去研究旅游服务质量,虽然有做出新的尝试,但是对模型和方法的改进不大,也没有对游客关注的旅游要素进行情感倾向区分,比如旅游地的景色、旅游路线的安排、旅游地当地的文化特色等,这些要素是如何影响游客的情绪,对游客会产生怎样的影响,仍然有待进一步研究。
互联网的高速发展加快了信息的传播速度,使得在线评论成为人们阐述个人观点、看法的重要形式。同时,大数据技术的发展也为挖掘网络文本深层信息提供了各种工具。
在线评论可以构建一个包含文本信息、用户信息、情感信息等方面的数据集,挖掘数据集中的用户情感信息,对用户生成个性化推荐[15]。还有研究表明,通过对评论文本特征以及评论者的社会身份和社会网络展开分析,可以找出影响酒店在线评论同行评价的因素[16]。在线客户评论和评分是影响旅游购买决策的强大信息来源[17],旅游网站上游客的在线评论可信度会对其他游客购买决策产生影响[18]。游客在线评论是游客对旅游地的形象感知在互联网上的映射,通过对网络信息的挖掘与分析,可以帮助游客了解旅游地的形象特征[19]。但总的来说,在线文本挖掘的相关研究大都集中在社交平台评论和产品使用评论,对游客评论的研究还相对较少,而且主要是研究游客评论反映的旅游地形象,对通过游客评论感知目的地旅游服务质量的研究关注度还不够。
近年来,情感分析已经成为一个热门的研究话题,可以将情感文本分类用来收集用户的偏好[20]。文本的情感分类广泛应用在市场营销、政治学、心理学、人机交互、人工智能等领域,并展现了巨大的潜力。通过对情感分类的不同研究方法归纳汇总,发现文本情感分类的方法主要分为基于情感词典、基于机器学习以及基于深度学习三种[21-22]。比如,有学者运用基于词典的情感分析方法对酒店评论进行细粒度分类,了解用户对酒店服务质量的细粒度情感评价,研究影响用户满意度的因素[23]。李杰和李欢[24]则是通过卷积神经网络算法提取产品特征并对产品在线评论进行情感分类。
研究在线评论情感分类的相关文献发现,含有明确情感倾向的文本很容易判断其情感极性,但对于不含任何情感词的中性文本判断的准确度不高[25],说明在判断情感倾向时更应该关注那些没有使用明确的情感词语来表达情感的文本,而不是带有明显情感倾向的文本。因此,学者们开始通过改进算法或是对词典进行扩充来提高情感分类的准确性。比如,景丽等[26]将情感词典与机器学习相结合,构建了网络评论情感分类模型,对情感词典进行扩充后得出基于情感词典的分类结果,再通过机器学习方法提高难以确定情感倾向文本的分类准确性。Fahad[27]利用基于监督学习的Logistic回归分类器对文本内容进行情感检测,明显提高了系统情感分类的性能。
通过回顾相关文献,可以发现在线评论文本的挖掘技术和情感分析技术已经在众多领域应用,其发展和研究已经较为成熟,这也为接下来的研究提供了技术基础。鉴于此,本文从游客感知角度出发,运用大数据文本挖掘和情感分析技术,从游客评论数据中探寻赴云南旅游游客的情感倾向和特征,了解云南旅游服务质量的当前状况。
本文选择云南省作为研究区域,一是因为云南拥有丰富的旅游资源,旅游业对云南经济的拉动作用十分突出。二是在全球疫情的大环境下,出境游基本处于停滞状态,而国内疫情在严格防控下,旅游业逐渐开始复苏。云南省是我国的旅游大省,2020年国内赴云南的游客人数为5.29亿人次,已经达到了疫情前2019年的66.13%,相比其他地方,将云南省作为研究区域有较好的现实意义。在此基础上,本文选取了云南省的昆明、大理、丽江、迪庆、西双版纳共五个著名的云南旅游城市进行研究,又从这五个城市中选取了网络上点评数量最多的景点,包括滇池、石林、民族村、斗南花市、七彩云南欢乐世界、苍山、洱海、大理古城、丽江古城、玉龙雪山、泸沽湖、香格里拉、梅里雪山、普达措、松赞林寺、景洪告庄、野象谷、西双版纳原始森林公园共18个景点。
本文采集的游客数据来源于携程网,利用Python抓取了13899条游客在线评论,收集的数据为2021年一整年的游客评论,包含了一年中的所有节假日。但原始数据良莠不齐,包含了大量的噪音。所以先要对数据进行清理,去掉重复、无意义评论和默认好评后剩余7021条有效游客评论。接着利用Python中的Jieba分词包对游客的评论进行分词,为了提高分词的效率,整合了百度、哈工大以及四川大学机器智能实验室停用词表并进行去重,剩下了1501个停用词,加上根据游客的评论和游记整理出来的65个停用词,一共1566个停用词构成了停用词表,用来过滤掉评论文本中无意义的词语和字符。
1. 游客评论情感词典
首先将HowNet情感词典、清华大学李军褒贬义词典和台湾大学NTUSD简体中文情感词典进行汇总、去重并删去了一些生僻字和与旅游业无关的词汇,得到了基础情感词典。其中,正面词9659个,负面词12908个。其次,通过阅读和整理旅游相关文献以及游客评论,提取和整理了游客评价的词典,共包含446个正面词和518个负面词。最后,汇总得到游客评论情感词典,总共是10105个正面词和13426个负面词。
同时,考虑到游客表达的情感倾向的强弱,进一步对情感词前后的程度副词进行了梳理,对不同的程度副词赋予不同的系数。本文选取了HowNet词库中的219个程度副词,根据其强弱等级,包括极其/最、很、较、稍、欠、过六个等级,以0.5为单位依次递减,从3到0.5赋权重。例如,当一条评论中出现“好看”这个词时,将被记录1分,而当“好看”这个词的前面还有“最”或者“很”等程度副词的时候,分值将变为3分或者2.5分。对分句的所有情感词进行得分计算之后,将对每一条评论的正负情感得分进行总计。程度副词可以用来判断文本的情感强弱,而否定词和转折词则会导致句子的情感倾向发生变化。因此,笔者整理了39个否定词和转折词作为否定词典。情感词典的具体规则见表1。
表1 情感词典具体规则
2. 基于情感词典的情感分类模型
设计情感分类的算法用于计算每条评论的情感得分,以此判断游客对云南旅游服务质量的态度和看法。首先利用Python将每条游客的评论根据标点符号进行切分,分成多个短句;再应用Jieba模块对每个子句进行分词,去除停用词后组成一个分词字典。将分词和游客评论情感词典进行匹配,找出每句话中的情感词,再查找情感词的前后是否存在程度副词和否定词,若存在,则赋予相应的系数。然后计算每个分句的情感得分值,将各个分句的情感得分进行加减计算,最终得到每条评论的情感得分值。具体的公式如下:
其中,Fi表 示每个分句的情感得分,m表示每个分句的否定词个数,w是分句中程度词对应的权重,s表示分句的找出正面词和负面词后的基础得分,n表示每条评论的分句数,F表示每条评论的总分。根据以上算法,计算出每条评论的情感得分,得分大于0的为正面评论,得分小于0的为负面评论,等于0则为中性评论。
基于上述算法对游客评论文本进行情感分析后,使用Python环境下的Wordcloud模块对正面和负面评论进行主题挖掘,找出关键词,根据词频的变化对游客评论进行可视化。同时,利用ROST Content Mining的社会语义网络对正面、负面评论文本进行内容挖掘,生成关键词社会网络关系图,探寻关键词之间的逻辑关系。
通过前面的处理,游客评论被分成正面、负面、中性评论三类。正面评论5869条,中性评论631条,负面评论521条。其中,昆明是正面评论比例最高的旅游目的地,其次是大理;而负面评论比例最高的旅游目的地是西双版纳。详细数据见表2。
表2 云南游客评论情感分类统计表
对游客评论进行了情感分类后,接下来运用词云和社会语义网络将云南五个旅游目的地的正面和负面评论数据可视化,让游客评论以更加直观的方式展现出来,也方便进一步提取评论文本中的信息。
1. 基于词云的可视化分析
根据情感分类后的评论文本,为正面评论和负面评论分别绘制出词云图(见图1、图2),进一步挖掘评论文本中隐藏的信息,找出关键特征。
图1 正面评论词云图
图2 负面评论词云图
通过正面评价词云图可以直观地看出,游客在旅游中最关注旅游地的景色、可玩性、旅游体验感,图中“景色、值得、风景、美、好玩、漂亮、体验、推荐”以及“性价比高”等词的出现频率较高,旅游目的地可以以景色为卖点进行宣传,吸引游客;同时,旅游地可以在可玩性和体验感方面进行提升、改善,提高游客满意度。
从负面评价词云图中较为直观地反映了赴云南旅游的游客对旅游地的负面印象。其中,“没有、景色、一般、贵、商业化、体验、差、可玩性低、服务”和“排队”等都是出现频率较高的词,说明旅游地的景色一般、体验没有达到游客预期、景区商业化严重、可玩性低、工作人员服务态度不好以及排队时间长等原因都会使游客对旅游目的地产生不满情绪,从而进行差评。同时,词云图也展现了云南旅游业存在的部分问题,指出了云南旅游业需要改进的地方。
2. 基于语义网络的可视化分析
词云分析可以非常直观地看到游客的关注点,但不能展现关键词之间的逻辑关系。因此,还需要为正面、负面评论分别构建社会网络关系图(见图3、图4),探寻游客产生正面和负面评论的原因。其中,节点之间的连线表示关键词之间的关联,线条的疏密程度表示词语之间共现的频率高低。
图3 正面评论社会网络关系图
图4 负面评论社会网络关系图
从正面评论社会网络关系图中可以看到,主要关键词是“值得、风景、景色”,而“导游、性价比高、有趣、方便、拍照”则是次要关键词。其中“值得”与“玩得开心、方便、文化、特色”等正面评价词相关联,“景色”连接了“拍照、美丽、性价比高”等词,“风景”则主要与“时间、有趣、自然”相连。由此可以看出,旅游地的美景和高性价比的体验是游客产生好评的主要原因。除此之外,精彩的表演、好玩的项目、旅游地可以拍照打卡、交通方便、旅行团时间路线安排合理、热情好客的导游以及当地文化特色氛围浓郁等因素也会让游客产生正面的评价。
负面评论社会网络关系图中,可以看到“大象”“表演”“门票”“景色”这四个是主要关键词,也是游客产生负面情绪的重要因素。其中“大象”与“可怜、看不到、人员”等词相关联,“表演”也连接了“大象、孔雀、商业化”等词,表明动物表演的残忍可能是造成游客产生负面评价的重要原因;“门票”与“性价比低、可玩性低、没啥、体验、不值”等词连接,说明游客认为游玩的实际体验与门票价格不一致也是其产生负面评价的原因之一;“景色”主要连接了“没啥、不推荐、有待改进”等词,可以判断游客发布负面评价是因为旅游地景色令人失望。而工作人员态度恶劣、体验感差等原因会导致游客产生负面情绪,甚至出现投诉。此外,还发现“遗憾”和“没看到”主要是由于当地天气或时间导致,还有部分负面评价集中在游客出现高原反应和景区商业化严重等因素上。这些负面评价集中反映了云南旅游业中急需改进的地方,也为下文提出改进措施指明了方向。
总体来说,游客对云南旅游地产生正负面情感倾向的原因不尽相同,对不同城市的情感倾向也同样具有差异。通过分析发现,游客更偏向昆明、大理、丽江三个旅游城市,不仅正面评论比例高,而且负面评论也较低。其中,昆明作为云南省会城市,提供的旅游景点多样,而且配套的旅游服务设施较完善,能够满足游客在旅途中的观光、休闲、购物、美食等多种需求。大理、丽江可能配套的旅游服务设施不如昆明完善,但自身的旅游资源丰富,足够吸引游客。而迪庆和西双版纳相对而言,都属于云南的边境城市,比较偏远,交通不便,而且吸引游客的旅游景点多为自然景观和人文古迹,配套的旅游服务设施也不够完善,一旦遇上恶劣天气,非常容易引发游客的负面情绪。
在对负面评价进行分析时,可以发现“体验感一般”是游客产生负面情感倾向的一个重要原因,这可能是由于旅游地同质化现象严重,游客认为和其他地方的景区没有区别,完全没有体现云南本地的特色。同时,对比了负面评论相应的游客评分发现,游客虽然发布了负面的评论,但是不一定会给出非常低的评分,评分主要集中在3~5分,说明游客的评分和评价内容不一致,由此表明了通过处理游客评论文本对游客情感倾向进行分类具有一定的科学性。
本文基于大数据技术获取游客评论数据,通过游客评论感知云南旅游服务质量,运用情感分类方法来分析游客的情感倾向和特征,最后采用可视化技术将游客的情感倾向和特征直观地展示出来,进一步挖掘出评论文本中隐藏的深层信息,研究结论如下:
一是赴云南旅游的游客产生正、负面情感评论的原因不尽相同。其中,游客对于自然风光、文化特色、美食、网红打卡点等一般都会给出正面评价;而对收费较高的项目、商业化严重的古城等容易产生差评,主要原因是游客在价格预期和实际体验之间的落差较大,导致其认为性价比低,从而产生不满情绪。此外,游客即使对旅游目的地的某些服务或因素不满,也不一定会发布低分差评,因此旅游网站上的总体评分偏高。
二是游客非常重视旅途中的体验感,旅游目的地的“体验感一般”容易使游客产生负面情绪,而景区商业化、同质化严重是造成游客认为“体验感一般”的重要原因。
三是游客对不同城市的情感倾向与该城市的基本特征息息相关。一般来说,旅游基础设施齐全、交通便利的大城市相对旅游设施不完善的边缘小城更容易获得游客正面评价。
为了推动疫情之下的旅游市场回暖,促进云南旅游业继续高质量发展,本文基于旅游大数据对云南旅游服务质量当前存在的问题进行了研究,为云南旅游业发展提出以下建议:
一是完善现有的旅游服务配套设施,满足游客多种需求,为游客提供高质量的旅游体验;合理规划偏远景区的道路,增加中心城区与景区之间的交通设施,不仅可以方便游客出入景区,在人流量大时还可以减少排队、堵车现象。
二是旅游目的地要重视网络评论,及时了解游客情感偏好,利用数据挖掘和分析技术,了解游客真实的情感特征,能够有针对性地进行相关营销策略调整,为游客提供更加贴心、便捷的服务。比如,游客对旅游目的地产生“不值”的负面情感,大都是因为理想与现实之间的差距太大,旅游目的地可以通过大数据技术建立游客数据库,根据游客偏好提供相关的服务或是产品,满足游客的需求。
三是加强对旅游从业人员的服务意识培训与管理,做到以游客为本,避免服务态度恶劣、诱导消费、强制消费等情况发生,从根源上减少因服务意识不强导致游客不满的情况发生。
四是找准旅游城市和旅游产品定位,坚持文化与旅游相融合。充分挖掘具有云南文化特色的旅游资源,比如,云南的多民族文化、普洱茶文化等,与当前同质化严重的景区形成差异,让游客体验到云南的别样风情,提升游客的旅游体验感。同时,还可以引进高新技术,打造智慧景区,不仅可以提高景区管理效率,还能吸引年轻游客。
本文利用大数据文本分析技术对赴云南旅游游客的情感倾向和特征做出了积极的尝试,相比传统的问卷调查方法,大数据能够大幅度增加样本量,而且选取了2021年一整年的评论数据,覆盖了一年中所有的节假日,数据具有实时性,基本上可以获得游客对云南旅游地的整体评价情况,能更加深刻地挖掘游客评论数据中的信息。同时,通过研究游客产生正负面情感倾向的原因,还有游客对不同城市产生不同的情感的原因,为改进云南旅游服务质量指明了方向。当然,本文也存在一些不足的地方。比如,通过大数据对文本情感分类只是基于给定的规则对人脑思维进行简单模拟,而不是像人一样思考、推测、判断,无法达到人类进行情感分类的精确度。另外,本文的数据也具有局限性,仅限于携程网站,并未从其他领域网站上获取数据并进行对比分析,无法发现不同网站的游客是否存在不同情感偏好。