吕腾捷
(上海科技大学,上海 201210)
大数据的使用正迅速进入旅游研究领域[1],随着人们对实时和定制信息的需求日益增加,大数据的4个体征日益与消费者研究紧密相关,即规模性、多样性、时效性、准确性。旅游业是一个顾客体验对其成长和声誉至关重要的行业,其服务核心是“以人为本”,即需要在体现人文关怀的同时把握和运用信息网络大数据,配套电子设备更新升级,以实现服务质量的提高。大多数旅游服务现在通过在线预订网站在互联网上获得[2]。此外,旅行是社交媒体上的主要话题之一。因此,旅游业被公认为在线参与的第一部门是无可厚非的[3]。
基于互联网的活动都会留下数字足迹,因此有必要及时研究旅游研究者如何利用这些数据[4],以及这些新的数据是否构成了一种新的研究范式的一部分,或包含有新的方法论,并有可能进一步促进我们对旅游理论的理解[5-6]。目前,在线数据源已被广泛应用于研究,其主要优势在于,海量且免费的数据能够为洞悉旅游业本身,以及解读旅游消费群体提供崭新视角。对比以往的研究,其重点更多关注商业战略发展创新、产品开发,以及营销行为等,而新的数据源的出现为新研究领域的拓展提供了先决条件[7-9]。
在旅游业这样一个基于积极顾客情感和反馈的服务型产业中,游客满意度的概念是至关重要的。满意度作为一个理论化构建已经被讨论和探索了很长一段时间,存在着多种操作和测量的方法,其中,主要依赖于收集来的调查数据[10]。研究表明,基于调查的方法存在着成本和逻辑方面的不足,以及潜在的公式偏差。由于游客在旅行中往往投入了较多的时间、精力和其他机会成本,因此对调查问题的回应,存在积极评估倾向的内生性问题。最终可能形成一种存在认知偏差的结果[11-12]。针对特定问题的回答,存在受文化影响或被试偏见导致的结果误差,是已有以调查为基础的问题研究方法所含有的通病。此外,问卷可能只涵盖目的地的预定方面,因而缺乏综合性。相反,在线用户生成内容(User Generated Content,UGC)的可用性,以及新技术为研究者提供了一种新的方法,通过“情感分析”可以了解旅行者的感知和可能的满意度水平[13]。情感分析,一般来说,旨在确定在线UGC中文本文档、评论、意见或情感的整体上下文极性,因此极性可以是正的、中性的或负的。虽然这一方法与旅游业高度相关,但旅游业中的情感分析才刚刚开始流行起来[14-15]。
本文的目的是回顾和批判性地考察最新的情感分析方法在旅游研究中的应用。为了推进对旅游特定领域的分析,并了解是否基于大数据的方法提供了新的研究路径,本文围绕这个主题提出以下问题:情感分析的主要因素和技术方法是什么?情感分析的多种方法如何被应用在旅游的不同方面?情感分析作为一种更广泛的大数据方法的一部分,能否成为一种改善旅游研究方法,增加旅游理论认识的新途径?
与互联网相关的技术变化,已经将旅游业从一个实体化的和个人层面的服务行业彻底转变成了一个数字化、全方位的旅游服务网络[16]。无论是个人还是团体旅行,从旅游计划的形成到个性化方案的定制和选择的各个环节,个体都拥有了更多主动权和控制力。除了依靠传统的平台与中介机构收集和获得信息反馈,还可以与其他拥有类似旅游经验的游客建立关联,并共享在旅游及其决策中的知识和体验。旅行者可以通过在线平台为其他旅行者提供意见和建议[17-18]。因此,新的互联网技术赋予了那些以前无法发声的人发声的能力。与旅游和旅游业有关的最成功的专业平台,如爱彼迎、携程、猫途鹰等。以猫途鹰为例,该网站每月大约能够收集并记录到3.5亿个访问者信息,产生超过320万条的评论,涉及关于住宿、餐饮、景点等不同类型的数据。这些独立平台所能提供的信息,其价值和水平,在一定程度上超过了传统的官方网站或者专业评论[19-20]。
除了专业系统之外,在线社交媒体,如新浪微博、百度贴吧等,在创建电子口碑中起着重要作用[21]。更重要的是,在线社交媒体、旅游专业网站和平台,以及微博呈现了多样的方式来收集游客数据,增加了旅游者意见反馈的丰富性和真实性[5]。虽然个体建议往往是最有影响力的旅行前决策的来源,但互联网和社交媒体相对传统的口碑来说总体可信度相对较高[9]。因此,近年亲戚、朋友、同事以及官方数据也会从电子口碑中获取互补性意见。
然而,在线信息的数量正在以非常快的速度增长,搜索、操纵和聚合这些数据,以提取关于游客态度、行为和体验质量的相关的有用观点,对旅行者、行业用户以及学术研究人员来说都是一项烦琐且耗时的任务[22]。为了更有效地分析大量数据,自动化多角度算法和机器操作系统的需求量不断增加[23]。
以往文献中,主要强调了使用社交媒体数据以及数据挖掘工具和程序对旅游业研究的重要性。其中,数据收集、数据清洗、挖掘过程、结果分析和评价,是大多数依靠社会媒体数据对旅游业进行分析研究的主要步骤。
情感也可以通过自动化的机器来建模,并且集成在各种应用中[24]。情感分析是使用计算语言学和自然语言处理方法来分析文本并识别其主体的一种分析方法。虽然情感分析的研究可追溯到20世纪六七十年代,但近年来它才被越来越多的研究者和实践者关注[25]。这种研究方式的兴起是受多方面因素影响的,例如:网络和社会媒体信息的升级[26];新技术的演进,尤其是用于文本分析的机器学习方法;新的商业模型搭建及信息应用软件的开发。尽管如此,情感分析与其他早期技术相比仍处于起步阶段,如数据挖掘和文本摘要[27]。
本文认为,情感分析法可以作为旅游研究的重要工具。虽然对情感分析法的相关研究回顾不能为一些具有挑战性的问题提供最终答案,仍可以通过对旅游这一特定内容的研究,进一步探索大数据迅速发展下,传统“理论-驱动”的研究范式与“数据-驱动”模型之间更替抑或共存关系的可能性。
近年来,基于情感取向观点挖掘的研究多是围绕居民或市场群体的认知和特征展开的,并基于此来讨论发布评论的内容可信度以及动机[15]。不同的领域发掘了不同的情感分析方法,也包含了少量关于该主题的文献回顾式文章,但迄今为止少有以旅游业为焦点的文献回顾。
情感分析,特别是关于客户评论的方面,是建立在一定前提下,即通过文本所反映的信息,它可能是主观的(即固执己见的)或客观的(即事实)。主观评论是基于意见、个人情感、信念和对实体或事件的判断;而客观的评论是基于事实、证据和可测量的观察[14]。消费者评论和社交媒体帖子经常反映快乐、沮丧、失望、喜悦和其他感觉[26]。挖掘这些大量的主观电子口碑对旅游组织寻求改善客户管理和商业盈利能力的企业具有重要价值。
方法论上来说,情感分析是一个极性分类问题。考虑到分类数量的不同,情感极性分类可以被概念化为二元、三元或序数分类。在二元分类中,我们最初假设给定的客户评论是主观的。换句话说,一个二元分类假设给定的文本主要是正的或负的,所以它将给定的评论的极性相应的为“积极的”或“消极的”[28]。有正负之分的情感二元定义取决于所处的特定应用领域。例如,在旅游业中,“积极”和“消极”可能分别指的是“满意”和“不满意”,但仍需要进一步的研究,将情感极性与满意的理论建构联系起来[29-30]。
评论可能并不总是主观的,因此,二进制分类需要扩展到包含第三个“目标”类别的三元分类。在三元分类问题中,分类识别过程就是对客观和主观句子的筛选过程,提供诸如“正”“负”或“中性”的分类标签[31-32]。中性极性有时被解释为正极性和负极性之间的极性。情感分析也可以通过级联方法来处理,该方法以二元分类法为基础,以区分主观和客观评论,且二元分类能进一步将主观评论分为两组,即正或负。客观评价通常不包含那些在词典中明确定义为正面或负面的词[33]。它们也可能包含混合极性而没有明确方向的观点。除了简单的二元和三元分类之外,序数分类可以通过情感强度评定量表(如1到5颗星)来执行[34]。
情感分析是一个多步骤的处理过程,至少包括:数据检索、数据提取和选择、数据预处理、特征提取、主题检测、数据挖掘过程[35]。结合这些步骤可以形成5种不同的分析方法,包括有监督机械学习方法、无监督机械学习方法、基于词典导向方法、语义学方法以及混合方法。
在对情感分析技术综述的基础上,下文继续探讨情感分析在旅游中的应用。其中备受关注的问题是“与旅游相关的研究是否使用最先进的方法?”或“是否有进一步的机会来推进情感分析的应用”。
旅游研究中情感分析方法的识别[36],可以结合关键词,诸如“旅游情感分析”“旅游情感数据”“酒店评论情感分析”和“谷歌评论”,这些关键词已被广泛用于搜索和检索发表在互联网上的相关论文,而不需要在其他特定学术网站进行具体搜索[37-38]。
笔者进一步研究了最近有关情感分析的文章,以提取那些涉及旅游业的参考文献。旅游研究人员通常使用两种类型的在线内容进行情感分析:专业网站(如携程)或社交媒体帖子(如微博)获得的旅游评论[37-38],这两种类型的来源通常包含短文本。例如,微博允许长达140个字符的评论,这样就可以进行句子级别的情感分析。使用手动和自动标注过程对评论进行标注,以训练和评价情感分析方法。另外的文献中使用的大多数数据集与酒店住宿有关,而少量的研究集中在餐馆和航空公司[39]。
在旅游文献中广泛采用了有监督和无监督的机器学习、基于词典、语义和混合情感分析方法。例如,岛田(Shimada)等人提出了一种基于简单贝耶斯分类器的无监督机器学习方法,在句子层面上对旅游数据进行情感分析。简单贝耶斯情感分类方法使用自动标记的数据进行训练[35]。例如,情绪符号“笑脸”“哭脸”分别表示正向和负向的种子,以标记用于训练的数据,而不是单词,如“优”和“差”。因此,包含笑脸的评论被认为是积极的,而那些带有愤怒的脸的评论被归类为消极。
一些旅游研究则是借鉴了基于词典的方法。米索普洛(Misopoulos)使用词汇类型的方法来评估与航空公司服务交付相关的文章的极性。研究结果揭示了航空公司客户服务中客户不满意、满意甚至高兴的方面[40]。其他基于词典的分析侧重于酒店和餐厅的客户评论。
另一些旅游研究者使用了混合方法。叶强(Ye Qiang)等人在研究中建议将语言分析方法与信息和术语提取方法相结合,以确定在线评论的情绪极性[41]。使用二进制选择关键字和简单贝耶斯算法帮助测量与不同旅游目的地相关的推文的情感极性[5]。
总之,一个相对广泛的应用领域存在于旅游业的研究中,主要涉及酒店和住宿。然后,无论是研究内容还是方法上,仍然存在较大差异。例如,大多数国外研究仅使用英文撰写的数据来分析情绪,但很少使用中文或其他国家语言撰写的评论。此外,通过对以往研究回顾综述表明,大多数旅游情绪分析是基于机器学习的方法,虽然一定数量的研究也采用了基于词典的方法[42]。后者的主要优点是不需要大量的人工标注的文本语料作为训练集,而是通过创建一个词典实现在不同领域的多次使用,进而构建情感分类的识别方法。
利用大数据和深度学习方法有助于旅游研究打破信息壁垒,有效收集和整合旅游相关数据,实现对游客信息的多维度精准分析和有效预测,并从大数据的不同方面获得更多的洞察力[43]。旅游研究可以进一步进入一个新的领域,理论驱动的方法和数据驱动的实践可以相互支持,加深问题理解或现象解释力,并在理论上实现新一维度的创新。
尽管理论上情感分析法很引人注目,但具体实践中,提取和处理数据对速度的要求越来越高,加之大量数据的整合使得分析任务已经变得非常复杂,并有必要开发基于机器的自动化方法。本文从一般研究方法和特定旅游研究的角度进行了综述,考虑到文本情感分析是受读者主观性和语言复杂性影响的,因此对于开放领域的数据情感分析,仍然有一些限制和改进空间。
本文的研究结论只展示了旅游情感分析走向旅游新的研究范式过程的冰山一角。
因此,在情感分析法的完善方面,未来的研究需要旅游研究者、掌握信息技术和人工智能尤其是自然语言处理方面的专家之间的密切合作,以便形成特定主题的初始词库,为之后旅游相关行业审阅数据库的构建和公开工作的顺利开展奠定基础。这将有助于设计一个更复杂的情感分析模型,以更好地处理评论中的隐式情感方面检测问题。同时,通过提出新的假设,如发现满意度与情感之间的关系,来加强对旅游领域的研究[20],尤其是通过分析旅游文本中包含的游客情感倾向,丰富作为旅游业的核心概念之一的旅游满意度的评价方法。