基于酒店评论大数据的游客评论主题挖掘与情感分析

2021-05-21 08:33马桂真彭霞
北京联合大学学报 2021年2期
关键词:情感分析

马桂真 彭霞

[摘 要] 摘要分析酒店评论数据可以挖掘游客的关注点、意见、建议、情感倾向等有价值的信息。结合对酒店评论数据进行主题挖掘和情感分析的交叉研究,提出一个包含数据采集、数据预处理、主题挖掘、情感倾向研究及可视化分析的集成框架。以Tripadvisor网站上北京地区50家五星级酒店的5万余条中文评论数据为研究对象,进行LDA主题挖掘,同时基于酒店领域扩充情感词典,判定评论文本三元情感极性,并在此基础上实现主题和情感的交叉分析。研究结果可降低潜在游客购买决策的风险,也为酒店管理者制定针对性的管理和营销策略提供重要参考依据。研究方法同样适用于景区及餐饮领域的在线评论数据分析,拓展评论大数据与自然语言处理技术在旅游业的应用范畴。

[关键词] 关键词酒店评论大数据;主题挖掘;情感分析

[中图分类号] 中图分类号F 724.6[文献标志码] A[文章编号] 1005-0310(2021)02-0058-11

Topic Mining and Sentiment Analysis of Tourist Reviews Based on the Big Data of Hotel Reviews: A Case Study of Beijing Fivestar Hotels

Ma Guizhen, Peng Xia

(Tourism College,Beijing Union University, Beijing 100101, China)

Abstract: 摘要By analyzing hotel review data, it is very possible for one to mine valuable information such as tourists  concerns, opinions, suggestions, and emotional tendencies. Based on the cross research of topic mining and sentiment analysis of hotel review data, this paper proposes an integrated framework including data collection, data preprocessing, topic mining, sentiment tendency research and visual analysis. LDA topic mining is carried out by taking more than 50 000 reviews written in Chinese from 50 fivestar hotels in Beijing on Tripadvisor as the research object. Meanwhile, on the basis of the hotel domain, the emotion dictionary is expanded to determine the ternary emotion polarity of the review text, and on this basis, the cross analysis of theme and emotion is realized. The results of this study can reduce the risk of potential tourists  purchase decision and provide important reference for hotel managers to formulate targeted management and marketing strategies. The research method is also applicable to online review data analysis in scenic spots and catering fields, and conducive to expanding the application of review big data and natural language processing technology in tourism industry.

Keywords: 關键词Hotel review big data; Text topic mining; Sentiment analysis

0 引言

在线评论数据对消费者的态度、购买行为以及企业的商业成果都具有深远影响[1]。消费者对酒店企业提供的产品和服务质量在体验之前无法轻易判断[2],而其他消费者在线发表的意见,则是比酒店信息更独立、更可信赖的信息来源[3]。因此,越来越多的旅行者在出行前浏览在线评论数据,据此安排行程并做出购买决定[4]。评级(或评分)和文字评论是在线评论的两种形式[5],但是潜在游客通过评级很难获得更加直观、详细的信息,而文字评论则可以直观传达有关酒店质量、其他游客态度、酒店预订意图等游客关注的核心信息[6]。游客可以在文字评论的帮助下拥有更多的选择,最大限度地降低购买风险;对于酒店管理者来说,在严峻的竞争挑战下,及时分析在线评论数据,把握游客的满意度和偏好,对提高酒店服务质量、改善管理和营销策略具有非常重要的意义。

互联网、移动互联网技术的快速发展及其与旅游业的深度融合,催生了大量具有重要价值的游客数据。大体量的数据给人工分析带来严峻挑战,也阻碍了我们全面掌握数据中包含的观点。大数据、自然语言处理、人工智能等技术的发展,使得智能挖掘分析在线评论数据成为可能。近几年,将酒店评论数据与新技术结合开展研究引起国内外学者的关注,但是在研究的深度、细粒度及交叉度方面,还需要不断的探索。

本研究运用潜在狄利克雷分布(LDA)模型及文本情感分析技术,对从Tripadvisor网站提取的北京五星级酒店评论大数据进行分析。一方面,交叉挖掘分析高端酒店游客关注的主题及情感倾向;另一方面,从细粒度上分析不同类型的游客的关注点、情感倾向及其演变过程,以此为游客和酒店管理者提供更实用的决策支持。

1 相关研究

1.1 酒店在线评论数据的相关研究

随着互联网的迅速普及,在线评论数据成为消费者决策过程中非常重要的信息来源[7],也得到研究者的普遍关注[8]。目前,针对旅游在线评论数据的研究主要包括3个方面:评论数据产生的驱动因素、在线评论的影响以及在线评论大数据与自然语言处理、人工智能等新技术结合而展开的诸如主题挖掘、情感分析等相关研究。

在研究初期,针对酒店在线评论数据的研究很大一部分集中于探究评论数据产生的驱动因素。Casalo等整合了计划行为理论、技术接受模型和社会认同模型,研究旅游者参与在线旅游社区意愿的决定因素[9]。Stringam等通过评估消费者的评分和在线评论数据,探讨哪些因素会提高酒店消费者的评分[10]。Cantallops等通过分析关于酒店业电子口碑营销(eWOM)的文章,梳理影响用户撰写在线评论的关键因素[11]。Yen研究了酒店属性对消费者发表在线评论行为的影响,认为游客发表在线评论的驱动因素是酒店属性的性能、游客发表在线评论的经验及平台的便利性,酒店的核心属性与发表评论的意图、频率和好评率成正比[12]。

在线评论数据对消费者购买意愿具有重大影响。Ladhari等研究了Facebook上发表的评论对消费者预订酒店的意图、对酒店的信任度、对酒店的态度以及对酒店网站的感知的影响,并通过对800名大学生的调查证实研究中的假设[13]。NietoGarcía等研究了在线评论信息与内部参考价格对消费者付费意愿的影响[14]。Akhtar等研究了矛盾的酒店评论数据对消费者购买意愿的影响[15]。卓四清等通过建立在线评论有用性影响因素模型,研究在线评论内容和评论者对在线评论有用性的影响,并针对Tripadvisor的酒店评论数据进行了实证研究[16]。

酒店在線评论大数据与新技术的融合为国内外研究者开辟了新的研究方向。秦海菲等以酒店在线评论数据为研究对象,对酒店在线评论数据的特征挖掘进行研究[17]。孙长伟等对酒店评论数据进行细粒度分类,通过基于词典的情感分析方法对评论文本极性进行判断,从而获得用户对酒店服务的细粒度情感评价[18]。Chatterjee使用文本挖掘技术研究酒店在线评论文本的情感内容、极性和情感趋向,同时使用计量经济学和机器学习技术解释和预测评论数据的有用性[19]。Chang等提出一个集成框架,包括数据爬取、处理、情感树构建、卷积树核分类、特征提取和类别检测,并通过可视化分析深入了解酒店的评级和评论[20]。随后,Chang的课题组又提出一种基于可视化分析、深度学习的自然语言处理模型,研究酒店对在线评论的响应对业务产生的影响[21]。Hu等使用结构性主题模型文本分析方法STM,针对27 864条酒店评论数据,挖掘评论文本主题,并研究这些主题的情感倾向[22]。

1.2 LDA主题挖掘的相关研究

目前,文本主题挖掘中最具代表性的模型是潜在狄利克雷分布(LDA)模型[23],又称为三层贝叶斯概率模型,其基本思想是将文档-主题、主题-词都表示为服从先验概率为狄利克雷(Dirichlet)分布的多项分布,通过无监督学习算法,发掘语料中隐含的主题信息,并将语料中每篇文本的主题按照概率分布的形式给出。根据不同的需求,研究者基于LDA做了大量的研究[24]。Williams等将潜在语义分析(LSA)和LDA用于识别铁路设备事故文本数据库中的主题[25]。Yong等对LDA和其他主题模型进行了对比研究,并在具有代表性的语料库中进行试验[26]。Bastani等提出了一种基于LDA的智能方法来分析消费者的投诉,旨在提取投诉文本中的潜在主题[27]。LDA模型在各行业都得到了广泛的关注和深入的研究,因此,本文选取LDA模型进行酒店评论大数据的主题挖掘。

1.3 文本情感分析的相关研究

文本情感分析是指利用自然语言处理和文本分类技术,从文本数据中识别出用户主观情感、观点和态度的过程[28]。文本情感分析方法主要分为基于情感词典的方法[29]和基于机器学习的方法[30]。基于情感词典的分析方法首先从待测文本中找到情感词、程度词、否定词等特征词,然后在情感词典中查找每个特征词的情感值,根据累加的情感值进行情感分类。构建情感词典是基于情感词典分析方法的基础和前提,在实际应用中,情感词典的选择一般有两种:一是直接使用现有的情感词典,比如HowNet、SentiWordNet等[31];二是在已有通用情感词典的基础上,通过增加或筛选情感词,构建适合自己研究的情感词典[32]。基于机器学习的情感分析方法利用机器学习算法训练文本得到文本情感分类器,然后利用该分类器对文本进行情感分类[33]。Mukhtar等使用基于词典和有监督的机器学习方法,对来自多个领域的乌尔都语博客进行情感分析,实验结果表明,基于词典的方法在准确性、召回率、F-测度和时间效率上都优于有监督的机器学习方法[34]。

基于机器学习的文本情感分析方法需要依赖大量人工标记的语料库,非常耗时耗力。同时,在实际研究中发现,对于评论数据这种非结构化文本,基于机器学习的方法的分类效果并不理想,因此本文对酒店评论大数据的处理选择基于情感词典的情感分析方法。

整体而言,评论大数据与人工智能、文本分析等技术的结合是当前酒店评论数据研究中一个新的方向。有部分的探索研究集中于文本的情感分类或文本特征的挖掘,还有部分研究注重技术实现,少部分研究基于酒店业务进行评论大数据分析并给出策略性建议。因此,将酒店业务与数据和技术相结合,从细粒度实现主题和情感的交叉分析,对于更好地了解酒店评论数据,为游客和酒店企业提供更全面、更实用的决策支持具有重要意义。

2 研究过程、數据与方法

本研究提出一种对酒店评论大数据进行主题挖掘和情感分析的集成框架(图1),框架主要包括数据获取与预处理、主题挖掘、情感分析以及与酒店业务结合的结论与建议模块,它们分别对应本研究的几个部分。

2.1 数据的获取与预处理

Tripadvisor是目前全球发展最快的旅游网站之一,2020年11月,该网站提供约8.78亿条评论,平均每月有4.63亿独立访问者[35]。本研究选取Tripadvisor中文网站上北京地区评论数靠前的50家五星级酒店(分布如图2所示),基于Python+ Selenium开发爬虫程序,抓取评论页面数据,评论页面的截图如图3所示。收集的数据主要包括酒店名称、游客来源地、评论内容、入住日期及游客类型等。

收集的原始数据是半结构化的,且包含噪声信息。我们使用Python+Pandas对数据进行预处理,获取包含54 155条中文评论数据的数据集。

2.2 基于LDA模型的主题挖掘

LDA主题建模的目标是找到每篇文档的主题分布和每一个主题中词的分布。LDA模型生成过程如图4所示,每个符号代表的含义如表1所示。对于语料库中每篇文档di对应1条文本评论,LDA模型生成过程为:从α取样生成文档di的主题分布θd,从θd取样生成文档di中第n个词的主题 Zd,n,从β中取样生成主题Zd,n对应的词语分布φ,从φ中采样最终生成词语 Wd,n。

LDA主题抽取的效果与潜在主题个数有直接关系,研究者提出了多个确定最优主题数量的方法,比如Coherence方法、最小困惑度算法及HDP算法等。经过比较分析,本研究选取Coherence方法作为评价模型好坏的标准, 选取Coherence值最大的模型的主题数目作为最佳主题数。

本文选用Python的Gensim工具包训练生成LDA模型。首先,对预处理完成的评论文本使用jieba分词工具分词,去停用词及特殊符号,得到词组序列;其次,为列表中每个词分配ID,生成字典,统计词频,生成词频稀疏矩阵;最后,进行LDA模型训练,选出Coherence值最大的主题抽取结果作为最终结果。基于Gensim工具包进行评论数据主题挖掘流程如图5所示。

Tripadvisor将游客分为家庭、情侣、商务、独自、结伴出游等多个类型。本文除了针对全部评论数据挖掘所有游客关注的主题,还尝试挖掘不同类型游客的关注点,以便更深入全面地了解评论数据,从而帮助酒店管理者更好地识别不同的细分市场,推进更有效的营销策略;而游客可以基于此研究成果,根据自己的出游类型选择酒店,以更有效地安排自己的行程。

2.3 情感倾向分析

情感倾向分析主要是指对用户发表的每条带有情感的评论文本进行情感极性判定,从而得到用户的情感趋向。本文考虑的情感极性包括积极、中立和消极3种情感。

2.3.1 情感词典的构建

本研究首先基于知网情感词典(HowNet)和台湾大学中文情感极性词典(NTUSD)构建基本情感词典;然后,基于酒店评论数据的特点,针对房间、服务、餐饮、设施、体验等几个类别增加情感词;最后,共整理正负情感词189个,通过对比将基本词典中不存在的12个正向情感词、13个负向情感词分别加入基本词典的正向和负向情感词典,新增的情感词示例如表2所示。同时,将收费很高、过高等词加入本文所用的jieba分词词典。

2.3.2 情感词组合模式

在中文句式中,情感词、程度副词和否定词之间的组合模式可以产生不同的表达效果,而且否定词出现的次数及其位置也会影响整体的情感值。本文基于知网提供的程度副词构建程度副词词典,共分为6个等级,分别为这6个等级的程度副词赋不同的权重wi(i∈1,2,3,4,5,6)。本文使用的情感词、程度副词和否定词组合模式如表3所示。

2.3.3 情感极性计算

本研究根据评论文本中积极、消极情感词及其组合模式计算评论文本的情感极性。某条评论文本的积极和消极情感值分别通过公式(1)和(2)计算得到。其中,Sentip指文本的积极情感值,senti(pwi)指第i个积极情感词的情感分,cwi指第i个积极情感词与否定词及程度副词的组合权重。公式(2)中各变量对应的是消极情感词的情感得分和组合权重。评论文本的最终情感值通过公式(3)计算得到,若评论文本的情感值为1,则该文本的情感极性为积极,0为中性,-1为消极。

Sentip=ni=1senti(pwi)×cwi。

(1)

Sentin=mj=1senti(nwj)×cwi。(2)

Sentireview=1,Sentip>Sentin0,Sentip=Sentin-1,Sentip

3 研究结果

3.1 样本数据特征

本研究采集的54 155条数据样本中,有42 666条数据包含游客来源地,经统计这些游客来自119个国家或地区,其中77%为中国游客,美国游客占7%,英国、澳大利亚游客分别占2%,新加坡、加拿大、日本游客各占1%,见图 6(a)。样本中有标注游客类型的数据共40 424条,其中商务型游客最多,占39.49%,全家游类型的游客占18.68%,结伴游占17.87%,情侣游占12.24%,独自出游占11.72%,见图6(b)。在包含游客类型的样本中,2014—2019年的6年间,商务、全家、结伴和单独出行的游客人数呈上升趋势,商务型图游客人数历年都处于领先地位,情侣型游客人数变化整体相对平稳;另外,因为新冠疫情的原因,2020年各类型游客人数相较2019年都急剧下降,见图6(c)。我们同时又对各种类型的游客按照月份进行统计,见图6(d),结果显示商务型游客人数在各月份同样处于领先,但是2月份商务型游客数量明显下降,3月份和11月份进入高点,这也与2月份春节休假以及年初和年底出差业务繁忙相吻合。7、8月份全家游人数达到高点,3月份和9月份达到低点,这与国内学生假期和开学的时间相吻合。

以上为本研究所采用的數据样本中游客及评论文本的数据特征,经分析,样本数据反映的数据特征符合一般规律,为下一步的主题挖掘和情感分析奠定良好的数据基础。

3.2 评论数据的主题挖掘结果

在实证研究中,要分别计算全部评论文本数据以及各类型游客的评论文本数据在2~8个主题下的Coherence值。研究结果表明,对于整体游客评论数据、全家游和商务型游客评论数据,当主题数是5时,Coherence值最大,分别达到0.58、0.51和0.53;对于单独出行和情侣游客评论数据,当主题数为3时,Coherence达到最大值,分别为0.43和0.46;对于结伴出游的评论数据,当主题数为7时,Coherence达到最大值,为0.50。

表4展示的是全部游客评论数据的主题挖掘结果,共提取5个主题,前 4个主题的首要关键词贡献值均达到0.03以上。由主题挖掘结果可知,高端酒店游客普遍关注的是酒店服务、房间、餐饮、设施情况,此外,酒店的地理位置也很重要,交通、购物是否方便也是游客的关注点。

除了对整体样本数据的主题挖掘,本研究还针对各种类型游客的评论数据进行LDA主题挖掘,表5和表6分别展示了全家游和商务型游客评论文本的主题挖掘结果。由表5可以看出,全家游类型的评论文本中,贡献值最大的关键词是孩子,说

明全家游类型的游客最为关注的是与孩子相关的主题,儿童乐园、儿童设施等是他们评论数据中出现的高频词。由表6可以看出,对于商务型游客来说,前4个主题关于服务前台、服务环境、酒店位置等,基本与全体游客的关注点一致,特殊的是,商务型游客会更关注酒店的行政酒廊、会议相关服务和设施及所属楼层。同时,通过主题5可以看出,商务型游客作为回头客的概率很高,因为可能出差地相对固定,他们对于心仪的酒店很有可能注册会员,这类游客是需要维护的长期客户。

对结伴、情侣和单独出游游客的评论数据挖掘结果

表明,除了服务和房间相关主题外,游客会注重个人体验相关的主题,比如情侣会关注节日、婚庆相关服务,但是其他主题的关键词的贡献值都很小,挖掘结果不再展示。

3.3 情感分析结果

本研究根据情感极性判断评论文本中游客的积极、中立和消极的三元情感态度,分析不同类型游客的三元情感占比情况及各类情感占比随不同年份和月份的演变过程。

图7(a)展示的是2014—2020年间样本数据中游客三元情感极性占比随年份的变化情况。可以看出,积极情感占绝对优势,最低占比为85%,最高为96%;消极情感占比最高为12%,最低为2%。从变化趋势看,游客积极情感占比在2014—2019年间处于上升趋势,由2014年的85%上升到96%,2020年略有下降;2014—2019年,消极情感占比逐年降低,由2014年的12%下降到2019年的2%, 2020年消极情感稍有回升,达到2.3%。这在一定程度上反映了北京市高端酒店在面临激烈竞争的情况下,更加注重提高服务质量,重视在线评论,特别是对负面评论中反映的问题能够及时处理。2020年消极情感占比的稍许回升,与疫情期间酒店的管理策略调整对游客体验的影响及游客的特定要求有关,这也要求酒店在面对突发公共事件时,能够及时妥当调整管理策略。

图7(b)展示的是样本数据中游客三元情感极性占比随月份的变化情况。可以看出,积极情感占比在1月、7月、8月和11月达到高点,将近

92%,而在5月份达到最低点,不到90%;消极情感占比在4、5月份最高,达到7.3%,11月份最低,为5.6%。这一定程度上反映了游客是否休假及北京气候对游客情感有一定的影响,这也要求酒店管理者着重关注消极情感占比多的月份的评论数据,关注游客对哪些方面提出负向评价。

图7(c)展示的是不同类型游客的三元情感极性占比情况。可以看出,商务型游客和情侣游客对酒店的服务质量有更高的要求,相比其他类型的游客,消极情感占比较高,达到6.2%;结伴出游的游客消极情感占比最低,为3.1%;全家游类型的游客消极情感占比为4%;独自出行的游客消极情感占比为4.3%。这也要求酒店管理者关注入住游客的类型,根据不同类型游客提供个性化服务。

3.4 文本主题与情感交叉分析

本研究通过对文本主题和情感进行交叉分析,获取在不同主题下游客的情感极性占比;同时针对不同类型的游客,分析各自关注主题下三元情感占比情况(如图8所示)。

图8(a)展示的是全部样本数据中5个主题下的游客三元情感极性占比情况。可以看出,游客对“工作人员”相关主题的消极情感占比最高,达到16.1%,说明游客对高端酒店工作人员的服务质量、态度有更高的要求;其次是“房间服务设施”主题的负面情感占比也较高,达到11%,要求酒店关注房间服务设施,比如隔音状况、卫生间情况等;

对于“服务前台”相关主题的消极情感占比最低,为2%,一定程度上反映了酒店对前台服务的规范管理。

图8(b)展示的是全家游类型的游客在5个主题下的三元情感极性占比情况。可以看出,游客对“预订入住”相关的主题下消极情感占比最高,达到20%,一定程度上反映了对全家游类型的游客,需要尽量简化预订和入住流程,酒店也需要提供相应的帮助。

图8(c)展示的是商务型游客在5个主题下的三元情感极性占比情况。可以看出,商务型游客对酒店的整体服务质量要求较高,其中,“行政酒廊”“位置”的消极情感占比分别达到15%和11%,而对酒店的“服务环境”“服务前台”的消极情感占比较低。

通过以上对样本数据的主题挖掘、情感分析及主题与情感交叉分析,能够深入了解游客对五星级酒店的关注点、整体的情感倾向及情感演变过程,同时更进一步地了解不同类型的游客在其关注的不同主题下的情感倾向。

4 建议

本研究以北京五星级酒店游客评论数据作为研究对象,对高端酒店游客关注的主题及情感倾向进行交叉挖掘分析。基于研究结果,本文提出以下几个方面的建议,为酒店行业的管理和经营提供借鉴。

第一,重视在线评论数据中游客的关注主题,提高酒店服务质量。研究结果表明,高端酒店游客最为关注的是酒店的服务,关注点主要集中于房间、工作人员、大堂、前台、早餐、设施、位置、交通等;同时,对于不同类型的游客,其关注点各有特点,比如,家庭型游客会更关注与孩子相关的主题,商务型游客会更关注会议、酒廊等相关主题,结伴、情侣和单独出游的游客会更注重个人体验相关的主题等。这是因为随着收入水平的提高及消费观念的改变,消费者越来越注重出行的舒适度,追求优质的服务、优雅的环境、完善的配套设施及独立空间的享受,酒店的作用从临时的住宿点升级为享受旅游的一个重要环节。因此,酒店管理者在经营管理中应该高度重视游客的关注点及个性化的需求,基于游客的关注点改进和提高服务質量。除了通常的提高酒店服务质量的措施,比如,加强服务人员的专业培训,定时排查基础设施,尽量做到自己发现问题而避免游客发现问题,提供接送机服务等,建议酒店管理者还应做到以下几点:充分利用游客评论数据,分析挖掘游客关注点;对评论主题的挖掘分析应该保持长期持续性,研究游客关注主题的变化规律以及是否有新的关注点出现,并及时调整运营管理策略;注重游客个性化需求,针对不同类型、不同地域、不同文化的游客,分析其关注主题,推出相应服务套餐,为游客提供个性化服务;针对具有特殊要求的顾客或长期客户,建立客户档案,以便提前预知其需求,从而有针对性地提供服务。

第二,重视游客评论文本中情感倾向的产生及发展规律,积极应对消极评论。一方面,消极评论能够直接指出酒店的问题所在,是酒店调整管理和营销策略的切入点;另一方面,消极评论严重打击潜在游客的购买意愿。所以,酒店管理者应该高度重视并积极应对消极评论数据。由研究结果可知,消极评论的产生随着月份的不同以及游客类型的不同有一定的规律,不同类型的游客针对不同的评论主题,其负向情感的出现也有一定的规律,比如,游客的消极情感在每年的4、5月份达到高点,11月份达到最低点,这在一定程度上反映了北京的气候对游客的情感倾向具有一定的影响。另外,研究结果还表明,商务型游客对酒店的服务质量有更高的要求,相比其他类型的游客,消极情感占比较高,达到6.2%。这可能是因为这类游客具有消费能力强、消费倾向明显的特点,他们更注重消费带来的舒适性、安全性和便利性,更注重服务的效率、品质、个性化以及完善程度。同时,这类用户属于网络活跃用户,一旦酒店提供的服务低于自己的预期,很容易在网上发布消极评论。酒店管理者可以从以下两个方面采取措施,降低消极评论占比,减少消极评论的影响。一方面,持续分析在线评论数据,掌握游客消极情感产生及发展的规律,提前采取应对措施。比如,酒店管理者应该重点关注游客在消极情感占比大的月份发表的评论文本,找到改进的切入点,提供更优质的服务;对不同类型游客提供具有针对性的服务,可为家庭型的游客提供孩子游乐场所和适合儿童的餐饮服务,密切关注社会热点,适时推出符合家庭、孩子的主题活动;服务人员应与游客积极沟通,了解游客需求,提供个性化服务。另一方面,对于已经产生的消极评论,酒店应该积极应对,及时与游客沟通,核实游客负面情感的来源并给出改进措施,对游客提出的问题,应客观、有针对性地在线给出答复,避免机械的、复制粘贴式的回复。

第三,酒店管理者不仅要重视、更要用好游客在线评论数据。游客评论数据可以较为真实地反映出酒店产品及服务在游客眼中的价值。分析游客评论数据,酒店管理者能够全面了解消费者的期望,并据此进行服务质量改进以及新产品的开发和运营策略的调整。酒店只有拥有并且用好数据,才能发挥其最大的价值。目前,大部分酒店不缺乏评论大数据,但是缺乏分析这些数据的专业人才。酒店管理者应该高度重视评论大数据在当前数字时代的重要价值,安排专业的人才或团队管理和分析数据,基于分析结果及时调整运营策略,提高自身的市场竞争力。

5 结束语

本研究提出一种对酒店评论大数据进行主题挖掘和情感分析的集成框架,以期为酒店管理者分析和管理评论大数据、制定管理和营销策略提供参考。存在的不足之处在于数据源相对单一,未来的研究拟结合不同城市、不同语言、不同级别酒店的评论数据,纵深挖掘不同城市的酒店在游客眼中的差异、不同国家的游客对不同级别的酒店关注的主题及情感倾向差异,以便为酒店管理者识别不同的细分市场提供更多合理化的建议。

[参考文献]

参考文献内容

[1] DE PELSMACKER P, VAN TILBURG S, HOLTHOF C. Digital marketing strategies, online reviews and hotel performance[J]. International Journal of Hospitality Management, 2018, 72:47-55.

[2] CASAL L V, FLAVIN C, GUINALU M, et al. Do online hotel rating schemes influence booking behaviors?[J]. International Journal of Hospitality Management, 2015, 49:28-36.

[3] ZHAO X, WANG L, GUO X, et al. The influence of online reviews to online hotel booking intentions[J]. International Journal of Contemporary Hospitality Management, 2015, 27(6):1343-1364.

[4] HERNNDEZ J M, KIRILENKO A P, STEPCHENKOVA S. Network approach to tourist segmentation via user generated content[J]. Annals of Tourism Research, 2018, 73(11):35-47.

[5] WANG L, WANG X K, PENG J J, et al. The differences in hotel selection among various types of travellers: A comparative analysis with a useful bounded rationality behavioural decision support model[J]. Tourism management, 2020, 76(2): 1-16.

[6] BEREZINA K, BILGIHAN A, COBANOGLU C, et al. Understanding satisfied and dissatisfied hotel customers: Text mining of online hotel reviews[J]. Journal of Hospitality Marketing & Management, 2016, 25(1):1-24.

[7] GAVILAN D, AVELLO M, MARTINEZNAVARRO G. The influence of online ratings and reviews on hotel booking consideration[J]. Tourism Management, 2018, 66:53-61.

[8] 张补宏,周旋,广新菊. 国内外旅游在线评论研究综述[J]. 地理与地理信息科学,2017,33(5):119-126.

[9] CASALO L V, FLAVIAN C, GUINALIU M. Determinants of the intention to participate in firmhosted online travel communities and effects on consumer behavioral intentions[J]. Tourism Management, 2010, 31(6):898-911.

[10] STRINGAM B B, GERDES J. An analysis of wordofmouse ratings and guest comments of online hotel distribution sites[J]. Journal of Hospitality Marketing & Management, 2010, 19(7):773-796.

[11] CANTALLOPS A S, SALVI F. New consumer behavior: A review of research on eWOM and hotels[J]. International Journal of Hospitality Management, 2014, 36:41-51.

[12] YEN CLA, TANG CHH. The effects of hotel attribute performance on electronic wordofmouth (eWOM) behaviors[J]. International Journal of Hospitality Management, 2018, 76:9-18.

[13] LADHARI R, MICHAUD M. eWOM effects on hotel booking intentions, attitudes, trust, and website perceptions[J]. International Journal of Hospitality Management, 2015, 46:36-45.

[14] NIETOGARCA M, MUOZGALLEGO P A, GONZLEZBENITO . Tourists  willingness to pay for an accommodation: The effect of eWOM and internal reference price[J]. International Journal of Hospitality Management, 2017,62:67-77.

[15] AKHTAR N, SUN J, AKHTAR M N, et al. How attitude ambivalence from conflicting online hotel reviews affects consumers  behavioural responses: The moderating role of dialecticism[J]. Journal of Hospitality and Tourism Management, 2019, 41:28-40.

[16] 卓四清, 馮永洲. 在线评论有用性影响因素实证研究:基于Tripadvisor.com酒店评论数据[J]. 现代情报, 2015(4):52-56+74.

[17] 秦海菲,杜军平.酒店在线评论数据的特征挖掘[J].智能系统学报,2018,13(6):1006-1014.

[18] 孙长伟,任宗来,杨俊杰,等.基于评论数据的酒店服务质量的细粒度分析[J].计算机应用与软件, 2019,36(7):32-38.

[19] CHATTERJEE S. Drivers of helpfulness of online hotel reviews: A sentiment and emotion mining approach[J]. International Journal of Hospitality Management,2020,85.

[20] CHANG Y C, KU C H, CHEN C H. Social media analytics: Extracting and visualizing Hilton hotel ratings and reviews from TripAdvisor[J]. International Journal of Information Management, 2019, 48:263-279.

[21] CHANG Y C, KU C H, CHEN C H. Using deep learning and visual analytics to explore hotel reviews and responses[J]. Tourism Management,2020,80.

[22] HU N, ZHANG T, GAO B J, et al. What do hotel customers complain about? Text analysis using structural topic model[J]. Tourism Management, 2019, 72(6):417-426.

[23] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. The Journal of Machine Learning Research, 2003, 3:993-1022.

[24] 谭春辉,熊梦媛.基于LDA模型的国内外数据挖掘研究热点主题演化对比分析[J].情报科学,2021,39(4):174-185.

[25] WILLIAMS T, BETAK J. A comparison of LSA and LDA for the analysis of railroad accident text[J]. Procedia Computer Science, 2018, 130:98-102.

[26] YONG C, HUI Z, RUI L, et al. Experimental explorations on short text topic mining between LDA and NMF based schemes[J]. KnowledgeBased Systems, 2019,163(1):1-13.

[27] BASTANI K, NAMAVARI H, SHAFFER J. Latent Dirichlet allocation (LDA) for topic modeling of the CFPB consumer complaints[J]. Expert Systems with Applications, 2019, 127:256-271.

[28] MIKOLOV T, SUTSKEVER I, KAI C, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013: 3111-3119.

[29] ALTHUBAITY A, ALQAHTANI Q, ALJANDAL A. Sentiment lexicon for sentiment analysis of Saudi dialect tweets[J]. Procedia Computer Science, 2018, 142:301-307.

[30] ABDI A, SHAMSUDDIN S M, HASAN S, et al. Machine learningbased multidocuments sentimentoriented summarization using linguistic treatment[J]. Expert Systems with Applications, 2018, 109(11):66-85.

[31] 李钝,乔保军,曹元大,等. 基于语义分析的词汇倾向识别研究[J].模式识别与人工智能, 2008,21(4):482-487.

[32] 赵常煜,吴亚平,王继民.“一带一路”倡议下的Twitter文本主题挖掘和情感分析[J]. 图书情报工作, 2019, 63(19): 119-127.

[33] PANG B, LEE L, VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of Emnlp, 2002:79-86.

[34] MUKHTAR N, KHAN M A, CHIRAGH N. Lexiconbased approach outperforms supervised machine learning approach for Urdu sentiment analysis in multiple domains[J]. Telematics and Informatics, 2018, 35(8):2173-2183.

[35] TripAdvisor. Tripadvisor, Inc. earnings press release

available on company s investor relations site[EB/OL].(2020-11-05)[2021-02-21].https://tripadvisor.mediaroom.com/2020-11-05TripadvisorIncEarningsPressReleaseAvailableonCompanysInvestorRelationsSite.

(責任编辑 责任编辑白丽媛)

猜你喜欢
情感分析
面向应用比较的用户评论挖掘工具的设计与实现
基于微博文本的情感倾向分析
基于word2vec扩充情感词典的商品评论倾向分析
基于语义的互联网医院评论文本情感分析及应用
基于双向循环神经网络的评价对象抽取研究
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
在线评论情感属性的动态变化
歌曲《我的深情为你守候》的情感分析与演唱诠释
文本观点挖掘和情感分析的研究