重庆市旅游目的地游客感知形象研究
——基于LDA和朴素贝叶斯方法

2021-12-25 17:40
现代营销·经营版 2021年2期
关键词:特征词贝叶斯目的地

(重庆市人文社科重点研究基地-网络社会发展问题研究中心,重庆 400065)

近年,重庆市作为旅游新兴地区,旅游业取得了巨大发展,逐渐成为国内极具知名度与吸引力的旅行目的地之一。“山水之城·美丽之地”和“行千里·致广大”旅游形象知名度和美誉度不断提升。旅游目的地形象对游客的旅游决策产生相当大的影响,是吸引游客的关键因素。国内外很多学者通过游客多方面感知来评价目的地的经营管理状况及城市的旅游竞争力,利用携程网、马蜂窝等UGC数据进行研究变得越来越普遍。游客生成的UGC数据一定程度上可以较为精准地反映游客对旅游目的地的偏好、兴趣和评价(陆利军等,2019),其具有许多优势包括数据可用性、数据收集速度和简单性,为学者提供了重要的参考依据。本文利用隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称 LDA)主题模型,结合朴素贝叶斯模型两种机器学习方法,以携程网两万余条在线评论为基础,探究多类型目的地游客感知维度及其构成因子,并进行目的地游客形象感知研究。此研究有助于(1)提升重庆市区域旅游业的整体实力和综合竞争力(2)更好地指导目的地制定精准有效的旅游市场营销战略;(3)辅助政府、旅游企业等的管理者进行科学决策具有一定的理论和实践意义。

一、文献综述

国外学者对目的地形象感知如何影响游客的行为和目的地决策进行研究(Verarebollo et al.2010)。Casadodiaz(2013)探索了西班牙贝尼多姆的目的地形象英国游客感知。结果表明,游客对目的地的印象非常积极,并且品牌形象和品牌忠诚度也非常高。此外,近来出现了与目的地游客感知相关的研究。我国学者关于游客感知的研究聚焦在文化遗产、森林康养及乡村文化等方面。如从时间、空间和文化维度上研究“主客”对乡村文化记忆空间的感知维度及影响效应(吕龙等,2019)。蔡江莹等(2019)建立居民影响感知、支持程度、社会距离、社区依恋的关系模型来揭示居民旅游影响感知对其态度的影响。近年来,特征提取或主题建模多被用于游客感知维度的识别,其最常见方法是LDA建模。LDA应用在旅游方面,可以扩展到旅游活动中以获得属于某个主题的旅游活动的概率,从旅行文本、主题、词汇与旅游之间的关系,有效地识别旅游活动的目的(Yuan et al.2016)。朴素贝叶斯是一个经典的分类算法,也是情感分析的有力工具。Claster等人基于推特数据进行情绪分析和意见挖掘,有效的识别了民众情绪信息,提出这种情绪分析对于广告商、研究服务或产品的消费者、公司、政府、营销人员或研究人员都是有用的(Clasteret al.2010)。尽管很多学者通过以上方法构建目的地形象测量模型及分析目的地游客感知维度。但运用网络爬虫、计算语言学、数据挖掘、机器学习多种方法的组合来收集、分析和解释数据仍然有限。

二、研究方法

(一)数据收集

目前,主要旅游平台包括携程旅游网、美团网、途牛旅游网以及马蜂窝旅游网等。在实际操作过程中发现马蜂窝旅游上每个景点限制查看五页有效评论;去哪儿旅行网系统大多为默认好评;其他旅游网站的景点评论数据量非常有限。因此,最终选取携程旅游网、美团网作为主要数据来源网站。本文对旅游网站关于重庆旅游的帖子进行搜索,确定了32个自然风光(总共7500条评论)、10个展览馆(4360条评论)、7处公园(1411条评论)、19处景点(3293条评论)、6个游乐园(1075条评论)、11处温泉(3616条评论)、8处文物古迹(1348评论),共22603条在线评论。

(二)数据预处理

本研究使用了KNIME分析平台对景点评论文本进行预处理和分析。数据预处理首先删除评论文本中的标点符号,然后,应用多个过滤器:首先,使用数字过滤器从评论文本中删除所有数字;其次,使用Jieba 分词器对中文评论文本进行分词;最后,使用停用词过滤器去除不重要的停用词。经过数据预处理,共有22603份景点评论用于数据分析。

(三)数据分析

1.LDA分析

LDA分析步骤如下:确定维度的数量;提取维度;命名维度;统计每个维度中的评论数量;在维度和价值间进行交叉表分析(正面和负面评论),并计算预期和实际正面和负面评论之间的差异;画图比较维度。

2.朴素贝叶斯算法

使用朴素贝叶斯算法对评论进行情感分析的步骤如下:创建“词袋”并计算词频;过滤掉不常用的词汇;在划分后的数据集上运行朴素贝叶斯算法(如果分类精度低于70%,重复步骤2);从LDA提取的维度中选择词汇;计算这些词汇的价;使用价、显著性和标准化权重绘制词汇的气泡图,气泡的大小表示每个词汇在其相应维度中的权重,更大的气泡意味着词汇与维度更为相关。

三、研究结果

景点的LSVA表明,大多数为正面的特征词:“不错”、“花”、“环境”和“夜景”这几个词可能经常出现在评论中,它们与人员和工作等特征词相比并没有特别的负面影响。“不错”、“孩子”和“玩”等特征词在体验方面最为突出。同样,环境维度也体现了好玩和漂亮。然而,服务维度的特征词大多为负面的。自然风光的LSVA,与景点的LSVA不同的是,服务维度多为正面的特征词,如不错、服务和值得,然而,态度及人员表现为负面特征词。环境维度的特征词多为正面,方式维度的特征词均为负面。温泉的LSVA表明,在服务方面,不错、环境和服务是非常突出的特征词,然而唯一负面的特征词为态度,主要表示在工作人员的服务及服务细节上。相比来看,环境维度的特征词皆为正面的,体现在舒服、环境和开心等特征词。此外,在项目维度上几乎为负面特征词,如,池子、设施和水。公园的LSVA,既有正面的特征词也有负面的特征词,孩子、不错和好玩这几个词经常出现在评论中。在人群维度,孩子、开心和喜欢等特征词较为突出。服务维度几乎为正面特征词,环境和体验两个维度几乎表现为负面。文物古迹的LSVA,不错、值得、排队这几个词可能经常出现在评论中,不错和风景在服务维度是非常突出的特征词。值得和时刻在商业维度也是高度显著。然而,项目维度的特征词大多为负面的,其中最为突出的为雪、小时等特征词。游乐园的LSVA表明,在体验维度均为正面的特征词,其较为突出的是不错、孩子和玩等特征词。然而在服务维度大部分为负面的特征词,比如,项目、工作人员和票等特征词。展览馆的LSVA可以看出,在人群和环境维度上皆是正面的特征词,这意味游客对于展览馆整体环境具有较高的满意度。然而,物品建筑这个维度的特征词几乎为负面的,如,很小、不值和大小,这可能体现在展馆的面积及票价上。

结束语:

通过对重庆市旅游目的地游客感知维度识别、因子构成及特征词显著性分析可以看出,游客对重庆市旅游景点的感知主要注重“环境”和“体验”等方面,而对于旅游目的地的服务方面的要求是没有体现的。同时,服务标准低、从业者服务意识不强等旅游服务质量问题成为影响地区旅游业可持续发展及竞争的主要制约因素。此外,游客对重庆的感知更多体现在“风景”“门票”相关内容上,而对于旅游相关“产品”“文化”“从业人员”等方面关注较少。从游客感知角度来看,直接体现了目前重庆市旅游业在旅游产品、从业者管理规范等方面的不足。进一步加强旅游目的地产品创新、品牌打造、服务管理成为重庆市旅游优质发展的关键要素。

猜你喜欢
特征词贝叶斯目的地
基于Simhash改进的文本去重算法
恋爱中的城市
基于类信息的TF-IDF权重分析与改进①
迷宫弯弯绕
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
一种面向财务文本分类的TF-IDF改进算法
动物可笑堂
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究