基于游客目的地的印象文本挖掘与分析

2022-06-02 12:29李琳

南通职业大学学报 2022年1期

李琳

（川北幼儿师范高等专科学校初等教育系，四川广元 628017）

21 世纪，人们的生活水平显著提升，旅游消费也随之大幅增长。旅游消费的增加必然带动地区经济的发展。据我国文化和旅游部统计，2018、2019 年度国内旅游总人次分别为55.39 亿、59.01亿，全年实现旅游总收入分别达5.97 万亿元、5.73万亿元[1]，2020 年度在新冠疫情的影响下国内旅游总人次也高达28.79 亿，全年实现旅游总收入2.23 万亿元[2]。当今，大数据快速发展，人们出行前会通过互联网查询旅游目的地的相关信息。提升景区及酒店等旅游目的地的美誉度，利于吸引游客到访消费，取得竞争优势并稳定客源。因此，面对消费者的行为模式改变带来的诸多挑战，提高游客满意度和目的地美誉度，对推动旅游产业高效化，实现科学监管、资源优化配置及市场持续开拓具有重要的现实意义[3]。本文拟采用挖掘分析技术，对已知酒店及景区的游客印象文本评论数据进行线性回归和聚类分析，得到具有利用价值的结果，以期为商家调整服务策略与游客选择旅游目的地提供参考。

1 游客评论的热词与热度

1.1 数据描述

已知景区的评论数据共59 106 条，其中包括“景区名称” “评论日期” “评论内容” 三个部分。

已知酒店的评论数据共25 225 条，其中包括“酒店名称” “评论日期” “评论内容” “入住房型” 四个部分。

1.2 数据预处理

数据预处理包括英文中译、繁体简化、重复评论去除和叠词删减。

在全部评论中共有72 条景区英文评论和120 条酒店英文评论。采用武汉大学虚拟学习团队开发的ROSTCM 中的英文词频分析法，将英文词汇或句子翻译为中文。

在全部评论中共有14 条带有繁体字的景区评论和5 条带有繁体字的酒店评论。运用Excel表的审阅工具栏中的“繁转简” 功能，将所有繁体字转化为简体字。

如果不同评论者的评论高度相似，则多半是一些评论者复制粘贴了别人的有效评论。对于完全重复的评论必须去除，因为只有重复评论中的首条才有真正意义上的分析价值。

部分游客会在评论时重复输入字符，如“赞赞赞赞赞赞” “非常不错不错不错” 等，对于这类叠词评论，必须将重复部分去掉才能更为直观清晰地看到客户想表达的意思。

1.3 热词提取及热度计算

评论热词是指在某一时段内评论事件所用的高频词语。逐一分析所有酒店和景区的评论，提取出每一家酒店、每一个景区评论中的前20 个热词。

将每家酒店或景区的评论复制至“微词云” 软件，打开“简单导入” 功能框，先勾选“删除数字” “删除空格” “删除英文” ，然后点击“开始分词” ，勾选“完整结果数据” ，系统软件自动将评论中的词语进行分类，并按词频由高到低在Excel 表格中排序。由于分词结果中存在无关词语（如：有点、感觉等），所以还需要经过筛选后才能得到有效的热词。

热度是指带有热词的评论在所有评论中出现的频率。利用Excel 的计算功能，可得到前20 项评论热词的词频总数，进而算得前20 项评论热词的热度，通常以百分比形式表示。

2 五个维度的评分与总得分

2.1 数据处理

将经预处理的酒店和景区评论逐个复制到“微词云” 软件中的“分词筛词后导入” 功能栏内，系统会将评论以词性过滤分类为“名词” “动词” “形容词” “副词” 等，或以词频过滤分类。通过分词分别选中服务、位置、设施、卫生、性价比五个维度的关键词及其对应的好评、差评和中评，导出并以Excel 文档保存。进而从中选取50 家酒店和50 个景区的五个维度关键词及其对应的好评、差评和中评汇总至新的Excel 表格中。

运用MATLAB 程序在经预处理的酒店或景区总评论中找出体现五个维度关键词的评论，再寻找“好评” “差评” “中评” 出现的关键词。计算维度好评比例：该维度下的好评数除以该维度的好、中、差评数之和。最后，用该维度好评比例乘以5，得到该维度评分。

2.2 五元线性回归分析

运用五个维度的专家打分数据进行五元线性回归模型计算，得到总得分计算式。

其中：Z 为总得分，x1～x5分别是每家酒店或景区五个维度的得分，b1～b5分别为每家酒店或景区五个维度的系数。

将上节的维度评分代入此式计算总得分及其残差。酒店与景区的残差如图1 所示，维度评分与专家分的均方误差结果如表1。

图1 总得分残差

表1 酒店与景区的均方误差

从表1 看出，酒店的均方误差整体较小，说明模型更有效。模型对酒店的总体评价及服务、设施、卫生方面评价较好，对位置和性价比评价稍差。模型对景区的总体评价及位置、卫生方面评价较好，对服务、设施和性价比评价较差。

3 网评文本有效性分析

用户在进行评论时会出现无关的评论内容或直接复制粘贴别人的评论等，这些无效评论不利于游客从网络评论中获取真正有价值的参考信息，同时，也对网络平台的运营带来不利影响，故需分析文本的有效性并去除无效评论。

对文本进行有效性分析需先计算有效评论数。在1.2 节进行预处理时发现，在不考虑时间因素和房型的前提下，许多评论都是重复的。2.1 节分析得到50 家酒店及50 个景区的无关评论内容，究其产生原因，一是由于在MATLAB 程序中服务、位置、设施、卫生、性价比五方面没有相对应的好评、差评、中评，二是语句错误，三是评论内容无意义。

有效评论数＝全部评论数－重复评论数－无关评论数。评论情况统计如表2 所示。

表2 评论情况统计条

网评文本有效度＝有效评论数／总评论数。据此计算得到酒店网评文本有效性度为65.57 %，景区网评文本有效度为85.83 %。

4 聚类与特色分析

由于客户很难在评分接近的酒店或景区中做抉择，所以若各酒店或景区分别有自己的特色，就能更好地吸引客户前往并留住客户资源。

4.1 聚类分析

“聚类分析” 是研究“物以类聚” 的一种方法。聚类分析时，不论是定量数据还是定性数据，一般都应先通过样本间的距离及相关系数确定分类统计量，用于测定样本间的亲疏程度，再利用统计量将样品进行分类[4]。

首先，将表格中的数据进行标准化，以消除特征间的差异性；其次，采用欧氏距离法和重心距离法估算不同样本间的相似性，即计算样本间的“距离” 。把50 家酒店和50 家景区各分为高、中、低三大类，聚类分析对应的冰柱图结果如图2。

图2 样本聚类分析结果

4.2 各层次酒店与景区的特色

将3 大类5 个维度的平均分与专家的打分相对比，若某维度的专家打分高于或等于平均分，则该维度评价为好；若某维度的专家打分低于平均分，则该维度评价为一般。

作为示例，分别随机抽取高、中、低三个层次的酒店3 家、景区3 个，其中高层次选取H03、H20、H41，A12、A29、A35；中层次选取 H09、H29、H47，A01、A32、A42；低层次包括 H08、H24、H46，A03、A31、A47。

分析比较平均分与专家打分，得到上述酒店和景区的特色数据，详情见表3、表4、表5。

表3 高层次酒店及景区特色数据

表4 中层次酒店及景区特色数据

由表3—表5 可知，通过游客对景区及酒店的评论数据，利用线性回归和聚类分析等方法，可得到有价值的结果，实现对文本评论数据的挖掘分析，展示了游客对景区及酒店更加细致的五维度评论，包括好评、差评、中评三方面的信息挖掘，得到的信息对商家及游客有一定参考意义。比如：商家可根据网评文本的有效分析进行经营策略调整，解决相关问题；游客可根据评论信息和特色数据结果选择合适景区或酒店，降低了选择难度。

表5 低层次酒店及景区特色数据