基于文本挖掘和随机占优的民宿用户满意度研究

2023-01-03 08:00郭凌云罗宇婷刘昕鑫
上海商业 2022年12期
关键词:排序民宿满意度

郭凌云 罗宇婷 刘昕鑫

一、引言

随着经济的快速发展,人民生活水平不断提高,民宿作为一种新型住宿业态,受到了大量游客的青睐。但目前民宿行业仍然面临着诸多困境,其经营规范性、安全性等问题日益凸显。同时,在设施、卫生和安全等方面的运营管理也饱受争议。因此,如何有效提高用户满意度和增加用户黏性成为当前民宿行业发展的重要问题。

越来越多的在线预定平台如雨后春笋般快速成长,同时消费者在购买商品后被鼓励在网站上发布关于产品的在线评论信息。这些信息会通过网络的快速传播特性影响潜在消费者的态度,进而影响在线民宿的预订量。因此,营销者需综合考虑用户偏好及体验,为平台和商家提供有效的管理策略。然而,民宿领域的用户满意度研究相对较少,现有研究大多基于问卷调查,缺乏准确高效的分析方法。并且针对民宿领域用户满意程度的评价与细致划分的相关研究较为匮乏,同时也尚未考虑不同文化背景下用户文化差异的影响。

基于此,本文运用文本挖掘和多属性决策相结合的方法对在线评论数据进行研究,深入探索民宿用户满意度影响因素的重要性排序问题。本文旨在通过LDA主题模型和Word2Vec模型,实现对民宿领域特征指标的扩充与丰富;通过情感分析评价用户满意程度,构建评价标度;借助随机占优准则,对比中国和美国民宿用户的满意度影响因素排序,提升消费者满意度,从而为促进民宿行业的发展提出建议。

二、相关研究评述

用户满意度是指用户在购买产品和服务后,对产品和服务所提供的各个属性的主观感受,其根据自身的需求是否得到满足而做出评价。

随着文本挖掘技术不断进步,越来越多的学者选择通过文本挖掘技术来研究用户的满意度。近年来国内外众多学者通过数据挖掘技术对用户满意度进行了研究,其中大多数研究是从用户满意度影响因素分析。也有部分学者利用情感分析方法量化了虚拟社区中在线评论对用户满意度的影响。而针对民宿领域探讨在线评论对用户满意度影响的研究仍较为匮乏。为此,本文以在线短租平台的用户评论数据为研究对象,利用文本挖掘和随机占优准则方法,对中美民宿用户的满意度影响因素进行排序研究,使平台与商家能够及时了解商品或服务的优缺与用户的偏好,进而帮助平台实现精准营销。

三、实例验证

1.实验数据和预处理

本研究综合考虑了中国和美国民宿预定平台的热度和平台用户评论数据量,以及数据获取的可行性,最终确定从途家网和携程网上获取中国民宿的用户评论数据,从Airbnb网站和缤客网上爬取美国民宿的用户评论数据。基于中国背景选取了北京、成都、丽江、三亚、厦门五所城市的民宿数据进行爬取,基于美国背景选取华盛顿、波士顿、旧金山、圣地亚哥和芝加哥五所城市。对用户名、民宿地点、民宿名称、评级、评论时间和评论内容六方面进行数据采集,评论数据的时间跨度为2019—2022年。总计获得中国用户评论数据36330条,美国用户评论数据27560条。采用Python对清洗后的数据进行分词、去停用词等预处理工作。

2.主题获取与特征词表构建

对完成预处理后的数据进行主题聚类,本文采用LDA主题模型进行聚类。首先,通过计算困惑度来评价模型。在本研究中,中文数据主题数取22时,困惑度的值最低,聚类效果较好,因此中文评论数据的最优主题个数取22个。英文数据主题个数取25时,困惑度的值最低,聚类效果较好,所以英文评论数据的最优主题个数为25个。确定最佳主题个数后,进行LDA主题分析。基于LDA主题聚类结果,并结合现有的研究成果,本文将中英文数据处理结果中相似的主题进行合并整理,最终归纳得到设施、设备、客房用品、服务接待、餐饮、推荐解答、地理位置、周边环境、交通出行、卫生舒适、房屋风格、诚信态度、价格、人身安全、财产安全、隐私安全十六个主题。结合相关专家意见,通过定性分析将设施、设备、客房用品归为设施设备一类;将服务接待、餐饮、推荐解答归为服务一类;将地理位置、周边环境、交通出行归为位置一类;将人身安全、财产安全和隐私安全归为安全一类。最终得到八个一类主题。在此基础上,借助机器学习的方法训练语料集,获取每个主题的高频相词。

3.主题情感计算

根据已确定的主题对评论内容进行细粒度的情感分析。首先根据主题-特征关键词表对评论进行分句。分句将长句拆分为短句,并提取出来每个短句中的关键词,将短句根据关键词进行主题归类,最终筛选得到中文评论133003条特征句,英文评论54365条特征句。借助情感词典对分句后的文本进行情感打分,正数代表积极情感、负数代表消极情感,0代表中性情感。

在情感打分的基础上将短句进行情感极性分类,进一步对积极和消极短句进行词频统计。其中,中文的“干净”“整洁”和英文的“clean”“comfortable”等词直接表达国内外用户对于民宿卫生舒适状况的满意程度,中文的“卫生间”“装修”“位置”和英文的“place”“location”等词反映国内外用户对于民宿提供的某些特征的满意程度。借助Python的pandas包对中英文评论数据针对特征级的情感打分短句进行汇总,最终得到中文和英文情感得分矩阵。

4.用户满意度评价

首先,将一类主题作为用户对民宿满意度的影响因素进行研究。根据特征主题的确定,获得了设施设备、服务、位置、卫生舒适、房屋风格、诚信态度、价格和安全八个一类主题,此时N=8,按照书写顺序与编号一一对应。将每个主题 作为与之对应的民宿用户满意度影响因素 ,通过计算中美两国间各影响因素下针对不同评价标度的概率分布。其次,计算不同商品类别中各影响因素针对满意度的评价标度的累积概率分布函数。然后分别构建不同国家类别中各影响因素评价标度的期望向量。根据随机占优准则构建中国k1和美国k2中两两影响因素间的随机占优关系矩阵。最终计算不同国家类别的偏好阈值分别为:

接下来,构建不同商品类别中的影响因素随机占优程度矩阵。最后,可得不同国家类别中各影响因素的排序值,如表1所示。

表1 中美两国间用户满意度影响因素的排序值

若排序值 越大,则其对应的影响因素 的满意度越高,根据 的数值大小,可得国家类别 下各影响因素满意度的排序结果,如表2所示,并作相应的折线图。

表2 中美两国间民宿用户满意度影响因素的排序结果

由图1可知,由于各个国家的文化不同,用户的需求也不尽相同,中美两国间用户对各影响因素的满意程度是不同的。在中国,用户满意度最高的影响因素是诚信态度、位置和房屋风格,而满意度最低的影响因素是设施设备、安全和价格,在服务和卫生舒适的满意度处于中等偏低。在美国,用户满意度最高的影响因素是卫生舒适、诚信态度和房屋风格,而满意度最低的影响因素是服务、价格和设施设备,在位置和安全方面的满意度处于中等偏低。

图1 中美两国间民宿用户满意度影响因素排序可视化结果

四、结论

1.研究结果

本研究提出的框架丰富了传统的用户满意度研究视角,主要研究结果如下:

(1)获取了在线民宿的特征指标,将特征指标作为用户满意度影响因素。

(2)通过基于情感词典的情感分析方法对用户满意度进行评价。利用外部词典和扩展词典,对数据进行细粒度的情感程度分析。

(3)利用随机占优准则对用户满意度影响因素进行排序研究,研究结果发现中美两国间的用户满意度存在显著不同,其与两国间的文化差异有关。

2.研究意义和管理启示

本文通过对民宿用户的在线评论文本进行分析,丰富了传统的用户满意度分析视角,首次创新性对比研究了不同国家间的民宿用户满意度影响因素。本文利用文本挖掘的相关技术,并与定性分析方法相结合,分析结果丰富和扩展了民宿领域相关研究的评价指标。同时将随机占优准则应用于民宿领域,对比分析中美两国的民宿用户满意度影响因素的重要性排序。研究结果,为民宿领域中文化差异的相关研究提供了管理启示。本研究所提出的方法,为民宿领域的用户满意度研究提供了新思路,也为其他产品或服务的用户满意度分析提供了参考和支撑。

本研究为在线民宿预定平台提供了启示,通过对在线评论的文本挖掘,研究中国和美国的民宿用户满意度影响因素的重要性排序,帮助平台更加准确清晰地了解用户对民宿各方面的满意情况,促使两国的民宿预定平台能够因地制宜,做出合理改进。并且预定平台可以将用户满意度高的特征显性地表现出来,帮助消费者及时了解民宿不同特征的满意情况。

本研究为民宿商家对于民宿的优化与改进具有一定的管理启示。通过对用户满意度影响因素的研究,为商家对民宿的优化与改进提供了参考。商家可以根据民宿所处的国家,有针对性地改进自家民宿所提供的服务特征,改善满意度低的特征,保持并优化满意度高的特征,以提升民宿的整体满意度,从而帮助商家提高民宿的质量和服务水平。

当然,本文也存在一定的局限性。首先,本文收集的数据范围有限,只针对两个国家进行对比研究;其次,本研究只针对评论内容进行分析,并未考虑图片和视频等的影响;此外,情感词典的情感分析虽然适用性较强,但是过于机械,准确率有待提高。对此,在未来研究中可以进一步探索。

猜你喜欢
排序民宿满意度
孪生院子民宿
东胡林民宿
作者简介
16城市公共服务满意度排行
恐怖排序
浅谈如何提升脱贫攻坚满意度
明天村里调查满意度
节日排序
你是民宿达人吗