李 薇,杨东山
(重庆邮电大学 经济管理学院,重庆 400065)
大数据给传统餐饮行业带来了巨大的挑战,它改变了传统餐饮行业的管理模式和营销方式,推动着餐饮行业的发展。第46次《中国互联网络发展状况统计报告》统计,截至2020年6月,我国网民的规模达到9.40亿,互联网的普及率达到67.0%,其中,我国网上订餐规模达到4.09亿,占网民规模的43.5%且占比增速较快。
据中国产业经济信息网数据显示,2019年,全国餐饮收入达到46 721亿元,同比增长9.4%。但是,餐饮行业的竞争压力大,线上餐饮平台的兴起带动线下餐饮向线上餐饮转变,现在大多数餐饮商家都和第三方平台如美团、饿了么和大众点评等进行合作。餐饮商家通过这些餐饮平台,提供美食的信息以供消费者选购。
但是,消费者很难依据餐饮商家提供的美食信息做出购买行为,因为商家提供的信息是具有自利性和美化效果的,大多数消费者只能通过其他消费者的评论来判断美食的味道、服务的质量和环境的好坏。商家也可以通过这些文本评论来了解消费者的消费偏好,从而对自己的菜品进行改善,提升竞争力。因此,如何在众多的在线评论中挖掘出背后隐含的信息就显得非常重要。
本文基于美团网站回头客的餐饮消费评论,通过网络爬虫技术抓取美食中甜点饮品、火锅、自助餐、小吃快餐和烧烤烤肉五类有关的50 000条在线评论,找出消费者满意度的影响因素。
1960年,Maron等发表了第一篇有关自动分类的论文[1],此后,这一领域的研究成果开始逐渐增加。Baek等使用Web数据搜寻器从Amazon.com收集了75 226条在线消费者评论数据,对评论文本进行情感分析,其结果表明,包括评论等级和评论者信誉的外围提示,以及诸如评论内容之类的核心提示,都会影响评论的有用性。基于双重过程理论,我们发现消费者将重点放在不同的评论信息源上,这取决于他们阅读评论的目的:在线评论可用于信息搜索或评估替代方案,为在线市场所有者提供了有关如何在其网站上管理在线评论的新观点[2]。Cao等考察了在线评论的各种功能(即基本风格和语义特征),将文本挖掘技术用于从评论文本中提取语义特征,得出语义特征在影响投票评论比其他特征更具影响力这一结论[3]。Reyes等在亚马逊网站收集了具有“讽刺”意味的评论,并使用三个分类器进行了评估,初步结果表明,这些评论在很大程度上是积极的,并提供了对诸如情感分析、观点挖掘和决策之类的语言的相关建议[4]。Pu等利用多个特征来识别相关的意见句子,然后利用支持向量机(support vector machines,SVM)对总体意见句子进行编码,以进行文档情感分类,用产品评论和电影评论证明了其有效性[5]。
相对于英语而言,中文词语在不同的语境中有着不同的寓意,中文词语的复杂性导致了我国文本挖掘发展速度相对较慢。但随着互联网、电子商务的迅速发展,线上餐饮业产生了大量的评论信息,如何利用文本挖掘技术从海量的评论中获取有用的信息也成为众多学者研究的热点。关菲等利用三层贝叶斯概率模型(latent dirichlet allocation,LDA)主题模型对评论主题进行划分,通过高频词和语义网分析消费者的关注点[6]。范宁利用携程网民宿的评论文本数据进行可视化分析(词云图和语义网络)和LDA主题模型分析,最后利用层次聚类分析得出客房硬件、总体服务、餐饮、地理位置和性价比是其重要的五个因素这一结论[7]。王海宇以Apriori算法为基础,通过R语言探寻服装品类重复购买影响因素与重复购买行为间的关联强弱关系[8]。伊秀娟通过改进Single-pass算法的相似度计算方式,解决了其聚类对于文档输入顺序敏感的问题[9]。司利红利用LDA主题提取不同类别主题词,再用词频和共现度筛选出一级主题词,利用Word2vec相似词提取得到二级主题词,从而保证了主题词的全面性[10]。对食客的评论数据,宋悦用扎根理论进行开放性编码、选择性编码和理论性编码,分析不同类型餐厅的核心影响因素[11]。张红霞通过对生鲜产品评论数据的文本挖掘,探寻消费者关注的因素,运用内容分析方法进行编码分析,并用回归和四分图模型分析影响消费者满意度的因素[12]。张华泉等结合服务质量理论和消费者满意度理论,构建生鲜电商消费者满意度影响因素概念模型,并以消费者的评论数据为对象,使用双样本Z检验和结构方程模型对模型中各影响因素进行验证,研究结果表明“物流因素”和“平台因素”对消费者正面满意度产生直接影响,而“产品因素”与消费者负面满意度之间具有显著的正向影响作用[13]。何薇等提出了一套基于文本挖掘的客户服务满意度分析框架,实现了对不满意工单和原因的识别[14]。董爽等通过对购物网站在线评论高频词的特征分析,发现消费者更多关注手机的商品特征和情感表达,关注服务特征的则相对较少[15]。王涛等通过Rostcm软件将LDA主题模型生成的特征主题词与所修饰的情感词生成语义网络,从而缓解了挖掘文本信息的复杂性[16]。刘敏等以手机在线评论为基础,引入评论对象和评论观点,通过社会语义网络构建和情感分析两种方法进行分析[17]。贾璇通过对求职软件的评论进行特征词提取、制作词云图、语义网络分析和情感极性特征分析,得出了用户对各求职软件使用的情感极性分布[18]。何立峰采用Word2Vec方法训练词向量模型,从在线评论中提取酒店服务的属性特征,构建情感词典,运用情感词典匹配的方法对酒店服务属性特征进行情感分析,从而将非结构化的评论数据转化为可利用的结构数据[19]。熊伟等通过文本挖掘技术的批量处理功能,对酒店顾客的在线评论进行词频和情感分析,并结合时间序列分析法预测其未来的发展趋势[20]。
目前,互联网上存在众多的线上餐饮平台,比如美团、饿了么和大众点评等。这些平台在线评论的数量和质量各不相同,需从众多餐饮平台中选择最合适的。在综合考虑网站访问量和网站知名度、获取数据是否便捷两个因素后,本文最终选择美团网作为数据样本来源平台。
1.根据网站访问量和网站知名度等情况,通过Alexa网站排名对美团网、饿了么和大众点评进行综合排名(更新于2020年3月11日),详见表1所示。
表1 各个餐饮平台排名汇总表
从表1中可以看出,美团网的Alexa全球排名在其余两个网站之上,且美团网在行业排名中也位居第一。
2.本文以回头客在线评论作为研究数据样本,观察各大餐饮平台的在线评论,发现评论体系各不相同。由于美团网有回头客在线评论这一栏,爬取数据时相对便捷,这也使本文选取的数据更具有针对性。同时,美团网的评价体系相对其他网站也较为成熟,在回头客评论页面的文本描述也较清晰。
根据以上分析,美团网站的回头客在线评论在回头客研究中具有良好的代表性,可以从其文本评论内容中挖掘出对餐饮行业有用的信息。因此,本文选取美团网的回头客评论作为研究对象。
餐饮种类的选择包含两个方面,一是餐饮所在地区,二是餐饮类别。本文主要研究的是基于回头客的消费满意度影响因素,考虑到所需在线评论数量多且对质量要求较高,所以选择美团网美食页面所给的热门城市进行数据爬取。在餐饮类别的选择上,根据平台排列顺序及是否常见,选取了甜点饮品、火锅、自助餐、小吃快餐和烧烤烤肉五个餐饮类别。本文选取各个热门城市销量较高和好评较多的餐饮商家来爬取评论内容。
本文需要的数据为美团网站上甜点饮品、火锅、自助餐、小吃快餐和烧烤烤肉五类美食回头客的在线文本评论。由于Python语言在数据爬取方面较其他编程语言优势明显,可以运用于众多的扩展库来实现数据的获取。Python语言爬取回头客评论数据的规则如图1所示。
图1 数据爬取规则图
Python语言爬取数据的步骤流程如图2所示。
图2 数据爬取流程图
对词语在整个文本中出现的频率进行统计具有重要意义,从词频统计中可以大致预测到回头客的满意因素,五类美食的词频统计如表2至表6所示。
表2 火锅词频统计表
表3 烧烤烤肉词频统计表
表4 甜点饮品词频统计表
表5 小吃快餐词频统计表
表6 自助餐词频统计表
从表2至表6中,可以看出每一类美食评论的词频数,排在前面的大都为味道、菜品、服务、环境和实惠等,但是这些词在每一类美食中的排序又各不相同,比如火锅词频统计表中以味道、菜品、服务和环境为次序排序,而在小吃快餐中却以味道、顾客、实惠和环境为次序排列,从中可以看出每一类美食对于回头客的影响因素有些许的不同。
语义网络基于词语的出现频率、词语间的共现频率和间隔距离来探索文本的含义。本文通过ROST CM6.0对回头客文本评论进行语义网络可视化分析,得出五类美食的语义网络图和语义网络频数表。通过语义网络图分析词与词之间的关系是否密切,其中线条密集程度越高表示两者的关系越紧密[21]。
火锅美食的语义网络图和语义网络频数表分别如图3和表7所示。从图3可以看出,味道、菜品、服务和环境是重要的节点,大部分分支都从这四个节点出发。以味道节点为例,与之距离较近的关键词有新鲜、菜品、服务、好吃和环境。因此,可以看出,回头客对于火锅美食的味道、服务、菜品和环境最为关注。
图3 火锅语义网络图
表7 火锅语义网络频数表
烧烤烤肉美食的语义网络图和语义网络频数表分别如图4和表8所示。从图4中可以看出,味道、菜品、服务、环境是其重要的节点。以菜品节点为例,与其距离较近的关键词有味道、服务、环境和态度,可以看出烧烤烤肉的菜品、味道、服务和环境是影响回头客是否再次选择的重要因素。
表8 烧烤烤肉语义网络频数表
图4 烧烤烤肉语义网络图
甜点饮品美食的语义网络图和语义网络频数表分别如图5和表9所示。从图5中可以看出,味道、菜品、服务、环境、蛋糕是其重要的节点。以味道节点为例,与其距离较近的关键词有好吃、蛋糕、态度和环境等,可以看出回头客对于甜点饮品的味道及服务更为关注。
图5 甜点饮品语义网络图
表9 甜点饮品语义网络频数表
小吃快餐美食的语义网络图和语义网络频数表分别如图6和表10所示。从图6中,可以看出味道是最重要的节点。与味道节点距离较近的关键词有环境、好吃和划算,可以看出回头客最为关注小吃快餐的味道。
图6 小吃快餐语义网络图
表10 小吃快餐语义网络频数表
自助餐美食的语义网络图和语义网络频数表分别如图7和表11所示。从图7中,可以看出环境、服务和菜品是其重要的节点。以环境节点为例,与其距离较近的关键词有菜品、服务员、味道,从中可以看出回头客最为关注的是自助餐的环境、服务和菜品。
表11 自助餐语义网络频数表
图7 自助餐语义网络图
聚类分析是一个基于信息相似性和差异性、将信息划分成一些簇的过程,同簇之间对象的相似性较高,非同簇之间的相似性较低。数据对象之间的相似程度受其取值范围的影响,在进行聚类分析的过程中以不同的聚类方法进行聚类,得到的结果也有所不同。
对于文本聚类而言,聚类方法有很多,常用的有K-means聚类[22]和系统聚类。本文采用系统聚类,因其相对于K-means聚类而言,在选择初始K值和聚类中心点上具有优势,限制的条件较少,也不用提前确定聚类的数量[23]。
在初始状态下,系统聚类将每一个样本都当成独立的一类,如含n个样本的数据集就有n类。通过计算类别与类别之间的距离,系统聚类将距离最小的两类合成新的一类,这时数据集中就剩下n-1类。系统聚类进一步找出距离最小的两类,并将它们合成一类,这时数据集中就剩下n-2类。以此类推,数据集最终只剩下一类,即包括全体数据的类。
本文通过R语言进行系统聚类,对文本数据进行分词处理之后生成语料库,进行降维处理[24],再转换成数据库格式,进行系统聚类。
以自助餐的系统聚类结果图8为例,从中可看出,热情和服务态度归为一类,热情和服务态度所形成的新类和味道又归为一大类,依次归类,最后归为一大类。结合实际情况对聚类结果进行分析,概括回头客选择自助餐美食的影响因素。分析所得的聚类图可概括为五大类别,分别是服务态度、菜品味道、菜品新鲜度、菜品种类和环境。并由此得出表12的五类美食的系统聚类结果。
表12 系统聚类结果表
图8 自助餐的聚类结果
通过前文对回头客数据的特征分析和聚类分析可知,火锅美食对于回头客而言,火锅味道、菜品种类、服务态度和环境整洁是回头客最为关注的因素,其中火锅的味道是影响回头客再次选择的最重要的因素。烧烤烤肉美食对于回头客而言,烧烤烤肉的菜品种类、味道、服务态度和环境整洁是回头客最为关注的因素,其中菜品种类和味道是影响回头客再次选择的重要因素。甜点饮品美食对于回头客而言,甜点饮品的味道、甜点是否以蛋糕为主、服务态度和环境整洁是回头客最为关注的因素,其中甜点饮品的味道是影响回头客再次选择的重要因素。小吃快餐美食对于回头客而言,小吃快餐的味道、环境整洁和价格是否实惠是回头客最为关注的因素,其中小吃快餐的味道是影响回头客再次选择的重要因素。自助餐美食对于回头客而言,自助餐食品的味道、菜品种类、食品新鲜度、环境整洁和服务态度是否实惠是回头客最为关注的因素,尤其是自助餐的环境整洁和食品味道是影响回头客再次选择的重要因素。从五类美食的综合分析得出,味道、环境和服务都是影响回头客再次选择的重要因素,但因美食种类的不同又有所差异,如小吃快餐美食对于回头客而言,价格是否实惠也是其重要因素。
1.改善食品味道
从五类美食的关键词提取和词频统计分析,可以看出回头客在五类美食评论中,味道都是出现较多的词。从实际情况出发,味道是美食商家经营的核心,只要美食的味道得到了消费者的肯定,消费者就极有可能成为商家的回头客。商家可以通过尝试设计多种味道的美食并让消费者进行选择,提升消费者的回头率。
2.打造多样菜品
菜品在美食中的词频较高,在关键词提取中,菜品也排在前面。尤其在火锅、烧烤烤肉和自助餐美食分析中,菜品对于回头客的影响极大。在这三类美食中,菜品的多样可以吸引消费者成为回头客,满足更多的消费者对不同菜品的喜好。因此,美食商家应该在成本可控的范围内尽可能使菜品多样化。
3.提高服务水平
在词频统计分析和关键词中,服务也是回头客所关注的重要因素,服务对于消费者用餐体验影响较大,无形服务[25]也是美食商家提升竞争力的重要途径,相比研发美食味道和增加菜品的多样性而言,提高服务水平带来的成本相对较低,也较容易改变。因此,美食商家应该加强对服务人员的培训,热情的服务态度会增加消费者的幸福感。
4.改善用餐环境
环境在五类美食的词频统计和关键词中都较靠前。随着人们生活水平的提高,用餐的环境成为人们所关注重点,因此环境因素对顾客满意度影响较大[26],用餐环境包括店铺的卫生环境[27]和设计环境,良好的环境更容易吸引消费者,提高消费者的回头率。因此,美食商家应该针对所经营的美食进行环境设计,并保证消费者用餐环境的卫生,让消费者有舒适感。