金家华,吴浪涛,张婷婷,闫相斌
(北京科技大学 经济管理学院,北京100083)
伴随着互联网的发展和社会生活节奏的加快,外卖这种融合线下产品与线下服务的商业模式受到越来越多顾客的青睐。2018年美团点评研究院发布的《2017年中国外卖发展研究报告》显示:2017年中国在线外卖市场规模达到2046 亿元,较上年增长23%;在线外卖用户规模达到3 亿人,较上年增长15%;入驻外卖平台商家由2015 的50 万家增长到270 万家[1]。如此大量外卖商家的涌入给平台管理和消费者选择造成了困难,作为解决方法,外卖商家评分应运而生。外卖商家评分指的是对外卖商家提供的产品或服务进行量化评估的方法,准确的外卖商家评分不仅能帮助平台实现优胜劣汰管理,而且能降低消费者在大量同类商家中的选择成本,对平台管理者和消费者都有重要的现实指导意义。
在线用户评论是消费者对所体验商家产品和服务的文字性评价,其不仅为商家的产品和服务改进提供了现实依据,而且影响着未来消费者的购买决策。Rosario 等人整理了96 个涉及40 个平台26 个产品类别的研究表明,用户评论对商家的销售额有正向的影响[2]。文秀贤和徐健利用自然语处理技术提取了用户评论的关键词,然后,通过关键词聚类获取消费者显著偏好的商品特征,以此帮助企业提升产品研发能力,更好地满足消费者需求[3]。Jin 等人利用文本挖掘的方法从海量用户生成内容中识别出酒店投诉信息,并对投诉信息进行分析,给出酒店提升服务能力的政策建议[4]。杨爽关于在线产品评论感知有用性的研究显示,评论的信息质量及评论者的社区地位能增强消费者对评论有用性感知,从而影响消费者购买行为[5]。从以上文献回顾可知,大量研究表明用户评论对后来消费者的购买决策和商家销售策略都发挥着重要的作用,然而现有关于用户评论的研究多运用实证方法分析用户评论对后来消费者决策的影响作用,而关于如何进一步量化评论中用户的观点,及其对商家综合评分作用的研究则较少。
本研究采用情感分析方法,对用户评论中消费者的观点及其情感极性进行分析,实现基于用户评论的商家评分。情感分析是自然语言处理的重要分支,被广泛用来萃取用户评论中的情感元素,进而表示用户对待评价对象的褒贬。孟园等人基于情感分析方法研究口碑对产品销量的影响,结果表明加入情感维度后的销量预测结果更加准确[6]。Jin 等人对社会化问答社区中的医学问题回答内容进行情感分析,结果表明那些具有正向情感的回答更容易被患者感知和采纳[7]。但是已有研究多是对评论文本进行粗粒度的情感倾向分析,即评论文本的正面、中性或负面情感。由于外卖商品属于体验型产品,用户评论通常会从多个主题(如服务、口味、质量等)进行阐述,以混合情感的形式出现,即在肯定某些主题的同时否定其他一些主题。因此,本研究针对外卖产品特征,挖掘消费者评论中主题,量化这些主题的情感成分,实现对外卖商家的整体评分,帮助平台更好地管理入住商家,减少消费者获得满意商品的选择成本。
本研究首先基于美团外卖的用户评论数据,利用通用情感词库和word2vec 算法得到外卖领域的情感词库;然后,利用基于主题情感的分析方法计算用户评论的情感极性和强度;最后,融合情感强度计算每一个商家的总体情感指数。实验结果表明该方法的计算结果与美团平台上商家的消费者综合评分具有很强的相关性,本文提出的基于主题的用户评论情感指数计算方法能用于商家综合评分,可为外卖平台商家管理和消费者的购买决策提供现实依据。
商家评分是指第三方机构对商家提供的产品或服务质量的综合评价,评分结果不仅能帮助商家明确产品或服务质量的改进方向,为监管部门进行商家管理提供政策建议,而且能极大降低消费者综合海量信息做出正确消费决策的成本。因此,准确计算商家评分具有重要的现实意义,并引起产业界和学术界的广泛关注。基于产品或服务属性的商家评分法较早得到了研究者的采纳,此类研究主要是基于产品或服务的价格、销量、信誉、评分等属性要素,通过专家打分确定属性要素的权重,利用模糊综合评价、数据包络分析、神经网络等综合评价方法实现对商家提供的产品或服务的评分。例如,Feng 等人将商品的价格、评论好坏数量、交货时间、卖家信誉和商品质量等属性结合在一起对商品进行排序[8],Zhang 等人提出了一种包含吸引性、有效性、商品图片、网站信息等有效因素的在线商品综合评分框架[9]。基于产品或服务属性的评价方法在指标选择、权重确定等环节大量依赖专家经验,评价结果具有较强的主观性,难以开展大规模的评价活动。
近年来,随着互联网普及,以用户评分和用户评论为代表的商家评价机制被广泛使用。用户评分是用户对购买的产品或服务的总体评价,大量用户评分的平均值在一定程度上反映了提供产品或服务的商家优劣。著名电商平台亚马逊就是采用用户评分的平均值来代表商家的信誉值的,许多研究也采用消费者评分来考察商品的用户口碑,进而研究用户口碑对消费者购买决策的影响[10-11]。采用用户评分来表示商家商誉是基于所有用户对在线商品具有一致的偏好假设,而且消费者能按照一致的标准对商品客观地进行评分。然而,在开放和动态的网络环境中,由于消费背景、消费心理、消费爱好等因素的影响,用户对在线商品的偏好不可能一致,采用消费者评分计算得出的商家综合评分往往不能准确地反映真实情况[12]。用户评论是一种重要的用户生成内容(User Generated Contents,UGC),是消费者用自然语言描述在购买和使用商家产品或服务后真实感受的一种评价方式,相较于结构化的用户评分,非结构化的用户评论能更加完整、真实地表述消费者的感受[13-14],降低购物过程的不确定性,对后来消费者的购买决策具有更大的参考作用。根据中国互联网络信息中心(CNNIC)发布的《2018年中国网络购物调查研究报告》,80%用户购买前会参考商品评论[15],众多研究也表明用户评论不仅对消费者购买行为具有重要的影响[16-17],而且对商家提升产品或服务质量具有重大的参考价值[18]。
然而,随着评论数量的急剧增加,从海量评论文本中获取关于产品和服务的总体评价信息变得愈加困难,基于自然语言处理的情感分析方法被研究者引入,进行对商家产品和服务的口碑测量。情感分析又称意见挖掘、倾向性分析,是指对带有感情色彩的文本进行分析、处理、归纳和推理的过程,被广泛用于股票价格的趋势预测[19]、突发事件的舆情分析[20]和产品或服务的质量改进等[21-22]。情感分析方法可分为基于机器学习的情感分析方法和基于词典的情感分析方法两大类。基于机器学习的情感分析方法主要利用支持向量机、朴素贝叶斯、神经网络等有监督学习算法,基于训练数据构建情感倾向的分类模型,实现对未知情感倾向文本的情感倾向分类[23-24]。该类算法只能给出文本的情感倾向,而不能量化文本情感倾向的程度。基于词典的情感分析方法是指利用带有情感极性标注和情感强度标注的词典,在对文本进行分词和句法分析的基础上,实现对文本情感倾向归类和情感倾向程度计量。情感词典是基于词典情感分析方法的核心,目前国内外常用的通用情感词典包括有知网的Hownet、大连理工大学情感本体、哈佛大学的General Inquirer Lexicon 等。基于词典的情感分析方法具有无须训练样本标注、计算规则简单、结果可解释性强等优点,但该方法严重依赖于情感词典,情感词典的质量在很大程度上决定最终结果的准确程度,由于不同领域的用语习惯和表达方式的不同,需要在通用情感词典的基础上构建领域情感词典[25-27]。以本文研究的外卖领域为例,作为一个新兴的商业模式,外卖商品评论中充斥着大量网络用语和传统的餐饮服务用语,通用的情感词典难以准确反映外卖领域用户评论的情感值。另外,用户评论通常会包含多个主题,不同主题的重要程度也有所区别,不加区分地对评论文本进行情感分析的结果与评论者真实评价会有偏差。因此,针对外卖这一特殊领域,有必要有针对性地建立领域词典,并对评论主题萃取的权重进行划分,从而精准地计算用户评论的情感值,进而实现对外卖商家的准确评分。
不同领域文本的词语构成具有其领域的特殊性,构建充分体现外卖行业特点的情感词典是对外卖评论进行情感分析的重要前提。本研究用于构建外卖情感词典的语料库来源为中国知名外卖平台美团网,作者在该平台随机选择500 家北京外卖商家,采用Python 爬取了每户商家10 条用户评论,构建了本研究的语料库。然后,在大连理工大学提供的通用情感词库的基础上,使用结巴分词对语料库进行分词,保留分词结果中的名词、动词、形容词、副词、网络词语、成语和介词短语,并去除重复词语,从而得到特征词集。最后,基于得到的特征词集,使用word2vec 工具对原始词汇进行训练,得到每个词的词向量,最后通过相似度计算实现对已有情感词典的扩充。
扩充词的褒贬由3 名同领域学者进行判断:两名学者同时判断扩充词的词性若是判断结果相同,则取其判断结果;若判断结果不同,则由第三名学者判断决定。
外卖评论主题即评论所描述的主要内容,主题往往描述了产品的某些特征,一条评论往往涉及一个或多个主题,如“味道一般,但卖家的服务态度还不错。”该条评论包含口味与服务两个主题。我们通过市场调研,并结合已有研究确定消费者对于外卖商品用户评论的五个主题:价格、分量、口味、卫生和配送[28]。在确定用户评论主题的基础上,本文首先给出每个主题的核心词汇,并基于上一节的情感词典扩充方法,得到每一个主题的主题词库。
由于消费者对不同主题的偏好不同,需要确定不同主题的权重。本研究对外卖主要群体——学生和白领进行问卷调查,问卷内容包括外卖服务使用时长和频次,以上述5 个主题的重要性打分(5 分为最高分,1分为最低分)。通过网络发放,共收回100 份答卷,去除异常答卷和外卖软件使用时间少于1年的答卷后,收得69 份有效答卷,得到结果,如表1所示。
表1 外卖评论主题重要性问卷统计表
调查结果显示消费者对于外卖的关注按卫生、口味、价格、配送、分量依次递减。考虑到最终计算出来的情感强度的合理性,本文所使用的权重计算公式如下:
式中Wi为第i 个主题的权重;Ti为第i 个主题问卷平均分;T 为所有主题的平均分集合。经过计算,卫生、口味、价格、配送、分量的权重依次为2.649、2.286、1.792、1.364 和1.000。
外卖评论情感极性计算是基于上述得到的情感词库和主题、主题词库及主题权重,首先判断评论中每个分句所属主题,然后计算该分句的情感值,最后将多个主题的情感值进行加权求和,从而得到外卖评论的情感极性。计算外卖评论的情感极性的要点如下:(1)情感词:识别文本的情感倾向最简洁的方法就是统计一句话中情感词的个数,如“好”“坏”……,若是发现褒义词则情感极性+1,若是发现贬义词则情感极性-1。(2)程度词:程度词会增加情感词的强烈程度,如“喜欢”与“非常喜欢”所表现的强烈程度是不同的,不同程度词的强烈程度不一样,表2列举了部分程度副词的强烈程度及权重。(3)否定词:在进行查询的时候需要查找否定词如“不”“不是”这样的词,“喜欢”与“不喜欢”具有相反的情感倾向。在查找否定词时我们需要统计分句中否定词的个数,若否定词个数为奇数,那么,整体情感极性值会加上负号,若否定词个数为偶数,则整体情感极性值不变。(4)主题词:主题词用于识别评论中涉及的主题,通过对主题进行赋权,将其权重同时赋给该主题下的所有主题词,从主题层面来改进基于词典的情感极性计算。如“糊了”属于口味主题,“态度差”属于配送主题。
基于上述分析,基于主题的外卖评论情感极性算法如下:
1.对原数据清洗,去除非中文标签、表情符号等与评价无关的内容。
2.将清洗好的文本按照标点符号进行分句,并对分句进行分词。
3.去除停用词和文本中的无效符号。
4.遍历分句的分词结果,查找分句的情感词,若出现多个相同的情感词则总体情感值只按两次计算,记录情感词的情感极性(积极或消极),以及在分句中的位置。
5.查找主题词,判断主题词所属的主题,查找该主题的权重,乘以情感值。
6.在上个情感词和现找到的情感词间查找程度词,找到就停止搜寻。查找程度词权值,乘以情感值。
7.在上个情感词和当前情感词间查找否定词并统计其数量,若数量为奇数,则情感值×(-1),若为偶数,则情感值×1。
8.计算整条评论的情感值:若情感值为正,则为好评;若情感值为0,则为中评;若情感值为负,则为差评。
表2是使用的部分程度词权重表。
表2 部分程度词权重表
下面来举例说明基于主题的外卖评论情感极性的计算方法。以评论“味道不行,卖家的服务态度还不错”为例,其情感计算方式如下。
最终情感得分= 主题(味道)×情感词(不行)×主题词(服务态度)×程度词(还)×情感词(不错)= 2.286×(-1)+1.364×0.5×1=-1.604
从计算过程来看,该客户对本商家外卖的口味持否定态度,对卖家服务保持轻微肯定。结合各主题权重后,该评论的情感极性为负值,消费者对该商家的评论整体呈否定态度。
为了进一步验证上述方法的有效性,本研究从未训练的样本中选出100 条具有混合主题的评论进行测试,使用基于主题的情感分析方法识别出83 条正面评论、17 条负面评论、0 条中性评论,使用不基于主题的方法最终识别出75 条正面评论、16 条负面评论、9 条中性评论。部分分析结果如表3所示。
表3 混合主题情感分析部分分析结果
如实验结果所示,使用基于主题的情感分析方法更精确地计算出了评论的情感极性值,如评论1、3、5、6,对于多个主题褒贬不一的用户评论,基于主题的情感分析方法能够更科学地计算出该评论的情感倾向,如评论2、4。
外卖商家情感指数是指在对商家所有用户评论进行情感极性量化的基础上,利用综合评价算法计算得出的所有用户评论的总体情感强度。有研究中情感指数的计算都依赖于带有情感倾向的文本的数量。例如刘苗等基于消费相关的17 万条新闻数据,利用情感分析得到新闻的情感倾向,基于正向情感的文本数量和负向情感的文本数量构建消费情感指数[29];刘玉林等人基于正向评论数量与负面评论数量,计算商家的情感指数[30]。这些研究对于情感指数的计算都依赖于带有情感倾向的文本的数量,情感指数的大小完全受到正负面评论数量的影响,而不考虑文本的情感极性。本研究在前人研究的基础上,将单个评论的情感强度引入到总体情感指数计算中,使得情感指数对于文本情感总量的刻画更为客观具体。本研究的情感指数计算模型如下:
式中F 代表商家的情感指数;Xi代表归一化后的第i 个正面评论的情感极性;N 代表正面评论的个数;Yj代表归一化后的第j 个负面评论的情感极性;M 代表负面评论的个数。
情感极性归一化处理公式如式(5)所示。
式中Xnew代表 归一化的评论情感值;Xk代表第k 条评论;Xmin代表商家所有评论的情感极性最小值;Xmax代表商家所有评论的情感极性最大值。
实验数据来源于美团外卖平台,本文随机选择了8 家商户,使用Python 抓取了这8 家商户从2018年4月到2019年4月之间的所有好评与差评,然后按照等比例抽样的原则,从每一个商家的用户评论中根据好评与差评的比例随机抽取200 条评论。实验数据及抽样结果如表4所示。
表4 实验数据统计及抽样方案表
对于已得到的抽样数据,按照前文的情感分析方法,计算得到一个200×8 的情感强度值矩阵。对于情感倾向为负值的样本,归一化会改变其取值方向,因此做以下处理:
1.记录情感得分矩阵中所有负面评论的位置。
2.将情感得分矩阵中所有情感值做取绝对值处理(使得正负情感值处于同一尺度)。
3.对情感得分矩阵做归一化处理(最大值、最小值为整个矩阵的最大值、最小值)。
4.查找归一化处理后的情感得分矩阵中(1)中记录的位置,对这些位置上的数值做乘-1 处理。
经过上述处理的部分评论情感强度值矩阵表如表5所示。
表5 部分归一化情感得分矩阵表
图1展示了归一化后商家的用户评论情感强度值分布情况。由图可知,所有商家的用户评论情感强度值在-0.4 到0.4 之间,占统计样本的90%以上。从分布态势来看,商家的用户评论情感强度分布比较符合正态分布,表明异常过度、褒贬的评论占总样本的比例相对较少,说明本研究提出的情感分析方法得出的情感强度较为符合真实情况。
图1 归一化后情感分析图
根据前文情感指数计算方法和由计算得到的情感得分矩阵,得到最终的情感指数如表6所示。表6第一行为外卖平台综合用户评分和评论得出的商家综合评分,第二行为本研究基于情感分析方法对用户评论进行计算得到的商家情感指数。为了更直观展示商家综合评分与情感指数的关系,本研究绘制了如图2所示的商家综合得分与情感指数对照图。由图可知本研究计算得出的情感指数与网站给出的商家评分在排序上表现出了较强的一致性,表明本研究提出的情感指数计算方法具有较强的科学性,情感指数的计算结果可替代商家评分来表征商家的信誉值。
表6 商家综合评分与情感指数对照表
图2 商家综合评分与情感指数比较图
为了进一步验证计算结果的科学性,本研究计算这8 个商家的网站评分值与本研究计算得出的情感指数的皮尔逊相关系数为0.907,根据表7所示的相关性强度对照表,表明网站评分与本文的计算结果具有极强的相关关系,进一步说明了本研究提出的情感分析方法的有效性。
表7 相关性强度对照表
为了验证本研究中情感分析方法的稳定性,本研究在第一次数据采集3 周后,对上述8 个商家的数据进行二次采集,采集数据包括每个商家更新后的商家评分和用户评论,使用相同的实验方法进行计算,结果如表8所示。
表8 第二次实验对照
其中grade1 为第一次采集的商户总体评分,grade2 为第二次采集的商户总体评分,SampleP1 为第一次好评抽样数量,SampleP2 为第二次好评抽样数量,SampleN1 为第一次差评抽样数量,SampleN2 为第二次差评抽样数量,score1 为用本文方法第一次实验的情感指数得分,score2 为用本文方法第二次实验的情感指数得分。
两次实验对比可以发现8 个商户的评分仅少部分存在变化。商户1 从4.6 分下降到4.5 分,商户5 从4.2分上升到4.4 分,商户6 从4.4 分上升到4.6 分。针对商户1 的好评与差评比例有所上升,说明新增评论中正面情感的量有了增加。商户5 的情感指数相差不多,且其评论中好评与差评比例也相近,但是其商家评分却从4.2 上升到4.4,主要原因是新增了大量高评分的用户评论。商户6 的情感指数有了不小提升,但评论好评差评比例相差不大,主要原因是新增评论中其正面评论情感强度较强。商户8 虽然评分没有改变但是其好评与差评的比例下降,说明新增评论中差评比例上升,消费者对于商家的认可程度下降。基于上述结果分析可知,本研究提出的情感指数计算方法能较为准确地反映商家的真实评分,具有较好的稳定性和科学性。
用户评论是用户对购买和使用商家产品或服务后所得真实体验的文字描述,充分挖掘和利用用户的评论信息对商家提升产品或服务质量、管理机构管理商家和消费者制定购买决策都具有重要的现实意义。本研究提出了一套基于情感分析的外卖商家评分方法,该方法首先构建外卖领域情感词典,确定外卖评论的主题、主题词典及主题权重,然后,基于外卖领域词典和主题词典,计算每一个评论文本的情感倾向及强度,最后,综合商家评论的情感极性,得出商家的情感指数,并将之作为最后的商家评分。基于美团网用户评论数据的实验结果表明,本研究提出的基于情感分析的外卖商家评分方法能够有效挖掘用户评论中的情感成分,评分结果与网站所给出的评分结果具有较强的一致性。
本研究基于主题的情感分析方法提升单文本情感分析的粒度,主题权重的引入使得混合主题的用户评论情感分析结果更加符合实际情况。融合情感强度的情感指数计算方法克服了传统的基于情感倾向的情感指数计算方法难以对同一类型(好评或差评)进行更细粒度区分的缺点,确保了最终评价结果与实际情况更加契合。本研究提出的基于情感分析的商家评论方法为平台的商家管理提供了新的思路,评分结果可为消费者制定购买决策提供参考,从而减少消费者面对海量用户评论时的决策成本。
本研究仍然存在不足,未来可以从以下两个方面进一步展开研究:一是本研究基于主题的情感分析所需要的主题词库是通过人工判别的方法构建的,效率有待提高,后续研究可以考虑如何通过自主发现主题词汇来提高分析效率。二是本研究所提出的研究方法只在外卖领域进行了实验验证,未来研究可以拓展至其他领域,进一步验证该研究方法的通用性。