面向B2C电商网站的消费者评论有用性评价模型研究

2019-08-23 05:38毛郁欣朱旭东
现代情报 2019年8期
关键词:文本分类网站支持向量机

毛郁欣 朱旭东

关键词:电子商务;网站;在线消费者评论;有用性;文本分类;支持向量机

电子商务(简称电商)的大规模发展和信息技术的快速进步对人们的日常生活产生了巨大的影响。消费者越来越愿意在电商网站上表达自己的网购体验和消费态度。另一方面,大多数电商网站为用户提供了便捷的移动服务.使得用户能够充分利用碎片化时间进行网购。允许用户分享关于商品或者个人生活方式的图片和评论,是这类网站的主要特征。在线消费者评论已经成为消费者和商家之间一种十分重要的网络口碑,会直接影响用户的产品质量认知甚至购买欲望。对线消费者评论的深度理解和挖掘,已经成为电商领域的研究热点之一。

目前,各大电商网站都产生了海量的评论信息,对于消费者而言,查阅和分析这些信息将面临巨大的挑战。通常而言,电商网站会按照发布时间对评论进行排序,新近发布的评论会出现在评论页的顶部。这种做法会导致用户难以接触那些有价值但是发布时间較早的评论,除非多次往后翻页。因此,为了向用户突出显示有用的或者有价值的评论.一些电商网站会提供有用性投票机制——允许用户给那些他们认为对自身有帮助的评论投票,有用性投票数通常会直接显示在评论的下方。这种机制使得用户能够根据投票数快速判断和过滤出有用的评论。然而,这种投票机制也存在较大的问题:因为投票数是随时间累积的,那么最近发布的评论可能在短时间内无法收获足够多的投票,从而被用户所忽略。

为此,除了有用性投票之外,还应该结合更多的因素来对在线消费者评论进行合理地排序。本文试图研究一种在线消费者评论的有用性评价方法,为消费者的网购决策提供支持。现有的研究工作主要集中在对评论影响因素(如评论长度、评论者特征等)的分析,而对于如何进行评论的有用性评价则较少涉及。另外,单纯分析和识别评论的有用性还是不够的,因为一款热销的商品可能会有上万条评论,而其中有用的评论可能又有数千条,这样的数据规模对于普通消费者而言依然太大。因此,在评价在线消费者评论有用性的同时,还应进一步对有用的评论排序,便于进一步提取和深度利用其中最有价值的内容。本文的研究不仅关注这些影响因素,同时还将探索如何利用这些因素进行评论的有用性排序。为此,本文提出了一种基于分类算法的排序模型来评价在线消费者评论的有用性和重要性。借助该模型,能够较为有效地替用户过滤有用的评论,从而有助于其进行消费决策。

1相关工作

本文的研究和意见挖掘具有较强相关性,而早期面向电商的意见挖掘主要集中在对在线消费者评论情感极性(正面或负面)的分析,这类意见挖掘也被称为情感分析。而另一类意见挖掘主要关注如何从评论中识别一些潜在信息,例如商品特征、消费偏好等。近年来,越来越多的研究开始关注对评论质量或者有用性的评价。

许多学者试图利用数据挖掘或者统计的方法来分析在线消费者评论的有用性。例如,Qazi A等利用回归模型来分析在线消费者评论的有用性。他们主要研究文本中包含的概念数对于在线旅游网站上评论的影响,其研究工作的主要局限在于样本规模偏小(只有1500条评论)。Karimi S等以来自于一个移动游戏应用的评论样本为数据,研究了评论者档案图片(如头像)对评论有用性的影响。其研究结果显示,评论者档案图片会显著影响消费者对评论有用性的判断。Racherla P等对在线消费者评论的感知有用性进行了研究,利用OLS回归来检验他们的假设。其研究结果表明评论者和评论的特征与评论的感知有用性显著相关。Ngo-Ye T L等利用脚本分析来预测在线消费评论的有用性,他们将脚本词典中的单词作为文本回归模型中的特征来预测评论的有用性。Hong H等通过元分析来对现有关于在线消费者评论决定性因素的研究进行数量聚合。然而,他们搜集到的因素没有覆盖在线消费评论的一些典型特征.例如,他们并未考虑评论图片这一常用因素。李志宇提出了一种在线商品评论效用排序模型,但是在语义特征方面只考虑了产品属性特征词和情感特征词。聂卉提出了一种基于内容分析的用户评论质量的评价与预测.采用文本内容分析技术提取特征指标,并结合计量分析和机器学习方法来进行验证,但是该研究采用的特征集合不涉及评论的一些非文本属性(如用户档案、评论图片等)。吴江等研究了电商网站评论获得有用性投票的影响因素,主要针对评论者信度、评论信息质量以及评论极性3方面的因素进行分析。

目前也有一部分研究是基于问卷或者实验的方式来对在线消费者评论的有用性进行实证研究,而这类研究通常需要有实验人员或者志愿者参与。例如.Lee E J等通过一个基于Web的实验来研究在线商品评论的质量对于参与者对评论接受度的影响,他们同时还分析了这样的影响是如何随着商品类型以及评论者照片的可用性而变化的。Xu Q通过一个基于Web的激励实验来探讨个人信誉线索和档案图片对评论者以及评论可信度的认知信任和情感信任的影响。Casal6 L V等开展了两个基于Web的实验,评价来自在线旅游代理网站的在线评论(正面的和负面的)对于高度风险规避型旅客的感知有用性。Weathers D等介绍了一种用于识别评论因素的方法.购物者用这些因素来评价评论有用性。他们对由69名学生提供的分类数据开展了多维尺度分析.其研究的主要不足在于研究结果受到参与者规模的影响。

自动而精确地理解在线消费者评论表达的情感信息,有助于企业理解消费者感知,并更好地开展针对性的营销。许多现有的相关研究聚焦于对在线消费者评论进行情感分析。例如,Felbermayr A等分析了情感对在线消费者评论感知有用性的影响,测量了不同商品分类中不同情感维度的重要性。他们使用随机森林分类算法根据情感内容将真实评论分类为有用的和无用的,还将情感特征和若干广泛使用的特征如文本长度、评分和商品评级等进行了比较。B0P等阐述了一种机器学习方法.该方法对文档的主观性内容应用文本分类技术来确定其情感极性。黄仁等描述了一种基于联合神经网络对商品属性进行聚类的方法,并通过使用Word2vec来确定商品评论的情感特征。Tian F等提出了一种基于观点语句的实例转移技术,用于对中文商品评论进行情感分类,还利用来自电商网站的数据集将其方法与另外3种分类方法进行了比较分析。

总体来看,目前结合多种因素对线消费者评论的有用性进行深度研究的工作还比较缺乏。许多研究工作受限于评论数据或实验参与者的规模,进而影响了其研究结论的可靠性和适用性。另外,虽然有不少研究探讨了如何识别评论的有用性,但是并未特别有效地解决根据有用性对评论排序的问题。

2理论模型

本节首先针对B2C电商网站的特点提出了一系列用于评价在线消费者评论有用性的特征,并进一步提出了基于支持向量机(Support Vector Ma.chine,SVM)的评论有用性排序算法。

2.1特征集合

为了更好地理解和利用在线消费者评论,许多学者试图在特征尺度上挖掘和抽取意见。目前绝大部分分类算法都依赖于特征的提取,因此为了实现对评论的评价,必须抽取和识别与评论相关的关键特征。为此,本文整合了一部分现有文献中提及的特征,归纳并提出了符合电商网站消费者评论的特征集合,用于支持后续的分类。

1)文本统计特征

在文本统计方面,本研究主要选取了两个代表性的相关特征:评论长度和句子数。一般来说,电商网站上的一条消费者评论不会很长,有时候一条短评论可能只包含一句话甚至几个字。通常来说,较长的评论会显得更加有用.因为长评论可能会包含更多有效信息。中文评论的长度可以用字数来度量。此外,评论重要性也与其所包含的语句数量有关,有研究表明包含更多语句的评论会显得更加有用。语句可以被认为是消费者表达对商品意见的最小语义单元。更进一步.还可以通过评论的平均语句长度(Average Sentence Length,ASL)来同时覆盖评论长度和语句数两个特征:

2)评论主观度

网络消费者通过发布主观意见来表达其对商品特征的情绪,或者通过客观陈述来反映商品特征的实际数据,或两者结合。当我们评价在线消费者评论的有用性时,可以考虑评论的主观度问题。有研究表明,评论有用性与其情感倾向或内隐意见存在正交关系。然而,文本的主观度尤其是中文文本的主观度判断和分析,是一项较为复杂的工作。Ghose A等提出通过对每条语句进行主客观性分类来进一步确定评论的主观度,本研究基于该理论量化地评估在线消费者评论的主观度。假设评论。

根据Ghose和Ipeirotis的研究,DevProb和评论的有用性投票正相关。如果评论包含的语句之间的主客观性差异比较大.则DevProb的值也就比较大,那么该评论对消费者的有用性也比较大。为了进一步确定评论中每条语句的主观度,我们需要借助某种分类算法对句子的极性进行分类。然而,目前绝大部分语句粒度的分类都需要事先标注训练集作为输入,而手动标注大量训练数据本身非常耗时。因此,本文采用了Wiebe J等提出的方法,利用基于规则的分类器处理未标注的语料库来生成训练数据。该方法根据规则对语句的主客观性进行自动分类,而规则又可以根据现有文献提供的一些研究结论或线索来预先制定。

3)内容相关性

评论内容和商品描述的相关性是判断评论有用性另一个重要指标。在电商网站上,每一件商品都会有一个对应的关于商品信息的描述性页面。如果评论的内容和商品描述非常相关,那么对用户的价值或者有用性也就更大。换句话说,这样的评论包含了更多正确的商品信息或者以属性为中心的信息,因而更易于被其他用户所接受。另外,评论的内容相关性也和主观度存在一定的关系:如果评论包含更多主观内容,那么其包含的客观内容势必就相对较少,而和商品描述相关的往往是客观内容。

4)有用性投票

如前文所述,有用性投票有助于用户识别有价值的评论,收到更多投票的评论对其它用户而言帮助也更大。然而,有用性投票数是随时间累积的,因此在分析有用性投票对评论有用性的影响时.还应该考虑时间因素。为此,本文提出时间相关的有用性投票(Time-Dependent Helpful Votes,TDHV)的概念,并定义如下:

5)用户回复

一些电商网站允许用户进一步在评论下面进行回复。为了简化问题,本研究并不直接分析这些回复的内容,而只是单纯记录评论的用户回复数,并将回复数作为特征值。用户回复数和有用性投票存在一定的联系:如果1条评论收获了较多的回复,说明该评论被较多的用户所关注和认可:可用性投票的情况也类似。

6)评论图片

大部分电商网站都允许和鼓励消费者在发布评论的同时上传所购买商品的图片。通过上传实拍的商品图片.消费者能让其评论更吸引人.同时也更加真实可信。对于其他用户而言,这些图片是非常重要的购买决策参考。通常来说,商品展示页上的图片经过一定的修饰和处理.和实际商品之间会存在一定的差异,而消费者上传的图片相对来说则更加真实可靠。因此,包含了图片的评论对用户来说有用性更大。类似地,Walther J B等通过研究也发现在新成立的虚拟群组中,群组成员发布的图片能够增进情感和社交吸引力。如果将已经购买和打算购买某一款商品的用戶看作一个虚拟的网络群组,那么图片的影响是显而易见的。因此,在线消费者评论中是否包含了已购买的商品图片对于评论的有用性具有较大的影响。本研究将评论包含的图片数量作为评论有用性的特征指标之一。

7)评论者档案

电商网站的用户档案通常包括自我创造线索(如个人头像)和系统生成线索(如信誉)。作为体现来源可靠性的线索.这些档案特征在消费者的购买决策中也扮演着重要角色_3引。因此,评论者档案和他们所发布评论的质量之间存在一定的相关性。例如,当用户决定是否采纳一条评论的意见时,评论者的信誉等级就是一个典型的考虑因素。信誉等级较高的用户通常拥有更多的网购经验,其评论也就更加可信。Zhou S等将评论者的专业性作为评论有用性的影响因素,并用评论者过去撰写的评论数量来量化这种专业性。一般来说,出于隐私保护的需要,电商网站不会暴露太多关于评论者的个人信息。换句话说,其他用户只能获得评论者的一小部分信息。在这种情况下,评论者的昵称与其评论的可靠性之间也存在潜在的联系。因为大多数时候,电商网站的消费者并不太愿意在评论中暴露自己的昵称,而是选择匿名发布评论。而那些有经验的、较为自信的消费者则不太介意公布自己的昵称,而他们的评论也就更加可靠。

2.2有用性排序算法

在线消费者评论的评价问题可以被归约为二元分类,即将在线消费者评论分为两类:有用的和无用的。因此,本研究采用SVM来对评论进行二元分类,数据集中的评论被分为正面(有用)或者负面(无用)。同时,每条评论在被贴上分类标签的同时,还会被赋予1个分类值(或者分类概率)。对于正面分类下的有用评论,则进一步按照分类概率值大小对其进行排序,一个较大的概率值意味着评论的有用性更强。给出基于SVM的有用性排序算法的描述如表2所示:

3研究方法

3.1数据采集

本文的实证研究数据来自于京东,而京东是目前国内两大B2C电商平台之一。基于HtmlUnit实现了一个网络爬虫程序,从京东上自动采集商品评论信息和商品描述信息。主要从京东上抓取了3类商品的数据:手机、女鞋和糖果巧克力。在丢弃了一些无效评论之后,最终采集了756756条评论,其中511213条关于手机,160456条关于女鞋,88086条关于糖果巧克力。图1显示的就是一条京东上关于手机的评论。所有的评论都以半结构化数据的形式存储于关系数据库中用于后续分析。

对抓取到的部分评论数据进行了人工分析和标注,将评论数据标记为有用和无用两个类别。每条评论数据由3名标注者独立进行标注,最终评论的类别依据多数原则来确定。例如,某条评论至少被两名标注者标注为无用评论,该评论才被确定为无用评论。经过标注的数据集被分为两个子集,一部分作为训练集,另一部分作为测试集。

3.2分析方法

通过设定一系列参数,利用训练集构造一个SVM分类模型。而训练集则用于进一步验证模型的分类精确度。总体的分析过程如图2所示,具体的步骤如下:

1)首先从网站上抓取数据,包括评论数据和商品数据,其中商品数据主要用于计算内容相关性。

2)对评论和商品描述进行分词,将每一段文本转化为词袋模型,与词在文本中出现的顺序无关。分类所需的一部分特征如文本统计、评论主观度和内容相关性和分词结果直接相关。

3)针对每一条评论,结合第3节涉及的各个特

4)将原始的评论数据转化为用于分类的输入向量集合。输入向量x的分类概率是从x到决策边界的有符号距离。正的分类概率表示x被预测属于该类别,而负值则正好相反。通过分类函数(也称为值函数)预测x正向属于某个类别的概率。利用SVM进行分类时,预先设定SVM模型支持概率估计,这样就能得到每个向量属于某个类别的概率值。因为本文采用的是二元分类,因此类别只有两种,可以用1和-1表示。

5)当利用SVM得到所有输入向量的分类结果时,首先过滤出具有正概率值的向量,然后根据它们的概率值大小进行排序,概率值较大的向量对应的评论被认为更加有用。

6)对于分类预测的结果,进行人工验证,得到最终的有用性排序结果。

4研究结果与评价

4.1分类测试结果

按照3.2节给出的步骤对数据集进行处理.得到SVM分类的预测结果集。分类所采用的SVM模型参数如表3所示:

将训练集大小统一设定为1000,测试集大小设定为500。利用评价模型对3个子集(手机、女鞋、糖果巧克力)分别处理,结果如表4所示。

每个子集对应的分类的精确率和召回率都达到了60%以上。虽然分类的精确度并不是特别高,但是对于一个没有经过任何优化的模型而言,初步的分类结果是可以接受的。其中,女鞋子集对应的精确率最高,达到了65.8%,而糖果巧克力子集的召回率最高,达到了82.3%。

为了进一步验证评价模型的性能,将该模型的分类预测结果,与京东自身的推荐结果进行比较。京东提供了两种评论排序方式:按时间排序和按推荐排序。一般来说,类似京东这样的电商网站不会透露其推荐算法的细节.但是推荐结果是可以公开获取的。本研究将评价模型和京东的推荐机制进行对比分析,步骤如下:

1)确定一件具体的商品,并采集其对应的所有评论:

2)利用本文提出的评价模型对消费者评论进行排序,得到一个评论序列(记为序列A);

3)按照京东的推荐机制对消费者评论进行排序,得到另一个评论序列(记为序列B);

4)比较序列A和序列B,并分析其差异。

按照上述流程,从手机子集中选取了一件特定商品的评论数据,该商品是一款老年手机。将AB两个序列的长度都设定为500,即只对前500条有用评论进行对比分析,最终的结果如表5所示。京东上商品的评论是分页显示的,每页10条评论,500条评论会占据50页。虽然一件商品的评论很多,但是一般的用户无法遍历所有的评论页。因此50页的内容对于用户评价一款商品而言已经足够了。通过对比可以看到,两个序列的有用评论比例几乎完全一样,说明通过两种不同的机制得到的评论大多数都是有用的。

京东上的每一条评论都会对应一个星级(从1星到5星),5星评论表示极端好评,而l星评论则表示极端差评。为此,根据星级将评论分为3类:1星和2星是负面评论.3星和4星是中性评论,5星是正面评论。而京东的推荐机制最大的问题在于,尽管网站会推荐有用的评论,但却更倾向于推荐正面评论。换句话说,网站会将那些有用的负面或者中性评论放在后面.以至于一般用户比较难以接触到。通过表5可以看到,序列B中甚至没有任何负面评论,只有少量的中性评论。然而,那些负面或中性评论对用户的购买决策是有参考价值和意义的。此外,网站还更加倾向于推荐获得较多有用性投票和用户回复的评论.而本文提出的评价模型对这两个因素的依赖性则较小。

4.2有用评论概率伐值分析

在对小规模测试集进行分类的基础之上,可以利用经过训练的SVM模型对完整的数据集进行分类,首先对糖果巧克力子集的評论进行分类预测。糖果巧克力子集的原始评论数为88086,其中用于训练集的1000条评论无需处理,因此,实际需要处理的评论数为87086。对糖果巧克力子集进行分类预测的结果如表6所示。

在对评论数据进行SVM分类之后,可以按照分类概率值高低对结果记录的进行排序。给定为针对分类概率值的阈值,那么针对分类预测结果,可以得到如下的函数:

一般来说,结果记录的分类概率值越高,说明对应的评论被划分到有用分类的可靠性也就越高,或者“有用性”也就越强。对于分类概率值较低的评论,其有用性相对来说也较弱。当th,的值为0.82时,结果集中对应的有用评论数为248。而如果th。将下调至0.74,那么预测有用评论数量将上升到22161条。进一步,对248条概率值超过0.82的评论进行人工验证.发现其中222条的预测结果是正确的,精确率达到了89.5%,甚至比4.1节中的精确率还要高。因此,可以认为,有用性强的评论在分类预测结果中占极少数。这个研究结论,符合人们对于在线消费者评论的一般认知:电商网站上绝大部分评论的参考价值不大.真正有用的评论或者精华总是占极少数。

通过SVM分类得到的是预测结果,还有待进一步验证。因为分类结果集的规模太大,人工验证费时费力,对于实际应用来说不太现实。但是,如果选取一个合适的阈值,只对分类概率值在阈值以上的结果记录进行人工验证.就能极大地缩小验证空间。类似的,对另外两个子集的评论进行阈值分析,最终的对比结果如图4所示。其中,手机子集包含的原始评论数量太大,为了缩短处理时间,随机选取了其中180000条记录。从图3可知,手机和女鞋子集的分类预测结果,同样满足“有用性强的评论占极少数”的特征。

4.3有用评论描述性统计

对于糖果巧克力子集,从分类结果集中选取了top-n(n=500)条有用评论并对进行描述性统计分析,结果如表7所示。

从表7可知,评价模型在非语义特征(如图片数量、评论者等级等)不显著的情况下依然能够较为有效地识别有用的评论。换句话说,只要评论的语义特征(如评论主观度、内容相关性等)足够显著,模型就能够识别有用的评论。另外,对500条评论的分类精确性进行人工验证,精确率达到了94%.高于阈值为0.82时248条评论的分类精确率,进一步说明模型的高概率值分类效果更为理想。

4.4核函数性能比较

评价模型默认的核函数为RBF(Radial BasisFunction),而在实际应用中SVM模型还有多种常用的核函数。因此,可以对不同的核函数对应的分类性能进行比较,并从中选择最适合核函数。针对4.1节中的糖果巧克力子集,分析不同的核函数对于分类精确率的影响,结果如表8所示。Linear(线性)核函数的性能要明显优于其它,其次是RBF。因此,可以考虑用Linear替代默认的RBF来优化分类性能。

4.5不同分类方法性能比较

为了进一步评价性能,将本文提出的基于SVM的评价模型(SVM-based Model)与另外两种常用的分类方法朴素贝叶斯和KNN进行比较。分别用3种方法对相同的训练集和测试集进行处理,最终的结果如图5所示。

总的来看,基于SVM的评价模型的表现要优于另外两种方法。然而,KNN的性能和SVM非常接近。此外,3种方法的召回率比较接近,都达到了80%左右。因此,SVM是比較合适的分类方法,但是KNN也可以作为候选.因为相对来说KNN在计算开销方面要优于SVM。

4.6算法修正

根据实证分析的结果,进一步从以下两方面对2.2节给出的排序算法进行修正,有助于提高分类预测的精确度。

1)通过选取合适的分类概率阈值;

2)选择合适的核函数。

给出修正后的算法描述如表9所示:

5结论

本文主要研究并提出了一个利用SVM分类算法对在线消费者评论进行有用性排序的模型。重点关注两个研究问题:第一,如何利用基于SVM的分类结果对在线消费者评论进行排序;第二,如何利用来自电商网站的评论数据来验证评价模型的性能。从实证研究的结果来看,尽管总体的分类精确度并不是特别高,但是对于一个没有经过任何优化的模型而言,该结果是可以接受的。研究结果显示,有用性强的评论占极少数,因此通过选择合适的概率阈值,能够极大地缩小验证空间,并显著提升分类精确度,有助于从分类预测结果中过滤出有价值的评论。根据描述性统计结果,该模型主要依赖语义特征进行排序,而对非语义特征的依赖较少。最后,结果显示模型在性能方面要略优于电商网站的推荐机制。实证研究结果显示,长的和高相关性的评论被认为更加有用.而这也符合一般用户的认知。此外,同时包含主客观内容的评论也被认为更加有用。另外,正面的和负面的评论对于潜在的消费者而言都有价值。虽然在线零售商和电商网站都倾向于将正面评论突出前置,但是消费者在做出购买决策之前,更希望能全面了解商品的各种评论。

本文的研究工作还存在一定的局限。首先,虽然本文基于现有文献和作者的认知采用了尽可能多的特征,并基于这些特征也能够对评论进行基于SVM的分类,但是本文所使用的特征集合依然还是有待完善的,或者说尚未完全体现在线消费者评论的一些特点。因此,在后续的研究中,需要进一步补充有用的特征。其次,本文的数据集中在3类商品,未来可以考虑进一步扩大商品分类,同时研究商品类别(比如耐用型商品和非耐用型商品)对于评论有用性的影响。

猜你喜欢
文本分类网站支持向量机
基于组合分类算法的源代码注释质量评估方法
河洛文化旅游资源外宣网站日译现状调查及对策研究
基于支持向量机的金融数据分析研究