虚假评论检测系统的构建研究

2015-05-30 13:19:04万世伟

商 2015年26期

万世伟

摘要：本文依据虚假评论的检测特点，围绕基于评论内容的虚假评论、基于评论者行为的虚假评论以及融合这两类特征来检测虚假评论等方面展开了研究，分析虚假评论检测原型系统的构建。

关键词：虚假评论；评论内容；评论者

一、引言

由于存在某些利益关系，商品在线评论可能存在一些不真实或虚假的评论信息，比如某些人会刻意的吹捧或者诋毁某些产品，也即在网上存在着很多的评论数据是不真实的。互联网上的不真实评论来源于两部分：一是某些厂商为了推广自己的产品或者服务，借助电子商务平台做宣传。二是评论者在某些利益的驱动下，发布虚假的评论信息，这是由互联网的开放性决定的，人们可以无限制的发表自己的观点。此外，消费者购买商品时，往往会参照其他人购买该商品的评论信息，这是因为消费者希望买到令自己满意的商品。当人们参考其他消费者的评论时，会发现一些让人产生质疑的虚假评论，这就在一定程度上影响了该评论信息的参考价值，从而误导消费者，损害消费者的利益。

二、虚假评论概述

虚假评论是由消费者发表的不真实的、不符合实际的评论，具有欺骗性，从而误导并损害消费者的利益。由于在线评论通过虚假评论者的掩饰和乔装，使得垃圾评论与正常的评论看起来是没有差别的，这就导致虚假评论即使采用人工方法也难以完全检测。于是相关学者不得不针对虚假评论检测任务的特点，结合统计学以及机器学习技术来对虚假评论进行检测。

（一）基于评论内容的虚假评论监测

在基于评论内容的虚假在线评论检测方面，Jindal N等人认为重复的评论即是虚假评论，利用重复的在线评论数据集，采用shingle算法识别重复的评论。如果两条评论的相似度大于0.9时，则判定这两条评论是重复性的评论，然后采用logistic回归方法建立检测学习模型对评论进行分类，分为虚假评论和非虚假评论两大类。Tan等将评论描述成电路上的电阻，利用电阻距离来衡量评论之间的语义相似性，提出了一种基于电阻网络的无关虚假评论自动检测方法。

（二）基于评论者行为的虚假评论检测

基于评论者行为的虚假在线评论检测方法是以用户为中心，采用用户的行为特征建立分类器的一种检测方法。Lim等从用户评分行为出发，依据经验对虚假评论者行为进行建模，并根据过往经验设置各种行为特征的权重，通过寻找虚假评论的制造者继而达到检测虚假评论的目的。论文之中重点分析的行为包括虚假评论者通常会重点关注特定的产品或产品组、对所关注的产品或服务所给予的评价分数与其他评论者分数差别很大、对所关注的产品可能会发表多次评分级别相似的评论分数且与其他评论者的分数差别较大、在较短时间内对所关注的产品做多次评论、早期参与评论且严重偏离平均值等。

三、虚假评论检测原型系统

本文计对以上的研究问题和虚假评论的检测任务特点，具体研究内容分以下几个方面：

（一）研究主题-对立情感依赖模型检测方法

针对评论信息的内容特征，分析评论内容的特性，考虑情感的依赖关系，研究评论内容与主题对立情感依赖概率模型的构建。在一条评论语句中可能存在着连接词，而连接词往往会影响情感词的倾向性，例如，用“和”连接的两个情感词，情感倾向往往是类似的；而用“但是”连接的两个情感词，情感倾向常常是相反的。TOSM模型能够提取评论的主题-对立情感信息，但其假设词汇的情感是独立的，但在实际中，情感词的倾向性是相关的。因此，我们基于情感词的情感倾向的相关性，提出一种主题-对立情感依赖模型（topic-opposite sentiment dependency model，TOSDM）来用于提取评论中的主题以及主题对应的对立情感信息。该模型在TOSM模型的基础上，考虑情感词之间的依赖关系、词汇的情感类别形成一个马尔科夫链的形式，每一个词的情感类别和前一个词的情感类别是依赖的。TOSM模型是四层，该模型产生评论中的每一个词，先从文档-主题概率分布中选择一个主题，然后从参数为ξ的Dirichlet分布中产生一个依赖变量x，由依赖变量x控制词的情感类别的选择，如果xi = 1，表明第i个词的情感倾向性和第i-1个词相同；如果xi = -1，则表明第i个词的情感倾向性和第i-1个词是相反的；如果xi = 0，则表明第i个词和前一个词的情感倾向性无关。这时从主题-情感分布中选择一类情感，可以选择褒义和贬义两类情感，最后从选择的情感词汇中选择情感词，重复以上规则从而产生一条评论。利用该模型提取评论内容主题及对应的情感信息，结合评论的主题以及情感信息，研究评论内容特征的提取方法，利用这些评论内容的特征，采用有监督的分类器，进而研究基于评论内容的虚假评论检测方法。

（二）研究无监督分类模型检测方法

基于评论者行为的研究常是把虚假评论的识别看作是一个分类的过程，利用有监督的支持向量机SVM、决策树等分类器在人工标注好的虚假评论集中进行学习，建立统计模型来进行虚假评论检测。但是，基于有监督的检测方法需要大量人工标注的评论数据集，人工标注评论数据既耗时又费力，因此，如何利用未标记数据对虚假评论进行检测是另一个关键问题。评论者的行为数据通常表现出评分较高或者较低、以某一个产品或者服务为目标发布虚假评论、以某一类产品或者服务为目标发布虚假评论等不同的特点，这些评论数据的特点与真实评论和虚假评论之间有很大关联性。我们首先考虑把这些不同特点的评论数据自动地归入不同的类中，如：以某一个产品或者服务为目标发布虚假评论的评论数据，把它们归为一类；之后，对归类好的评论数据，以每个类偏离整体评论数据集的程度，研究基于评论者行为的虚假评论检测方法。

（三）研究融合评论内容和评论者行为的半监督虚假评论检测方法

在以上两个研究方法的基础上，利用评论内容和评论者行为特征，融合这两类特征方面，假设这两类特征是相互独立，同时考虑利用未标注的数据来提高识别效果，采用基于Co-Trainning的半监督学习算法对虚假评论进行检测，设计出一种融合这两类特征的半监督虚假评论识别方法。训练两个学习器的样本集满足以下两个充分冗余的视图：1、两个数据集都足以用来描述该问题，即如果训练样本足够，分类器能够分别从两个数据集上学习到强分类器；2、在给定标记时，两个数据集是相互条件独立。Co-training算法就是满足以上条件的两个视图利用有标记样本分别训练出各自的分类器，然后使用这两个分类器分别处理无标记样本。在协同训练的迭代过程中，对每个分类器选择分类结果之中置信度高的数据，再将它们加入到对方分类器的已标记数据中，参与新一轮的分类器训练。直到使分类器的性能收敛或者已没有未标记数据为止，迭代终止。Co-training的两个分类器分别使用对方标注出的数据来帮助自己进一步的来学习训练，以达到更好的分类效果。

（四）设计并实现虚假评论检测原型系统

结合以上所讨论的评论内容特征、评论者行为特征，融合评论内容特征和评论者行为特征构建虚假评论检测的原型系统，为虚假评论检测提供重要支撑。（作者单位：南京财经大学）

参考文献：

[1]赵妍妍，秦兵，刘挺.文本情感分析[J].软件学报，2010，21（8）：1834-1848.

[2]祁翔宇.虚假评论检测系统的设计与实现[D].大连理工大学，2013.