基于代价敏感图卷积网络的虚假评论检测研究

2023-03-02 03:17王一杰崔彩霞

太原师范学院学报(自然科学版) 2023年4期

王一杰,崔彩霞*

(太原师范学院计算机科学与技术学院,山西晋中 030619)

0 引言

互联网技术和社会意识形态的不断发展,人们在各个方面的生活、学习、娱乐和工作中越来越频繁地进行交互和分享.在线评论作为互联网平台上网络用户分享个人消费体验的重要表达形式,对企业发展、店铺经营和消费者选择起着至关重要的作用,并对他们的利益产生重大影响[1].然而,由于商家之间的恶性竞争,虚假评论的产生日益增多,导致在线评论的真实可靠性受到质疑[2].虚假评论与真实情况不符,给商家和消费者的利益带来损害,因此,如何有效地检测和过滤虚假评论成为亟需解决的问题.

目前,虚假评论检测的研究主要分为两种方法:基于机器学习的方法和基于深度学习的方法[3],基于机器学习的方法主要是通过对评论中的文本特征进行提取和分析,然后使用机器学习算法对其进行分类.例如,可以使用朴素贝叶斯、支持向量机等算法来进行分类.该方法需要手动提取特征,然后对特征进行分类,具有一定的局限性.基于深度学习的方法则是通过神经网络对文本进行建模,并利用深度学习算法进行分类.这种方法可以自动提取特征,减少了人工干预,从而提高了分类精度.例如,可以使用卷积神经网络、长短时记忆网络等算法对评论进行分类[4].然而,常规深度学习模型在利用评论的上下文信息方面存在一定的局限性,并且无法很好的兼顾不平衡数据.

为了解决这一问题,提出了一种基于代价图卷积网络的虚假评论检测方法.该方法将每个评论看作一个节点,将评论之间的相似性表示为图的边,然后通过图卷积网络学习每个评论的表示,最终将加权后的特征表示进行分类.与传统的机器学习方法相比,该方法可以更好地利用评论的上下文信息,从而提高虚假评论检测的准确性和鲁棒性.此外,为了应对虚假评论数据中的不平衡问题,本文还采用代价敏感函数来调整损失函数,提高分类器的性能.实验结果表明,该方法在虚假评论检测任务中具有一定的准确率和鲁棒性,可以为互联网平台上的虚假评论检测提供一种有效的解决方案.

1 相关工作

虚假评论是指在互联网上发布的,与实际情况不符合,通过欺骗、误导等手段获得不当利益的评论.虚假评论的存在严重影响了消费者的购买决策和商家的声誉,因此虚假评论检测已成为当前热门的研究方向.虚假评论者通过发布一条条评论文本来欺骗其他消费者,其内容是建立在失真、虚构的观点或购买经历上,在某些语言细节上就会暴露自己的破绽.语言特征又称为上下文特征,它是以评论为中心提取出相应的特征,从不同角度提取评论会得到不同的上下文特征[5].虚假评论检测主要包括基于机器学习、基于深度学习等方法.基于机器学习的虚假评论检测方法主要利用传统的特征工程方法提取评论的文本特征,然后使用传统的机器学习算法进行分类.Gao等提出了一种基于特征选择和多分类器融合的虚假评论检测方法[6],通过特征选择和多分类器融合来提高分类性能.Wang等提出了一种基于词汇和情感特征的虚假评论检测方法[7],该方法使用了词汇和情感特征来提高分类性能.基于深度学习的虚假评论检测方法主要利用深度学习模型自动提取文本特征,并进行分类.Liu等提出了一种基于卷积神经网络的虚假评论检测方法[8],该方法使用卷积神经网络提取文本特征,并结合全连接层进行分类.Zhang等提出了一种基于循环神经网络的虚假评论检测方法[9],该方法使用循环神经网络提取文本特征,并结合全连接层进行分类.

图模型由于其强大的表示学习能力,被引用到虚假评论检测研究中.Chen等[10]提出了一种基于异构图神经网络(HetGNN)的虚假评论检测方法,该方法将评论、评论者、商品和评论者IP地址等实体放入异构图中,利用HetGNN学习每个实体的特征表示,通过这些特征表示来判断评论是否虚假.Zhang等[11]提出了一种基于图卷积网络(GCN)的虚假评论检测方法,该方法将评论和评论者之间的关系表示为图,并利用GCN学习每个节点的特征表示,从而提高模型的泛化能力和准确性.Li等[12]提出了一种基于多通道图卷积网络(MCGCN)的虚假评论检测方法,该方法利用多通道GCN来学习评论和评论者的特征表示,并将这些特征表示融合起来进行分类.虽然以上图模型方法在处理虚假评论检测问题上取得了一定的进展,但还存在一些局限性.此外,这些方法在处理复杂的虚假评论时可能会出现过拟合或泛化能力不足的问题.

为此提出一种用于虚假评论检测的代价敏感图卷积网络模型.代价敏感图卷积网络模型可以将边的权重视为边的代价,并通过学习边的代价来提高模型的鲁棒性和泛化能力[13].因此,代价图卷积模型在处理虚假评论检测问题时具有很大的优势,可以有效地提高模型的准确性和泛化能力,同时还可以处理更复杂的图结构数据.

2 数据预处理

首先,对文本数据进行预处理,构建词汇表以及计算词频和文档频率;然后,将基于文本数据构建图结构,其中节点表示单词,边表示它们之间的关系,并计算他们之间的相似度;最后,输入到网络模型中进行训练.

2.1 文本表示

本文加载Word2Vec预训练的词向量模型,并将词汇表中的单词映射到预训练词向量中.假设预训练词向量的维度为d,则可以得到词汇表中每个单词的词向量表示vWord2Vec(ti)∈Rd,最后,将TF-IDF向量和Word2Vec向量进行融合,得到文本Ti的最终表示向量:vT(Ti)∈Rd

2.2 共现矩阵

3 代价敏感图卷积网络模型

代价敏感图卷积网络(CGCN),是在图卷积网络(GCN)的基础上,增加代价敏感函数,其目的是处理数据集中包含的不平衡数据.总体框架的描述,如图1.

图1 代价敏感图卷积网络模型

3.1 图卷积网络

图卷积网络(GCN)是一种用于图数据的多层神经网络,本文采取双层结构,每层图卷积层依靠ReLU激活函数连接[17],如图2.

图2 图卷积网络模型

3.2 损失函数

在虚假评论检测任务中,传统的交叉熵损失函数通常被用来作为评估模型性能的标准.然而,这种损失函数无法考虑不同类别之间的代价差异,导致模型在处理虚假评论时可能出现性能问题.为此,引入代价敏感损失函数来解决这个问题.

代价敏感损失函数是一种用于分类任务的损失函数,它可以考虑不同类别之间的代价差异.在虚假评论检测任务中,将虚假评论的代价权重设置为正常评论的α倍,以便更好地强调虚假评论的分类准确性.

代价敏感损失函数的具体定义如下:

式中,yi是第i个样本的真实标签,f(xi)是模型对该样本的预测结果,l(yi,f(xi))是分类损失函数,如交叉熵损失函数.wi是一个代价权重,它可以根据不同类别之间的代价差异进行设定.为了实现代价敏感损失函数,可在代码中进行如下操作.

首先,定义一个代价矩阵,其中每个元素表示不同类别之间的代价差异.在这个例子中,代价矩阵是一个常量矩阵,其中所有元素都设置为1,实质上是一个单位矩阵.

之后,使用代价矩阵对真实标签进行加权,计算加权标签.接着,使用加权标签和模型预测结果计算交叉熵损失.

最后,对所有掩码位置的损失求平均值,得到整个批次的损失值.

综上所述,通过使用带掩码的代价敏感交叉熵损失函数,可以更好地考虑不同类别之间的代价差异,并过滤掉无用的样本,从而提高模型的性能和鲁棒性.

4 实验与结果

4.1 数据集

Yelp网站始建于2005年,类似于我国的大众点评,是一个评论型网络社区,鼓励用户购买或使用产品或者服务之后在该网站发表有关产品或服务的文本评论并给予合适的评分(1-5分),开展的业务包括酒店、餐厅、医疗、购物等[19].

现在,Yelp在移动和网络平台上拥有超过100万条产品或者服务信息,还有数十亿条评论以及数亿的已注册用户,用户评论如图3所示.

图3 Yelp网站评价示例

本文使用的数据集均来自于Yelp网站,包括用户对商家的评论和评分等信息.通过爬取Yelp网站的数据,并从中筛选出符合要求的评论,构建了一个包含多个类别的虚假评论数据集,数据集划分如表1所示.

4.2 评价指标

针对虚假评论检测这种二分类任务,将使用机器学习度量指标中的精确率(Precision)、召回率(Recall)、F1值作为度量指标,其中,前两个指标分别简记为P,R.

这几个指标都可以使用混淆矩阵计算得出,混淆矩阵形式如表2所示.

表2 混淆矩阵

4.3 对比实验

实验结果以及各个模型指标变化情况,见表3.

表3 各模型表现

根据图4实验结果,可以看出本文提出的代价敏感图卷积网络相对于FastText、TextCNN和LSTM模型,在Precision、Recall和F1-score等指标上都有明显的提升.

图4 各模型指标变化情况

具体来说,本文模型在Precision指标上达到了0.86的值,在Recall指标上达到了0.87的值,在F1-score指标上达到了0.86的值.这表明本文模型在分类准确率和召回率上都有很好的表现.相比之下,FastText模型在F1-score指标上仅达到了0.84的值,TextCNN模型在F1指标上略有下降,为0.82的值,而LSTM模型在F1-score指标上达到了0.83的值.因此,可以得出结论,代价敏感图卷积网络在处理虚假评论检测问题时具有较好的性能,能够有效地处理类别不平衡的情况,具有很好的应用前景.

5 结语

商品评论作为连接商家与消费者的信息桥梁,既能作为潜在购买用户做出消费决策时的重要参考,又能成为商家提升消费体验与产品质量的重要依据,因此商品评论能够促成商家与消费者之间的一种正向反馈,但这也驱使了一批不法商家及群体刻意制造虚假评论干扰消费者的购买意向,进而损害消费者与合法商家的权益,所以如何有效检测虚假评论是一个十分具有现实意义的课题.

本文以Yelp数据为基础,从数据集分析和构建相关特征出发,并提出使用基于代价敏感图卷积网络来处理存在数据不平衡问题的虚假评论数据.相较于传统分类方法,该模型可以更好的提取关键信息,通过代价敏感损失函数,更好的平衡数据差异所带来的影响.有效解决了虚假评论与真实评论的类不平衡问题,从而提高了虚假评论识别的准确率.当然,本文的研究模型还需要进一步改进,主要表现为分类预测的准确性依赖于评论数据集的人工标注以及数据集的数量不够多,种类不够丰富.因此在后续研究中将努力尝试运用更高质量的实验数据验证本文提出的虚假评论识别模型.