图文决策融合的多模态电商垃圾评价检测

2021-12-21 11:18沈学利赵科林李世银
关键词:分类器语义模态

沈学利,赵科林,李世银

(1.中国矿业大学 信息与控制工程学院,江苏 徐州 221116;2.辽宁工程技术大学 电子与信息工程学院,辽宁 葫芦岛 125105)

0 引 言

随着近年来电子商务的快速发展,在线购物成为人们生活中必不可少的部分,由于电商这一在线消费模式的特点,电商平台上的商品评价成为买家在购物时挑选商品的重要参考。与此同时,大量垃圾评价混杂于真实的评价当中,对买家购物造成干扰,因此电商垃圾评价检测近年来一直是工业界和学术界的研究热点。

电商评价通常包含文字评价和图片评价2部分内容。评价文本表达了买家对商品的主观评价,买家对商品的需求存在个体差异,因此文字评价往往带有一定的主观色彩,参考价值有限。相比单一的文本评价,真实买家拍摄的商品图片能够直接展示出相应商品的外观、结构等客观要素,与文本评价形成互补的参考信息。因此,包含图文内容的评价相比纯文本评价更具有参考价值。现存垃圾评价检测方法多根据评价文本相关内容进行检测,忽略了评价图片的重要性,难以区分出多模态评价中的虚假评价和广告评价等垃圾评价。为使买家在线购物决策时得到有效参考,多模态电商垃圾评价的检测成为一项重要挑战。

近年来垃圾评价呈现多元化发展趋势,为便于对垃圾评价进行检测分析,本文将其分为虚假评价、广告评价、无意义评价3类。

1)虚假评价。多为卖家为提高商品竞争力而进行的“刷单”评价以及“返现”好评,卖家通过刷单提高相关商品的销量以及搜索权重,并对相关交易填写夸大性好评欺骗消费者,往往带有数张商品图片,具有较强的迷惑性,严重影响买家的购物决策和电商市场的正常竞争。

2)广告评价。分为真实卖家自己发送的广告,和广告团体大量收购的待评价交易进行的推广。此类评价出于广告目的,没有和卖家有直接或间接的关系,为了不引起卖家注意往往设为好评,因不包含有效评价信息对买家的决策造成干扰。具体形式为:评价文本含有诱导推广信息;与真实评价较为相似或无意义,评价图片中带有联系方式或推广链接等广告内容。

3)无意义评价。多为买家为了完成评价任务简单填写与商品不相关的文字和图片,也包括卖家对单一商品单纯“刷量”的交易评价。

针对上述问题,本文分别对评价文字和图片进行语义特征提取、分类,将图片和文本的分类结果输入图文融合分类器。图1为多模态电商评价。

图1 多模态电商评价Fig.1 Multi-modal e-commerce reviews

1 相关工作

垃圾评价检测目前主要作为一项自然语言处理任务来研究。文献[1]最早提出了垃圾评价检测问题,采用逻辑回归模型分析了amazon.com中用户、商品以及评价内容的关系,对其中580万条评价进行检测分类。文献[2]提出避免对评价文本内容的自然语言处理,采用以用户为中心、用户行为驱动的垃圾评价检测方法,在亚马逊评价数据集上进行了实验。

文献[3]首次分析了美国评价托管网站yelp.com过滤虚假评价的方法,利用yelp.com过滤虚假评价训练有监督机器学习模型,评估了n-gram语言特征、行为特征的检测性能。文献[4]使用RNN(recurrent neural network)生成虚假评价,通过了美国评价托管网站yelp.com人工检查,并提出了基于语言特征的机器学习识别方案,在包含12万条机器生成的虚假评价和yelp.com上12万条真实评价的数据集上进行训练,取得了优于逻辑回归方法的结果。文献[5]将垃圾评价检测问题定义为用户评价-产品的网络分类任务,使用评价的评分、时间戳和文本数据来提取分类特征,并收集了yelp.com餐厅评价数据集,命名为Yelpchi、Yelpnyc和Yelpzip总计458 565条评价,分类网络通过半监督学习在此数据集上取得了较好效果。

文献[6]使用基于PU-Learning(learning from positive and unlabled example)的算法,从少量的正向酒店评价样本和一组无标签数据中学习,在大量的真实评价数据集上取得了84%的F分数。文献[7]大规模分析了大众点评的虚假点评过滤系统的餐厅点评,在大众点评垃圾评价检测系统带有虚假评价标签的大规模真实餐厅评价数据集中取得了较好的效果。支持向量机(support vector machine, SVM)和朴素贝叶斯(naïve Bayes, NB)等标准机器学习算法也可用于处理评价文本数据,文献[8]在此基础上研究了多种标准NLP预处理步骤组合以及多种分类算法对垃圾评价检测准确性的影响。文献[9]通过构建多种评价特征,使用NB和SVM算法对所提出的模型进行训练,取得了优于人工识别的性能。

文献[10]提出了一种复杂的概率图分类方法,利用文本特征学习概率图节点的多模态嵌入表示训练一个具有注意机制的神经网络,并构建了分别由97 839篇餐厅评价和31 317篇酒店评价组成的真实数据集,通过基于多模态神经网络的先验计算检测垃圾评价。近年来,层次注意力神经网络用于挖掘评价文本的多方面信息,取得了优于传统神经网络模型的效果[11-12]。

以上研究主要采用自然语言处理技术对文本评价进行检测,取得了一定的成果,但主要研究对象为酒店、餐厅英文文本评价,仅面向评价文本进行检测的方法难以正确判断多模态的商品评价,不足以应对当前国内电商评价复杂情形。为解决这一问题,本文采用图文信息融合的方法来处理多模态电商评价。

近年来情感分类任务初步涉及图文信息的处理。文献[13]提出了一种基于图像-文本一致性的多模态情绪分析方法,提取网络帖子中的文本特征、视觉特征和图文相似度特征训练机器学习模型,实现了图文帖子更准确的情感分析。文献[14]使用通用的特征层融合分类模型和算法,特征层采用不同的分类算法处理文本和图像信息,再由融合层对特征层的结果进行处理,有效提高了文本分类精度。文献[15]提出了基于特征空间映射和支持向量机的语义关联识别方法,用于深入理解图文微博的语义,首先提取了图文微博的文本语言特征、视觉特征和社会特征,将特征从不同的特征空间投影到统一的特征空间。最后在统一的特征空间中构造了基于支持向量机的语义相关识别模型,有效识别了微博的图像-文本语义关联。文献[16]利用视觉注意机制和语义注意机制的混合融合框架来进行图文情感分析,提出了一种深度多模态注意力融合方法,采用2个独立的单模态注意模型,分别对视觉信息和文本信息学习有效的情感分类器,再和中间融合的多模态注意模型进行联合决策,取得了较好的情感分类性能。以上研究结果说明了多模态数据融合的研究价值。

考虑到以往的垃圾评价检测对象没有涉及带有图片的多模态评价内容,本文设计了端到端的图文决策融合评价分类模型,对多模态电商评价进行全面表征分类。

2 多模态垃圾评价检测

具有一定参考价值的商品评价通常包括文字和图片评价,为共同检测某商品单条评价的文本和图片内容,本文提出的图文决策融合分类模型如图2。模型由3部分组成:评价文本分类器、评价图片分类器和决策融合分类器。首先,模型对评价的评价文本和图像内容分别进行编码、特征提取、分类。然后,评价文本和评价图片的分类结果(分别定义为CT、CI)输入到决策融合分类器,经过分类特征的组合最终输出评价的最优分类结果C。

图2 决策融合分类模型Fig.2 Decision fusion classification model

2.1 评价文本分类

本文所研究的电商评价分析不仅用于买家决策参考,也可作为电商平台的管理意见。为此,本文将评价文本分为虚假评价、广告评价、无意义评价和有效评价,对评价文本进行语义特征提取、分类。

近年来自然语言处理领域研究热点转向通用的预训练深度语言表示模型[17-20],超大规模神经网络模型在海量无标签数据的基础上进行预训练,从而获得具有强大语义表征能力的模型,最终在实际任务中微调以实现迁移学习,降低了下游任务的训练代价并取得良好效果。文献[21]在此基础上提出了双向语言表示模型(bidirectional encoder representations from transformer,BERT),具有良好的语义表征性能。文献[22]基于BERT在多元文本分类任务中取得了较好效果。文献[23]针对多元分类任务微调先进的预训练语言模型,结果表明,BERT的迁移学习鲁棒性优于高性能模型XLNet[24]。综上,本文使用BERT预训练模型提取评价文本中的语义特征,表示为文本嵌入向量V,然后输入到分类器中进行微调,输出文本评价分类结果。

BERT是基于Transformer[25]的双向语言编码表示模型,不同于具有循环网络的RNN,其中的Transformer完全基于注意力的序列转换模型,取代循环或卷积神经网络中循环层带有多头自注意力的编码解码结构来对文件进行表示,比循环或卷积神经网络具有更快的训练速度。近年来注意力机制[26]成为多种任务序列建模的重要组成部分,但它没有形成输入和输出序列中的远距离依赖关系[27],文献[25]提出的Transformer模型架构如图3,输入和输出之间的全局依赖关系完全基于注意力机制来构建。

图3 Transformer编码器Fig.3 Transformer encoder

编码器中输入序列经过向量嵌入、位置编码后进入自注意力层,编码器采用多头自注意力使模型具有注意多个位置的能力,从而在自注意力层实现多个表征子空间以表征序列多方面的语义信息,表示为

MultiHead(Q,K,V)=Concat(head1,…,headn)WO

(1)

解码器比编码器增加了掩蔽多头注意力,确保某位置预测只依赖于之前的已知输出,最后通过线性层连接softmax函数输出概率。

BERT模型可以高效表征文本句子,本文将评价的文本作为BERT模型的输入,提取文本评价中的语义特征,再微调模型对评价进行分类,分类结果作为融合分类器的输入。BERT模型实现了一种称为掩蔽语言模型的技术,对于本文输入的一对文本,它在第1段文本的开头插入一个特殊的分类符[CLS],在两端文本之间和第2段末尾插入一个特殊的分离符[SEP],并随机在序列中选择15%的词被[MASK]替换,然后输入深度双向Transformer编码器。预训练过程的主要任务之一是根据上下文单词来预测这些被掩蔽掉的单词。

BERT模型通过融合上下文预训练过程学习高级语义信息特征。垃圾评价的评价文本各有其不同的语义和风格特征,本文将评价文本输入到编码器中,提取虚假评价和广告评价等评价内容中含有的语义特征。

本文采用BERT-wwm-ext[28]作为预训练模型,与原版随机选取单词字段掩蔽不同,使用了全词掩蔽技术对中文文本进行了全词掩蔽训练。其结构与原版相同,它由一个带有12层Transformer编码器组成。对于编码器中的每个块,包含12层自注意层和768层隐藏层,共产生1.1亿参数。在BERT模型的基础上加入一个标准的softmax层来预测标签c的概率为

P(c|s)=softmax(W·h+b)

(2)

(2)式中:W为权重矩阵,b为待估计的偏置向量。分类层的参数矩阵W∈K×H,K为分类标签数。

Softmax函数定义为

(3)

然后,根据域内数据通过最大化交叉熵对参数进行微调。微调完成后使用保存的模型对评价进行语义分类,将输出的4维向量中值最大的类别作为分类结果,CT={P1,P2,P3,P4}分别表示评价语义的类别为虚假评价,广告评价,无意义评价,有效评价。

2.2 评价图像分类

随着神经网络深度的增加,网络能够提取更复杂的特征,但也伴随着网络性能退化的问题。残差网络的出现改善了深层神经网络训练中性能退化的问题,在图像处理领域得到广泛应用[29]。宽卷积残差网络(wide residual network,WRN)通过增加残差网络卷积层的宽度提高了网络的表征能力[30]。本文使用宽卷积残差网络模型WRN-28-10对评价图片进行端到端的学习,WRN-28-10利用加宽的卷积层来学习复杂的特征,以较浅的网络实现了比深层卷积网络更强的表示学习能力,训练难度小且不易发生梯度消失现象。本文采用宽卷积残差网络对评价图像进行分类,由于虚假评价附带的商品图片与真实买家所发布的商品图片极为相似,本文将评价图片标签设置为商品图片,广告图片和无关图片3类。WRN-28-10网络结构如表1。

表1 WRN-28-10网络结构

WRN-28-10包含28个卷积层,卷积核大小为3×3,宽度系数为10,卷积层输出到8×8的全局平均池化层,最后由640×3的全连接层输出到softmax进行分类预测。

其中残差块表示为

y=F(x,{Wi})+x

(4)

(4)式中:x和y为层间输入和输出向量;函数F(x,{Wi})表示所学习的残差映射。与普通卷积层不同的是,通过构建恒等映射来保持网络梯度传播,残差网络单元之间直接连接,前向和反向信号直接传播,保持了卷积网络中信息传播的有效性。残差块结构如图4。

图4 残差块结构Fig.4 Residual block structure

残差单元结构为BN-ReLU-Dropout-Conv-BN-ReLU-Dropout-Conv。BN(batch normalization)为批量归一化操作,用于保持各层网络的输入分布相同,ReLU(rectified linear unit)为激活函数,Conv表示卷积层,为防止过拟合在各个残差支路中的卷积层之间加入dropout层,dropout比例为0.3。

在WRN-28-10的模型上进行修改,设计最后的全连接层的输出维度为3,连接softmax函数进行3分类预测。将任意K维实数向量x映射为0~1之间的K维实数向量σ(x),将K设置为3进行分类,输出得到分类结果CI={Q1,Q2,Q3}来分别表示类别为商品图片、广告图片和无关图片3种类型的图片,Q1+Q2+Q3=1,取值最大的类别作为该图片分类结果。当评价包含多个图片时,最终结果按照广告图片、商品图片和无关图片的顺序判定,若存在该类图片则评价的图片内容判定为此类。

2.3 图文决策融合分类

考虑到电商垃圾评价的图片和文本内容的语义难以直接联系,本文将单条评价的评价文本和图像分别输入文本分类器和图像分类器,经过向量化,特征提取分类后,得到其文本类别CT和图片类别CI输出。决策融合分类器对两方面输入向量的最大概率类别进行决策融合分类,决定该商品评价最终类别C={1,2,3,4},分别表示评价类别为虚假评价,广告评价,无意义评价,有效评价。

决策融合分类器由基于启发式规则决策树实现,针对目前电商评价的多样性,通过分析现有实际评价数据,本文对评价图片和文本的分类结果决策融合规则约定如表2。

通过以上规则给出融合分类决策树如图5。

表2 图文决策融合规则

图5 融合分类决策树Fig.5 Classification fusion decision tree

3 实验与分析

为验证本文垃圾评价检测方法的有效性,本文在电商真实评价数据上进行实验。分别评估了单独评价文本分类器和图文融合决策分类的垃圾评价检测性能。实验GPU为NVDIA GeForce GTX 1060 3GB,实验首先将评价数据分为文本数据集和图片数据集,其中每条评价的文本和图片保持原始对应关系,分别带有自身类别标签和评价总体标签,然后将2个数据集分别输入评价文本分类器和图像分类器进行训练、测试,训练完成后重新随机选取测试集进行分类,分类结果输入决策融合分类器,计算评价最终类别。分类器使用准确率(Accuracy)、精准率(Precision)、召回率(Recall)和F1值作为分类性能评价指标,分别表示为

(5)

(6)

(7)

(8)

(5)—(7)式中:TP表示分类器将评价正确分为该类的个数;TN表示分类器将评价正确分为别类的个数;FP表示分类器将评价错误分为该类的个数;FN表示分类器将评价错误分为别类的个数。为验证评价分类有效性,按各类别比例将评价分别随机选取30%作为测试集,剩余70%作为训练集。

3.1 电商评价数据集

目前虚假评价检测对象主要为文本评价数据,尚无公开的多模态电商评价数据。本文使用爬虫程序对淘宝网当季销量排名靠前的女装单品的有图评价进行爬取,获得5 602条包含文字和图片的评价。由于评价产生的特殊性,各类评价数据分布不平衡,具体分布情况如表3、表4。其中单条评价的文本最多500个字符,单条评价包含1—5张图片。然后对评价进行人工标注,每条评价文本标注语义标签和评价标签,对应图片只标注语义标签,具体标注策略遵循表2。

表3 电商文本评价数据集

表4 电商图片评价数据集

3.2 决策融合分类实验

本文评价分类器基于tensorflow框架,使用中文预训练的语义表示模型BERT-wwm-ext[21]在淘宝数据集上进行微调,修改分类模型的数据处理模块和分类器输出类别为P1,P2,P3,P4共4类,文本序列最大长度为128,超出范围的进行截断处理。训练的batchsize设置为3,dropout率设置为0.3,使用Adam优化算法反向传播,初始学习率为2e-5,训练周期(epochs)为3。最终将分类结果输出为语义类别向量CT,作为决策融合分类器的输入。

评价图像分类器为基于pytorch框架的WRN-28-10残差网络。在输入评价图片前将其大小统一调整为224×224,设置训练参数如下:batchsize为1,固定动量为0.9,学习率为0.01,衰减因子为0.1,训练100个周期。WRN中残差块的卷积层之间加入30%随机失活量。使用SGD优化算法训练网络,应对单条评论的图片数量不同的问题,采用基于优先级的分类策略,分类优先级从高到低依次为广告图片、商品图片、无关图片,评价图片分类结果输出为向量CI。文本和图像分类器训练完成后,决策树融合分类器根据CT和CI预测评价最终类别C。

3.3 结果分析

由于评价数据分布不平衡,为综合评价各类别的分类性能,最终分类使用Micro-F1作为评价指标[31]。

表5分别给出了不同分类模型在多模态电商评价数据集上各类别的分类Micro-F1,可以看出,面向评价文本的垃圾评价检测分类方法的分类准确率要明显低于评价图文决策融合分类,特别是在样本数据不平衡的分类任务上,本文提出的决策融合分类模型在多模态评价数据集上分类的Micro-F1比评价文本分类方法提高了3.04%,验证了本文评价图文决策融合分类策略的有效性。

表5 不同方法对比

表6为使用评价文本分类方法对多模态评价评价数据的分类结果,表7为决策融合分类结果。与面向评价文本的分类模型相比,图文决策融合分类模型的评价分类精度明显提高,其中虚假评价检测的精准率提高4.44%,召回率提高2.12%,Micro-F1提高3.67%。样本数量较少的广告评价检测的精准率提高9.52%,召回率提高21.57%,Micro-F1提高14.96%,无意义评价检测的精准率提高9.81%,召回率提高12.91%,Micro-F1提高11.42%。可以看出,图文决策融合分类方法能够有效检测出不平衡数据集中的广告评价和无意义评价,证明了评价图片在多模态垃圾评价检测分类中起着至关重要的作用。

表6 评价文本分类结果

表7 决策融合分类结果

4 结束语

本文首先对多模态真实电商评价进行抓取,然后对图片与文本的语义类别和总体评价进行人工标注,构建标注的多模态电商评价数据集。利用双向编码表示模型对评价文本语义进行分类,并使用宽残差网络对评价图片语义进行分类,二者分类结果输入基于启发式规则决策树的决策融合分类器。最后,融合文本和图片分类结果对评价整体最终分类。实验结果表明,该方法能够对多模态电商垃圾评价进行有效检测。

本文涉及文本和图像处理研究,需要大量数据支持,由于电商平台限制,本文数据较为有限。未来将扩展评价检测领域,利用大规模数据集深入分析评价文本和图像之间的语义关系,进一步提高多模态垃圾评价检测性能。

猜你喜欢
分类器语义模态
基于BERT-VGG16的多模态情感分析模型
多模态超声监测DBD移植肾的临床应用
语言与语义
基于实例的强分类器快速集成方法
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
车辆CAE分析中自由模态和约束模态的应用与对比
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别