黄欣欣 年梅 胡创业 范祖奎
摘 要: 为了有效地提取评论文本特征,进行虚假信息的检测,采用卷积神经网络的方法进行虚假评论的识别。文章基于扩展Ott黄金数据集,通过word2vec将评论语料转换为词向量作为CNN的输入;按照虚假评论检测的实验效果,确定了卷积神经网络的向量维度和网络深度结构,形成卷积神经网络的优化模型。在同一数据集上与LSTM和GRU算法模型进行了对比实验,结果表明,卷积神经网络在虚假评论检测中有效。
关键词: 虚假评论检测; CNN; 扩展Ott黄金数据集; word2vec; 网络结构
中图分类号:TP393 文献标志码:A 文章编号:1006-8228(2019)11-41-05
Abstract: In order to extract the features of comment text effectively and detect false information, this paper uses the method of convolutional neural network to recognize false comment. With the extended Ott gold data set, the comment corpus is converted into the word vector by word2vec as the input of CNN. According to the experimental results of false comment detection, the vector dimension and network depth structure of convolution neural network are determined to form a optimized model of convolution neural network. A comparative experiment on the same data set is carried on with LSTM and GRU algorithm models, the results show that the convolutional neural network is effective in false comment detection.
Key words: false comment detection; CNN; extended Ott gold data set; word2vec; network structure
0 引言
隨着电子商务的快速发展,线上购物已经成为人们生活中不可或缺的一种购物方式。由于产品评论和商家销售额存在很大的利益关系,因此诱发部分商家通过不公平的竞争手段构造虚假评论,严重影响了消费者的购物体验。虚假评论是人为的根据商家需求撰写的产品评论,具有迷惑性大、难以识别的特点。为了提高消费者的线上购物体验,构造公平的电子商务发展环境,迫切需要找到一种有效的虚假评论检测方法来抵制购物平台中的虚假评论,维护公平稳定的购物环境。
Jindal和Liu[1-2]首次提出了虚假评论的概念,并将其分为三类:不可靠评论、无用评论和品牌评论。Mukherjee[3]等人采用词袋特征和词性特征,使用SVM分类器,在从Yelp网站获取的酒店和饭店数据集上取得了65.6%和67.8%的准确率。张恒[4]在Myle公布的虚假评论黄金数据集中采用多种提取特征的方法来提取评论文本特征,然后通过传统的支持向量机模型、逻辑回归模型、随机森林模型进行建模训练,对比试验结果取得了87.4%-90.4%的准确率。Li[5]等人采用稀疏相加生成模型对评论是否为虚假评论进行预测。Mukherjee[6]等人利用虚假评论者发布评论的频率构建模型挖掘发现可能性最大的虚假评论者。李静[7]在虚假评论检测中采用了增加主题倾向的词向量表示方法,提出主题-动态卷积神经网络识别方法,取得了83.7%的准确率。Wang[8]等人提出了一种评论网的概念,通过研究评论者,评论和店铺三者之间的关系来构建评论网。
卷积神经网络(CNN)在很多领域中都表现十分优异[9]。与普通的神经网络结构相比,卷积神经网络多了一个特征抽取器由卷积层和子采样层构成,可以有效的提取评论特征并进行识别,为虚假信息检测提供了技术基础。
1 卷积神经网络模型
卷积神经网络(CNN)是对传统神经网络的改进,主要由输入层(又称嵌入层)、卷积层、池化层和全连接层四个网络层结构组成。经典的卷积神经网络结构如图1所示。
1.1 输入层
输入层又称嵌入层。该层将评论数据数字归一化至[0-1]区间[10],以方便后续处理。本文首先将扩充的ott数据集使用Word2Vec词向量工具进行训练,将词语转换为词向量的格式。为了保证所有评论的长度一致,以评论中最长评论的词语数量为参照,将每个词语的词向量纵向堆叠(不足的补0)和词向量的维度作为二维矩阵平面实现定长输入。
1.2 卷积层和池化层
卷积层的功能是对输入数据进行特征提取,主要包含局部感知野、权值共享和多卷积核三方面的特性,前两者可以有效的降低数据维度,后者可以再次提取特征。池化层对卷积层提取的特征再次压缩提取,保留最显著的特征进行分类,降低特征维度,减少过拟合。常用的池化层策略有两种,平均值和最大值策略。
雖然本文设计的模型相对与其他模型准确率有一定的提高,但是本文考虑识别因素较为单一。下一步作者将会继续研究在虚假评论检测中增加注意力机制,将评论文本内容、评论情感极性及程度融合在一起,利用神经网络模型进行虚假评论检测,相信会取得更佳的效果。
参考文献(References):
[1] Nitin Jindal and Bing L.iu. Opinion spam and analysis [C].In: Proceedings of the 1st ACM International Conference on Web Search and Data Mining.2008:137-142
[2] Nitin Jindal and Bing Liu. Review spam detection[C]. In: Proceedings of the 2007 International conference on the World Wide Web.2007:1089-1090
[3] Arjun Mukherjee and Vivek Venkataraman and Bing Liu and Natalie Glance.What yelp fake review filter might be doing//Proceedings ofthe International AAAI Conference on Web and Social Media.Washington, USA,2013:409-418
[4] 张恒. 基于深度学习的虚假评论识别方法研究[D].哈尔滨工业大学,2017.
[5] Li J,Ott M,Cardie C,et al.Towards a General Rule for Identifying Deceptive Opinion Spam[C]//Meeting of the Association for Computational Linguistics. Bal-timore, MD,USA:Association for Computational Linguistics,2014:1566–1576
[6] Mukherjee A,Liu B,Wang J,et al. Detecting Group Review Spam[A].Proceedings of the20th International Conference Companion on World wide Web[C].ACM,2011: 93-94.
[7] 李静.基于卷积神经网络的虚假评论识别技术的研究[D].北京邮电大学,2017.
[8] Wang G,Xie S,Liu B. Review Graph Based Online Store Review Spammer Detection[A]. Data Mining( ICDM) ,2011 IEEE 11th International Conference on[C]. IEEE,2011:1242-1247
[9] Kalchbrenner N,Grefenstette E,Blunsom P.A convolutional neural network for modelling sentences[J].ar Xiv preprint ar Xiv:1404.2188,2014.
[10] Ng,A.,Kian,K.and Younes,B.Convolutional Neural Networks,Deep learning.Coursera and deeplearning.ai.2018
[11] Pennington J,Socher R,Manning C.Glove:Global Vectors for Word Representation[C]//Conference on Empirical Methods in Natural Language Processing.2014:1532-1543