王亚
摘要:点评网站作为一种新兴的网络交流平台,目前存在着大量垃圾用户,他们发布的虚假垃圾评论信息误导了消费者的选择,引起不正当的市场竞争。本文基于机器学习的分类方法,对点评网站的垃圾用户进行研究,提出了基于用户评论频度的垃圾用户检测模型和基于用户评论情感度的垃圾用户检测模型,并将模型融合进行模型训练,以最大限度提高识别垃圾用户的有效性。实验表明,本文提出的方法对垃圾用户识别的准确率最高可达70%。
关键词:垃圾用户;用户评论频度;用户评论情感度;情感词库;逻辑回归
中文分类号:TP311 文献标识码:A
文章编号:1009-3044(2020)13-0214-03
1引言
随着信息技术、互联网以及电子商务的发展,第三方点评网站融合购物、社区和点评为一体,如雨后春笋般涌现,成为一种新兴的网络交流平台。在我国,其中就有一大批具有代表性的点评网站,比如:大众点评网、淘宝口碑网、百度身边、腾讯美食、豆瓣网、驴评网、爱帮网等。
点评网站为商家提供了一个发布商品、销售商品的平台,也为购买者提供了一个查看、了解、购买、评价商品的平台。通过点评网站,购买者可以根据自己的消费体验自由地对某商品或者出售该商品的商家以文字和打分的形式进行点评。而用户的评论信息对消费者的购买决策具有重要影响。网络点评已经成为消费者做消费决定的重要因素,用户的点评对商家的发展至关重要。
在这种利益的推动下,当前在很多点评网站上的商家为了吸引更多的消费者,存在雇佣大量的网络垃圾用户购买虚假评论恶意抬高自己所售商品质量和商家名气的现象。同时还有的购买虚假评论对竞争的商铺进行恶意差评。这些惡意虚假评论严重干扰了市场的正常运行,危害了市场诚信。
目前在进行评论垃圾用户的检测中,普遍认为垃圾用户发表的评论都是垃圾评论,而垃圾评论信息均是由垃圾用户发布的。因而对垃圾用户的识别主要聚焦于对垃圾评论的检测上。对于垃圾评论的检测研究,许多研究人员把目光聚集在评论的观点挖掘上面,现有的工作也主要是利用自然语言处理技术和数据挖掘技术挖掘出评论是带着积极的观点还是消极的观点。
Nitin Jindal和Bing Liu最早提出从评论可信度方面进行垃圾评论的研究,他们认为那些文本相似度很高的评论是垃圾评论,同时总结了24个特征用于建立分类模型,最后利用逻辑回归方法来得到一个分类器,从而找出其他的垃圾评论。Chrysanthos Dellarocas等主要是从用户评论行为的角度出发检测垃圾用户,认为垃圾用户发表的所有评论都是垃圾评论,从而找出垃圾评。EePengLIM等建立了四种垃圾用户检测模型:基于目标产品的垃圾用户检测模型、基于目标产品组的垃圾用户检测模型、基于一般打分偏差的垃圾用户检测模型和基于有权重的打分偏差垃圾用户检测模型,从而得到四种垃圾指数。然后选取部分评论进行人工标注。最后,作者采用了线性回归方法训练得到一个分类模型,从而对其他的用户进行分类。孙升芸,田萱等是以同类别商品、同品牌商品和同卖家商品为基础建立垃圾用户检测模型,方法与EePengLIM类似嘲。
豆瓣网是一个典型的点评网站,是中国最大与最权威的电影分享与评论社区,收录了百万条影片与影人的资料,因而本文拟针对点评网站以豆瓣网为例设计垃圾用户检测模型,通过对网站评论信息的分析,构建了基于用户评论频率的垃圾用户检测模型和针对评论文本情感度的垃圾用户检测模型,并基于机器学习的分类方法对这两类模型分别进行垃圾用户的识别和对融合模型进行垃圾用户的检测,以期提高垃圾用户检测的效率。
2点评网站一豆瓣网用户特征提取
由于评论者中存在着很多的职业评论写手,他们以专门发表垃圾评论作为生存主业或副业,因而在点评中将会频繁的发布评论信息以混淆视听。因而本文拟根据评论频率,构建基于评论频率的垃圾用户检测模型,检测那些高频发表评论的垃圾用户。
垃圾评论通常是为了抬高或贬低某一商品或商家,经常带有强烈感情色彩,因此本文拟构建基于情感程度的垃圾用户检测模型,即根据评论的情感程度判断某一评论是否是垃圾评论,从而检测那些发表过带强烈情感色彩的垃圾用户。
2.1用户评论频率特征
(1)影评时间特征
本文从垃圾用户的目的性分析认为影响票房而形成舆论的最好时机是电影上映前期,尤其为了对一部电影进行恶意吹捧或恶意打压,在电影上映后会注册大量的垃圾用户账号,并及时地给予大量的评论来引导舆论倾向。
因而本文将用户发表影评时间与用户注册账号时间的时间差、以及电影上映时间与电影评论时间的时间差分别作为一个特征,本文建立一个特征值Tc-n。表示用户发表评论时间与用户注册账号时间的时间差,如果该用户发表了多条电影评论,则Tc-u。为时间差的平均值。本文建立一个特征值Tc-c,表示用户发表影评时间与电影上映时间的时间差,如果该用户发表了多条电影评论,则Tc-r,为对时间差求平均所得的平均值,具体见公式(1)。
对于文本有效词集合f‘(x)获得其长度commentlengtll,以此表示文本长度特征。
(2)影评文本情感度
用户在发表电影评论时总会带有一定的感情色彩,会有或喜欢或讨厌或觉得电影一般等情绪的表露,垃圾用户一般是对电影进行恶意的贬低或故意抬高,为了对舆论造势,影响用户对电影的印象,其评论中往往含较多的情感词汇,因而本文认为影评中的情感词个数即影评文本的情感度可以反映用户对电影的态度。
本文首先构建了自己的影评情感词库。即将所有影评中打分为0分和1分的影评文本抽取出来,然后抽取影评打分为4分和5分的影评文本,这两类文本作为基础文本,即为高分影评文本和低分影评文本,采用iieba分词并采用前面所构建的停用词库去除两类文本中的停用词,得到一些离散的词汇。采用卡方检验输出计算这些离散的词汇同两类文本之间的关系,并按卡方值由大到小进行排序,然后结合人工识别从两类文本中得到两类情感词汇,一类情感词汇是赞扬电影的词汇,总共包括93个词汇,另一类情感词汇是贬低电影的词汇,总共包括135个词汇,其部分情感词汇如图1所示。
基于此本文用电影评论中所包含的情感词的个数作为用户对电影评论情感激烈程度的一种判断。本文提取特征commentemotion作为用户影评中所包含的情感词个数,如果用户进行了多部电影的评论,则commentemotion为其多部影评中的情感词个数的平均值,见公式(4)。
(3)影评文本内容特征
垃圾用戶的影评在一定程度上存在些相似陛,因而本文将用户发表的评论文本亦作为一个用户特征。具体实现方法是本文将每个用户的影评写入到同一文件中,然后用jieba分词对句子进行处理,并通过构建中文停用词库去除停用词。采用word2vec对用户的所有影评进行embedding,最后得到embed-ding后的特征向量comment_w2v,用该特征向量作为用户的一个特征参与训练。
3实验
本文提取了豆瓣网中的七部电影信息和用户信息,结合用户的基本信息、影评信息和用户社交网信息,采用人工标注出垃圾用户和普通用户作为样本。在实验中,选取了相同数量的垃圾用户和正常用户采用五折交叉验证的方式参与训练。
实验根据提取的用户特征,采用逻辑回归的分类方法进行模型的训练,回归参数采用默认值,使用准确率、精确率、召回率、F1值这四种指标对模型进行评价。本文对不同的特征进行融合,然后进行模型的训练,所得的实验结果如表1所示:
实验结果表明,单纯地采用用户评论频度特征进行模型训练,识别垃圾用户的准确率为67%。用户影评文本特征中,有效评论长度和评论情感度每个特征仅有1维,而评论文本内容长度用word2vec进行embedding后其特征为100维,为了保持维度的均衡,本文先将评论长度和评论情感度结合作为用户的特征进行模型的训练,其识别水军的准确率为57.9%,这一结果要比单纯只用评论情感度作为特征进行模型训练效果要好一些。而单纯用用户评论文本词向量作为用户的特征进行模型的训练效果并不太好,其准确率仅为55.7%,若将三者结合,模型的准确率可提高到59.2%。将本文所抽取的用户评论频度特征和用户评论情感度特征融合进行模型的训练,其准确率可达到68.7%,而除去用户评论文本的100维特征,将其它所有特征融合进行模型的训练,其准确率达到最高,将近70%,这说明了用户文本内容词向量特征在识别水军用户方面并不能算是一个很好的特征,其根本原因大概是水军用户的目的在于影响网络舆情而非发布空内容,因此其影评文本依然围绕电影展开,在文本中涉及“剧本”“画面”“特效”“演技”等关键词,就词频统计特征与电影密切程度与普通用户相近,此类垃圾用户为了改变网络舆情,一般采用夸大优点与缺点方式。为了使舆论变化接受度更高,此类垃圾用户会选择普通用户提出的观点进行深人。
4结语
本文选取点评网站以豆瓣网为例对垃圾用户进行识别研究,基于垃圾用户的行为特征分析,提取了用户评论频度特征和用户评论情感度特征,采用逻辑回归分类方法,对以上特征分别进行模型训练以及融合进行模型训练,以提高模型预测垃圾用户的准确率。实验证明,本文将多种模型特征融合进行模型训练,其对水军识别的准确率最高可达到70%。