王 亚
(许昌学院, 河南 许昌461000 )
随着互联网社交网络的发展,用户在虚拟社区中分享或表达自己的观点已成常态,如在微博、博客和各类相关网站中,用户可以撰写自己对某一事件的看法,也可以对产品或服务进行评论。 用户在虚拟社区中的言论自由是用户的基本权利,但与此同时,也存在由恶意众包下的网络水军组成的众多垃圾用户,他们受雇于不法商家或不良组织或个人,在社交网络中进行恶意交互活动,如发布垃圾贴、广告贴,从事话题炒作、事件营销、发布虚假评论等活动,这些网络水军的存在干扰了网络舆情传播,严重影响了虚拟社区正常的互动分享与生态平衡。 因此,识别和检测虚拟社区的垃圾用户已经成为了一个重要的议题。
豆瓣网是一个提供书影音推荐、线下同城活动、小组话题交流等多种服务功能于一体的创新网络服务社区网站。 而豆瓣电影是中国最大与最权威的电影分享与评论社区,收录了百万条影片与影人的资料,有2500 多家电影院加盟,更汇聚了数千万热爱电影的人。 而影评在一定程度上影响着电影的票房,很多人在选择一部电影之前,会习惯性的打开评分网站,查看该电影的评分或影评,评分过低或影评太差可能就不在观影范围之内,对于已经存在的高评分电影,用户会呈现出更高的观影倾向。 在这种利益的推动下,当前有很多即将上映的电影为了获取更高的票房,雇佣大量的网络水军在豆瓣影评中进行虚假评论,恶意抬高电影评分。 同时,还有购买虚假评论对同期上映的电影进行恶意差评的行为。所有这些发布的虚假的、不符合实际的评论信息被称为垃圾评论信息,发布这些虚假评论的用户被称为水军用户。 虚假的影评信息会打破电影生态环境,引起电影票房的不公平竞争。
对于垃圾用户识别和检测的研究,目前国内外学者已经取得了一定的成果。 其中,对于电子邮件[1]、电话网络[2]、网站论坛[3]等类型的研究开展的较早,而针对Facebook、Twitter、微博等新型社交网络虚拟社区中的垃圾检测则是近几年兴起的研究热点。 在虚拟社区中,垃圾用户的检测通常从多种信息源出发,例如:用户资料、微博内容、图结构等。而对于此类垃圾用户的检测,如何找到好的用户特征无疑是研究的重点之一。 当前已经存在的工作主要是基于垃圾用户发布的内容评论进行特征的抽取,如复制的评论、评论词汇量的大小、评论的长度,是否进行了多次评论、评分、用户的联系方式(如URL 或电话)、评论情感分等[4-7],另外一类方法则基于用户的行为特征,如用户的活跃天数和活跃的平均时间段[8],用户注册日期[7]等。 除了文本特征和行为特征外,还有用户肖像特征,如粉丝数和关注数[8]、发布的评论数或发表的博文数[7]等也会被用于垃圾用户的检测。 相比于文本特征,用户肖像特征更容易得到。 但以上对于垃圾用户的检测多用于对微博垃圾用户的判断,而对于豆瓣网影评垃圾用户的检测目前还未发现有文章涉及,微博用户和豆瓣网影评用户在用户信息、行为特征方面并不完全相同,因而本文旨在对豆瓣网影评数据进行分析,抽取特征,从而完成豆瓣网影评水军的识别,其主要贡献如下:
(1)本文通过对获得的豆瓣网影评数据进行用户信息和行为分析,提取了用户静态行为特征和动态行为特征作为用户的基本特征。
(2)本文首先人工判别出部分水军用户和正常用户,以逻辑回归作为二分类方法对这些数据进行模型训练,并以这些作为训练数据以逻辑回归方法进行模型训练。 同时对多个特征进行结合以查看模型的训练效果,从而最大程度的提高豆瓣网影评水军的识别效率。
实验表明采用本文提取的相关特征进行训练和学习,对于豆瓣网影评水军的识别准确率能达到将近67.8%,这足以证明本文提取特征的可行性和有效性。
对豆瓣网数据进行采集,获得了指定的电影信息、电影评论信息、评论用户基本信息和评论用户关系信息等构成的数据集。 通过对数据集中用户的影评进行分析发现,豆瓣网影评水军用户一般具有如下静态行为特征和动态行为特征:
(1)影评水军用户一般受雇于不良组织,在社交网络中发布虚假评论,此类用户要么是为专门发表虚假影评评论而注册的用户,或者是一些专业的水军用户,已广泛的发表虚假评论,这些用户一般具有较少的粉丝,其关注的用户一般也较少,另外,其基本信息资料也会存在一定程度的不完善性,基于这些静态的特征,将提取相关的特征,构建基于静态行为特征的水军识别模型,以进行水军用户的识别。
(2)影评水军用户为了进行电影营销,恶意抬高或贬低电影。 为了影响网络民意,制造较强的舆论导向,水军用户所发布的评论信息的情感度一般较为激烈。 另外,其以利益为目的,评论频率、评论时间、评论打分、评论内容都明显起到了引导舆论倾向的目的。 基于这些动态行为特征,构建相应的动态行为特征模型,以进行水军用户的识别。
用户静态行为特征主要是指用户的基本信息,如:用户的自我介绍、常居地、个性签名、粉丝数、关注数等静态特征。 一般来说,正常用户只有一个账号,而水军用户则存在多个账号,主要区别在于基本信息的完整度。 基于此,建立三个特征desc,local_name,signature分别表示用户是否填写了自我介绍、常居地与个性签名,另外建立了三个特征desclen,locnamelen,signaturelen分 别 表 示 自 我 介绍、常居地、个性签名的长度。 这三个长度特征由于阈值与其他特征有区别,因此采用max_min 线性函数 使 其 归 一 化 为 特 征desclen∗,locnamelen∗,sighlen∗,见公式(1)、(2)和(3)。
通过分析数据集,为用户ID 与备用ID 建立一个特征id_uid,表示该用户的用户ID 与备用ID 是否相等,一般地,普通用户可能会不一致,而水军用户为降低成本,则会采用默认形式保持一致。
抽取flowerCount和friendCount作为粉丝数量和关注人数量的特征,并采用min_max线性函数将其归一化为特征flowercount∗,friendcount∗, 见公式(4)和(5)。
用户的动态行为特征主要是用户对影评的评论特征,包括:影评时间、影评部数、影评分数等。
将用户发表影评时间与用户注册账号时间的时间差、以及电影上映时间与电影评论时间的时间差分别作为一个特征,从而建立一个特征值Tc-u,用来表示用户发表评论时间与用户注册账号时间的时间差,如果该用户发表了多条电影评论,则Tc-u为时间差的平均值,见公式(6)。 建立另一个特征值Tc-r,用来表示用户发表影评时间与电影上映时间的时间差,如果该用户发表了多条电影评论,则Tc-r为时间差的平均值,具体见公式(7)。
其中:m代表评论的电影总部数,commenttimefilm_i表示对第i 部电影的评论时间,timeregister表示该用户的注册时间。
其中:m代表评论的电影总部数,commenttimefilm_i表示对第i部电影的评论时间,releasetimefilm_i表示第i部电影的上映时间。
影评信息里的星级评价同影评平均分的差值也能作为一个特征,建立一个特征值commentrating,用来表示用户对影评信息中的星级评价同电影平均分的偏差,如果一个账号评论了多部电影,则commentrating表示每部电影的评分与该电影平均分的差值,求和再进行平均,所得的值,具体见公式(8)。
其中:m代表用户评分的电影总部数,commentratingfilm_i表示用户对第i部电影的评分,avgratingfilm_i表示第i 部电影的平均评分。
本文提取的豆瓣影评数据中有七部电影,因而对于每个用户建立一个7 维向量用以表示用户对哪一部电影做出了影评,film =(f1,f2,…,fi) 表示电影合集,对每个用户建立一个向量v_film =(vf1,vf2,…,v fi) ,其中v fi表示该用户是否对第i部电影做出了评论,由于电影数选择为7 部,因此,v_film是一个7 维向量。 另外建立特征total_film表示用户评论的电影的总部数,该值小于等于7。
建立了一个特征值commentvote,用来表示用户发表的影评所获得的赞数,如果用户发表了多条影评,则commentvote表示每部影评所获得的平均赞数。 见公式(9)。
其中:m代表该账号下发表的评论被赞的电影总部数,commentvotefilm_i表示用户评价的第i 部电影的影评获得的赞数。 对该投票数进行线性函数归一化,获得特征commentvote∗,见公式(10)。
(1)数据采集与数据标记。 本文采集了豆瓣七部电影的影评信息,获取了126880 个用户的基本信息,结合用户的基本信息、影评信息以及社交网信息,人工标注出一些垃圾用户样本和普通用户样本作为研究对象。 标注出的2458 个样本信息,其中垃圾用户897 个,正常用户1561 个。 在实验中,为了保持样本的均衡性,选取了897 个垃圾用户和897个正常用户参与训练。 实验采用五折交叉验证。
(2)实验结果。 本实验根据提取的用户特征,采用逻辑回归的分类方法进行模型的训练,回归参数采用默认值,使用准确率、精确率、召回率、F1 值这四种指标对模型进行评价。 对不同的特征进行融合,进行模型的训练,所得的实验结果如表1 所示。
表1 对不同特征融合进行模型训练所得的实验结果Tab. 1 Experimental results of model training on different feature fusions
从实验结果可以看出,融合用户的不同特征进行训练将得到不同的模型结果。 仅用户的静态行为特征参与进行模型的训练,识别水军的准确率可以达到61.7%。 而仅用户的动态行为特征参与进行模型训练,识别水军的准确率可达到67.1%。 如果将用户动态行为特征和静态行为特征融合进行模型的训练,识别水军的准确率可提高到67.8%,而模型精确率和F1 值也都有些许提高。 从实验结果可以看出,用户的动态行为特征在水军用户方面有比较明显的优势,而单纯的采用静态行为特征效果并不是太好,将这两类特征进行融合检测水军的准确率将提高到67.8%,具有较好的效果。
本文对豆瓣影评水军用户进行识别,通过对豆瓣网影评数据进行分析,提取了用户静态行为特征和动态行为特征,采用逻辑回归分类方法,对以上特征采用单独模型训练以及融合模型训练,以提高模型预测水军的准确率。 实验证明,将提取的用户动态行为特征和静态行为特征融合进行模型训练,其对水军识别的准确率最高可达到67.8%。