王雷 陈大文
(江苏金盾检测技术有限公司 江苏省南京市 210042)
随着互联网的发展与应用,人们迈进Web2.0 的时代,使人们由信息的接收者转向信息贡献者和信息创造者,大众之间的虚拟交流变的更加频繁。在各大网络平台,用户注册数量不端攀升,根据之前微博的财报显示,目前微博的月活跃用户已经超过3.76 亿,美国点评网站Yelp 拥有超过1.08 亿条评论信息,评论年增长超过0.18 亿[1]。随着阿里巴巴、邮件服务、网络论坛等众多领域都取得了飞速发展[2],大量不法分子发现了其中的巨大利益,利用网络账号发布谣言,欺骗公众,造成了市场的混乱和社会的不稳定。网络水军指那些由商业利益驱动,为达到不正当目的,通过操纵水军账号,在互联网中制造、传播虚假信息和垃圾意见等网络垃圾意见生产者的总称[3],在电商平台中则是营销水军。
在网络上购物时,用户留下的评论信息可以直接影响消费者的购买意愿。购买者对商品留下的评论信息往往具有重要的参考价值,可以了解到商品的真实情况。由于利益的驱动,一些商家会雇佣水军为自己的商品散布一些不真实的正面评论以提高销量,或是发布关于其他商家商品的负面评价。这些营销水军的存在严重影响了电商平台的正常竞争机制。因此如何通过相关技术手段来识别这些网络水军已经成为了一个日益迫切的问题。
网络水军识别主要运用Web 信息挖掘技术,定义高区分度特征及行为模式发现隐藏的网络水军[4]。由于早期网络环境并不复杂,获得邮箱的途径便捷且代价很小,所以传统网络水军多是通过用户邮箱来进行欺诈活动,其数量规模也不大,隐蔽性也不高,垃圾信息也较为单一,因而识别方法主要基于垃圾信息内容分析,例如邮件内容分析[5]来检测水军。而面对Web2.0 时代的新型网络水军,传统的检测方法已无法满足要求,需要结合新的技术来解决问题。
表1:传统水军识别与新型水军识别的比较
国内外网络水军识别研究取得了很大的进展,但是还是存在很多问题需要解决。从最早集中于邮件内容的研究,到如今针对各大网络平台上水军的识别研究,出现了很多有效的技术和识别方法。
Niu、Chen 等人[6]从论坛网站,用户浏览行为和论坛水军这几个角度分析后,提出了基于内容特征来识别水军制造的垃圾信息。刘鸿宇、赵妍妍等人[7]对评论内容进行了对象抽取和倾向性判断,从而识别区别于正常用户的水军。
Husna 等人[8]分析了邮件机器人的行为特征,例如内容长度、垃圾邮件到达时间、垃圾邮件频率等,还计算了邮件水军的相似性对其聚类分析。Lim 等人[9]捕捉了Amazon 中几种具有代表性的网络水军行为,并设计了基于商品评价偏离的识别方法。Sawaya、Kubota 等人[10]首次发现了移动服务商骨干网络中的水军有严格的时间序列特征和发送模式,并利用这些特征对其进行聚类分析。
Uddin 等人[11]利用边缘路由器IP 冲突记录,通过网络流量来得到水军的网络级别行为特征。Schatzmann 等人[12]提出了从网络核心部分分析网络水军行为,以实现复杂网络水军的探测。Las-Casas 等人[13]提出从网络水军产生源头进行识别的方法,即基于水军产生时的网络特征识别。
在Web 2.0 时代,网络环境的剧烈变化而引发的新问题早已超出了传统方案解决的能力。早期的传统营销水军模式单一,行为复杂度不高,而今的营销水军通过多种手段和渠道进行欺诈,散布谣言等活动,其行为模式也更为隐蔽,使其加大了对营销水军识别的难度。如表1 所示。
目前网络上营销水军的运作模式还是以散布广告,虚假文本信息为主,例如,在我们熟知的新浪微博中,首先会有一个主管人向水军用户发布相关任务,每个水军得到大致任务后,再根据具体要求向其他正常用户发送信息。这其中,有的水军可能会被分配向那些拥有很多粉丝的大咖发送营销文案,另外一部分可能会被安排向较为活跃的普通用户发送广告,这些不同的用户群体构成了不同的圈子,组织者会根据不同圈子的特点来组织水军进行营销,其内容也会根据不同用户而改变。营销水军组织形式如图1 所示。
不管每个水军的行为模式和组织团体如何变化,它们在网络中与正常用户的关系结构是大致相同的,即每个营销用户都会与大量正常用户节点产生信息交流。假设网络中的所有用户为节点,用户之间产生的联系为边,则可以构建如图2 的分布特性。
因为水军需要发布大量的信息给不同用户,基于这个性质可以发现水军基本上会和大量用户产生关联关系。从上图中来看,营销水军的出度普遍要大于入度,而普通用户并没有这一规律。出度为本节点向另外的节点发送信息,入度为本节点接收来自其他节点的信息。
网络营销水军在各大电商平台的涌现,也随之带来了大量的营销信息,这些营销信息多是在商品评论区作为载体进行散布。正是因为这些信息具有不符合实际的因素,从而可以被称为虚假评论。这些虚假评论鼓吹和夸大商品特点,影响用户正确的选择和消费行为。如何在网络平台中识别这些虚假评论一直是国内外研究的重点。
目前虚假评论的识别研究技术主要是在两个方面:基于评论内容的方法和基于评论者行为的方法。为了增加营销信息发布的范围和传播速度,水军做出的评论一般都具有高重复,形式单一等特点,基于评论内容的方法主要通过自然语言处理的相关技术来识别评论中的显著特征,以此来判断评论真假。Stringhini 和Kruegel 等人[14]在几个主流社交网站上使用自己的“诱捕器”收集了水军的行为数据,发现了与正常用户的不同之处。例如,水军集中性的发布评论会给网络带来异常流量,所以它们会故意避开工作时间段发布信息。
图3 展示了一般的虚假评论检测方法框架,第一步是选择使用的数据集,早期使用的数据以评论文本为主,往后又加入了评论者的行为数据以提高检测精度。然后经过数据预处理阶段过滤无效样本,下一步中,通过特征工程来选取与任务最相关的特征,这也是影响最终结果关键的一步,一旦确定了特征之后即可将相关特征送入机器学习模型,通过计算后得出判断结果。
从目前的研究来看,现有的方法仍然有不少不足之处。使用行为特征的检测模型是基于营销水军的行为与正常用户不同这一假设而来,但是随着网络环境的复杂化,用户意识到大量水军的存在并加强了对水军的警惕性,导致营销水军不断调整营销策略。这样一来营销水军的行动更为隐蔽,一般的行为识别机制已无法探测。另外,作为营销手段的营销文案也有越来越多样化的趋势,不同于直接复制发送的单一形式,现有的评论还会加入图片,表情等多种元素,导致模型难以进行有效的检测。
本文针对电商平台上的营销水军识别从三个方面入手,首先对用户的行为特征进行重新选取,考虑每个特征与实验的相关性,选择最佳的行为特征作为整个模型输入的一部分。其次,扩展对评论文本的分析范围,不仅考虑评论的重复性,最长公共子串的长度和语义分析,还增加了词汇多样性检测,表达形式丰富性统计等,进一步提高检测准确度。此外,还加入了水军的网络结构特征进行分析,因为它的稳定性,不会轻易被用户行为所影响,营销水军也不能掩饰他们在网络上的结构特征,甚至还可以发现水军团体。营销水军模型框架如图4 所示。
针对电商平台上的用户行为特征,经过计算我们挑选了6 个特征:用户评论数量,用户好评数量,用户差评数量,用户评论频繁程度,用户购买商品数量,此外还引入了用户极端性评论数量。然后通过K 均值聚类算法基于行为对用户聚类,K 均值算法会先选取K 个聚类质心点(μ1,μ2,μ3,…,μk)∈Rn,然后初始化簇C={C1,C2,…,Ck},计算样本xi和各个质心点μj(j=1,2,…k)的距离,根据样本到质心点的距离来对样本进行簇类划分,当划分完毕后重新计算每个簇的质心点μj,重复上述步骤直到质心点不再更新或更新很小。距离公式和质心点更新公式如(1)(2)所示。
营销水军散布的文案中一般都会使用单一的词汇或词性,比起正常评论带有丰富的情感和词汇,虚假评论就会显得较为机械性。所以我们利用评论中形容词和副词数量占整个总词汇量的比例来表示词汇多样性。公式如(3)所示。
这里的rei为第i 个评论,Nadj为形容词数量,Madv为副词数量,total(review)为评论词汇数量。
另外对于评论带有的非文本因素也给予了考量,作为表达形式丰富性进行量化。假设评论中带有图片,表情,视频,文字这四种形式,若第i 个评论中的第j 个图片为Pij,第k 个表情为Eik,第s个视频为Vis,则有以下公式(4)来表示形式丰富性。
利用用户网络关系拓扑结构图可以分析营销水军在网络中的“足迹”,传播模式和影响力等重要性质,故而在文本中加入网络结构特征进一步提高水军识别能力。用户结构图以G(V,E)表示,其中节点数n=|V|,Vi代表节点i,eij代表节点i 和节点j 之间的边,aij为邻接矩阵的元素。我们用节点的出度和入度,节点中心度作为水军在网络结构中的特征因子。
公式(5)为节点中心度的计算方程,主要用来衡量网络节点对其邻居的影响力。公式(6)和公式(7)为节点的入度和出度的计算公式,与用户相关行为的指标可以用它来表示,例如点赞数,评论数,回帖数等。
通过对评论内容,用户行为和用户网络结构的综合分析,可以取长补短,提高模型对营销水军识别的综合能力。特别是对新型营销水军大肆泛滥的今天,通过单一方面的检测已经很难达到满意的效果,融合多种不同场景的特征分析可以胜任更艰巨的任务。
本文基于电商平台上的用户评论、行为和网络结构进行研究,分析了目前营销水军的行为特点,在网络平台上的组织结和网络拓扑结构,在虚假评论检测模型中引入了新的特征,对用户行为进行聚类,提出了结合虚假评论检测,用户行为识别和用户网络拓扑结构分析的模型框架,为网络营销水军识别提供了新思路和可靠方案。