◆杨海梅 王恒
国内网络水军识别研究
◆杨海梅 王恒
(宁夏大学信息工程学院 宁夏 750000)
目前网络水军的识别已经成为一项具有挑战性的工作。为了维持良好的网络环境,保证合理的网络秩序,我们可以从大量的用户信息中挖掘出水军的特征和行为模式,从而发现网络水军。按水军目标领域可划分为邮件水军、电商领域的网络水军、社交领域的网络水军和微博领域的网络水军并从其目标领域角度对近几年国内网络水军识别研究进行综述,并对网络水军识别方法进行了叙述。
网络水军识别;社交网络水军;电商水军;邮件水军
现代社会信息化程度高,网络承载着大数据的价值,例如新浪微博和豆瓣等拥有大量用户,虚假言论和垃圾信息大量的产生传播,这种危害的源头就是俗称的网络水军。通过挖掘隐藏在用户信息中的水军的特征和行为模式,实现网络水军识别。目前,网络水军识别研究在各领域都取得了较大的进展。其特点主要包括:目标范围广、危害影响大;评论内容相似;数量多大量使用傀儡账号;行为不同于正常用户。
传统的网络水军识别研究主要集中在邮件领域。传统邮件水军识别方法是基于垃圾邮件内容分析,此方法的关注点在水军制造的垃圾邮件本身,邮件的内容分析包括:邮件的贝叶斯分类、基于关键词分类、遗传算法分类、神经网络分类等方法。早期的邮件水军,通过检测垃圾邮件内容特征具有较高的准确率。
随着网络环境的复杂性和多样性以及用户辨别力的增强,传统网络水军制造传播具有显著特征内容的影响在不断降低。目前,新型网络水军按其目标领域的不同,可分为电子商务领域、社交领域、论坛领域和邮件领域网络水军识别研究。
目前网络水军检测选取的特征属性主要包括:文本内容、用户行为和网络环境。
2.2.1电商领域
在电商领域中,席晓晗[1]采用LDA主题模型来检测评论短文本的主题,基于评论内容的语义对评论划分,这并非以前常用的纯文本相似度的分析。王军博[2]使用LDA模型确定每一件商品的评论主题,将与主题有较大偏离的评论被认为是网络水军的可能性越大。张慧杰[3]为了减少单一特征的尺度空间模型带来的误判,他从水军的行为特征、关系特征、群组行为等特征,构建了多特征尺度空间模型。有研究者构建行为特征识别效用评价模型,来分析评估电商水军个人和团体行为特征的识别效用,采用排序和分类模型对不同类电商水军行为特征识别效用进行真实评论数据的评测。并构建用户关系图模型与识别算法来发现较大规模的电商水军团体。
2.2.2社交领域
在社交领域中,程传鹏等人[4]等人对论坛水军的七个特征计算权重,建立向量空间模型,使用KNN算法SVM软件包来识别水军,准确率和召回率达到70%以上,此该方法对于特定话题水军的识别具有实用性。有学者采用C4.5分类方法和BP神经网络以及朴素贝叶斯算法对网络论坛水军进行检测,实验表明C4.5算法具有较好的性能在网络论坛水军检测中。在水军识别中使用熵值法确定各特征的权重,并采用主题识别模型对用户特征进行降维,综合多特征自动识别水军使准确率达到82. 4%,召回率高达88. 6%。
2.2.3微博领域
在微博领域中,孙卫强[5]采用深度信念网络对水军识别构建模型,挖掘学习网络水军共同特征,并使用Map Reduce框架来解决海量数据处理耗时的问题,采用并行的Downpour SGD来加速RBM的训练。
张艳梅等人[6]采用贝叶斯模型识别水军,并结合遗传算法优化初始的阈值矩阵,以此提高了分类模型的准确性。程晓涛等人[7]在前人的基础上增加时间特征和关系图特征,在朴素贝叶斯、C4.5决策树和贝叶斯网络下融合各特征,提高了识别准确率和召回率。崔丽娟[8]采用基于图结构和多特征方法识别水军。对用户构建用户关系图,使用频繁子图和离群点算法挖掘出来的用户群体定义为疑似网络水军团体。再从结构特征、时间特征和内容特征分析了网络水军团体与正常用户群体之间的不同,利用C4.5分类器进一步对可疑网络水军团体判定,最终得到网络水军团体。
对于网络水军的分析,目前的研究主要基于内容特征、用户行为特征和用户关系特征的分析方法。早期网络水军的识别主要基于内容特征,所使用的算法有关键词分类法、文本分析和B-Tree 索引等,目前,基于行为特征的识别分析方法包括贝叶斯算法、决策树分类、k-means 聚类算法和逻辑回归算法等。基于用户关系特征的识别探测方法,如神经网络分类法、贝叶斯网络等。
以下是几位研究者对网络水军识别中所采用的方法和研究内容的叙述(表1):
表1 研究者对网络水军识别中所采用的方法和研究内容的叙述
在互联网环境中,用户的隐私和信息安全制约了水军研究的发展,出于隐私与信息安全的考虑,用户不愿意提供个人完整和准确的信息。在实验数据分析中怎样避免用户个人隐私是网络水军识别研究的一个难点。
特征定义是水军识别的关键,因为水军目标领域不同其行为也有所不同,所以其呈现出来的特征也不相同。通过实验数据定义具有很高辨别网络水军的特征,是水军识别研究的一个难点。
一般采用的评价指标有准确率、召回率和正确率等。在水军识别研究中研究者常用人工评价方法,但是这种方法成本高且有一定的主观性。如何有效评价水军的表现也是水军识别研究的一个难点。
网络水军破坏网络秩序,污染网络环境,损害用户利益。因而网络水军识别已受到业界的广泛关注与应用。大量学者开始对各领域水军进行识别研究。网络水军识别研究都是基于水军行为特征、内容特征、关系特征与环境特征等,采用机器学习中的分类算法和深度学习模型等方法进行特征提取来发现水军。同时新型网络水军识别研究还存在一些问题需深入研究,来提高水军识别的准确性和实用性。因此,网络水军识别的研究具有非常重要的意义和应用前景。
[1]席晓晗.电子商务领域网络水军的行为特征研究[D]. 江西农业大学,2019.
[2]王军博.基于电商评论网络水军识别[D]. 北京交通大学,2016.
[3]张慧杰.基于多特征尺度空间模型的网络水军组织发现技术研究[D]. 浙江大学,2015.
[4]程传鹏,张书钦,刘小明,夏敏捷. 基于特定话题的网络水军识别研究[J]. 中原工学院学报,2018.
[5]孙卫强.基于深度信念网络的网络水军识别研究[D]. 湘潭大学,2015.
[6]崔丽娟. 基于图结构与多特征的微博水军团体识别[D]. 南京邮电大学,2018.