冉玉婷 陆向艳 曾佳琦 赵宇 张玺 崔琦萱
(广西大学计算机与电子信息学院,广西南宁 530004)
微博平台具有用户相关性良好和信息扩散迅速的特点,为用户快速交流信息提供了很大的便利,受到越来越多网民的青睐,近年来微博用户数量迅猛增长,微博官方报告显示其2019年9月的活跃用户数已经达到4.97亿。但由于微博用户数量庞大,微博中信息传播速度极快,加之有效的信息真实性审核手段的缺失,微博平台存在相当多的不良和虚构信息,这些虚假信息大多数由称为“水军”的账户群体发布,给整个网络生态带来了不良影响。基于特定目的和利益驱动,相关组织或人员通过微博账号买卖,并雇佣专人甚至采用社交机器人来充当微博“水军”,在其上散布大量具有导向性和煽动性的不实言论,对营商和舆论等产生诸多不良影响,给用户甄别信息的真实性带来困难。
微博水军,是指基于特定目的通过雇佣人员或应用社交机器人在微博上发布信息的用户群体。按照发布信息目的进行分类,微博水军主要可以分成三类,即营销类水军、公关类水军、谣言类水军[1]。营销类水军主要由商家或企业拥有,除了简单转发产品或商家信息,还会为了达到营销活动的高曝光度及KPI而大量重复刷帖,或伪装成消费者发布对某商品的强烈夸赞性言论,以达到产品推广或增加商家知名度及影响力的目的。公关类水军是为了建立个人或团体正面形象或应对其负面新闻而存在的,例如某些明星团队雇佣水军针对该明星的热点事件进行控评,以起到言论导向的作用。雇佣谣言类水军通常是一种恶意竞争的手段,个人或组织通过制造并传播对竞争对手不利的谣言,破坏对手在公众心中的形象,从而给自己创造抢占市场份额的有利条件。
微博水军对整个网络环境的破坏无疑是巨大的。一方面,水军的存在导致企业无法与消费者正常沟通,准确判断民众喜好和市场趋势,企业对自身定位不准可能带来经济损失;另一方面,大体量的虚假消息和不实评论不仅干扰微博正常情况下良性的传播模式,浪费网络资源[2],更会影响民众对社会事件的正确认知和评判,导致媒体公信力的丧失;更为严重的是,某些水军发布的内容包含对社会或政府的恶意攻击,且极具煽动性,以至于激化民众情绪,危害国家安全。所以,如何自动区分正常用户和水军用户,有效鉴别水军,从而促进微博平台良性健康运营,改善用户体验,较大程度地增强各界对热点事件的真伪辨识能力,维护网络秩序,净化网络环境,成为了当今社会具有实际意义的重要课题。与此同时,反水军检测技术也在不断发展,现代水军擅长隐藏于正常用户之中,而中文表达和结构的复杂性增加了文本分析的难度,面向中文语言环境的微博水军识别技术还有较大的研究空间。
微博水军常常为某一目的进行活跃,发帖的导向性较强,且带有不正当性和虚假色彩,因此水军和正常用户具有不同的属性和特征,大多数通过详细人工甄别可以被发现,但面对大量用户其识别工作量巨大,人工难以实现,因此需要借助自动识别工具。当前微博水军自动识别研究涌现出相当多的方法,这些方法主要可分为四种[3-5]:基于用户属性特征、基于话题行为特征、微博内容特征及微博传播特征的识别方法。
微博用户的属性特征主要包括昵称、粉丝数、所在地、注册时间、微博数、粉丝数、关注数和信用等级等。对这些属性特征进行分析可以区分水军和正常用户,且属性特性数据获取相对较为容易,不需要经过复杂的转换。从整体来看,水军账户的经营程度弱于正常用户,其粉丝数、关注数和信用等级这三个属性与正常用户有明显差别,其粉丝数和关注数比正常用户较少,尤其是粉丝数。微博网络中水军账户会出现随意关注正常用户的行为,这些用户微博进行转发评论以来帮助提高账户的人气,而正常用户由于对对方的身份和目的并不了解,往往会选择置之不理。由于水军账户发布的微博内容大多数质量不高,其粉丝数一般较少。正常用户刷微博的意义在于了解新闻、时事政治、游戏娱乐、不同观念之间的交流等内容,大多会在相关界面上有较长的停留时间,因此在线时长较长,活跃程度较高,信用等级也较高,而水军则相反比较低。
用户话题行为是指用户在微博发帖交流过程中进行的发文、提及、转发、评论等操作,在这些行为中,正常用户和水军用户存在着较大的差异,这些差异也可为水军识别分析提供依据。对于发文行为,正常用户正常的微博用户将微博视为社交媒体工具,一般而言会存在在微博上分享生活或所见所闻的行为,因此发布的微博中原创微博数量较多,相反水军则较少;对于提及行为,出于交流和信息共享等社交目的,正常用户提到与自己亲密度高的其他用户较为常见,而水军账户几乎不存在出于社交目的的发帖行为,通常情况下,水军账号提及特征低于正常用户;对于转发行为,由于水军受个人或团体雇佣提供信息传播等服务,其转发微博的频率远远超过正常用户。
图1 识别水军流程图
对于微博用户来说,微博的文本内容是最为直接的个人表达。用户在不同阶段会有不同的经历,对于自己感兴趣或未知的话题和事件具有探索倾向,情绪和兴趣也将随着时间的推移发生变化,所以,正常用户通常不会发布大量重复的微博。而水军用户受命于其雇主,为了达到产品宣传推广或制造舆论等目的,会发布大量内容相似的博文,且出于降低时间成本的考虑,这些博文一般而言由模板快速生成,因此这些博文在文本上重复率极高,可以通过进行微博内容存相似度检测来识别水军。
基于微博传播特征的识别方法主要是针对具有反侦察能力的水军团体的识别。微博水军为了避免被发现,会对账号属性和行为等特征进行伪装,用以上三种方法进行识别难以发现。基于传播特征的识别方法是通过微博水军的组织关系,即转发、互粉、关注等网络关系结构进行来辨析水军。研究表明水军是一个有组织的,具有高度协作性的,紧密结合的群体,与正常用户亲密度低而与其他水军之间存在紧密的关系网络,因此,可以从整体和全局的角度研究水军,对于高度伪装的水军军团分析其在组织关系上与正常用户的差异。
微博水军自动识别主要是采用基于机器学习的算法。算法流程如图1所示,主要包含数据获取、数据预处理、特征向量构建及分类器训练和测试等过程。首先获取原始微博数据,可以直接利用社交媒体提供的open API等数据获取通道或采用网络爬虫进行数据采集,然后对原始数据进行去噪和规范化等预处理得到可被分析的用户数据集,对处理后的数据集进行分类标注,将标注好数据集分为训练集和测试集两部分;其次是对数据集进行特征提取和向量化,选择判别度较高的特征构建可以用于识别新浪微博水军用户的用户特征向量集。接下来是将训练特征向量输入到训练器中得到具有分类能力的分类器;最后将测试集输入到训练好的分类器中,得到预测结果,并对得到的测试结果进行评估,若不能达到判别准确度要求,则需要扩大训练集或选择其他的分类算法重新训练。
微博水军受雇于特定组织和个人发布具有导向性或煽动性的不实言论,对营商和舆论等产生诸多不良影响。本文对微博水军对网络环境安全造成的危害、自动甄别方法和流程进行探讨,为发现和治理微博水军和净化网络环境提供参考。