王 莉
(太原理工大学 大数据学院,山西 晋中 030600)
随着网络技术的快速发展及自媒体的广泛应用,微博、知乎、快手、腾讯新闻等媒体平台成为用户发布、获取和分享信息的重要来源和主要场所,但同时也为网络虚假信息的滋生和泛滥提供了温床。网络虚假信息是通过媒体发布、传播带有虚假内容的新闻或消息[1],其迷惑性强、传播速度快。2018年《科学》杂志刊登文章指出,社交媒体平台中,虚假信息比真实信息传播得更快,更广泛,真实信息需要比虚假信息多花5倍时间,才能达到同样的传播量[2]。因此,虚假信息传播在政治、经济、社会等各个方面造成了极为恶劣的影响。例如,2016年美国大选期间社交媒体上产生的虚假信息,误导选民对政治候选人的看法,甚至左右了选举结果[3];2013年,巴拉克·奥巴马在一次爆炸中受伤的虚假信息引发了美股巨震,两分钟内蒸发了1 360亿美元股值[4]。世界经济论坛将虚假信息列为全球最大风险之一,根据2019年的一项经济研究表明,网络虚假信息每年给全球经济造成780亿美元的损失,且还在不断增长。2020年Facebook公司删除了700万条关于新型冠状病毒虚假信息的帖子[5];在国内,近几年类似“钟南山院士建议盐水漱口防病毒”,“饮高度酒可消灭病毒活性”,“小孩做核酸被捅死”等虚假信息的传播,让不明真相的民众更加焦虑和恐慌,极大地干扰了疫情防控工作。世界卫生组织提出了“信疫”概念,指出人类不仅要打赢现实世界大流行的新冠病毒之战,也必须打赢网络空间大流行的信疫之战。由此可见,网络虚假信息问题已经十分严峻,亟需探索高效的虚假信息检测方法,阻断虚假信息传播,保障网络空间信息可信、安全。
近年来,虚假信息检测已成为国内外研究热点,相关研究通常是把它建模为一个分类问题。存在两种问题建模:一种是将其定义为二分类问题,即虚假信息(T)和真实信息(F)。另一种是将其定义为四分类问题,即分为非谣言(N)、经过验证的非谣言(F)、真谣言(T)、未经验证的谣言(U)。大多数研究采用二分类模型,任务目标为训练学习函数f:p→y,其中p为信息,y为标签值y∈{0,1}.
根据所使用的数据对象不同,网络虚假信息检测的研究工作可以分为三类:基于信息内容的方法[6-33],基于用户的方法[34-40]和基于传播的方法[41-53]。其中,基于信息内容的方法主要利用信息内容进行检测;基于用户的方法主要利用信息发布者或转发者的个人描述、性别、粉丝量、关注量等用户属性进行虚假信息识别;基于传播的方法主要利用信息传播过程中的评论、转发等特征进行虚假信息识别。
信息内容是指从一条网络信息中可以直接获取到的数据,采集难度小,且和信息同步,有助于实现虚假信息的早期检测。基于信息内容的虚假信息检测方法主要分为三类:基于文本的方法、基于图像的方法、基于文本和图像多模态融合的方法。
1.1.1基于文本的虚假信息检测
文本是对信息的文字描述,其中带有作者的思想和写作意图,呈现出多样的语言习惯和风格。根据所使用的特征不同,基于文本的虚假信息检测研究主要分为基于文本语言特征的方法和基于文本结构特征的方法两种类型。
1) 基于文本语言特征的虚假信息检测。基于文本语言特征的虚假信息检测方法通常以字、词、句及其他文本特征为建模对象,依赖机器学习或深度学习方法得到丰富的语言知识以检测虚假信息。HORNE et al[6]在单词级别构建了文本风格特征、复杂性特征和心理特征,提出了一种基于支持向量机(SVM)的虚假信息检测模型。PÉREZ-ROSAS et al[7]手工构建了文本的N-grams特征、标点符号、心理语言学等单词级别的组合特征集,训练支持向量机模型实现虚假信息检测。这类机器学习方法在一定程度上取得了不错的效果,但普遍受限于复杂的预处理工作和繁琐耗时的特征工程,并且无法用于不断出现的新型造假信息,所以难以在实际应用中发挥作用。
基于深度学习的虚假信息检测方法可以自动提取特征,避免了复杂特征工程,提升了检测效率。相关研究主要利用卷积神经网络(CNN)、循环神经网络(RNN)等方法学习信息内容基于词、句子、文本级别的语义表示,进而完成虚假信息检测。在词级别,WANG[8]提出了一种基于深度学习的检测方法,利用CNN和双向长短期记忆网络(BiLSTM)整合词嵌入以检测虚假信息。VOLKOVA et al[9]结合CNN和LSTM网络融合文本语言线索和词嵌入以评估信息真实性。DHAMANI et al[10]基于CNN与LSTM的耦合网络处理表情符号、俚语、拼写错误等特征,进而检测虚假信息。CHAWDA et al[11]将递归卷积神经网络(RCNN)和LSTM应用在虚假信息检测中,捕获了相邻单词之间的上下文依赖关系。此外,许多研究提出基于句级别和段落级别的虚假信息检测方法。YU et al[12]基于CNN模型学习段落嵌入表征以提取信息的高级文本特征。AHN et al[13]使用预训练语言模型BERT,在句子级别检测虚假信息。张恒[14]构造了LSTM和CNN的混合模型,引入前馈式注意力机制和基于上下文的注意力机制检测虚假信息。LIU et al[15]以N-gram为计算单元,提出一种基于分层注意力机制的CNN和Bi-LSTM结合的虚假信息检测方法。
2) 基于文本结构特征的虚假信息检测。文本是由词、短语、句子、段落、篇章等不同粒度的文本单元按照一定关系搭建起来的有序结构,不同结构反映了内容主体的因果、顺承、转折、强调、限制等逻辑信息,表达出不同的语义。因此,将文本结构关系引入将有助于提升虚假信息检测效果。
基于文本结构特征的虚假信息检测研究主要分为基于树结构的方法和基于图结构的方法两类。a.基于树结构的方法。ZHOU et al[16]从词汇、句法、语义和语篇层面捕获虚假信息的写作风格,使用了文本修辞结构树提取语篇特征,采用机器学习模型进行检测。UPPAL et al[17]采用深度学习技术,首先利用双向门控递归单元(GRU)网络学习句子表征,然后基于树形结构整合句子表示以检测虚假信息。b.基于图结构的方法。和树结构相比,图结构具有更强的结构化信息表达能力。图卷积神经网络(GCN)[18]将深度神经网络应用在图结构数据上,在自然语言处理任务中取得了许多优异的效果[19-21]。TextGCN[19]依据整个语料库中文本和单词之间的关系构建图进行文本节点分类,但该模型不适用于归纳式学习,即面对训练数据集中没有的新文章时需要重新构建图和重新训练。ZHANG et al[20]提出了面向归纳式学习的TextING模型,对每篇文本利用单词之间的局部共现关系来构建文本图结构,取得了很好的文本分类效果。虚假信息检测方面,VAIBHAV et al[21]提出,虚假信息与真实信息的全文句子间关系结构不同,因此,以全文句子为节点建立完全图,引入GCN,通过最大池化层整合句子嵌入,生成文本表示,检测虚假信息。进一步,考虑到全文句子之间不仅存在全局依赖关系,而且存在相邻顺序关系,WANG et al[22]提出一种基于句子间的全局语义交互关系结构、局部相邻顺序结构和全局顺序结构特征的虚假信息早期检测模型SemSeq4FD.该模型构建了句子全连接完全图,采用GCN和自注意力机制获得了全局句子表示;采用文本卷积神经网络针对句子顺序关系处理,得到局部句子表示;两者拼接后形成增强型表示,再按照全文句子顺序建立LSTM网络,生成最终文本表示,用于虚假信息检测。在中、英文两种语言的数据集上进行跨来源、跨领域实验,该模型均表现优秀。
1.1.2基于图像的虚假信息检测
虚假图像主要表现为两种形式:伪造和误用。
Photoshop等图像编辑软件功能的不断完善以及生成式对抗网络在图像合成领域取得的巨大成功正在降低图像伪造的技术门槛,伪造图像的检测技术正在引起越来越多的关注。现有的虚假图片检测方法主要包括基于手工特征的方法和基于深度学习的方法。基于手工特征的方法大多基于虚假图像底层特征进行分析,效率高,但通常只能检测特定类型的篡改。基于深度学习的方法不受限于篡改手段类型,具有广阔的发展空间。ZHOU et al[23]提出了一种基于Faster R-CNN的方法,从RGB流和噪声流中提取篡改特征,用于虚假信息检测。QI et al[24]提出了多域视觉神经网络,设计了一个包括频域模块、像素域模块和融合模块的框架,用于学习视觉表征来检测伪造图像。实际应用中通常将基于特征的方法和基于深度学习的方法结合以提升检测效果。
另一类基于图像的虚假信息是误用图像,即图像和文本不匹配,将不是同一事件的文本和图像放在一起,混肴视听。这类检测一般通过对文本和图像中的时间、地点、人物等关键信息进行提取,评估信息匹配程度以识别虚假信息。
1.1.3基于文本和图像多模态融合的虚假信息检测
为了增强信息可读性,越来越多的网络信息包含有文本和图像,这些不同模态之间具有互补性、信息增强作用等特性,对于更好地理解原始数据的语义有着非常重要的作用。因此,近年来,基于多模态特征融合的虚假信息检测越来越受到关注[25]。
信息表达越充分,越有利于信息检测效果。为了得到丰富的全文信息表达,研究者们通常首先针对文本和图像这两种不同模态分别进行特征表达,然后采用拼接方式将两种学习后的模态表征进行集成。SINGHAL et al[26]利用BERT提取文本向量表征,利用VGG19提取图像向量表征,然后将其拼接作为联合表征。YANG et al[27]不仅从文本和图像中提取显式特征,而且利用卷积神经网络学习其潜在特征,然后将文本和图像的显式特征和潜在特征映射到同一特征空间中进行拼接,最后使用学习到的特征来检测虚假信息。基于拼接的融合方式简单,但没有挖掘和区分不同特征对虚假信息检测的不同重要性,也没有考虑不同模式之间的隐含关系,对虚假信息检测性能支持有限。因此,JIN et al[28]提出了一种具有注意力机制的循环神经网络att-RNN,以融合帖子的图像和文本特征进行虚假信息检测。SONG et al[29]提出了一种基于跨模态注意残差和多通道卷积神经网络的多模态假信息检测框架,可以根据注意力权重从另一个源模态中选择性地提取与目标模态相关的信息。为了进一步学习文本和图像之间的共享表征,WANG et al[30]提出了事件对抗神经网络EANN,其中多模态特征提取器负责从帖子中提取文本和视觉特征,它与虚假信息检测器合作,可以学习可判别的表征来检测虚假信息,而事件判别器的作用是去除事件的特定特征并保留事件之间的共享特征,由此来学习代表各种主题和领域的事件不变特征,从而有利于对新事件进行检测。KHATTAR et al[31]提出了一种多模态变分自动编码器(MVAE),该编码器能够学习文本和图像共享表征,经过训练可以发现推文中各种模态之间的相关性,然后将变分自动编码器与分类器耦合以检测虚假信息。ZHOU et al[32]提出了相似度感知模型来研究文本和图像信息之间的相似性在检测虚假信息中的作用。孟杰等[33]提出了一种基于双重注意力机制的多模态深度融合虚假信息检测模型MMDF,采用双向门控循环单元GRU结构提取文本语义特征,通过多分支卷积-循环神经网络结构提取图像的多层次语义特征以及不同层次特征之间的顺序依赖关系;然后利用模间注意力机制融合文本特征和图像的不同层次语义特征,利用模内注意力机制分别聚合增强型文本内部表征和增强型图像内部表征,最后利用注意力机制将文本和图像的原始信息注入到多模态联合表征中,加强原信息的作用,进行虚假信息预测。
总之,基于文本图像融合的虚假信息检测研究主要集中在各模态表征学习、多模态融合机制的设计等环节,以期形成多模态数据协同,提升检测性能。
在社交媒体网络上,用户是消息传播的主体,用户的身份信息在一定程度上代表了其发布内容的可信度。用户信息,一般指可从社交媒体网络上获取的个人描述、性别、粉丝量、关注量、居住城市和爱好等属性信息,一定程度上隐含了用户权威程度和可信度。比如,一些大V用户,具有账号等级高、地理位置可见、发布频率具有规律等特点,其发布的消息可信度也较高;而一些未经验证的普通用户账号,账号信息少,发布信息无规律,网络社交关系异于通常情况,其发布或转发的消息则很有可能是虚假信息。因此,引入用户社交属性信息,将从另一方面辅助提升虚假信息检测的性能,具有重大的应用价值。
研究者们对于用户属性与虚假信息检测间的关系进行了多方面的积极探索。GHENAI et al[34]分析了在Twitter上发布健康类虚假信息的一类用户,将这类用户同正常用户进行了多方面的对比,构建了用户属性集合,然后将这些属性特征输入到Logistic分类器中进行分类,实验结果证明基于用户属性建模的有效性。YANG et al[35]提取基于用户的特征取得了不错的分类效果,其中用户特征包括性别、居住地和粉丝量等。CASTILLO et al[36]利用Twitter上的一组用户特征来检测虚假信息,这些特征包括粉丝量、朋友数、注册年月等。SHU et al[37]为了揭示用户特征和虚假信息之间的联系,对用户显式特征和隐式特征进行了比较分析,揭示了有些用户特征有助于检测虚假信息。他们的工作为深入探索社交媒体的用户特征提供了宝贵经验。LIU和WU[38]结合循环神经网络RNN和卷积神经网络CNN来基于用户特征学习高级表示。该方法被证明有非常好的虚假信息早期检测性能,同时该工作也是第一次将深度学习作用于用户特征进行虚假信息检测的工作。LU和LI[39]将参与社交的所有用户构建为一个完全连通图以辅助检测虚假信息,大大提升了虚假信息检测的结果。薛海清等[40]提出一种基于用户传播网络与消息内容融合的虚假信息检测模型,利用多模态门控单元对用户社交属性表征、结构表征和帖子内容表征进行融合,增强了信息表征,提高了虚假信息检测效果。
社交媒体网络上,消息被发布后,每个用户都可以对其进行点赞、评论、转发及分享,这些社交活动构成了信息的传播网络,其中包含了许多对消息真实性判断有帮助的潜在信息。例如:评论,通常是公众对原文的真实反映和观点,而且评论数据通常和原文在同一页上,数据获取简单;转发,与评论一样包含了公众的观点,且体量更大,但数据质量参差不齐。这些信息传播中的各种行为从另一个角度为虚假信息检测提供了新的线索。当前基于传播的虚假信息检测研究主要集中在对评论和转发行为的利用上,所以本文从基于评论的方法和转发的方法两方面展开阐述分析。
1.3.1基于评论的虚假信息检测
基于评论的方法一般是通过挖掘评论和原文的关系以提升检测效果。张仰森等[41]提出通过计算评论的异常度来实现对虚假信息的检测。MA et al[42]基于评论顺序建立了树结构递归神经网络RvNN,从评论和文本内容中捕捉各节点的隐藏表示,用于分类。SHU et al[43]意识到评论与原文关联关系的重要性,提出dEFEND模型来学习贴子和评论之间的语义关联,并使用互注意力机制提供可解释性,取得了较好的虚假信息检测结果。WU et al[44]提出了自适应交互融合网络AIFN来实现帖子和评论的融合并将其用于虚假信息检测任务。YANAGI et al[45]认为评论对于虚假信息检测任务非常重要,但是有些消息可能存在评论不足的问题,他们通过训练生成器模型来为消息生成评论进而提高检测性能。LIN et al[46]在评论转发图的基础上增强了用户交互,提出了层次图注意力模型,取得了较好的虚假信息检测结果。YANG et al[47]从原文和评论的回复结构、原文和评论的相互选择、评论内部的主题漂移三方面进行建模,提出一种基于原文和评论的虚假信息检测模型PostCom2DR,在中文和英文虚假信息检测中均提升了检测准确率。
1.3.2基于转发的虚假信息检测
现有的研究根据建模类型的不同,主要可以分为3种:基于转发链的方法、基于转发树的方法和基于转发图的方法。
基于转发链的方法主要将消息的所有转发按照时间顺序看成一个时间链来处理。KWON et al[48]研究虚假信息和真实信息在转发上的差异,并从时间和内容两个方面分析得出一系列转发特征,然后利用机器学习方法来判断一个贴子是否是虚假信息。基于转发树的方法则主要将信息的转发建模为一棵消息树,通过对消息转发树中根节点到叶子节点的路径进行一系列操作来检测虚假信息。LAO et al[49]通过结合虚假信息转发链与转发树的方式提出了RDLNP模型,该模型分别对虚假信息的扩散和时序信息进行建模,被证明有较好的结果。但上述做法通常仅关注学习转发过程中的时间序列信息,而忽略了消息之间相互转发的全局关系。最近的一些研究开始将消息转发建模为一个转发图,然后利用图网络技术来解决虚假信息检测问题。WEI et al[50]针对虚假信息检测问题,提出了一种多深度M-GCN模型,该模型能够捕获多尺度的邻居信息。WU et al[51]对消息转发时形成的消息转发图迭代的使用图神经网络直到收敛,将收敛之后的节点表示用于分类。BIAN et al[52]将转发结构建模为转发图,建立双向图卷积网络biGCN学习转发中的结构特征,然后结合原文进行虚假信息检测。杨延杰等[53]引入融合门控的图卷积神经网络,提出了一种基于原文和转发网络的虚假信息检测模型GUCNH,在中英文虚假信息检测以及早检测方面均具有明显优势。
当前,国内外各政府及相关机构纷纷出台相关法律、法规对发布和传播虚假信息的行为进行打击,各互联网企业、网站平台等纷纷设立检测机制进行虚假信息鉴别。在美国,脸书公司鼓励用户举报虚假帖子,并雇用专业的事实检查人员来检测虚假信息。国外Snopes、 FactCheck、PolitiFact等网站利用人工及多技术结合查验信息真假。在国内,国家网信办、各省市互联网信息办公室等机构设立了中国互联网联合辟谣平台、各地市辟谣平台等,进行权威发布、媒体求证、谣言举报、信息核实和辟谣课堂学习及宣传等。这些平台主要采用人工审核及多技术手段结合方式识别不实信息,同时承担了宣传和网民新媒体素养的教育职能。
除了运营或商用平台外,研究者们也在开发各种自动化虚假信息检测系统,以期减少当前平台上主要依赖人工核实信息的劳动强度和难度,实现自动信息检测。SHU et al[54]提出了一个端到端的虚假信息检测工具FakeNewsTracker,对信息进行真假检测和特征可视化。蒋昊[55]针对虚假信息传播过程,建模实现了一个基于传播结构的虚假信息检测系统。常超舜[56]开发了一个在线虚假信息检测和分析的系统,通过网络爬虫匹配一些官方辟谣数据,对未匹配到的信息应用深度学习算法模型进行识别。在可解释的虚假信息检测系统研究方面,YANG et al[57]提出了XFake模型,利用决策树、自注意力机制和XGBoost分类器从多个角度分析和检测虚假信息,并提供可视化解释作为证据。PRZYBYA et al[58]从文本风格特征、句子相似度等方面,构建了可解释的虚假信息检测工具Credibilator。该系统基于Chrome扩展程序,具有方便检测的优点,但是仅支持全页面检测、英文检测。太原理工大学大数据智能理论与工程研究中心王莉教授团队开发了一套在线虚假信息实时检测与交互式扩展系统,该系统作为浏览器端插件直接扩展,无需专门安装;后端嵌入自有产权的算法模型,可同时实现中文、英文信息的虚假性检测;具有虚假信息实时检测、用户交互反馈和模型因果解释三大功能,支持模型持续学习、自修正及解释等能力。
网络信息爆炸的今天,各种虚假信息给国家、社会、企业和个人造成了极大的负面影响和危害。网络虚假信息检测已经成为维护网络空间秩序、保障人民生命财产安全、社会稳定、国家安全的一项重要措施。国内外企业界和学术界纷纷展开研究和探索,近年来出现了许多研究成果。但是由于虚假信息跨领域、跨语言、跨平台以及虚假信息制造者手段的不断更新,虚假信息的自动检测仍然任重而道远。通过对国内外相关领域研究工作的调研和分析,本文认为网络虚假信息检测仍然存在数据、模型以及跨模态检测等方面的挑战。
1) 数据问题。主要表现为标注数据的缺乏、不同领域虚假信息数据分布的不均衡以及与真实信息数据相比的数据不平衡问题,这些都在一定程度上制约了以深度学习为核心数据驱动的虚假信息检测技术的发展。所以,在未来,一方面需要相关机构或研究者联合起来,积极进行公开共享数据集建设;另一方面,需要研究小样本等对数据依赖小的新兴检测技术。
2) 模型适配与迁移问题。一些数据分析的工作表明,不同领域的信息数量、信息可得性、虚假信息占比分布等具有差异,如何利用容易采集的民生、娱乐等领域数据训练出具有一定普适性的检测模型或易于迁移的模型,用以跨领域、跨平台、跨来源的信息检测,是虚假信息检测技术落地应用所无法避开的一个问题。
3) 跨模态检测。当前网络的信息载体主要有文本、图片、视频与语音等,不同模态的造假技术也各有不同;虚假信息的表现呈现出多样化,文本造假、文本关键信息缺失、图片造假、图片误用、语音拼接等,如何利用多种模态的信息,跨模态检测、融合多模态检测是未来虚假信息检测的一个重要研究方向。
网络空间中,虚假信息的制造和检测将构成贯穿网络全生命周期的永远的博弈。虚假信息检测问题的研究,不仅是技术问题,也是法律、宣传、教育、认知等各方面的问题,需要国家、企业、教育、民众等各级机构和所有大众的深度参与和认真觉悟。深度学习、知识图谱、认知心理等科学技术将会深度融合,在技术方面发挥出重要的支撑作用。