传播用户代表性特征学习的谣言检测方法

2022-06-17 07:10谢欣彤胡悦阳刘譞哲赵耀帅姜海鸥
计算机与生活 2022年6期
关键词:谣言消息特征

谢欣彤,胡悦阳,刘譞哲,赵耀帅,姜海鸥

1.北京大学 信息科学技术学院,北京 100871

2.高可信软件技术教育部重点实验室(北京大学),北京 100871

3.中国民航信息网络股份有限公司,北京 101318

4.中国民用航空局 民航旅客服务智能化应用技术重点实验室,北京 101318

5.北京大学 软件与微电子学院,北京 102600

6.北京大学(天津滨海)新一代信息技术研究院,天津 300452

近年来,互联网技术改变了千家万户的生活习惯,成为了人们获取信息、互动交流的重要渠道。在中国互联网信息中心2020 年4 月发布的第45 次中国互联网发展统计报告(http://www.cac.gov.cn/2020-04/27/c_1589535470378587.htm)中称,截至2020 年3 月,我国网民数量已超9.04亿,互联网普及率达到64.5%。

然而,互联网在带来便利的同时,也为谣言的传播提供了环境。谣言是在社会中出现并流传的未经官方公开证实或已经被官方辟谣的信息,其特点是所根据的事实较少,主观的补充与改造较多。尤其在疫情期间,大量制造恐慌、捕风捉影、伪科学消息在网络上涌现。中国互联网联合辟谣平台数据统计显示,2020 年4 月“粮食短缺,赶紧囤米抢油”相关信息达437 186 条,“新冠抗体可使人免受‘二次感染’”相关信息达205 187 条,这样广泛散布的谣言消息无疑将在一定程度上影响社会秩序。

互联网已经成为了思想文化信息的集散地和社会舆论的放大器,网络空间中传播的信息有着日益强大的社会影响力。如何有效地对网络空间进行公共舆情管理,是对现代化政府治理能力提出的考验。中共中央、国务院印发的《新时代公民道德建设实施纲要》中也提到,为适应新时代新要求,抓好网络空间道德建设十分关键。

信息技术是一把双刃剑,其发展同样推动了互联网与政府公共服务体系,特别是政务服务的深度融合,也加快了互联网+政务服务模式创新进程。网络空间中的公共舆情治理,是互联网+政务服务中重要的一环,而及时有效地开展网络平台辟谣工作,更是公共舆情治理尤为关键的一步。

现有的网络平台辟谣工作大多依赖于人工举报筛查机制。新浪公司成立了“微博辟谣”账号及社区管理中心,开放用户对存疑消息的举报渠道,跟进有关部门的查证工作并进行结果发布。而为了提高平台内容可靠性,过滤编造、假新闻等低质内容,今日头条公司在2018 年已有4 000 名内容审核编辑,人员规模仍在进一步扩大,未来预期达到10 000 名。但是仅仅依靠人工进行举报、筛查,不仅耗费大量时间和精力,辟谣的时效性也有很高的局限性,因为往往在谣言的传播具有一定规模时,对社会公共秩序产生较大影响时才能引起有关部门工作人员的注意。

基于这样的背景,为了帮助推进互联网+政务服务公共舆情治理工作,本文提出以高时效性谣言自动检测过滤代替传统的人工举报筛查机制,辅助辟谣工作人员捕捉网络平台上发布的海量消息中疑似的谣言,进而推动互联网治理进一步精准化和精细化。本文的主要工作是收集最新的数据集并进行真实性标注,对其中用户特征分布进行统计分析进行特征选取并提出了基于传播用户代表性特征的早期谣言检测方法RPPC,再通过实验验证该方法的有效性。实验结果表明,RPPC 能够在消息传播初期过滤疑似谣言,在一定程度上辅助政府部门的舆情治理工作,从而提高政务服务的时效及质量。

1 相关工作

谣言检测算法方面的研究大多围绕着提取谣言的消息内容及传播中的趋势特点来展开。可以根据处理方式分为基于分类的机器学习方法和基于对比的方法。

基于对比的检测方法将待检测的消息与真实性可察的消息对象进行比照。此类方法虽能有效地提高检测时效性,但准确率普遍较低,因此本章主要介绍基于分类的检测方法及相关工作。

基于分类的方法,大多借助各类机器学习算法,利用带标签的数据训练分类器,从而得到检测模型。然而,输入特征在很大程度上影响着分类器的准确度。谣言检测领域的开创性研究团队Castillo 等人提出包括消息、用户、话题和传播等方面的一系列特征。在此基础上,后续工作大多通过对特征的取舍及创新来提高分类器的表现。下面对基于常见类型特征的相关工作进行介绍。

文本特征主要分为显性特征和隐性特征。其中,显性特征分析从语法角度出发,主要包括词语、符号和简单情感特征等。谣言检测相关的早期研究大多借助于对显性特征进行机器学习分类。文献[3]提取的文本特征包括内容长度、字母数量、符号数;Takahashi 等人提出将真实消息和谣言信息中的词频分布作为检测谣言的文本特征;Ratkiewicz等人提取文本中的标签、链接和提问作为特征。但研究发现独特的显性文本特征常局限于特定的话题,分类模型不具有普适性。基于语义的隐性特征包括潜在语义、情感(词向量、分类器等)和消息间关联特征(语义相似性计算)等。这类方法在预测的准确率方面优于基于语法的显性特征提取类方法,但总体而言,基于文本特征的方法常借助于大量对于消息评论文本、转发文本的挖掘,因此由于谣言扩散早期文本信息不足,常用于追溯性谣言检测,即时性检测表现不佳。

多媒体信息特征包括图片、音视频等内容,具有较强的吸引力和误导性(Sun 等人的研究结果表明80%的谣言都含有图片信息)。文献[13]提出了从基于图片本身的视觉特征(像素、清晰度、相关性、区分度)和基于事件的统计特征(图片数、含图片消息比率、图像与消息数量比例)两个角度识别图片类虚假消息,且在各类分类器上实验表明,图片类特征的检测效果优于常见的其他特征。然而,当前基于多媒体特征检测谣言大多需要在模型中引入文本特征及其他外部知识来印证内容,模型输入及结构较复杂,也未考虑到多媒体信息中包含的元数据(文件名、创建时间及地点等),同时很少运用基于相关的多媒体处理技术识别深层的语义特征。

基于用户行为特征的方法主要对信息的发布者、传递者和接受者及其交互行为进行分析。此类方法大多通过搜集发布用户的动态数、转发数、关注数、粉丝数及异常行为模式等特征作为判别依据。Wu 等人对消息的传播模式进行分析,指出谣言的传播模式与其他消息存在明显差异。文献[17]使用了聚类的方法对用户的转发及评论行为进行分析。文献[18]创新性地引入五个特征(日均关注数、日均动态数、发布相似内容的用户数、质疑性质评论比、纠正性质评论比),实验结果表明选取的新特征效果显著。Li等人引入了用户的可靠性特征,同时也结合了大量文本信息数据作为输入。Liu 等人将消息传播中的转发用户特征作为输入,在中文及英文的社交媒体平台数据集的早期谣言检测中均取得了较好的检测效果。

受其启发,本文试图探究基于用户行为特征的谣言检测方法的可移植性。例如一些综合资讯类应用,虽然没有集成度高的转发功能,评论区信息却很丰富;与此同时,此类应用的用户信息完善度不及传统社交媒体。因此,本文考虑从更改采集的数据源、精简输入特征两方面入手,初步探究基于用户行为特征的检测方法是否具有移植可能。

2 基于传播用户代表性特征的谣言检测方法

本文设计了一种基于传播用户代表性特征的谣言检测方法(representative propagation path classification,RPPC),通过提取发布及评论用户具有代表性的特征向量作为输入,对消息的真实性进行分类。

2.1 问题定义

而每个消息a都对应着标签(a)∈{0,1},用于表示该消息的真实性,目标是得到模型,当给定消息a的传播路径(a)时,能预测得到消息的真实性,即(a)=((a))。本文目标是检测消息为谣言与否,当=1 时,(a)=0 表示消息属实,而(a)=1 表示其为谣言。当>1 时,标签可以表示多级别的真实性,如真实、虚假、不明等。

2.2 数据集构造

本文所构造的数据集Weibo2020 如表1 所示,由两部分组成:谣言消息及真实消息。其中谣言消息来自微博社区管理中心2016 年8 月2 日至2020 年3月23 日所判定的不实信息,以及中国互联网联合辟谣平台、腾讯新闻较真平台中公布的谣言反向搜索得到的谣言微博。真实消息采集自3 月20 日微博热门内容中的社会、国际、科技、健康等板块爬取实时发布的微博。筛去已删除的微博及互动数为0 的条目,共收集谣言消息3 688 条,真实信息3 460 条。

表1 数据集Weibo2020 统计情况Table 1 Statistics of dataset Weibo2020

本文方法主要关注的是参与消息传播的用户特征,数据集包含的主要用户字段如表2 所示。

表2 数据集Weibo2020 包含的用户特征Table 2 User characteristics in dataset Weibo2020

该数据集的标签为“真”或“假”,微博社区管理中心等判定的谣言信息标定为“假”,采集的实时微博为“真”。

2.3 消息传播用户特征分析

在问题定义中,本文用参与传播的发布及评论用户的特征作为传播路径的向量表示,关注用户特征的选取。本文将消息的发布及评论行为作为传播路径,对Weibo2020 进行统计分析,结果显示在消息的发布用户和评论群体中,用户的注册时间、认证情况、粉丝数、动态数四个特征分布有明显差异。

图1、图2 为用户注册时间分布情况,其中横坐标为用户注册时间戳,纵坐标为用户比例。可以看出,发布用户中,普通用户的注册高峰出现较早,谣言用户群体的注册时间则比较平均。而在评论用户中,普通评论用户的注册时间则普遍偏早于评论谣言用户。

图1 发布用户注册时间戳Fig.1 Publishers'registration timestamp

图2 评论用户注册时间戳Fig.2 Commentators'registration timestamp

图3 为用户群体认证情况统计。在评论用户群体中,用户的认证情况分布较为相近。但在发布用户群体的认证情况分布上,两个群体比例存在显著差异,一个可能的原因是认证用户所发布的内容更容易出现在热门板块,但是发布用户的认证与否仍然极可能有助于谣言的检测。

图3 用户认证情况Fig.3 Verification of users

图4 用户粉丝数Fig.4 User follower count

图4 为发布用户及评论用户粉丝数分布箱线图,可以看出普通发布用户的粉丝数明显高于谣言发布用户。

图5 为用户动态数分布情况。在发布群体中,普通发布用户相较于发布谣言用户有更多的发表动态表现,因此传播路径中用户的动态发布数也很可能成为判断消息真实性的重要特征。

图5 用户动态数Fig.5 User status count

2.4 基于传播用户代表性特征学习的谣言检测算法

本文算法RPPC 模型结构如图6 所示,主要由四部分构成:传播路径构造与转换模块、基于门控循环单元的特征提取模块、基于卷积神经网络的特征提取模块和传播路径向量分类模块。

其中传播路径构造与转换模块将消息的传播过程处理为固定的输入模式,基于门控循环单元、卷积神经网络的模块对其进行学习,拼接后得到传播路径向量,最终交由传播路径向量分类模块给出消息真实性预测结果。

图6 算法RPPC 框架示意图Fig.6 Workflow for RPPC

通过门控循环单元及卷积神经网络模块获得ss后,将其拼接起来成为一个向量∈R

再将其输入多层前馈神经网络获得对于消息的预测。

RPPC 使用Softmax 函数作为神经网络的最后一层,并选取概率最大的作为预测目标值。

其中,为隐藏层的数量,l为第个隐藏层的输出,Wb为第层的权重矩阵及偏差,为最终的输出,代表对于该消息传播路径的可信度预测值。

3 实验及结果分析

本章对RPPC 算法进行实验验证。将RPPC 算法和现有工作中在早期谣言检测表现突出的谣言检测算 法PPC(propagation path classification)进行比较,并对特征及传播路径长度选取对算法表现的影响进行实验。

3.1 实验参数选取

在模型结构设计部分,与PPC一致,选取了GRU 输出维度及CNN 滤波器数量均为32,因此经过循环神经网络及卷积循环网络处理后得到的向量表示长度均为32,其中CNN 滤波器长度为3。传播路径分类部分的多层前馈神经网络中每层神经元数为20,进行实验后设定层数为4。

本文选择的批量(batchsize)大小为32,优化算法为Adam,学习率为1E-4,momentum 为0,多层前馈神经网络激活函数为ReLU。

为了更好地评估模型表现,本文进行了五折交叉验证。

3.2 实验结果与分析

将传播路径定义为在同条微博下的评论用户特征向量序列。Weibo2020 中,单条微博下的评论数量分布如图7 所示。仅有不到25%的微博评论不足10条,即超过75%的微博的评论数超过10。为了保证实验结果对绝大多数微博有效,对传播路径长度为10 的情况进行实验。

图7 数据集评论数分布Fig.7 Distribution of dataset comment count

本实验与PPC 一致,将PPC_RNN+CNN 模型作为基线,本文提出的将注册时间、认证情况、粉丝数、动态数四个特征作为输入的模型记为“RPPC_RNN+CNN”。本文同时也实现了模型的两个轻量级版本,只使用单一的循环神经网络或者卷积神经网络,分别记为“RPPC_RNN”及“RPPC_CNN”。为了验证模型特征选取是否合理,也在原有四个特征基础上依次添加了个人简介长度、用户名长度、关注用户数的模型进行实现,记为“RPPC_RNN+CNN_5”“RPPC_RNN+CNN_6”及“RPPC_RNN+CNN_7”,实验结果如表3。

表3 实验结果对比Table 3 Comparison of experimental results %

结果显示,本文提出的模型“RPPC_RNN+CNN”在准确率等指标上超过了基于转发路径并使用了8个用户特征的基线模型“PPC_RNN+CNN”,即在提高了迁移至其他应用平台可能性的同时兼顾了检测效果。同时,模型的表现也明显优于基于单一神经网络的“RPPC_CNN”及“RPPC_RNN”,说明将两类神经网络集成于模型中在当前问题中是具有意义的。此外,与“RPPC_RNN+RNN_X”系列模型的对比结果显示,增加模型使用的特征对模型表现几乎没有影响。因此本文认为提出的模型“RPPC_RNN+CNN”结构设计合理、特征选取得当,在检测效果上具有很好的表现。

3.3 传播路径长度对模型的影响

RPPC 对消息的分类基于传播路径,而路径长度越长,输入数据所包含的信息量越大,模型的表现则可能会得到提升。因此本文也对选取不同长度的传播路径对模型表现的影响进行探究,并对实际应用中的模型选取进行讨论。

基于图8 对于Weibo2020 中微博评论数量随时间增长的情况统计,发现在检测时间1 h 内,平均一条微博会收到60 条评论,因此本文对传播路径长度在10~60 之间的模型表现进行实验。

图8 微博评论数随时间增长情况Fig.8 Weibo comment increasement with time

选用不同长度传播路径的模型运行结果如图9所示。

实验结果显示,总体而言传播路径长度对RPPC表现的影响并不大,因此本文认为选用输入传播路径长度为10的模型,便可以对5 min内发布消息的真实性进行预测,具有很好的时效性,符合本文场景的需要。

4 总结与展望

本文针对目前辟谣工作中大量依靠人工举报筛查、工作量大而时效性不高的情况,提出以高时效性谣言自动检测分析代替传统的人工举报筛查机制,推进互联网+政务服务,帮助提升政府的公共舆情治理能力。具体工作如下:

收集最新的数据集Weibo2020 并进行真实性标注,通过对其中用户群体的特征分布进行特征选取,在此基础上设计并实现了基于传播用户代表性特征的谣言检测算法RPPC,其具有迁移至社交媒体类之外应用平台可能性,并通过实验测试该方法的有效性。实验结果表明,RPPC 与同规模的基于传播路径的算法,在输入数据规模减少了50%的同时,提高准确率2.57 个百分点,能对5 min 内发布的消息进行真实性预测,且准确率达到约80%。

图9 传播路径长度对模型表现的影响Fig.9 Influence of propagation length on model performance

同时,也必须指出本文工作使用数据集的局限性。首先,由于采集的数据集规模有限,受当前较为特殊的时间环境背景影响较大,在与Liu 等人工作的比较中很可能存在偏差,算法的性能表现还需要在未来工作中构造规模更大、覆盖面更全的数据集,进而进行更全面的测试、调整。此外,由于在实际运用场景中,谣言与真实消息的存在比例远小于数据集中所选取的1∶1,在进行实时过滤时可能会出现将较多普通消息判断为谣言的情况,目前本文模型RPPC的检测结果仅作为对消息真实性的初步判断。

在未来的工作中,为了能够帮助提供更好的服务质量,可以考虑从扩大数据集规模、调整数据集构造比例等方面进一步对算法性能进行测试;同时,为了提高服务覆盖面及服务质量,应构造综合资讯类应用平台数据集,实地验证该方法的可迁移性,并考虑使用多种检测方法相结合的方式,对处于各个传播阶段、包含信息量不同的消息提供更有针对性、准确率更高的检测。

猜你喜欢
谣言消息特征
离散型随机变量的分布列与数字特征
中国使馆驳斥荒谬谣言
不信谣言 科学防“疫”
一张图看5G消息
抓特征解方程组
不忠诚的四个特征
晚步见道旁花开
你被养生谣言忽悠过吗?
谣言π=4!
抓特征 猜成语