社交网络虚假舆情检测研究进展

2023-11-06 06:04:18卫红权刘树新
信息安全研究 2023年11期
关键词:核查舆情特征

王 标 卫红权,2 王 凯,2 刘树新,2 李 燃

1(中国人民解放军战略支援部队信息工程大学 郑州 450001)

2(国家数字交换系统工程技术研究中心 郑州 450002)

(wangbiao9911@163.com)

虚假舆情是困扰公众和社会治理部门的现实问题.虚假舆情的形成与网络舆论环境的复杂性相关[1].网络虚假舆情给网络舆情生态、社会和谐、政府决策造成了严重的负面影响[2].

在社交网络领域,舆情是作为主体的民众以媒介为载体反映现实社会这一客体的动态过程,它有可能是少数人从自身利益出发凭空捏造的,而客观上并不存在;也可能尽管在一定程度上存在,但其原意却在一系列手段运作下被放大或被掩盖,这些都视为网络虚假舆情[2].

虚假舆情是一个社会科学概念,现有的文献研究通常在社会科学领域.但是在自然科学领域,它没有一个统一的形式,要具体研究它,从哪些形式可以入手?是谣言?假新闻?还是网络欺凌?为了方便从自然科学角度研究分析虚假舆情的传播与检测,本文将以下主题拓展为其外延表现,包括但不限于:误导消息、虚假新闻、网络谣言、网络讽刺、网络欺凌、恶意言论等.

Tandoc等人[3]提出了一种基于真实性和欺骗意图的类型描述.在此基础上,本文用真实性和意图对以上几种外延形式进行描述,如表1所示:

表1 外延表现描述

1 特征工程

从数据中构造或提取特征称为特征工程[4].本文主要从细粒度的单文本输入对象[5]中提取特征,包括推文元数据[6](如发布时间、转发数、点赞数、超链接等)、文本内容、用户信息、结构信息等,也有部分多模态检测文献中利用了图片或视频信息.相关研究如表2所示:

表2 可用于虚假舆情检测的特征

舆情从诞生、传播到消弭,在不同阶段所获取数据的特征维度是不同的.当前文献对于不同阶段的虚假舆情检测没有进行详细划分,只是粗略地提出了早期检测的概念.而且这些文献对早期检测的定义不一,早期检测所用数据的采集标准也不一样.

Zhou等人[16]将推文发布的最早期,即谣言尚未开始传播的阶段定义为早期.Bian等人[17]以及Kwon等人[18]利用时间窗采集谣言检测的早期数据,这也是很多文献常用的方法.Chen等人[19]以及Ma等人[20]则按样本比例或者数量采集数据进行早期检测.

针对上述问题,同时为了方便研究,本文引入舆情传播周期[21],将舆情传播划分为5个阶段:萌生期、发展期、爆发期、衰落期、消弭期.

首先定义了2个指标:N用户-时间窗(TN)和阈值基线(B).TN表示每增加N个用户参与(如转发、评论等)谣言传播所经历的时间.不同类型的数据集、不同节点级别的传播图的用户增长趋势不同,此时,阈值基线B可用于选取不同级别的事件.

如图1所示,在上述2个指标的基础上,本文进行了以下划分:

图1 舆情传播周期

萌生期.源注入用户发布推文的最早期,舆情还没有开始传播演化,用PG表示.

发展期.萌生期到爆发期之间的过渡阶段,用PD表示.

爆发期.参与舆情传播的用户节点迅速增加,连续M个TN的均值低于设定的阈值基线B,当前观测点进入爆发期,用PO表示.

衰落期.参与舆情传播的用户节点增加变慢,连续M个TN的均值高于设定的阈值基线B,当前观测点进入衰落期,用PF表示.

消弭期.随着信息重要性的下降或是模糊性的降低,舆情的传播效度(即N用户-时间窗指标)逐渐降低并低于某一阈值,用PE表示.

在舆情传播周期的基础上,本文分别就萌生期、爆发期、消弭期3个阶段的特征工程进行讨论.需要注意的是,爆发期、衰落期、消弭期可能不止1个周期,也可能舆情进入消弭期后会再度成为新的网络话题而进入下一个传播周期.所以在消弭期进行虚假舆情的检测同样具有重要意义.

用p表示舆情传播所处的时期,则有:

(1)

(2)

1.1 萌生期特征选择

基于传播的方法是建立在舆情开始传播的基础上.而当越来越多的人接触到虚假舆情时就越可能相信它,而且越来越难以修正这种偏见,即所谓的确认偏见[22-23].而且信息在传播过程中,相同兴趣的人也会忽略其他不同的意见,导致回音室现象[22-23].所以在推文一经发布的萌生期进行虚假舆情的检测具有十分重要的意义.在萌生期,舆情还没有开始传播,只有用户-发表-推文的三元组信息可用,也就是用户信息、发布行为信息以及文本信息,多模态检测方法还可以利用图片和视频信息等.如表2中只利用文本内容或用户信息或图片视频的文献,具体描述如下:

1) 用户信息即用户的账户基本信息,如账户ID、地理位置信息、用户注册数据、是否经过验证、是否有描述、粉丝数、关注数、互粉数、收藏数、发帖数等[24].用户信息既可以直接用作学习建模的特征,也可以在此基础上进一步提取用户行为特征用于建模.Shu等人[25]认为可信度低的用户更有可能传播假新闻,而可信度高的用户传播假新闻的可能性较小.而Vicario等人[22]将用户极化和确认偏见等用户行为作为传播错误信息的潜在特征,用以确定恶作剧和假新闻.

2) 文本信息主要从语言层面描述:语法特征、语义特征及情感特征.

语法特征包含文本长度、词汇频次、词性、标点符号等统计特征,英文文献中还有大小写字母、字符串长度等;语义特征主要针对消息文本在深层次的语义层面进行特征提取或抽象表示,从而获取消息文本的潜在语义特征;情感特征即从情感极性的角度分析消息文本.由于舆情在传播过程中很大程度上受心理和情绪因素的驱动,且相比正面情绪,煽动负面情绪更易加速舆情传播.除了基于纯文本的情感分析,Felbo等人[8]还将基于表情符号的情感标签应用于讽刺检测,提升了分类性能.

1.2 爆发期特征选择

虚假舆情是注入者模仿真实内容发布的,因此具有很强的迷惑性,仅仅通过用户信息以及文本信息等很难进行区分,需要更多的信息辅助判别[26],如传播结构信息等.从传播的角度检测虚假舆情可以调查和利用与传播相关的信息,更能揭露现实世界中虚假舆情的传播本质[23].

当舆情开始传播并进入爆发期时,选取观测点之前所有的转发评论节点数据用于检测.下面主要介绍2种同质传播网络[25]的构建:

1) 用户-转发推文-用户传播网络.网络的根节点表示第1个共享舆情内容的用户(即发起者),传播网络中的其他节点表示在父节点发布推文后进行转发的用户,如图2(a)所示.

2) 推文-立场观点-推文传播网络.网络的根节点表示用户发布的推文等内容,传播网络中的其他节点表示其他用户的转发文章,立场有支持、质疑、否定等,如图2(b)所示.

从传播网络的角度检测虚假舆情相当于对整个网络进行分类.从传播网络中可提取结构特征、模式特征以及图嵌入表示等用于虚假舆情的检测.

结构特征也称级联特征,即传播网络的拓扑特征,包括节点度、网络直径、网络尺寸、k核(k-Core子图中,每个顶点至少具有k的度数,且所有顶点都至少与该子图中的k个其他节点相连)等,如表3所示.模式特征即虚假舆情与事实在模式上的区别.

表3 网络结构特征

传播假新闻的用户多于传播真实新闻的用户,假新闻比真实新闻传播得更远,传播者对假新闻的评论更多,假新闻传播者比真实新闻传播者形成更密集网络[28].

谣言比真实新闻更容易受到质疑[29],或者说有争议的事实主张会引起某些反应,如好奇、怀疑和惊讶[30].虚假的故事在传播中激发了恐惧、厌恶和惊讶,而真实的故事激发了期待、悲伤、喜悦和信任[27].

虚假新闻比真实新闻更新颖,这表明人们更可能分享新奇的信息[27].

模式特征是基于一定经验知识提取的结构特征,是在结构特征基础上进行的.

结构特征在网络尺度较大时计算成本也大、效率低,不适合较大网络的分类.图的嵌入表示是将图转换为向量或向量集,可以捕获图的拓扑结构、顶点到顶点的关系以及关于图、子图和顶点的其他相关信息,能够很好地解决传播网络数据难以高效输入到机器学习算法的问题.

1.3 消弭期特征选择

爆发期检测只能利用有限的局部传播特征,虚假舆情与真实事件在局部传播特征(如传播的深度、广度等)上具有相似性,但是完整的虚假舆情事件与真实事件在模式上却存在很大区别.在消弭期可获得一个传播周期内的全局信息,包括用户信息、文本信息、全局传播信息、推文元数据(如转发数、点赞数、收藏数)等.如表2中所有的特征.

元数据指的是推文在创建和转发时的特征.如超链接(允许文章的发起者交叉引用不同的来源,从而通过证明文章的来源来获得浏览者的信任[31])、转发数、评论数、发布者、标题、发布时间等文本内容外的标志标识.

全局结构信息与爆发期获取的结构信息类似,但是在舆情传播临近结束或结束时能获取更全面的结构信息.

2 技术方法

谣言检测方法主要有2种技术路线:人工事实核查以及自动检测方法.

2.1 人工事实核查

最初的虚假舆情检测是通过事实核查网站进行的,主要采用人工进行事实核查.人工事实核查是传统的事实核查方式,这些方法或者是基于专家,或者基于众包.基于专家的事实核查方式易于管理,结果准确度高,但成本高昂,而且随着核查内容数量的增加,规模容易被限制.基于众包的核查方式容易扩大核查规模,但核查者的认知偏见和相互冲突的见解成为一种新的阻碍,可信度和准确性都较低.不管采取哪种方式,这种人工的方法费时费力且覆盖率低,已经越来越不适应虚假舆情检测对规模、实时、准确等方面的要求.

2.2 自动检测方法

人工事实核查规模小,成本高,随着社交网络的普及,这种方法只适合小规模的运营使用,对于更大范围的虚假舆情检测,研究者们已经探索出以下自动检测方法.

1) 自动事实核查.

自动事实核查分为2步:知识构建与事实核查.知识构建是从开源的网页和数据库中抽取需要的原始事实(实体,关系,实体)或者(实体,属性,属性值)2个三元组,通过本体构建,实体抽取,关系抽取,实体链接、消歧、融合,知识更新,知识推理等技术构建知识图谱.接下来就可以进行自动事实核查,可形式化描述为:待验证的舆情内容为(hi,ri,ti),i=1,2,…,n,KG表示包含某些事实的知识图库,也用1组三元组表示(hi,rj,tj),j=1,2,…,n,则事实核查可表示为

(3)

其中,F为核查函数,通过将待验证三元组表示(hi,ri,ti)与知识库中的三元组进行匹配,给每个三元组输入分配一个真实性值Vi,A为聚合函数,通过将1组真实性值进行聚合得到待验证内容的最终输出,其中V,Vi的取值范围均为[0,1].设定阈值θ,超过阈值则为假.

2) 传统机器学习方法.

研究者将各种机器学习算法应用于虚假舆情检测,取得了很多成就.传统的机器学习方法如决策树[32-34]、支持向量机[32]、随机森林[35]、基于概率(如朴素贝叶斯[35-37]和贝叶斯网络[37-38])、K-近邻[23]、回归模型(如逻辑回归[36]和岭回归[37])、传统自然语言处理[39]等,采用手工提取特征,从用户、文本内容、元数据以及传播结构等信息中提取有用的特征用于发现虚假舆情,非常耗时耗力,而且不能提取深层的特征.

3) 深度学习方法.

随着社交网络的发展,用户数量以及发布推文数量越来越多,虚假舆情的浅层特征越来越模糊,基于传统机器学习的方法已经不能适应更大体量数据的检测,人们开始探索更加有效的分类方法,如深度学习方法得到更多人的青睐.深度学习方法不依赖于人工提取特征,可以端到端输入输出,能够提取到更深层次的特征,准确率、召回率等指标一般都优于传统机器学习算法.

一些深度学习模型专注于提取文本内容的深层语义信息,如卷积神经网络(CNN)[40-45]、BERT预训练模型[46-48]、长短期记忆网络(LSTM)[49-51]、门控循环单元(GRU)[52]等.但虚假舆情内容通常是故意编写的,目的是通过模仿真实事件误导用户,因此需要探索辅助信息来改进检测[26].于是越来越多的模型开始探索舆情传播的结构信息,如RNN[20],GRU[52-53]等模型可以提取舆情传播的时序信息,而图卷积神经网络(GCN)[17,54-56]则可以提取到舆情传播的空间结构信息.沿着时序关系链条的深度传播以及在社区空间结构内的广度扩散是舆情传播的2个主要特征[17].

深度学习方法虽然得到广泛的应用与研究,但其可解释性不强、鲁棒性弱、调参困难等问题也不容忽视.相对来讲,深度学习适合进行虚假舆情的感知与预警,但其可解释性不足的问题让人们无法完全信服模型的判断,而人工选择特征,可解释性较强的传统机器学习算法更适合进行决策.

3 可用数据集

社交媒体中的虚假舆情检测旨在从现有的社交媒体数据集中提取有用的特征并构建有效的模型,用于未来的虚假舆情检测.考虑到数据可及性问题,由于平台API提取限制,用来研究的社交平台很少,多集中在Weibo和Twitter上.Medeiros等人[57]也发现Twitter和Weibo是相关研究中应用最多的社交媒体平台,在这些数据集上深度学习算法给出了最好的检测结果.本文列举了部分可用于验证虚假舆情检测模型的可用数据集,主要为假新闻和谣言数据集,如表4所示:

表4 可用数据集

4 评价指标

本文主要介绍监督学习的评价指标.在有监督的分类模型评判指标中,常见的方法有3种:混淆矩阵(也称误差矩阵)、ROC曲线、AUC值.

1) 混淆矩阵(confusion matrix).是一种特定的矩阵,用来呈现算法性能的可视化效果.其每一列代表实际的类别,每一行代表的是预测值(反之亦然).交叉之后形成4类情况:

① 真正例TP(true positive).被正确预测的正样本数.

② 假正例FP(false positive).被错误预测为正样本的负样本数.

③ 真负例TN(true negative).被正确预测的负样本数.

④ 假负例FN(false negative).被错误预测为负样本的正样本数.

正样本是指属于某一类别的样本,负样本是指不属于某一类别的样本.将这4个指标一起呈现在表格中就能得到混淆矩阵.如表5所示:

表5 混淆矩阵

由混淆矩阵4个基本概念产生如下2级指标:

① 精确率Pre(Precision),又称查准率,即所有正样本中有多少被正确预测,如式(4):

(4)

② 准确率Acc(Accuracy),即所有样本中有多少被正确预测,如式(5):

(5)

③ 召回率Rec(Recall),又称查全率,即所有预测为正确的样本中有多少是正样本,如式(6):

(6)

④ 特异度S(Specificity),即所有预测正确的样本中有多少负样本,如式(7):

(7)

由以上4个指标进行拓展,产生3级指标F1值,一般来说,查准率高时查全率往往偏低;而查全率高时,查准率往往偏低.F1值综合了precision与recall产出的结果(精确率和准确率都高的情况下,F1值也会高).F1值的取值范围从0到1,1代表模型的输出最好,0代表模型的输出结果最差.如式(8):

(8)

2) ROC曲线.ROC曲线是另一种用于评价和比较二分类器的工具.它和精确率/召回率曲线有着很多的相似之处,但也有不同之处.将真正类率(TPR,即Recall)和假正类率(FPR,被错误分类的负样本的比例)对应着绘制在1张图中,而非使用精确率和召回率,得到ROC曲线.其中:

(9)

(10)

FPR越大预测正类中实际负类越多.TPR越大预测正类中实际正类越多.理想目标:TPR=1,FPR=0.

3)AUC值.被定义为ROC曲线下的面积,显然这个面积的数值不会大于1.AUC值越大的分类器正确率越高.

5 研究与挑战

随着网络空间的急剧变化,传统的虚假舆情检测方法面临一些新的挑战,同时也促进了虚假舆情检测技术的进一步发展.下面简述当前虚假舆情检测面临的问题及未来可关注的方向.

1) 分布式联邦学习.当前文献进行研究的数据体量较小,而真实世界中的数据体量比实验数据大多个层级,其模式无法适应真实网络的应用,需要进行更大规模的数据承载以及分析.为了保证数据的隐私以及数据的批量处理,实现跨域共享,下一步可以利用分布式联邦学习解决更大数据量的谣言检测.

2) 多模态跨域检测.很多研究局限于社交网络或者单一模态的数据.而不同的平台,不同的网络、不同模态的数据中蕴含不同的信息.这些数据在网络和属性耦合的过程中,能够为识别谣言提供更有价值的信息.在联邦学习的基础上整合多域多模态数据,可以进一步提高谣言识别的效果,增强定位谣言的可解释性.

6 结 语

本文将虚假舆情的外延表现具体化,将误导信息、假新闻、谣言、讽刺、网络欺凌、恶意言论等拓展为虚假舆情的表现形式,以便从自然科学角度分析虚假舆情的注入与传播.为了清晰有效地刻画早期检测的概念,本文将舆情传播周期的概念融入虚假舆情检测,分析探索了不同阶段特征工程的不同,以及如何从舆情传播不同阶段进行检测.总结了近年来在虚假舆情检测方面的突出研究,主要介绍了特征工程、技术路线、可用数据集、评价指标以及一些研究与挑战.

猜你喜欢
核查舆情特征
对某企业重大危险源核查引发的思考
关于设计保证系统适航独立核查的思考
基于无人机影像的营造林核查应用研究
林业科技(2020年3期)2021-01-21 08:28:52
如何表达“特征”
不忠诚的四个特征
当代陕西(2019年10期)2019-06-03 10:12:04
抓住特征巧观察
舆情
中国民政(2016年16期)2016-09-19 02:16:48
舆情
中国民政(2016年10期)2016-06-05 09:04:16
舆情
中国民政(2016年24期)2016-02-11 03:34:38
采用保留被测件进行期间核查的方法
计测技术(2014年6期)2014-03-11 16:22:17