社交网络用户谣言转发行为预测算法*

2022-02-16 08:33:58刘笑影
计算机与数字工程 2022年1期
关键词:发布者谣言社交

方 冰 刘笑影

(上海大学管理学院 上海 200444)

1 引言

预测谣言传播具有重大意义,这是因为谣言在社交网络上更易传播,社交网络上的谣言具有极大的破坏性,并且往往传播速度比普通信息更快[1]。由于社交网络特有的传播方式:社交网络上的信息传播参与者除了有信息发布方之外,信息的接收方同时也是信息传播的参与者,而且是主要参与者。这种传播方式使得社交网络上的谣言传播速度更加迅速传播范围更加广泛,其造成的恐慌和后果也更加严重。鉴于此,对社交媒体谣言传播的研究就变得愈加重要和紧迫。

现有的预测谣言传播的研究主要分为两类:第一类是基于经典的谣言传播模型,如流行病传播模型和SIR 模型。第二类是采取机器学习的方法,通过识别特征进行训练模型。然而这些研究都针对谣言在大规模群体中的传播规律,鲜少涉及到谣言在具体个体中的传播规律。而这方面的研究对于精准定位谣言传播者以及高效切断谣言传播途径具有不可或缺的作用。

为了克服这一局限性,本文提出了一种新的基于信息传播理论的谣言个体转发预测算法。该算法基于社会网络理论,认为用户转发谣言是受到谣言发布者以及谣言内容的共同影响。本文通过使用NLP相关技术和复杂网络分析算法等技术,计算这两大类影响力强度,最后利用这两大类特征构建社交网络用户个体谣言转发预测算法。

2 相关工作

现有的预测谣言传播的研究主要分为两类:第一类是基于经典的谣言传播模型。第二类是基于机器学习方法来预测谣言转发。

2.1 经典的谣言传播模型

经典的谣言传播模型主要建立在流行病传播模型基础上,最常见的两种模型是双态模型和三态模型。Daley 和Kendal[2]首次提出经典的谣言传播的数学模型,他们将个体分为三类状态,将未听说过谣言的人称为易染者S,听过谣言并进行传播的人称为感染者I,听过谣言但不进行传播的人称为免疫者R。Kermack 和Mckendrick 提出的SIR 模型[3]。Zanette 等[4]考虑了网络结构对谣言传播的影响。Moreno 等[5]则面向无标度网络中的谣言传播过程,提出了相应的谣言传播模型。Li 和Gu[6]等在SIR模型基础上提出遗忘记忆机制。

2.2 基于机器学习的谣言预测方法

基于机器学习的谣言转发预测研究方法主要聚焦于两点:改进特征指标、改进算法。

在改进特征指标方面,Morchid 等[7]的实验选取的指标主要有信息的形式、信息的内容、信息的情感,用NLTK、SNOWNLP 等技术算出信息的情感指标和信息发布者的影响力,用粉丝数量衡量。其综合以上指标对于信息转发进行预测。Nesi,P.等[8]选取微博链接数、@用户数目、标签数、博文点赞数、tweet 发布时间、博文持续时间、博主在此博文后续发布其他博文数量、博主粉丝数等指标进行预测博文转发。在改进算法方面,Zhao 等[9]依据用户粉丝的兴趣、用户行为和博文内容来预测信息被转发的次数。Huang 等[10]使用贝叶斯算法对用户兴趣进行分类,并根据微博内容预测用户是否感兴趣,在预测用户转发行为的同时也对用户兴趣建模。罗知林等[11]构建了随机森林算法预测用户会转发哪些信息。

综上所述,经典的谣言传播模型的不足主要在于没有考虑更加全面合理的影响因素,因此不能准确预测谣言的传播。基于机器学习的谣言预测研究大都只是提出特征,而未提出一个完整的特征框架。针对两类研究的不足,本文基于信息传播理论与社会网络理论,首先考虑到更加全面合理的影响因素,其次建立了社交网络上用户个体谣言转发行为的影响因素框架,此框架为后来的研究者在研究社交网络上谣言转发行为的过程提供理论帮助。

3 研究框架

由信息传播理论,人们在与他人的交流和互动中受到影响的过程的中心作用,这导致了社会影响的产生[12]。Wellman 提出人们通过交流和互动形成的社会关系,使他们能够学习和反思他人的选择或意见[13],由此产生的社会影响的强度反映了连接它们的社会关系的强度。此外,Morchid[14]等提出信息的传播除了与发布者影响力密切相关外也与信息本身的影响力有很大关系。

综上所述,根据信息传播理论,本文认为用户最终是否传播特定谣言受到:发布者影响因素和谣言内容影响因素的共同作用。如图1所示。

图1 用户转发谣言影响因素

因此用户是否转发谣言受到两种影响因素的共同作用:发布者影响因素和谣言内容影响因素。基于此,本文提出了新的预测谣言转发算法。如图2所示。

图2 研究框架

3.1 社区划分

为了更好地研究基于社交网络拓扑结构影响的立场检测,我们将大型的社会网络划分成多个独立的社区[15]。本文采用最大化整个数据模块度的社区发现算法——Louvain算法[16]。

3.2 特征提取

3.2.1 发布者对个体用户的影响力强度

假设V={v1,v2,…vn} 是微博社交网络上一组用户。Wasserman 等[17]指出成对的微博用户是通过社会关系将他们联系在一起,且在微博社交媒体网络中这种社会关系存在是定向的。Brown 等[18]提出社会关系的强度反映了通过关系采取行动的强度。因此我们可以使用用户之间的关系强度来衡量用户通过关系转发谣言的概率。

我们使Xij代表:用户vi对用户vj的社会影响力,即社会关系强度。在有向的社会联系中,Xij一般不同于Xji。Xij=0,代表用户vi与vj没有社会联系。

社会联系的强度Xij可以通过互动强度来测量[24]。在本研究中,Xij由vi与vj之间的互动强度来衡量,互动强度可以通过三个维度进行衡量,即可以由vi用户与vj用户之间的点赞、转发、评论的互动频率进行衡量,如果实体之间没有互动,则Xij=0。Xij作为三维向量,其表示方式如下:

其中:Lij代表用户vi的微博对用户vj在于点赞方面的影响力,其衡量标准如下:

其中zanij表示用户vi收到用户vj的点赞数,zanhj表示用户vh(h≠i)收到用户vj的点赞数,Lmax和Lmin分别代表用户之间在点赞方面的最大影响力和最小影响力。

Rij代表用户vi对用户vj在于转发方面的影响力,其衡量标准如下:

Cij代表用户vi的微博对用户vj在于评论方面的影响力,其衡量标准如下:

其中commentij表示vi的微博被vj评论数,commenthj表示用户vh(h≠i)的微博被用户vj评论的数量。

我们测量用户vi对用户vj的社会影响力(以下简称影响力influence power)Iij,通过使用用户vi和用户vj的社会联系强度Xij。

其中Xmax和Xmin分别表示最大和最小的社会联系强度,标准化有助于避免Iij依赖于Xij的测量单位。

3.2.2 谣言内容对个体用户的影响力强度

由于用户对于谣言携带特性的敏感度越高,其易感性越高,其转发谣言的概率越高[19]。用户对于谣言携带的特性的敏感性可以通过历史数据进行衡量。谣言特性可以通过以下几个维度进行衡量。根据Lazer 等[1],谣言的主要特性有以下几点:谣言信息形式(#@url length图片等)、谣言语义(分别使用谣言的句子向量、LDA、LSA、TFIDF来表示)、谣言迷惑性(模糊性、明确行为、谣言情感、趋利避害)等。

谣言计算:对于谣言在谣言信息形式方面的特征,计算如下:

我们用向量ti=(ti1,ti2,…tik)表示谣言Mi的原始数据字段,此时的特征没有经过转化数字、归一化等处理。例如:谣言t11=(谣言内容-是否有标签)。Mi1表示谣言Mi其第个特征,且Mip为经过处理的谣言特征向量。例如:M11=(0)。

如果此特征是离散型特征,如是否带有标签,是否@用户,是否带有网址,是否带有图片,是否模糊,是否带有明确行为等,那么对于谣言Mi其第p个特征Mip的计算方式为

如果此特征是实值或者整数,如此谣言的长度,微博的转发数、点赞数、评论数,谣言情感等特征,那么对于谣言Mi其第p个特征Mip的计算方式为

如果此特征是此谣言的语义特征,那么我们使用此谣言的句子向量来衡量,即用此谣言中的所有词的词向量Vecn的平均值来衡量此谣言的句子向量,即:

3.3 分类器选择

本研究提出了预测谣言传播影响因素的完整框架,把预测谣言传播问题转化成二分类问题,并在此基础上进行了分类实验。本研究采取预测转发常见分类方法[20]:支持向量机(SVM),逻辑回归(LR),朴素贝叶斯(NB),Adaboost(ADA)以及随机森林(RF)五种机器学习方法进行谣言预测实验。

4 实验过程与结果讨论

4.1 数据收集

本研究的数据来自新浪微博平台。数据集包含2018年4月~2018年8月微博平台上出现并广泛传播的9 条谣言微博,涉及38079 位用户,395622条转发关系。这些谣言涵盖了常见谣言话题,如人身安全、健康养生、死亡焦虑、风水迷信等,谣言具体信息见表1。

表1 谣言信息分布

4.2 谣言预测实验

针对谣言预测研究,本文设计了两个实验,目的在于证明本研究提出的影响因素框架的合理性以及考虑发布者对于个体的影响而非仅仅考虑对于群体的影响是必要的。

实验1:为了证明本研究提出的影响因素框架的合理性,即证明两大影响因素都是有效的。所以实验设计为评估各个影响因素下的算法预测能力和本研究提出的影响因素框架下的算法预测能力,即分别对谣言发布者对个体的影响因素和谣言内容对个体的影响因素和影响因素框架的预测能力进行评估。

实验2:为了证明本研究提出的特征能够更好地预测谣言转发,因此该实验为对比试验。即将特征划分为两部分,其中对照组包括(发布者对于群体的社会影响因素、谣言内容影响因素),实验组则在对比组的基础上多考虑了发布者对于个体的社会影响因素。

4.3 分类器选择

对于数据不均衡问题,本文采用欠采样的方式进行处理。训练集与测试集按4∶1 进行划分。实验1,实验2采用朴素贝叶斯(NB),随机森林(RF),支持向量机(SVM),Adaboost(ADA)和逻辑回归(LR)共5 种机器学习方法进行分类实验。所有实验均采用10折交叉验证。

4.4 评价指标

本文采用最常用的准确率、精确率、召回率和F1值作为评价标准。

4.5 结果分析

4.5.1 探究本研究各个影响因素和特征框架的有效性

我们设计实验1,得到各个影响因素下算法的预测能力。根据图3~图6的结果表明,本研究提出的影响因素框架中2 个影响因素:发布者影响因素和谣言内容影响因素都是合理并且是必要的。

图3 实验1准确率

图4 实验1精确率

图5 实验1召回率

图6 实验1 F1指标

4.5.2 探究各特征体系下的算法预测能力

我们设计实验2 进行对比各个影响因素框架下算法的预测能力。根据图7~图10的结果表明基于五个机器学习方法的实验组结果均优于对照组。这表明本研究提出的特征能够更好地预测谣言转发。

图7 实验2准确率

图8 实验2精确率

图9 实验2 F1指标

图10 实验2召回率

5 结语

本文基于社会网络分析、语言模型Doc2Vec、信息传播理论等方面的相关研究,对用户在社交网络上转发谣言这一行为进行深入的研究。本文的创新点如下。

1)本研究首次提出了一个预测谣言个体转发的预测算法。以前的研究多涉及到了谣言在大规模传播中的规律,忽视了谣言对个体影响力的研究。由于大规模辟谣的成本较高,而本研究对个体转发谣言的精准预测可以帮助精准定位受谣言影响道德个体,可以帮助大幅度减少辟谣成本。

2)基于信息传播等理论,本文首次提出一个完整的社交网络谣言个体转发影响因素的框架,这是之前研究所欠缺的。具体而言,此影响因素框架由两种影响因素组成:发布者对个体的影响力强度和谣言内容对个体的影响力强度。

猜你喜欢
发布者谣言社交
社交之城
英语世界(2023年6期)2023-06-30 06:28:28
社交牛人症该怎么治
意林彩版(2022年2期)2022-05-03 10:25:08
中国使馆驳斥荒谬谣言
环球时报(2022-04-13)2022-04-13 17:16:04
新加坡新法规引争议
社交距离
第一财经(2020年4期)2020-04-14 04:38:56
当谣言不攻自破之时
中国盐业(2018年17期)2018-12-23 02:16:56
你回避社交,真不是因为内向
文苑(2018年17期)2018-11-09 01:29:28
基于NDN的高效发布/订阅系统设计与实现
广告发布者的著作权审查义务问题研究
知识产权(2016年4期)2016-12-01 06:58:07
谣言