宋磊
摘要:在互联网飞速发展的今天,流言作为信息的一种,其危害在社交网络的作用下不断地被放大。随着社交网络的迅速发展,流言传播无论从影响规模上和还是传播速度上来说都每日剧增,这使得人们对判别流言和抑制流言方法的需求也随之增长。为了对社交网络中的流言进行判别与溯源,从真实社交网络数据爬取入手,基于数据的时间轨迹,挖掘出流言的传播路径,构建信息传播网络,并基于传播网络拓扑特征分析对流言进行判别和溯源。并且基于传播网络以及相关拓扑特征信息,提出了通过检测其连通分支节点数目和直径分布是否满足幂律分布来判别该网络中是否有流言存在,对不满足幂律分布的,通过检测“离群点”的方法来初步定位流言。
关键词:社交网络;流言;传播路径;判别与溯源
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2019)04-0006-03
Abstract: Today, with the rapid development of the Internet, rumors as a kind of information, its harm is constantly amplified by the role of social networks. With the rapid development of social networks, rumors spread daily, both in terms of scale and speed of communication, which has led to an increase in the demand for discriminating rumors and suppressing rumors. In order to discriminate and trace the rumors in the social network, start from the real social network data crawling, based on the time trajectory of the data, mine the propagation path of the rumors, construct the information dissemination network, discriminate and trace the rumors based on the topological characteristics of the propagation network. Based on the propagation network and related topological feature information, it is proposed to determine whether there are rumors in the network by detecting whether the number of connected branch nodes and the diameter distribution satisfy the power law distribution. Then detecting the "outlier point" of the power law distribution to initially locate rumors.
Key words: Social network; rumors; propagation path; discrimination and traceability
1 研究背景
社交网络就是社交网络服务,它源自英文SNS(Social Network Service)的翻译。基于Web2.0的社交网络已经成为人们日常生活中维系社会关系和信息传播的重要方式,在社会的各个方面都产生了深远的影响:(1)社交网络上的人们通过各种联系形成了各种“关系结构”,其中最显著的便是形成了大量的虚拟社区;(2)基于社交网络的关系结构,社交网络用户围绕着某个热点事件或者话题聚集在一起,相互作用,影响,构成了社交网络上具有相似特征的“网络群体”;(3)社交网络推动下,使得现实信息一旦变为“网络信息”,得益于社交网络本身自带的关系结构以及各种网络群体的出现,将以往常难以想象的速度在网络上扩散,网络世界与现实世界的信息互动将不可避免地造成影响。
流言与社交网络的结合不仅改变了流言传播的方式,同时也使得流言的传播群体更容易被同化和产生从中心理。因此,对真实社交网络中流言传播模型以及其判别方法的研究具有非常重要的现实意义。近年来,尽管社交网络中的信息传播已经是当前热点之一,但是大多數研究只是提供了传播理论以及传播模型,却没有结合真实社交网络的数据来分析;也有一些文章研究了传播过程中每个节点的行为及其影响,但是没有从整体上去分析和研究社交网络中整个话题的信息传播;同时,当前对于真实社交网络上的流言并没有一个有效判别和溯源流言的方法。本文正是基于这样的状况,提出了一种从公共信息中判别流言的方法,并做到简单的溯源,找到流言来源。
2 实验分析
本文样本数据是通过选取不同时间twitter上的三个热门话题来作为搜索关键字,获取推文数据和相关用户数据,它们分别为BroadwayACeleb,FlyDubai,MakeTVShowsEvil。我们为每一类关键字建立了对应的信息数据库。
2.1 社交网络信息传播网络构建
传统社会网络中,通常以信息内容为主体,而在在线网络中,信息依赖于人与人之间的好友关系进行传播,通过人与人之间的关系影响人与信息的关系。具体到本文中我们采用的Twitter,信息传播往往依赖于Twitter用户之间的关注与被关注的关系,因此我们在构建信息传播网络中着重考虑了这一点。
网络由点与边构成,构建信息传播网络首先就是定义网络中点与边代表的内容。
首先是信息传播网络中的点,我们将话题下的每一条推文视为一个节点,这个节点对应我们数据库中的一个文档,因而每个节点都有一个用户ID,一个对应的推文发布时间,同时也带有该用户的粉丝列表。
其次是边的生成。由于我们所获取的推文是在关键字搜索下得到的,因而传统的转发关系不能很好地描述我们话题数据库中的所有信息,因而在这个信息传播网络中,我们需要重新定义一种关系来描述信息的传播,结合社交网络的实际:Twitter用户发推往往受其关注者发推影响,我们对于每一条用户发的推文,都去查询:是否这个用户的关注者中在不久前发布了同样话题的推文。具体来说,在信息传播网络中,对于一个节点A,我们进行以下处理:
初始化最相邻时间tnearest,遍历数据库,对于每一条推文B(对应网络的一个节点),
(1)查询A對应的用户ua是否在B对应用户ub的粉丝列表中,如果是,执行(2);否则,跳过该节点,继续查询下一条推文
(2)比较B对应的推文发布时间tb与最相邻时间tnearest(初始值设定为早于ta的某个时间),若tnearest 在遍历完整个数据库后,我们就找到了节点A对应用户关注者中最新发布相同话题的用户IDidnearest_time,在节点A和idnearest_time对应的节点之间我们生成一条边。 对每一个节点都进行上述处理,我们信息传播网络中的边就由此生成。 2.2 拓扑网络特性分析 由于我们所获取的推文来自同一个话题,推文用户本身并没有特殊的联系,因而网络应该由各个不同的小网络构成,每个小网络中的节点用户都或多或少存在关注与被关注的关系,其中还存在很多单个节点,这些节点在我们所得的数据库信息中是单独的,不存在互相关注的关系。我们根据话题数据库构建的话题传播网络也验证了这一点,整个网络由一个个连通分支构成,从话题传播网络中可以直观地发现:网络中最多的是直径为1(两个节点的连通分支)的连通分支,而直径特别大的连通分支数很少,连通分支的数量随着直径(节点数目)的增长而急剧减少。 之后我们定量分析拓扑网络特征,分别针对三个不同的话题网络统计了其联通分支的节点数目和直径分布(图1-图3)。 我们可以直观地看出,直径很大或者节点数目很多的连通分支数量很少,大多数都是直径为1或者说节点数目为2的连通分支,直径分布和节点数目分布图呈现幂律分布的特征。 2.3 验证幂律分布 如果样本数据满足幂律分布,那么对其横纵坐标都取对数,即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,我们以直径分布为例,将传播路径网络的直径分布图转换为双对数坐标,之后对散点图进行线性拟合,得到每个话题传播网络连通分支直径分布的双对数曲线,分别如图4到图6所示。我们可以看到,在双对数坐标下,直径分布几乎可被完美拟合为一条负斜率直线,因而,我们可以得出结论,话题传播路径网络的连通分支直径分布满足幂律分布。 2.4 “离群点”与流言判别 2.4.1 “离群点”检测 在样本空间中,与其他的样本点的一般行为或者特征不一致的点,我们称为离群点。在这里,我们把双对数曲线中明显偏离拟合直线的点称之为“离群点”,例如图6中的第四个点,它明显偏离拟合曲线,我们称之为“离群点”。那么,如何确定这样的“离群点”呢? 在聚类分析中,离群点检测常用的方法包括基于统计分布的离群点检测、基于距离的离群点检测、基于密度的局部离群点检测、基于偏差的离群点检测等。 基于统计分布的离群点检测:这一类离群点检测方法首先假设样本空间中所有的数据符合某一个分布或者某一个数据模型,之后基于模型或者分布采用不和谐校验的方法来识别离群点。这种离群点检测方法需要我们预先知道样本空间中的数据结构的分布特征,这在检测之前我们往往无法获知。 基于距离的离群点检测:这种检测方法定义如果在样本空间S中与对象O的距离大于d的至少有N个样本点,那么我们称这个对象O是以N(指至少N个样本点)和d为参数的基于距离的离群点。这种检测方法需要数据均匀分布,如果数据分布不均匀,那么可能检测就会遇到困难。 基于密度的局部离群点检测:定义如果某个对象属于局部离群点,那么相对于它自己的局部领域,它是远离的。区别于前两种方法,基于密度的局部离群点检测不将离群点看成是二元性质的点,换句话说,不仅仅是判断一个点是否离群点,而是有一个权值来描述离群程度,它可以应用到样本分布不均匀的情况下。 基于偏差的离群点检测:这种方法通过检查对象的特征,查看其是否有“偏差”的特征,通过这种方法来判别是否为离群点。 对图3中的三个样本分别进行“离群点”检测,我们发现图4和图5不存在离群点,而图6的第四个点为离群点,这与我们对图像的直观印象相符。 2.4.2 流言判别与溯源 研究表明,公共信息的相关分布符合幂律分布,不存在2.4.1中定义的“离群点”。上一步我们基于距离检测,对每一个话题的样本空间进行了检测,关键字话题FlyDubai、MakeTVShowsEvil的样本空间中不存在“离群点”,那么我们认为这两个话题为公共信息,存在流言的可能性很低。而对于话题BroadwayACeleb,存在一个“离群点”,那么我们认为该话题下存在流言,且流言极大可能性存在于“离群点”所在的连通分支中,我们以”离群点”到拟合直线的距离为衡量标准,距离越大,那么”离群点”越偏离拟合曲线,流言的可能性也越大。这样,我们就将可能流言从公共信息中判别出来了,并指出了流言的来源分支。
3 总结
本文主要针对当前热门社交网络平台Twitter,以三个样本话题为例,获取真实社交网络数据,再进一步的将原始数据进行数据处理,得到信息传播网络构建所需的用户信息、用户关系信息,建立相关的话题数据库。之后,提出了一种新的信息传播网络的构建方法,基于此方法构建了网络信息传播网络。基于网络信息传播网络的拓扑特征分析,本文主要定量分析了话题信息传播网络连通分支的节点数目和直径分布,提出了通过检测其连通分支节点数目或直径分布是否满足幂律分布来判别流言的方法,对存在“离群点”的,通过检测“离群点”的方法来溯源流言。经实验研究,该方法与现实世界演化趋势相一致,证明了其对流言判别方向的启发性作用,有助于社交网络流言的判别与溯源。
参考文献:
[1] Tong H, Papadimitriou S, Philip Y et al. Fast monitoring proximity and centrality on time-evolving bipartite graphs[J]. Statistic Analysis on Data Mining, 2008, 1: 142-156.
[2] Ghoshal G, Zlatic V, Caldarelli G et al. Random hypergraphs and their applications. Phys Rev E, 2009, 79: 066118.
[3] 張彦超,刘云,张海峰,等.基于在线社交网络的信息传播模型[J]. 物理学报2011,5:050501(1-8).
[4] 赵远萍.即时通信系统拓扑建模及消息传播模型研究[D].北京:北京邮电大学,2010.
[5] Sznajd W K,Sznajd .A simple model of price formation[J] .Int.J.Mod.Phys.C ,2000: 1157
[6] 熊熙,胡勇,等. 基于社交网络的观点传播动力学研究 物理学报[J], 2012,15: 10-110.
[7] Hethcote H. The mathematics of infectious diseases[J]. SI-AM Rev, 2000, 42: 599-653.
【通联编辑:梁书】