李雪尘
摘 要:当今大数据发展迅速,社交网络也成为人们日常使用的媒介,用户在虚拟网络中产生的大量数据有助于研究灾害问题,提升相关部门控制灾害的效率。本文基于暴雨期间的微博数据,对用户提及行为规律性进行研究,并分析社交平台内用户的提及行为对解决暴雨演变过程中并发问题的有效性。
关键词:提及行为 灾害 社交网络 大数据
中图分类号:P208 文献标识码:A 文章编号:1674-098X(2019)02(a)-0151-03
社交媒体数据规模和差异的不断扩大,可为预测事件发生前的未来结果提供新思路[1-2]。Andrew Crooks基于从Twitter挖掘的大量数据,克服了社交媒体不能像地震仪一样提供地震级别的衡量标准这一缺陷,并确定了地震的波及范围[3],充分展现了社交媒体对灾害研究的帮助。
在用户行为分析方面,Linna Li等基于Twitter中用户创建的地理数据与发布的照片,揭示了这些人的社会特征[4]。2015年Minh-Duc Luu等人比较了转发与提及两种行为与用户使用标签的相关性,发现提及行为更占优势,因此能更高效地反映用户交互与行为[5]。
在突发事件中,以相关性强的用户为对象研究其行为会更有意义。本文以新浪微博为数据挖掘对象,通过构建网络分析组件属性,发现用户提及关系在暴雨研究中的有效性。
1 实验方法
本文以2012年7月北京特大暴雨為研究对象,通过微博提供的API搜集暴雨期间的微博数据,从中筛选出带有“@”的信息并据此构建提及网络与组件,分析暴雨中用户的行为规律。
1.1 数据搜集与处理
以“暴雨”为关键词通过网络爬虫和新浪微博API爬取暴雨相关信息,并经过去重等预处理得到24855条有效数据。据此筛选出兴趣时间段2012-07-21-06到2012-07-24-04的16759条数据。之后去除这些数据中含有转发标志“//@”的文本,从所有数据中识别出6529个被@的用户名,作为构建网络的基础。另外,从处理后的数据中抽取500条进行采样分析,经过人工分类发现询问朋友情况与描述暴雨相关经历的微博占比超过60%,表明处于提及关系中的用户多数与暴雨有直接或间接联系。
1.2 网络构建
本文通过对社交网络中带有“@”的信息进行提取与分析,以有向图的方式创建了一个以用户为节点,以用户间提及关系为边,且具有连接关系的提及网络。此网络中包含6530个节点,4811条边,2108条含提及关系的微博,1825个组件。在处理组件时主要分析节点分布、微博数、平均度、聚集系数、网络直径这五种属性,通过组件内部特征反映灾害趋势。由此形成的具有分析价值的两大组件将在第2节详细阐述。
发布者与提及关系通过有序对(V,E)表示,可构建有向图G(V,E),V的出度表示为d+(V),是E中具有原点V的链接数;V的入度表示为d-(V),表示与被提及用户的链接数。同时,网络中包含多个组件,一个组件由节点V与边E构成,任意2个节点间有通过边连接的可能性。当一群节点互相连接且不与其它节点关联时,这群节点形成组件。
2 结果与分析
2.1 网络与组件
可从网络和组件的角度宏观分析暴雨中用户所发微博的规律、网络空间中提及行为的诱因。并判断信息传播的方向以及在网络空间和地理空间中的形式。
根据1.1所述方法从网络中随机抽取微博并进行人工分类,数量较多的类别为:询问朋友情况(36%),描述暴雨相关经历(31%),提醒朋友注意安全(7%),祈祷朋友安好(3%)。分析四种类别可知,暴雨发生时被提及用户的位置基本都在暴雨发生地;同处于暴雨中的用户可能在事件发生时或确认自身安全后使用微博来提及对方;同在北京的用户会因共同经历暴雨互相提及,北京以外地区的用户会发布微博@自己担心的朋友。可看出用户提及关系有助于信息在暴雨发生地、暴雨以外地区双向传播的。
按1.2过程形成的1852个组件中节点数与微博数差异较大(图1),其中多数组件内用户数为2~12人,节点数为2的组件有1015个,与正常情况下用户一条微博只提及一人的情况相符。总结发现,除去提及自身的用户,组件内节点符合幂律分布。另外,含不同微博数的组件数量也存在差别,几乎所有组件(1777个)只含1条微博,表明用户很少使用微博交流讨论,即暴雨发生时微博中用户交流较少。组件基本情况如表1所示,两大组件将在2.3中详细分析。
2.2 组件属性
此小节计算的组件平均度、平均聚集系数、网络直径是2.3中分析组件的基础。
(1)在计算平均度时,以节点数为纵坐标,以组件内平均度为横坐标。发现当样本数量足够大时两者与平均度开始出现正相关性。且当平均度超过2之后,即使微博与用户明显增多,平均度依然处于区间(2,3)中(图2)。首先取出14个平均度大于2的组件,去除只有两个节点但度异常多的噪声组件,剩余组件的平均度都介于(2,3),可推测出当用户与所发微博趋于无穷多时,平均每位用户涉及2-3段提及关系,说明用户间提及数量有稳定趋向。
(2)通过计算聚集系数反映用户相关性与交互行为(图3),去除度与节点数差距很大导致聚集系数异常高的噪声数据,剩余1个聚集系数较大(0.093355)的组件以及聚集系数为0的其它组件(1850个)。较多组件的聚集系数为0,说明用户很少通过微博互动,且可看出微博是用户发布动态、传播信息的空间,和微信等社交软件具有不同侧重点。
(3)通过网络直径(平均最短路径长度)反映组件内用户间关系远近。聚集系数从2开始与节点数、微博数有正相关趋势,最大的网络直径(7.90)对应2.4中最大组件,网络直径2.00对应以“请输入用户名”为中心的第二大组件。剩余具有较大网络直径的组件具有相似的规律,即多名用户发布多条微博且互相提及,且微博内容多为描述暴雨情况、关心问候,说明这些组件基本由现实中具有亲近社交关系的朋友组成。与平均度不同,随着节点与微博数量的增大,网络直径并没有停滞于特定区间,而是持续增大,说明在一个社交群体内用户数量越多,用户间具有亲近关系的可能性越小。
2.3 两大组件
找出微博与用户数量最多的两大组件(简称),以政府媒体等4个用户为中心,由其产生的提及或被提及行为形成组件内节点出入度,信息传播方向与现实空间类似的中心节点只有一个微博幽默博主,大量用户通过提及这位名人传递信息,体现了网络空间中的名人效应。
最大组件(图5)有四个出入度较多的聚集中心,都属于媒体、政府这类现实生活中的主要信息源。通过分析出度最多的节点(一位现场报道的记者)、入度最多的两个节点(“平安北京”与“北京发布”),发现在暴雨期间微博是用户反映交通电路等日常问题的有效途径,且可看出记者具有客观展现暴雨情况的功能,同时北京市公安局起主要救援作用,而同样入度较多的“头条新闻”却不能反映灾害内容。据此引出通过建模来分析用户角色的思路,以识别在灾害中具有特定功能的用户从而提高信息搜集效率。除建模识别用户特征外,可看出事件突发时利用微博实时搜集民众生活问题并传播信息的作用。
第二大组件由多位用户提及一位名为“请输入用户名”的幽默博主组成,其余节点入度几乎全为0,此博主入度高达51,接近平安北京入度(19)的3倍,说明不能简单地通过分析对比入度情况识别灾害中起重要作用的用户。但提及此博主的微博与暴雨发展趋势密切相关,可作为信息收集的主要来源。据此可知在突发事件中用户会通过提及现实中关系疏远的名人传递信息,即名人加入组件会加快组件扩张速率,因此具有影响力的用户是形成大组件的基础之一。以网络直径的角度可解释为,正是由于除普通用户相互提及外,还有涉及名人的提及与被提及行为,所以随着组件扩大,组件内用户关系趋向疏远。
3 结语
灾害发生时社交媒体产生大量数据,可作为研究用户行为的基础,并为灾害趋势的反映提供源头。已有很多从时空角度分析灾害发生期间用户行为的研究。社科类研究多聚焦于用户提及转发等行为的对比[2],少有针对灾害中用户行为的分析。
本文的成果可总结为两方面:一是分析了暴雨发生时虚拟网络空间内用户提及行为的规律性;二是基于用户提及行为,通过微博反应灾害现实情况并帮助解决民众生活问题。
之后的研究将基于本文进行扩充,本文在识别出灾害中发挥特殊功能的用户后,只粗略分析灾害发展趋势以及暴雨对用户的影响,之后将考虑对灾害中用户角色建立个体模型,从而精确搜集处理灾害信息。
参考文献
[1] 吴志峰,柴彦威,党安荣,等.地理学碰上“大数据”:热反应与冷思考[J].地理研究,2015,34(12):2207-2221.
[2] Andrew Crooks, Arie Croitoru, Anthony Stefanidis and Jacek Radzikowski. #Earthquake: Twitter as a Distributed Sensor System[J]. Transactions in GIS, 2013, 17(1): 124–147.
[3] Tsou M H , Yang J A , Lusher D , et al. Mapping social activities and concepts with social media (Twitter) and web search engines (Yahoo and Bing): a case study in 2012 US Presidential Election[J]. Cartography and Geographic Information Science, 2013, 40(4):337-348.
[4] 陳梓, 高涛, 罗年学, 等. 反映自然灾害时空分布的社交媒体有效性探讨[J]. 测绘科学, 2017(8):48-52,133.
[5] Yu L , Zhengwei S , Chaogui K , et al. Uncovering Patterns of Inter-Urban Trip and Spatial Interaction from Social Media Check-In Data[J]. PLoS ONE, 2014, 9(1):e86026.