陈珊 戴俊谭 临沂大学传媒学院
伴随着社交网络的崛起,人们获取信息的方式由大众传播主导转变为人际传播优先[1]。微博作为一种重要的传播途径在公众之间迅速组成一个关系紧密、结构复杂的社交网络,公众通过微博载体进行大量的信息分发和舆论传播[2]。网络成为社会事件的“放大器”,网络舆情的肆意传播在一定程度上影响社会事件的发展趋势[3]。
从微观视角,社交网络中的个体节点构成了无标度的拓扑网络,网络中节点的结构属性不同,对信息传播的影响效应也不同。社交网络中节点结构性质的分析有助于信息传播范围的评估和预测,能对网络舆情监测、引导和管理控制提供重要依据。鉴于此,本文借助社交网络拓扑结构分析节点影响力与传播覆盖率之间的关系,探讨信息在各类节点中的传播特点和趋势,并利用节点属性特征预测信息传播能力。
节点重要性度量和节点影响最大化问题是复杂网络分析中的重要研究课题,对于口碑营销、病毒性营销有着重要的参考意义。在已有的研究中,节点结构属性的研究包括基于网络节点局部属性的研究[4-5],基于网络节点全局属性的研究[6-8],基于节点随机游走的研究[9-10],基于节点的时变特性研究[11]。国内外学者在基于网络结构分析节点影响力还是基于信息传播本身分析节点影响力,做了很多有价值的研究,为本文奠定了坚实的理论基础。然而在现有研究中对指标权重较高的重要节点研究较多,而和重要节点相邻,可能成为信息传播源点的节点的研究相对较少。本文有效区分各类节点的差异,建立非线性回归模型,通过监控哨兵节点评估消息在重要节点,一般节点等各类节点中传播覆盖的程度。
新浪微博中每个微博用户视为一个节点,通过网络行为与其他微博用户建立的联系视为连接边,构成典型的小世界复杂网络,符合经典的六度分离理论[12]。在微博系统中普遍存在以下几类节点:(1)意见领袖节点。该类节点的度非常高,数量稀少,具有重要影响力的网络节点。观点和意见从意见领袖流向普通用户的时间非常短暂,当意见领袖的消息流向微博中不太活跃的用户时,信息传播会出现裂变效应。(2)活跃节点。该类节点在某些特定的领域网络行为频繁,在发微博时间和频率两个指标表现出高活跃度。从信息传播能力角度,这类节点容易成为网络意见的源点或者接近源点的节点。(3)不活跃节点。该类节点连接度小,具有一定随机性。发微博频率低,位于信息传播的链路末端。(4)哑节点[13]。该类微博用户虽然注册了账号,但是长期处于“潜水”或“未登录”状态,而在信息传播过程中这类用户节点不具有传播性,属于复杂网络中的噪声节点。
为了描述方便本节对微博信息传播覆盖程度分析与评估进行形式化描述。研究内容建立在两个假设条件上:(1)只关注社会网络的线上信息传播,暂时不考虑线下传播对线上传播的影响;(2)只考虑同质信息在有效用户范围内的传播规律,暂时不考虑异质信息的传播。研究的目的是依据部分节点的信息来评估消息在微博有效用户中的传播程度,即消息在有效用户网络的传播能力。
首先用有向图G={V,E}表示信息传播的在线社会网络,其中V表示微博用户节点的集合,用户节点通过发布、评论或转发信息与其他节点建立联系;E表示连接节点之间边的集合。设vs表示信息的原创节点,即消息传播源点;为已经传播到的节点集合。Vi表示在时刻i 传播到的节点子集,接着定义消息传播的覆盖率O。
定义1 消息传播覆盖率为已获知消息的节点集合与全部节点集合的比值,即:
消息传播过程是个时间序列T={t1,t2, …,ti,ti+1, …},则监测时刻tk的信息覆盖率为Ok,如式2 所示:
定义2 哨兵节点。在消息传播过程中,若时刻tk时消息传播到节点子集Vk即出现Vk并入到集合现象,则Vk中的节点就是监测哨兵节点。
由此,通过微博网络哨兵节点来预测信息覆盖率的问题可转变为由合并到的事件来预测Ok。研究节点子集Vk与覆盖率O之间的规律,并建立相应预测模型。通过探测属于Vk的哨兵节点的信息实现对信息覆盖率的评估。
(1)节点影响力
从全局角度来考虑,设一条消息传播的路径为Vi={v1,v3,v8,vi, …,vm},则与节点i 间接连通的节点越多,对整个信息传播的影响力也越大[14]。因此构造节点影响力的涵义如下。
定义3 节点影响力I 为节点的度与间接连通节点平均距离的乘积,如式(3)所示:
其中I(i)表示节点i的影响力,outdegree(i)为节点的出度,dij表示与节点i间接连通的节点j之间的距离,count(i)表示节点i间接连通的其他所有节点的个数。
(2)预测模型
预测模型的基本思想如下:先用统计方法建立节点影响力与信息覆盖率之间的关系模型,
以式(4)作为预测依据,探测若干节点是否传播到某条信息,以此来评估信息覆盖率。例如节点j的传播影响力为Ij,则代入式(4)后得出O(Ij),简写为Oj表示用探测节点j 获取到的信息覆盖率。在实际应用中可对一系列传播影响力的节点进行实时监控,当检测到某条信息的关键词后来评价消息的传播范围。
从微博信息传播的基本规律来看,当传播影响力大的节点接收到某信息时,信息覆盖率通常较低;当传播影响力小的节点接收到某信息时,信息覆盖率较大;这里需要排除邻近传播源点的节点,这类节点影响力并不高,检测到这类节点时信息覆盖率较低。在预测模型的应用中可以迅速的剔除这类干扰判断的节点,检测到影响力低的节点后,再检测该传播路径上的后续节点,若后续影响力大的节点未接收到该信息,则将该类节点界定为干扰信息。然而,信息覆盖率和节点影响力之间并不是一种简单的线性关系,因此尝试用统计方法来拟合一种非线性预测模型。
(3)统计方法
统计学习的范围选取某大学工科四个学院的校选课学生587 人,涉及3 个年级12 个专业15 个班级的在读大学生。每个人注册新浪微博后,以自然方式形成线上社会关系,根据同寝室、朋友、同学和校内社区活动形成稳定的线上关系后不允许添加新关系。另外只考虑在大学范围内的节点,忽略其他方式的节点关系,比如高中同学、亲友等。
以新浪微博系统为信息传播平台,选取随机节点作为信息源点来发布一些同质信息,只允许学生利用微博来了解和传播信息,尽量消除线下传播的干扰。为每条测试消息定义一个唯一的id,标记为Mi,每个学生节点设定唯一id,记为Vj,当学生收到Mi进行正常评论和转发,同时向一个公共的邮箱发送一封电子邮件,该电子邮件标题为Mi和Vj。最后在电子邮件列表中提取消息传播的轨迹,每个学生信息为一个三元组<Mi,Vj,ti>,其中Mi为信息标示号,Vj为用户标示号,ti为邮件的接收时间,在此近似表示消息传播到达时间。
研究中采用三种影响力节点作为传播源点:影响力低的节点、影响力高的节点和中等影响力节点,分别为图1 至图3 所示。图中x 轴表示节点影响力,y 轴表示信息覆盖率。每次选择5 个同质消息传播进行实证分析,确定信息覆盖率的误差范围。观察图1 至图3 后发现节点影响力与信息覆盖率之间存在一定的非线性关系,影响力高节点对应较低的信息覆盖率,而影响力低的节点对应高的信息覆盖率。这种规律与现实社会中直观分析是一致的,我们尝试通过统计数据构造一个非线性模型来建立节点影响力与信息覆盖率直接的关系。
图1 中以影响力小的节点作为传播源,形成一条比较平滑的曲线。可采用回归分析的方法来拟合式(4)O(Ij)。相比较而言,实证中监测到的中等影响力节点较少,中等影响力节点的区间相对稀疏。
图2 中以影响力大的节点作为传播源,中等影响力节点区域更加稀疏,但是在影响力大的节点区间中误差范围明显减小,这是因为用影响力大的节点作为传播源的因素,5 次实验过程误差波动较小。
图3 中以中等影响力的节点作为传播源,中等影响力节点所在区间不再稀疏,而且误差波动较小;影响力大的节点出现减少趋势,信息覆盖率误差波动变大;影响力小的节点增加,误差波动无明显变化。
图1 影响力小节点
图2 影响力大节点
图3 中等影响力节点
通常情况下大部分网络舆情起源于影响力小的节点,在此用图1 的统计数据进行一元非线性回归分析,根据统计散点图的分布情况,可选配S曲线作为回归分析的基础模型,为了更符合实际需要,采用文献[14]提供的S曲线形式:
其中a为曲线的常数系数;b为弹性系数,c为弹性常数系数,利用b,c参数来调整曲线的变化弹性。通过拟合分析求得式(5)的参数a,b,c。则为信息覆盖率预测模型:
以不确定系数R2来判断回归分析的可信性,对20 次拟合过程的残差进行分析,确定性系数的平均值为0.983,其中大部分大于0.95,只有个别拟合的R2值小于0.9,因此可认为取得较高的拟合可信度。
实验过程不能与实证过程相同,否则失去了验证意义。为了提高验证的有效性,实验方案的设计中体现两个特点:无侵入性和自主性。具体实验方案如下:首先获取新浪微博社会网络中的完整子图。分别从不同类型的用户开始爬取这些用户近期发表的100 条微博,并根据每条微博的转发轨迹来爬取转发用户。持续循环使用广度优先搜索算法运行两周,从4270092 个用户中获得了23456827 条微博消息。再剔除抓取的僵尸用户和特殊的大V 用户后,我们获得了5741 个用户节点的真实微博网络。该实验样本网络的聚类系数为0.153,网络直径为5.21,平均距离为3.1769。然后为了克服新浪API监测的限制,我们进一步裁剪了样本网络,把样本网络减小到1872 个节点,该网络中包括11 个较完整的社团子图。最后两周内通过爬虫监控程序实时监测不同类型用户发表的原创微博的传播情况。
在这1872 个节点的实验网络中,监控影响力小、影响力中等和影响力大的三类节点微博转发情况(如表二第一行所示微博传播源点有三个分类)。转发节点数和全部节点数的比值即为微博传播范围。在该网络中也选择了10 个影响力不同的哨兵节点(如表1 第一列所示),具体实验结果如表1 所示。
本次实验中采用真实新浪微博社会网络的完整子图,微博传播完全处于自发状态。通过实验数据分析观察到以下现象:(1)真实微博网络中预测模型的准确性普遍降低。中低影响力的哨兵节点的预测准确性在可以接受范围内,然而影响力高的哨兵节点预测误差较大。影响力高哨兵节点的预测误差大与监控爬虫的采用时间有关系,微博传播具有一定的裂变效果,导致影响力大的哨兵节点的监测灵敏度下降,预测误差也因此变大。(2)在真实微博网络中,中等影响力的哨兵节点不再出现捕获传播信息失败的情况。这是因为真实微博网络中节点规模较大,中等影响力的哨兵节点一定会处于微博信息的传播路径中。这也证明了中等影响力的哨兵在真实微博网络中具有较好的监测效果。
本文在微博网络中综合考虑节点的全局与局部拓扑结构,用统计学的方法拟合节点特征与信息传播覆盖率之间的关系模型。在真实社会网络中用统计的方法获取数据,取得非线性拟合预测模型,这种方法对统计数据有一定的要求和依赖性,因此预测模型对影响力小的源点传播准确性高。实验分析中发现中等影响力的节点作为哨兵节点比较稳定,适合监测各种源点传播的信息。然而预测模型存在一定局限性,首先是实证微博网络的有界性对信息传播的影响,需要进一步研究有界社会网络的研究结论对无界网络的意义;另外微博信息传播中节点同步问题,特别是节点同步对信息传播规律的负面作用,未来建立更合理的预测模型来解决同步机制对预测准确性和稳定性的影响。
表1 哨兵节点监测结果统计