李 靖,李 聪,李 翔
(复旦大学a.电子工程系自适应网络与控制实验室;b.信息科学与工程学院智慧网络与系统研究中心,上海 200433)
在如今信息爆炸的大数据时代,人的集群交互行为使得丰富多样的信息(舆论或谣言)得以在人群中快速地传播。相比于传统的结构化数据,采用网络的形式来描述复杂的人类交互行为更加形象。人类交互网络的定义是以人为节点,人与人之间的某种社会交互行为为连边的网络。个体间的交互行为随时间推移不断发生改变,对应到网络上则表现为网络拓扑随着时间演化的过程。因此,实际的人类交互网络是一个典型的时效网络。接下来,我们介绍如何利用实际的人类交互数据构建时效人类交互网络,主要从数据的采集手段、人类交互的类型与数据表示以及时效网络构建3个方面说明。
注:tw是聚集时间窗的持续时间。图1 由交互序列构建时效网络的一个例子Fig.1 Schematic illustration of the construction of temporal networks and the time slice of a contact sequence
2.1.1 节点度与节点度分布
2.1.2 节点可达性与时间相关路径
2.1.3 聚类系数
聚类系数(Clustering Coefficient)这个概念最早发源于社会学。它刻画了社交网络中一个人和他朋友的朋友是否也互为朋友的概率,反映了网络中朋友关系的紧密程度。传统的静态网络研究表明,社交网络具有“小世界”的特性,即该类型网络相对于等规模的随机网络具有非常大的聚类系数和较小的平均最短路径长度[2]。对于这种社交网络上出现的聚类系数大的现象,社会学上的一个重要解释为“三元闭包”原则[60]—即如果两个互不相识的人的共同朋友数目越多,那么他们俩在未来某个时刻成为朋友的可能性越大。三元闭包原则实际上隐含了一种人类交互随着时间演化的可能—有些交互关系会被动的加入到网络,从而使得网络中的闭合三角连边数目增加,进一步的产生了实际存在的聚类系数很大的社交网络。为了验证这个想法,Medus等人[61]在对实际数据建模时引入了三元闭包原则来刻画这种网络上连边建立时的偏好连接特性,并增大连边的闭包概率,最终得到了具有高聚类系数的集聚静态网络。把静态网络上的聚类系数推广到时效网络中,Cui等人[53]提出了时延聚类系数和时长聚类系数两种指标。文中指出,相比于静态网络中的聚类系数,时效聚类系数能够充分刻画随着网络演化带来的时效特性,并且网络的时效聚类系数越大,越能有效地促进网络上的流行病爆发。
2.1.4 巨片
人类交互网络是以人为节点,以人与人之间的某种社会交互行为为连边的网络。对于网络中任意一个个体交互对,它可能在整个数据采样时期内存在多个交互事件,每个交互事件发生的持续时间不尽相同,相邻两次交互事件的间隔时间也存在一定差异。交互的持续时间,从字面意思来看,描述的是个体对之间发生的单次交互事件的持续时长。它在人类交互建模时往往被视为一种“富者愈富”的偏好机制,即如果个体保持活跃状态的持续时间越长,或者发生在个体对之间的交互行为持续时间越长,那么他就越倾向于维持当前的状态不变[66]。交互的间隔时间描述的是发生在同一个体对之间的相邻两次交互事件的间隔时长。它在建模时往往表征的信息更为丰富,既可以体现人类交互行为的阵发性,也可以表现个体交互行为的记忆性。另一方面,人类的日常行为往往具有一定的规律性,具有某种特定社会关系的个体对之间往往会周期性地发生交互。例如在公交车和大学校园这类人类活动周期性较为显著的生活场景下,以往的研究发现具有“熟悉的陌生人”社会关系的两个个体之间往往会频繁地进行规律性的交互行为[36,44]。但有一点值得注意,人类的交互行为并非完全受社会关系驱动,由于现实环境的影响往往会存在一定的随机性。这种随机性的嵌入,导致了原本规律性的交互行为会存在一定的波动和偏差,主要体现在交互的对象发生改变或者时间上有所偏移等,从而使得人类的行为并不能百分百的被预测出来,而是存在一定的上限[37]。接下来,我们针对阵发性、记忆性以及周期与波动性这三个人类交互的时效特征来详细展开介绍。
2.2.1 阵发性
(1)
其中,στ和mτ分别表示的是间隔时间分布f(τ)的标准差和平均值。B取值在-1~1之间。若f(τ)服从泊松分布,其均值和标准差相等,则阵发性B=0;若是服从重尾分布,标准差远大于均值,则阵发性B→1;如果个体交互事件的发生极具有规律性,则间隔时间序列是一个周期规则信号。它的间隔时间分布为一个δ函数,标准差0,因此阵发指标B=-1。然而,对于实际得到的一些规模较小的数据集,在统计个体交互对时常常由于采样时间有限而具有很短的时间序列,从而不足以准确衡量个体对交互连边的阵发性(甚至无法衡量,若交互连边在整个观察时期仅出现过一次)。这意味着用以上的指标来计算个体交互对的阵发性仍然是存在很大偏差的。Karimi等人通过拼接间隔时间来计算时间序列的阵发性[74],但本质上仍没有解决数据量有限的情况下,单个个体和连边所独有的交互模式的问题。
2.2.2 记忆性
除了阵发性以外,人类交互网络上还存在的一个重要特征是记忆性。“记忆性”是人类在现实交互中(无论是在线交互还是线下交互)区别于随机无规律的物质运动,并体现出人类独有的主观能动性的一种固有属性。大量的实证研究发现,人类在现实世界交互中存在着各种各样的记忆机制。Goh等人[73]利用Pearson关联系数来衡量人类交互事件发生的记忆性强弱。假设个体在整个数据观察时期内一共有n+1个交互行为发生,按行为发生的先后顺序对其排列并计算相邻两次交互行为发生的间隔时间,则产生的间隔时间序列中一共有n个元素,令序列中前n-1个元素组成子序列1,后n-1元素组成子序列2,文中指出该序列的记忆性可以用皮尔森关联系数进行计算如下:
(2)
其中,m1和m2分别表示序列1,2的均值。σ1和σ2表示序列1,2的标准差。记忆性指标M的取值范围在-1~1之间。若M>0,则认为交互行为发生的间隔时间序列具有记忆性,表现为长的间隔时间后往往跟随着一个也较长的间隔时间,而短的间隔时间后也往往跟着一个也较短的间隔时间;若M<0,则和前面描述相反,表现为长的间隔时间后往往接着一个较短的间隔时间,而短的间隔时间后跟着一个较长的间隔时间;若M=0,则说明交互行为发生的前后间隔时间无以上显著规律。
到这里,可以发现,以上所讨论的记忆性实际上刻画的是个体交互事件(不管交互对象是否发生改变)发生的间隔时间序列的自相关性。然而,这可能与通常意义上所说的人类“交互记忆”有所不同。我们所说的“交互记忆”刻画的是人类记住过去发生的某种特定事件—交互行为,并在未来再次发生的现象。通俗的说,对于某个个体,他在过去和许多其他个体发生了交互事件并且已经结束,由于人脑的记忆功能,他往往会记住过去交互过的对象,在当前时刻他要进行的交互行为可能会受到这些历史记忆的影响,从而会倾向于和过去交互过的个体再次产生交互行为。
基于这种交互行为再现机制,已有大量的学者展开了研究。Karsai等人[12]通过分析手机通话数据指出个体能够记住它们过去建立的交互关系,并且趋向于和之前建立交互的个体再次产生连边。作者把这类反复出现的交互关系称之为强社会关系(Strong Tie),并发现强社会关系有效阻碍了时效人类交互网络上的流行病传播。Kim等人[75]用时效网络中节点间的交互方式和偏好连接机制来刻画人类交互的记忆性。文中引入了个体交互时间步长的概念,这里的个体交互时间步长有别于交互持续时间,指的是发生在两个个体之间的所有交互行为的累计时间步数。作者通过分析实际数据发现,个体的交互时间步长越大,他连接过去交互过的对象的概率越大。Vestergaard等人[66]通过分析会议和医院的面对面人群交互数据,引入了四种不同的记忆机制来表征实际人类交互数据中持续时间和间隔时间的分布均呈现出幂律分布的特性。这些记忆机制包括:交互自增强机制(Contact Self-Reinforcement, CSR)—即交互持续的时间越长,交互结束的概率越低;活跃度自增强机制(Activity Self-Reinforcement, ASR)—即最近越活跃的个体,越容易产生新的交互连边;个体导向优先连接机制(Agent-centric Preferential Attachment, APA)—即越最近活跃的个体越容易被其他的个体选择而产生交互连边;连边导向优先连接机制(Link-centric Preferential Attachment, LPA)—即个体越趋向于与最近交互的个体进行交互。其中,ASR和APA表征了高度活跃的个体更倾向产生新的交互连边并且更容易被其他个体所连接,而CSR表征了交互行为随着持续时间变化的增强过程,LPA表征了个体倾向于与熟人进行交互。Colman等人[76]认为网络中新的连边产生的概率与产生连边的两端节点的固有活跃概率有关,并且前期发生的交互事件(连边)能够以一定的记忆规模储存下来。文中给出了更新网络中连边的两种记忆机制,一种是从系统过去发生的所有交互事件中随机选一个被新的连边替代的随机记忆,另一种是基于交互事件的持续时长记忆,即每次网络更迭时持续时间最长的连边被新的连边替代。尽管以上讨论的这些人类交互行为的“记忆性”从形式上各不相同,本质上都是在刻画个体在动态建立连边时的偏好选择机制。
2.2.3 周期与波动性
对于现实生活中的人类交互行为,一方面由于自然周期(如年、月、周、昼夜以及一些特定的人类行为活动周期)的存在,人往往会按照日程安排在特定的时间进行特定的行为,这种行为的发生具有一定的规律性和周期性[77]。另一方面,由于人的行为在一定程度上会受到各种外部环境因素的干扰,因而在行为的执行时会出现一定的偏差和波动。所以实际的人类交互行为还具有另一种明显的时效特征—周期与波动性。如果把单位时间内个体参与交互行为的次数定义为该个体的活跃度,我们会发现在很多人类活动中个体活跃度的周期与波动广泛存在,例如校园里的学生交互[44,78]、会场上参会人群的交互[14]、手机通话交互[77]、维基百科上用户共同编辑内容构成的交互[79]等等。这种周期性的规律有时候还会直接反映在交互行为的间隔时间分布上,例如学生在校园内的上课周期是一星期,那么在每周的特定时间内将会有特定的一群人在同一个教室上课从而发生交互行为,当然这样原本规律性的行为也可能因为调课或节假日休息而产生时间上的扰动。最近Liang等人[44]的工作就表明,在大学校园内具有“熟悉的陌生人”社会关系的个体的交互间隔时间分布呈现出显著的周期特性,并且随着间隔时间的增加整体上指数下降。
时间尺度是时效网络中经常出现且不可回避的一个重要概念。它是衡量网络拓扑随着时间发生演化的特征标度。这里所谓的特征标度是指网络中的大部分拓扑结构发生变化的时间取值应该落在以某个时间为中心的一个相对比较小的区间内。相对于时间尺度缺失的静态网络(例如BA无标度网络),时效网络对应着一类特殊的网络,这类网络自身拓扑结构的演化时间尺度要小于或者相近于网络上发生的动力学过程(如流行病传播、谣言传播等)的时间尺度[80]。如果网络演化的时间尺度大于网络上发生的动力学过程,则可以认为动力学过程在网络拓扑发生改变前已经完成,则相应的研究结论可以近似对标到传统的静态网络上的研究。然而,对于时间尺度的认识远不仅限于此。我们根据现有的认识[10,80]总结成如下几点:
宝格丽腕间时计呈现美学工艺的创新之道,格调尽显。自2014年以来,宝格丽研发并制造出以Octo Finissimo系列为代表的超薄腕表杰作,生动诠释了这一理念。
1)现实世界中的很多时效网络,发生在它们上面的动力学过程都有其各自所特有的时间尺度。以人类交互网络为例,从一个人身边经过仅需要数秒,进行一次谈话需要几分钟,主持一场集会要几小时,一系列会议的论坛可能需要连开数天,完成一项研究项目会耗时数月,两个人成为要好朋友可能需要几年甚至数十年时间。所有这些交互行为构建的时效人类交互网络都遵循了各自所独有的时间尺度(见图2)[42]。
2)时效网络上不同个体的交互模式迥异。有的节点和交互连边的状态变化极其活跃,有的甚至在很长的一段时间内状态保持不变。这也会对网络上发生的动力学过程产生巨大影响,例如性接触网络上的疾病传播[56],社交媒体上的信息传播[81]等。因此,文献[82]甚至还考虑了是否存在交互连边层面上的时间尺度特性。
注:从诸如节点和连边的短的时间尺度到更慢的中观社团结构以及网络整体演化的时间尺度。图2 手机通信网络中时效和拓扑尺度的概述[42]Fig.2 An overview of temporal and structural scales in mobile call networks
4)衡量时间尺度划分准确性的标准相差甚大,有的时候使用自然活动的时间尺度(如昼夜模式[14,77])来分析网络上的动力学过程得到的结果较为准确,但使用其他的时间尺度来进行研究是否也同样有意义仍有待考究。
5)确定实际数据中的时间尺度的另一大困难还在于,有时候很难把它从实际动态演变的网络系统中剥离出来。例如,在社交媒体上的信息传播,这种传播过程主要基于网络上的关注与被关注关系产生的交互连边,从而有可能会出现谁关注谁取决于信息是如何传播的情况,进一步地会导致最终网络上的传播动力学的时间尺度纠缠在社交媒体上关注网络演变的时间尺度中难以分离出来。
时效网络具有丰富的拓扑属性和时效属性,对时效网络上的某种特定结构进行随机化操作可以帮助我们更好地理解这种结构在网络动力学方面所扮演的重要角色。例如,可以通过一定的随机化操作,来移除网络中的某种特定结构,并在移除该结构后构造的一系列随机零模型上模拟动力学传播过程(如流行病传播、信息扩散、随机游走等等),得到的结果与实际的时效网络进行对比,从而得到该结构对于实际的时效网络上的动力学过程是起到加速还是减缓的作用[13,43,80]。接下来,我们将回顾一些在时效网络上比较常用的一些随机化零模型。
1)从所有交互记录中随机选择两条交互记录(i,j,t)和(u,v,t*);
2)交换两条交互记录的时间标签,得到交互记录(i,j,t*)和(u,v,t);
3)重复以上步骤,直至每条交互记录被至少选择一次结束。
这种随机化过程保证了网络中所有交互事件参与的个体对不变。同时,由于时间标签的保留,记录在实际数据时间标签中的活动周期性(如昼夜和星期等)也能保持不变。但是,它会摧毁或者部分摧毁实际数据中的时效特征(如阵发性和记忆性),也摧毁了很多交互事件中所存在的时效相关性,如个体A与个体B进行交互会导致接下来个体B与个体C进行交互。
这种方法与静态网络上的连边置换类似,区别在于:在连边置换时,每条连边上发生的多个交互事件对应的时间标签也会全部交换[13]。具体操作我们总结如下:
1)从所有连边中随机选择两条连边(i,j):[tlist]和(u,v):[τlist],tlist和τlist分别表示这两条连边上交互事件发生的时间标签序列;
2)置换两条连边的节点,以1/2的概率得到连边(i,v):[tlist]和(u,j):[τlist],或者得到(i,u):[tlist]和(j,v):[τlist];
3)若在步骤2中产生自环或者重边,则取消置换并重新回到步骤1。
这种随机化过程会摧毁网络中所有拓扑结构及节点和连边活跃的时效相关性,但保留原始交互序列集聚而成的静态网络的度分布,以及所有交互事件发生的时间标签和交互间隔时间。
RPT和RE模型所构建的新的随机化交互序列能够保留原始交互序列的时间标签。因此,虽然它能够摧毁与节点和连边相关的时效结构,但数据中所有交互事件发生的累计数目以及包含在交互事件中实际人类活动的周期节律仍保持不变。如果想要研究周期节律对于时效网络上动力学过程的影响,则需要把所有交互事件对应的时间标签数值随机化,通常使用的方法是对所有交互记录的时间标签数值重新从一个均匀分布函数中随机取样分配[13]。当然,交互事件的时间标签也可以取自其他特定的分布(如泊松过程),然后通过调节参数使得每条连边的平均交互次数与实际数据相近。
这种随机化过程不改变网络中节点间的连边,保证了无权累积网络的拓扑结构不变,却对所有连边上交互事件发生的时间标签数目进行重新分配。这里的重新分配,具体操作如下:
1)将所有连边上交互事件发生的时间标签构成一个序列;
2)每次从序列中随机选择一个时间标签并随机分配给网络中的一条连边,若产生同一时间标签的重边则将时间标签放回序列,重选;
3)从步骤1的序列中删除已选时间标签,直至序列为空则分配结束。
由于连边上交互事件时间标签的数目对应了个体间的交互次数,所以以上操作不改变网络整体交互连边的数目,但会使得网络中所有连边上交互的次数最终服从二项分布的特征[13]。它通常的目的是为了研究实际数据中(特别是在社交媒体或者其他形式的人类交互数据)不同连边上交互次数相差很大并呈现出重尾分布的影响[43]。
有时候需要移除存在于集聚的静态网络中拓扑结构的相关性(如网络中个体对间的累积交互数目,对应于静态网络中连边的权值),并保持网络中连边的时效特性不变(如间隔时间分布)[85]。在这种情况下,就需要对集聚的静态网络中具有相同权值的连边进行随机交换。具体操作是:随机选择两组具有相同交互数目的个体对(连边),然后保持连边对应的时间标签不变,交叉置换每条连边的两个个体。经过这种随机化过程后,网络中单个连边存在的阵发性特征得到保留,同时其他在随机置换时间标签零模型中保留的性质(如每条连边上的交互数目,整个系统层面的交互事件发生频率,以及累积的加权交互网络上的拓扑结构)也能得到保留。但是唯一的缺点是,这种零模型对于数据量的需求很大,这样才能有足够多的具有相同交互事件数目的连边得以进行交换。
这种零模型和上面的等权值连边随机化零模型类似,唯一的区别在于该模型是对整个网络中具有任意交互数目的连边之间进行随机交换[85]。这相当于随机交换了集聚静态网络中所有连边的权值(即每条连边上发生交互事件的次数)。然而,得到的零模型中所有连边的交互间隔时间分布仍然保持不变。
这种零模型是为了研究具有因果交互序列[86]出现的频率及对于网络结构的影响。这里因果交互序列指的是某个交互行为会触发其他个体间进一步的交互行为。因此时间反演的做法是将原始交互事件的时间标签次序完全颠倒过来。如果连续的交互事件是因为这种因果时效相关性引起的,则在反演后的交互序列中同样会存在相近数目的交互事件。相比于原始交互序列,在时间反演的零模型中缺失的这种因果链式交互事件数目可以归因为时间次序的影响。
以上讨论的各种时效随机零模型在一定程度上都保留或摧毁了网络中存在的某些拓扑结构或时效特征。为此,在表1中我们总结了每种时效零模型对比原始数据保留和移除的特征。N为无权静态网络拓扑结构,WN为有权静态网络拓扑结构,DD为度分布,WD为权重分布,GT为全局时间序列,LT为单边时间序列,R为时效相关性。随机置换连边和随机化连边上的交互时间分别摧毁了网络连边和交互事件的相关性,但两者均保证了产生的集聚静态网络的度分布不变。这两种随机化技巧可用于研究时间相关性对时效网络上的动力学过程的影响。随机生成交互的时间标签打乱了原始数据中人类行为活动所特有的周期节律,可以用来研究其对时效网络上动力学的影响。如果想要研究网络上连边对应的个体对的特定交互时序和相邻连边的相关性,可以用等权值连边随机化和任意权值连边随机化分别对比随机生成时间标签的零模型,等权值连边随机化过程会摧毁原始数据集聚而成的静态网络中的连边间的时效相关性,而任意权值连边随机化过程会进一步摧毁连边上的交互事件数目与拓扑结构的相关性。时间反演零模型则往往用于研究个体对交互事件发生的特定时序对时效网络上动力学过程的影响。综上所述,想要研究时效网络上的某种结构特征对网路上发生的动力学过程的影响,构造合适的零模型作为参考对照模型尤为关键。
注:√(保留的特征),×(不保留特征)。
时效网络的生成模型稍微不同于静态网络。对于经典的复杂网络建模工作,尤其在网络科学诞生早期,大量的研究工作关注于生成带有特定网络结构(如幂律度分布[3],社团结构[87]等)的静态网络模型。近年来,以移动互联网为代表的技术变革引发的“数据革命”使得获取海量实时的人类行为数据成为可能。这为学者们使用时效网络框架来对现实世界中动态变化的人类交互行为进行建模提供了温床。利用实际数据来分析人类交互模式并进行建模产生了大量的时效网络模型。尽管这些时效网络模型从思路上各不相同,但本质上都是在完成两个任务。其一,旨在复现实际数据中的基本网络结构,以及这些不同的网络结构对时效网络上发生的动力学过程的影响。其二,提供一个理论研究框架,用以定量解析网络生成模型中所涉及的主要参量及动力学规律。接下来,我们来简要回顾一下目前常见的几类经典的时效网络生成模型。
生成时效网络的一个最直接的方法就是先通过已有的复杂网络模型生成一个静态网络(如ER随机网络[88]、WS小世界网络[2]和BA无标度网络[3]等)。这个静态网络可以作为集聚所有时效网络后最终期望得到的网络形式。然后,可以对静态网络中的每条连边分别赋予其活跃的时间标签。基于这个想法,Holme等人[89]提出了引入连边动力学的网络模型。该模型满足如下规则:
1)通过配置模型[90]生成一个静态网络,去除网络中的重边与自环;
2)对于网络中的每条连边,赋予其一个活跃的时间区间,该活跃区间的持续时间取自一个幂律截断的分布函数,区间的起始时刻从整个时间周期内随机选取,在得到的活跃区间内该连边对应的个体对可以发生有效的交互行为;
3)生成满足一定分布函数的个体对交互事件发生的间隔时间序列;
4)用上面得到的间隔时间序列对每条连边的活跃区间按其长度比例进行分段,然后将交互事件分别加在每个时间间隔处。
图3 活跃度驱动网络模型的示意图[11]
这种把时间特性和网络拓扑相耦合的建模方法非常简单明了,底层的静态网络拓扑结构可以根据实际的聚集网络任意配置。Rocha等人[91]还介绍了一种类似的建模方法,唯一的区别在于其考虑的节点活跃区间是紧跟着另一个节点活跃区间的结束,因此在任意一个时间段内活跃的节点数目保持不变,而上述的连边激活方法不能保证在一个时间段内活跃的连边数目恒定。
Perra等人[11]讨论的时效网络模型(见图3)不再是基于一个固定的底层静态网络拓扑,而是引入了图序列来表示时效网络在每个时间步的网络。文中引入了节点活跃势能的概念来刻画节点在每个时间步活跃的概率。初始时赋予每个节点i一个给定的活跃势能ai=ηxi,其中xi取自实际数据中观察得到的概率分布函数F(xi),为避免概率发散xi∈[ε,1],ε是下限截止概率,参量η的引入是为了调节每个时刻的活跃节点数目使其固定为η〈x〉N。节点的活跃势能衡量了时效网络中个体参与社会交互的频繁程度。定义Gt为每个离散时间步t的网络快照。模型网络的具体生成过程为
1)在时间步t,网络Gt初始由N个孤立的节点组成;
2)对每个节点i,它以一定的概率aiΔt被激活,被激活的节点发出m条连边随机连接到m个不同的节点。不活跃的节点同样可以被活跃的节点所连接。Δt是时间窗口的大小,同样也为该时刻所有连边的持续时间;
3)在下一个离散时间步t+1,网络Gt中的所有连边被移除;
4)重复以上过程,直至达到时间长度T。
不同于活跃度驱动模型中每条连边活跃的持续时长为一个时间步,Colman等人[76]认为个体在每个时间步移除所参与连边的概率会受到该条连边持续时长的影响,持续时长越久的连边在每个时间步更迭连边时越容易被移除。另外,活跃度驱动模型仅考虑了节点的活跃方式,在此基础上,Vestergaard等人[66]提出了一种节点—连边记忆的时效网络模型。在该模型中,网络中节点和连边的活跃均会受到自身状态持续时长的影响。文中考虑的网络由N个个体构成,这些个体产生的N(N-1)/2个交互对(i,j)都是潜在的活跃连边。如果个体i与个体j进行了交互,则连边(i,j)活跃,否则不活跃。记t时刻网络中活跃连边的数目为M1(t)。个体的状态持续时长由t-ti表征,其中ti是个体最后改变状态(获得或断开当前某条连边)的时刻。连边的状态持续时长由t-t(i,j)表征,其中t(i,j)是连边最后改变状态(变得活跃或者不活跃)的时刻。初始时,设定网络中所有的个体都是孤立的,所有的连边都是处于不活跃状态。在每个时间步dt,对所有的个体和活跃连边的更迭过程如下:
1)每个活跃连边(i,j)以概率dtzfl(t-t(i,j))变得不活跃,其中fl是关于连边的状态持续时长t-t(i,j)的函数,z是控制连边状态改变速率的参数;
2)每个个体i与其他个体以概率dtbfa(t-t(i))建立连边,其中fa是关于个体的状态持续时长t-ti的函数,b是控制交互连边建立速率的参数。个体j以概率πa(t-tj)πl(t-t(i,j))被其他未和个体i交互的个体选择并建立连边。其中πa和πl分别是关于t-tj和t-t(i,j)的函数。如果连边(i,j)从未活跃,我们设定t(i,j)=0。
在该模型中,节点和连边的记忆效应分别由它们状态持续时长的记忆核函数f和π刻画。这些核函数均采用了幂律函数的衰减形式来表征实际时效网络中统计得到的时间特征,即交互持续时间分布和交互间隔时间分布。
图4 空间偏好移动与随机交互模型的示意图[102]
Starnini等人[101]提出了一个基于二维平面上的随机游走模型来描述现实世界中的面对面人类集群交互行为。在该模型中,节点游走到一个节点的几率与该节点的吸引力成比例。若节点的吸引力越大,它越会提高其他节点对该节点的兴趣,从而减慢其他节点远离该节点的随机游走速率。另外,该模型糅合了节点活跃度、吸引力、随机游走等概念,能够很好的模拟现实世界中的会场、校园或医院背景下的面对面交互数据,缺点是不能拟合无地理空间约束的交互行为,也不能拟合具有地点偏好移动的情况。Zhang等人[102]基于以上模型提出了一个更加精细的空间偏好移动和随机交互模型(见图4)。模型中假定M个移动个体在一个拥有M个交互地点的加权空间网络g中,网络中两个地点之间的连边权重表示个体在两个地点间移动所花的时间。对每个移动的个体,他会以一定的概率自动激活为活跃状态并进行移动,且存在一个偏好的停留地点,而对其他地点以等概率无偏好停留。初始时,所有个体都停留在各自的偏好地点。具体建模过程满足以下规则:
1)每个个体i以给定的活跃率(活跃率a∈(0,1)满足均匀分布)被激活;
2)当节点状态为不活跃时,每个地点按照各自的吸引率q吸引非活跃个体向其移动。非偏好地点具有相同的吸引率q=(1-p)/(M-1)。偏好地点的吸引率为q=p+(1-p)/(M-1),其中p∈(0,1)代表偏好率。在移动过程中,个体不会被激活;
3)重复以上过程,直至达到仿真时间长度T。
此外,Zhang等人[14]还根据现实面对面交互数据中发现的群体活跃现象和短时高可达现象,进一步改进了Starnini等人提出的二维平面随机游走模型,并引入了集体变化的个体活跃度、与个体活跃度相关的个体移动速度、以及变化的场地大小3种机制,经过改进后的机制可以很好的拟合真实数据中的群体活跃现象和短时高可达现象,同时对人造的模型网络上进行传播仿真也可以达到和真实时效网络上一样的感染规模。然而,很多发生在虚拟空间内的人类交互行为是没有明确的地点属性的,也不涉及个体的实际移动,例如人与人之间通过在线社交媒体工具进行的线上交互行为。以上的模型都不能拟合这种不带有空间约束的人类交互行为。
图5 记忆驱动网络模型的示意图[107]
以上这些研究工作仅考虑个体对上一时间步的邻居进行连边保留且与每个邻居再次建立连边的概率相同,因此忽略了交互事件发生的间隔时间对个体建立连边时概率的影响。此外,个体的历史交互信息对其自身活跃状态转变的影响在以往的研究工作中也同样缺乏考虑。基于此,Li等人[107]通过对真实的人类交互行为数据进行实证分析,发现了两种表征网络演化的重要机制:个体活跃状态转变机制和连边建立机制,并构建了一个记忆驱动的时效网络模型。该模型假设N个个体在一个无权的人类交互网络g中。每个时间步的网络中所有个体存在两种状态:活跃态与不活跃态。假设个体能够进行连边保留的最大记忆步长为L,也就是说,个体在当前时间步的连边建立只会受到过去L个时间步内建立的连边关系的影响。这些连边关系存储在一个记忆网络序列中GM={Gt-L+1,Gt-L+2,…,Gt-1,Gt}。我们产生L个随机网络[88]来对时效网络g={G1,G2,…,GL}和记忆网络序列GM={G1,G2,…,GL}分别进行初始化。每一个时间步t开始时,网络Gt由N个孤立个体组成,整个时效网络g={G1,G2,…,GL}的迭代过程如下(见图5):
1)个体活跃状态转变机制:在时间步t度为k的活跃个体i以概率PA(k)=φk-a(φ∈(0,1])在时间步t+1变得不活跃,不活跃的个体以活化概率PA变得活跃。
2)活跃个体连边建立过程:分配每个活跃的个体以s条连边,其中连边数目s从给定概率分布函数F(s)中得到。活跃个体的连边建立依据以下策略:
(1)社交保留行为:个体i以保留概率p∈(0,1]从过去交往的个体中选择个体建立连边关系。选择和其中任意一个个体j再次建立连边的概率为pij。其中,pij是关于个体i与j上次发生交互行为的间隔时间Δ(i,j)的函数,满足关系:pi,j=f(Δ(i,j))∝Δ(i,j)-γ,1≤Δ(i,j)≤L。
(2)社交探索行为:个体i以探索概率q=1-p随机连接一个新的从未发生过交互行为(或已超出最大记忆时间步L)的个体。注意到,由于个体的交互记忆仅存在于有限的记忆网络序列中,对在t-L时间步前发生过交互行为的个体不再进行连边保留。
3)在下一个迭代时间步t+1,生成网络Gt+1,更新记忆网络序列为GM={Gt-L+2,Gt-L+3,…,Gt,Gt+1}。
4)重复步骤1)~3)直至达到仿真时间窗口T的结束时刻。
该模型可以成功复现出真实社交网络中广泛存在的爆发性交互特征和拓扑结构性质。同时,作者在利用实际数据构建的时效网络上进行SI仓室模型的传播仿真,发现相比于活跃度驱动模型该模型能够更加准确地刻画动态演化的真实时效网络上发生的传播过程。
在过去的20年间,移动互联网技术和数据采集设备的广泛应用为学者们带来了大量高精度高质量的人类行为数据。从数据驱动的角度,学者们利用时效网络来刻画动态演化的人类交互行为,挖掘其背后统一的特征规律和行为模式,并通过对时效网络上传播过程的研究认识、理解和掌握真实人类交互行为对以流行病传播为代表的传播动力学过程的驱动作用。这也有助于人们设计控制干预的策略,并对所有具有类似传播动力学特征的社会现象的演变提供有效评估,如信息舆论的传播、创新思想的扩散和文化基因的流行等。
图6 不同仓室模型中个体状态之间的转换关系
1)在SI模型中,节点的状态演化过程为S―I,当传播过程结束后,整个网络都会被感染成I状态,因而一般用于近似模拟流行病传播的早期阶段。
2)在SIS模型中,节点的状态演化过程为S―I―S,或流行病进入吸收态后一直保持S状态,当传播过程达到稳态时,整个网络只会有S与I两种状态存在。
3)在SIR模型中,节点的状态演化过程为S―I―R,当传播过程进入吸收态或者达到稳态时,整个网络只会有S与R两种状态存在。
进一步地,可以写出3种流行病传播模型的动力学方程。记ρS、ρI和ρR分别为网络中处于3种不同仓室的个体密度。SI模型呈现出“滚雪球”的特点,网络中感染个体数目按照如式(3)变化率增加:
(3)
显然在每个时刻都有ρS+ρI=1。SIS模型和SIR模型的微分方程可以统一如下:
(4)
(5)
其中,χ=μ对应了SIS模型,而χ=0则对应了SIR模型。在SIR模型中,网络中任意时刻恢复态个体的密度满足条件ρR=1-ρI-ρS。
另外,阵发性和记忆性作为人类交互的两大特点,在网络的传播过程中也起着非常重要的作用。Miritello等人[115]在利用欧洲一个国家的手机通话记录构造的时效网络上进行SIR传播仿真,发现个体交互行为的阵发性和群组交互对网络上的信息传播具有截然相反的作用:个体的阵发性在大的尺度范围内有效地阻碍了信息传播,而群组交互则有利于信息在局部范围内的扩散。更进一步,Kivelä等人[116]利用通话记录构造的时效网络和多个时效零模型网络从单条交互边、多条交互边以及网络整体层面等3个不同尺度上分别研究阵发性对时效网络上传播过程的影响,传播仿真使用了SI传播模型,结果发现3种尺度下的阵发性均对网络传播有减速效应,且随着尺度的扩大,减速的效应也随之衰减。Karsai等人[12]基于活跃驱动时效网络模型[11],通过增加个体能够记住过去发生交互的累计数目,并倾向于和之前已经交互过的个体再次建立连边的记忆机制,构造了具有非马尔科夫性的时效网络。文中进一步研究谣言信息在由该模型产生的人工网络上的SIR传播过程,发现人类交互行为中存在的记忆机制会产生显著的社团结构,并使得谣言信息无法在网络中广泛传播。Sun等人[95]分别分析了活跃驱动时效网络和带有记忆性的活跃驱动时效网络[12]对两类经典的传播模型—SIS仓室模型和SIR仓室模型所代表的传播过程的不同影响。文中采用异质平均场理论进行理论解析并结合传播仿真的结果,发现带有记忆性的活跃驱动网络会促进SIS传播过程,但却抑制了SIR传播过程。为了有效地促进信息在网络中的传播,Gao等人[117]在传统的SI传播模型中引入了一种非马尔可夫的传播机制。作者考虑了个体在信息传播过程中接触到邻居个体并传播信息的概率会受到信息获知者本身历史交互记忆的影响。这里的历史交互记忆指的是该个体在过去累计交往的个体中有多少已经被信息传播过。文中通过在实际网络上进行传播仿真发现,度大的节点更容易在信息传播的早期阶段被触及,而度小的节点则往往在信息传播的后期才被接触到。
时效人类交互网络中的流行病传播的免疫问题是一个极具有应用性的问题,如何基于网络中的某些特定拓扑结构和时效属性综合衡量个体的重要性程度,同时兼顾减少资源开销及降低网络爆发规模,来找到具有重要影响力的个体或交互链进行免疫尤为关键。当然,网络传播免疫除了应用在流行病免疫之外,在研究信息扩散、谣言传播、产品推广和社会影响力等方面,找到影响网络传播过程的关键节点都至关重要。
在时效网络中,每个时间步的网络随时间不断变化。如果直接把静态网络上的免疫策略照搬到时效网络中,往往效果不一定显著且可行性较低。一个可行的解决方案[22]就是把实际数据的采集时间(时间跨度为[0,T])分为[0,ΔT]和[ΔT,T]两段。其中,[0,ΔT]作为“训练窗口”负责采样历史的个体交互信息,利用这段时间内的数据构造时效网络分析其特性,并据此对训练窗口内网络中出现的所有个体进行重要性排序。[ΔT,T]作为“测试窗口”负责衡量免疫效果的优劣,即从时刻ΔT开始,从训练网络中选取数目为f*N的重要节点进行免疫(其中,f为免疫的节点比例,N为网络中所有节点的数目),并对整个数据进行流行病传播仿真。
Tang等人[118]把静态网络上的中心性指标推广到时效网络上,提出了节点的时效介数中心性和时效接近中心性,用来衡量时效网络中的节点重要性,并可以进一步用来设计合理的免疫策略。尽管这一方法保留了网络中的时效信息,但作为一种全局性中心性指标,在计算复杂度上代价很大。为此,Lee等人[22]通过采样一定时间窗口内的实证数据来获取个体的局部信息,分别研究了采取免疫最近发生交互和最频繁发生交互的个体的策略对SIS传播过程的影响,发现随机选取一个个体并对其最近发生交互的个体进行免疫是最为有效的免疫策略。在此基础上,Starnini等人[23]进一步研究了免疫一定比率的个体分别对网络传播的时间延迟比例和爆发规模的影响,主要对比了包括基于节点度的免疫策略、基于节点的介数中心性的免疫策略、熟人免疫、最近交互免疫和随机免疫等几类传统的免疫策略。此外,作者还着重研究了采样实证数据的观测窗口大小对传播过程的影响,发现这些免疫策略的免疫效果并非一直随着数据的观测窗口时长的变大而不断提升,而是达到一定观测窗口大小后,免疫效果趋于饱和保持不变。Liu等人[93]基于活跃驱动时效网络模型分别研究了随机免疫策略、目标免疫策略和以个体为中心的免疫策略等三种不同的免疫策略,利用异质平均场方法进行理论分析并结合SIR模型进行传播仿真,发现虽然目标免疫策略有利于阻碍网络上的流行病爆发,但以个体为中心的免疫策略在实际应用中更易实现。
进一步地,Starnini等人[23]定义了两种评价指标来衡量SI传播中网络免疫策略的效果。其中一种指标是感染延迟率。免疫节点集合v的感染延迟率τi可以计算为:
(6)
(7)
综上,尽管对于时效网络上传播动力学的研究已有一些初步的理解和认识,但目前的研究工作还远远不够,尤其是深入挖掘人类动力学与时效网络结构之间的内在联系,并进一步结合人类交互行为的动态演化特征来研究和控制传播动力学,仍需要更加深入的研究。
前文中,我们已经对时效人类交互行为的分析、建模以及以人类交互行为渠道的流行病的传播等研究现状作了较为简要的回顾。近几年,由于移动互联网技术的飞速发展、智能可携带设备的普及以及大数据处理能力的提升,数据革命所带来的海量数据使得学者能够更加准确地感知和分析人类的交互行为模式。深入理解人类交互模式对以人类交互网络为载体的各种动力学过程的影响,将为现实世界中的各种实际应用场景如流行病防疫、推荐系统设计以及谣言传播的溯源与扼杀等等提供非常重要的理论指导。时效网络作为一个新兴的研究领域已经受到国内外学者的广泛关注,也取得了一定的研究成果,但目前仍处于一个初期探索的阶段,尚有待形成系统化完备的理论和技术支撑,仍有诸多挑战性问题亟待解决。我们认为以下几个方面将是研究的主要方向。
正确认识并理解人类交互网络上发生的动态过程,最终的目标仍然是回归到实际的现实场景中,实现控制并干预以人类交互行为为渠道的流行病的传播、信息舆论的扩散以及文化基因的流行等传播过程。其中,一个很重要的应用就是针对实际网络的拓扑特性和时效特征的不同“量身定制”一款最有效的网络传播免疫策略。一般而言,这些最优的免疫策略往往在一定程度上反映了节点的相应属性在网络中所起的作用,并进一步地可以体现出节点的重要性排名。真实的人类交互行为是动态变化的,所形成的人类交互网络也在随着时间发生改变。现有的关于时效网络上免疫策略的研究很多是把观测时间内的人类交互行为集聚成静态网络,然后直接套用静态网络上节点的重要性评价指标。这类方法损失了人类交互行为中丰富的时效信息,无法捕获人类交互网络随着时间演化的动态特征。另外,对静态网络上的指标进行时效扩展有时候不一定可行。例如,在时效网络中,每个时刻节点的连边不是固定不变的,随着时间变化数目不断改变。如果依据静态网络中的最大度免疫,则需要观察完足够长的时间并集聚得到静态网络后方能确定。同时,时间的引入也带来了节点之间的时间相关路径的问题,使得流行病在节点间的传播会极大地受到连边时序性的限制。以上这些表明,如何基于时效网络设计更合理有效的疾病传播免疫策略仍然是一个值得探讨的课题。
由于数据采集设备的限制以及人类活动的影响,实际得到的数据集往往不可能完全覆盖所研究的个体的所有交互行为,因此如何利用不完整的数据来挖掘人类交互模式[35]并研究构建的时效网络上的传播动力学[120]是一个非常重要的科学问题。文献[121]通过对多个采集到人类行为数据集的重采样和重建,估算数据不完整性对时效人类交互网络中动力学过程的影响,以此来修正实验得到的结论。但是,对于很多实际采样得到的数据集,往往只是很短的一段时间内的一部分人群交互行为的小样本数据,采样到数据是否满足独立性以及一些统计分布的前提假设条件是一个问题,数据本身是否存在误差也是一个不可避免的质疑。如何利用这些不完整甚至有一定数量的错误偏差的小规模数据集来研究人类行为有待进行进一步研究。