李 凯,张锡哲,申毓佩,陈恩红
1.中国科学技术大学 计算机科学与技术学院,合肥 230022
2.大数据分析与应用安徽省重点实验室,合肥 230022
3.东北大学 计算机科学与工程学院,沈阳 110819
对人类自身行为特性的研究吸引了心理学、社会学、人类学、物理学、计算机等各个学科的共同关注。在现代社会中,人的行为特性与许多实际问题息息相关,如网络或街区零售业改进仓储和服务设置,交通部门模拟交通流量的模式或事故发生频率,以及通信运营商估计移动通信中占线的电话数量并优化资源配置等。
传统上,在研究这些涉及人类行为特性问题时,常常把人的行为简化为可以使用泊松过程描述的稳态随机过程。这种假设的一个推论是人类行为的时间统计特征是较为均匀的,两个相继行为之间的时间间隔偏离其平均值很多的概率很小。但是,Barabási在2005年的工作[1]改变了传统认识,其结果显示人类行为具有幂率特性:密集的活动出现在很长时间的空白之间。
随后的一系列研究结果显示幂率特性在人类的各种行为中广泛存在,如电子邮件[1]、商业交易[2]、书信往来[3-4]、生活旅行[5]、发送短信[6]、网页浏览[7-8]、在线协作[9]等,甚至多种动物的觅食行为也符合这种规律[10]。
同时,针对移动通信数据的研究也取得了一定的成果。文献[11]聚焦在个体和群体的手机通信行为模式,手机通信网络的其他特性也得到了关注,如链接强度与网络结构的关系[12],网络结构与链接的持久性之间的关系[13],手机通信数据观测到的朋友关系与自我报告结果的差异[14]等。
在移动通信用户行为模式研究方面,现有工作仍然有限。本文提出了多重时变通信网络概念,并采用相应方法对更大规模数据集进行分析。
本文的主要贡献如下:
(1)提出一种能够表达移动网络用户通信结构和时间属性的图结构:多重时变通信网络。
(2)基于多重时变通信网络,对移动通信数据进行了分析,揭示了其中蕴含的人类行为学特性。其中对群体通话时长、个体行为与联系人数量关系等内容的分析在其他工作中未见报告。
移动通信在现代社会生活中具有举足轻重的地位,相应地,研究手机通信的网络特性和人类行为特性对认识社会网络和人类自身都有着重要意义。但是由于数据的高度敏感性,导致数据获取难度极大,相关工作总体上比较有限。
文献[12]使用一个包含460万用户、覆盖广大区域(society-wide)的手机通信网络,来研究用户相互作用强度与网络的局部结构之间的耦合,观察到了与直觉相反的结果。值得注意的是,其报告的网络度分布幂率的指数为8.6,异于通常值。
文献[11]使用一组相邻基站(不少于160个)的呼叫数据分析个体和群体的行为模式。结果显示基站呼叫量随时间而波动,这显然与作息时间有关;以周为单位的统计结果显示一般情况下周呼叫的波动较小,而当出现异常事件时则存在明显的偏差,采用渗流理论描述了这种异常事件导致的偏差。在按照电话使用量对用户分组的基础上,考察了不同组别用户的呼叫间隔,结果显示间隔分布是无标度的。
本文提出一种多重时变通信网络结构,基于此在一个比以往工作规模更大的手机通信数据集上,考察个体和群体的行为特性。
本文主要介绍多重时变通信网络的概念。
首先在动态时变网络[15]的基础上给出多重时变通信网络的定义。
定义1(动态时变网络)将开始时刻记作t0,动态网络G=<G1,G2,…,GT>是在时间上有序的图集,其中Gt=(Vt,Et)是从t0时刻到t时刻的网络拓扑图,Vt和Et分别表示此时间段的图顶点集和边集。
本文研究内容不仅包括通常的网络统计特性,如度分布,而且涉及了通信交互行为更加具体的特性,如通话时长。方便起见,下面扩展动态时变网络为加权网络。
定义2(多重时变通信网络)将开始时刻记作t0,一个多重时变通信网络MTG=<MTG1,MTG2,…,MTGT>为在时间上有序的图集,其中MTGt=(MTVt,MTEt,MTWt)表示从t0时刻到t时刻的网络拓扑图,MTVt和MTEt分别表示此时段网络图的顶点集和边集,MTWt表示边权值的集合。
上面定义中的节点(MTV)代表电话号码,节点与节点之间的连边(MTE)代表通话记录,权值(MTW)为通话时长。
多重时变通信网络(MTG)是一种节点和边都随着时间改变而不断变化的网络,在网络所界定的时间段内,某对用户之间的通话次数即为其所对应节点之间的边的条数,而边的权值则是通话的持续时间。需要强调的是,只有当通话开始时刻和通话结束时刻都在网络所界定的时间段之内时,才会添加这条边到网络中,否则这条边将不会存在。
图1给出了一个多重时变通信网络的示例,图中显示了从t0时刻到t时刻的网络状态,其中t1到t30的时间点都在区间[t0,t]内。显然,图中多重时变通信网络完整地展现了该时间段内各个用户的通话行为。例如节点4和节点9有两次通话记录,第一次通话从时刻t7到t8,第二次通话从时刻t9到t10;同样可见节点3在此时间段与3个不同联系人进行了3次通话。
本文的研究基于某通信公司所提供的两个省级行政区域31天的通信记录。其中,A省数据包含6千多万用户,接近8亿条电话记录;B省数据包含1亿多用户,超过18亿条电话记录。需要指出的是,这里所说的用户是指电话号码,而非具体的人。
多重时变通信网络最重要的特点是能够保留用户完整的通信行为,因此在构建网络之时,需要用户完整通信行为的数据。数据应至少包含有拨打电话用户、被打电话用户、通话开始时间、通话结束时间等信息。
Fig.1 An example of multiple timestamp communication network图1 多重时变通信网络示例
(1)部分记录的号码值为空,经过向运营商确认,知其为经过技术伪装的呼叫,多属于诈骗电话,此部分数据做删除处理。
(2)为保证单个用户通话行为的完整性,需要号码之间属于同省同网的通信记录。同省是指主叫号码和被叫号码都属于同一个省份,同网是指主叫号码和被叫号码都是同一个通信公司的网段,例如彼此通话的用户电话号码都属于联通公司。保证用户之间为同网的通信是因为数据来自某公司,只取通话双方都是该公司的记录,以保证一段时间内用户通话行为的完整性。
本文将在展示网络总体属性的基础上,从整体和个体两方面分析多重时变通信网络的拓扑结构,从而揭示群体和个体的手机通信行为特性。特别的,当对两省数据的分析呈现相同的结果时,将只报告其中一个。
本文节点的度定义为与该节点相连的边的数目,于是网络节点度的总和除以2即为网络表征的总的通话次数。
网络的度分布体现了通话次数的分布,即通话次数与对应的用户数量之间的关系。图2给出了B省31天多重时变通信网络的度分布。
Fig.2 Distribution of network degrees图2 网络度分布
由图2可见,度分布服从幂律分布,幂指数为2.397,介于[2,3]之间,与一般认识大体一致。通话次数特别多的用户只有为数不多的几个,绝大多数用户的通话量并不大。图3的联系人分布与度分布大体一致。这一结果表明大多数人的通话量和联系人多少情况可以通过度分布显示出来,二者大体呈现正比关系。
Fig.3 Distribution of contact persons图3 联系人分布
为了挖掘手机通信的总体规律,从而刻画大多数人的通话行为,下面将对网络度之和与平均度演化进行分析,观察通话量、平均通话量随时间变化的趋势,以及总体的通话时长与通话时间间隔。
采用A、B两省数据分别构建的通信网络,结果表明二者31天的度之和随时间变化趋势大体一致,而且此项指标的波动与工作日和节假日没有明显关联。因此,图4仅呈现B省某3天的网络度之和演化过程。其中横坐标为日期序号,次级网格划分为一天中的24小时,纵坐标为网络度总和。
Fig.4 Sum of network degrees changes with time图4 网络度之和随时间变化
由图4可见,上午9:00到下午6:00为通话的高峰区间,期间通话量大,并且早晨通话量上升的速度明显高于傍晚通话量下降的速度,这一变化规律与正常社会生活中人们一般的作息规律及工作、交往规律相符(因工作性质不同,人们多在早上8点或9点快速进入工作状态,而下午下班的17点、18点则对应一个个体交流的高峰),白天相对夜间、工作时间相对非工作时间,前者通话量远高于后者。
对照文献[11]的结果,发现曲线形状大体相同,如每天有两个通信量的高峰,高峰所处时间大体一致,二者之间大约在14点附近有一个相对低值。但区别也很明显,如0点时候文献[11]结果的通信量值要高于本文结果,而本文结果每天通话量最低值到来的时间要早于文献[11]的结果。这表明不同地区人们生活规律既相似又存在差别,文献[11]数据来源区域人们的夜间活动要强于本文数据来源区域。
考察A、B两省31天的通话网络平均度的演化过程,即平均每个人的通话量随时间变化情况。与图4的处理方式对应,取B省3天时间的变化情况作为示意,结果如图5所示。
Fig.5 Average degree of network changes with time图5 网络平均度随时间变化
与图4的分布情况相反,单个用户白天的平均通话量相对较少,而晚上的平均通话量则较多。对这种情况,可以通过一个猜想进行解释:白天的工作时间多为上下级之间的沟通,局部拓扑呈现星型结构,于是每个用户的平均通话量较少;晚上个人时间多为平等交流,图中边的出现近于随机,整体通话量不如工作时间多,但参与人数更少,于是每个用户的平均通话量反倒比白天多。
在B省31天的多重时变通信网络中,考察通话时间间隔,即每个用户的每次通话结束时刻与相邻的下次通话开始时刻时间差,记作TI(单位:min),TI的分布如图6。
Fig.6 Distribution of the number ofTI图6 通话时间间隔频次分布
由图6可见,此分布近似于幂律分布,下文还会多次出现这种近似于幂率的分布。造成这种表象的原因是多个分布的叠加,众多个体单独的活动符合幂率分布,但参数彼此不同,大量此种参数不同的幂率分布相叠加,于是产生此种外在表象。
在B省31天的多重时变通信网络中,记通话时长(即边的权值)为TT(单位:s),图7展示了TT分布的情况。显而易见,这仍是一种近似的幂率分布,大量的通话时长位于60~120 s之间,通话时长较短,且通话时长较长的次数相对较少,这与实际生活经验相一致。
Fig.7 Distribution of the number ofTT图7 通话时长频次分布
在对通话量进行分析的过程中,发现虽然工作日和节假日的分布规律大体一致,但通话量在工作时间与休息时间的分布却存在明显不同,图8展示了不同类型时段的通话时长分布情况。
由图8可见,4种不同类型时间段的通话时长分布均近似服从幂律分布,由此可以确定个人的一般通话情况:在大多数情况下,通话持续时间很短,只有个别时候才会出现持续时间相对较长的通话。然而,4幅图中的纵坐标差异很大,工作日的通话量明显高于非工作日的,这显示在节假日多数人更愿意享受一段相对安静的时光;与此同时,工作时间的通话量也比非工作时间高出很多,这再次验证了前文结论。
此外,图8(c)、(d)显示,工作时间的通话次数多,但持续时间较长的却不多,而休息时间的通话次数少,但持续时间较长的相对较多,这也符合人们在日常生活中参与社交活动的惯性规律,即工作时间电话倾向于追求效率,而休息时间电话交流则倾向于表达情感。
总体而言,图8的结果符合日常生活中关于电话行为的直觉感受。
著名的“150定律”认为人类智力允许个体拥有的稳定社交关系数为150左右。当然在通信网络中,一段时间内某人的联系人并不能够表明彼此间存在稳定的社交关系,但是此定律可以作为选定研究对象的一个参考。另外根据图3联系人分布情况,本文选择3个具有代表性的个体分别表示社会交往中的3类人:联系人很少的个体1(10个)、联系人中等的个体2(150个)和联系人很多的个体3(372个)。
Fig.8 Distribution of the number ofTTat different time图8 不同时间的通话时长频次分布
Fig.9 Average degree of different users changes with time图9 不同个体用户平均度随时间变化情况
单个用户个体的平均度演变过程也就是该用户的通话量随着时间的变化情况,如图9所示,总体看来用户的联系人越多其通话量也越多。
Fig.10 Distribution of the number ofTTabout user1图10 用户1通话时长频次分布
图10 ~图12为个体用户1、2、3的通话时长分布,其中横坐标为通话时长TT(单位:s),纵坐标为通话时长的频次。
十分明显,用户的联系人越多相应通话次数也越多,通话时间长度的跨度也越大。由此可以猜测:联系人很少的用户不善社交,有限的通话基本是有事说事;联系人很多的用户显示长袖善舞的特性,维护着丰富多样的社交关系。
Fig.11 Distribution of the number ofTTabout user2图11 用户2通话时长频次分布
Fig.12 Distribution of the number ofTTabout user3图12 用户3通话时长频次分布
Fig.13 Distribution of the number ofTIof different users图13 不同个体用户通话时间间隔频次分布
图13 为个体用户1、2、3通话时间间隔的分布,其中横坐标为通话时间间隔TI(单位:s),纵坐标为通话时间间隔的频次。联系人多的用户因其通话量多,通话间隔就越短,这与日常经验一致。
本文首先提出了多重时变通信网络模型,在给出多重时变通信网络概念的基础上,针对手机通话记录,分别从整体和个体两个角度来对多重时变通信网络的拓扑特征进行分析研究,揭示了多种群体和个体手机通话行为特性。移动通信网络作为一种社交网络,本文结果对于社会网络的结构分析和人类行为动力学研究都具有重要参考价值。
[1]Barabási A L.The origin of bursts and heavy tails in human dynamics[J].Nature,2005,435(7039):207-211.
[2]Vázquez A,Oliveira J G,Dezsö Z,et al.Modeling bursts and heavytails in human dynamics[J].Physical Review E,2006,73(3):036127.
[3]Oliveira J G,Barabási A L.Human dynamics:Darwin and Einstein correspondence patterns[J].Nature,437(7063):1251-1253.
[4]Li Nannan,Zhang Ning,Zhou Tao.Empirical analysis on temporal statistics on human correspondence patterns[J].Complex Systems and Complexity Science,2008,5(3):43-47.
[5]Brockmann D,Hufnagel L,Geisel T.The scaling laws of human travel[J].Nature,2006,439(7075):462-465.
[6]Hong Wei,Han Xiaopu,Zhou Tao,et al.Heavy-tailed statistics in short-message communication[J].Chinese Physics Letters,2009,26(2):028902.
[7]Dezso Z,Almaas E,Lukacs A,et al.Dynamics of information access on the Web[J].Physical Review E,2006,73(6):066132.
[8]Zhao Gengsheng,Zhang Ning,Zhou Tao.Study on scaling behavior in webpage visiting[J].Statistics and Decision,2009(1):18-19.
[9]Zha Yilong,Zhou Tao,Zhou Changsong.Unfolding large-scale online collaborative human dynamics[J].Proceedings of the National Academy of Sciences,2016,113(51):14627-14632.
[10]Barabasi A L.Bursts:the hidden pattern behind everything we do[M].Ma Hui.Beijing:China Renmin University Press,2012.
[11]Candia J,González M C,Wang Pu,et al.Uncovering individual and collective human dynamics from mobile phone records[J].Journal of Physics A:Mathematical and Theoretical,2008,41(22):224015.
[12]Onnela J P,Saramäki J,Hyvönen J,et al.Structure and tie strengths in mobile communication networks[J].Proceedings of the National Academy of Sciences,2007,104(18):7332-7336.
[13]Hidalgo C A,Rodriguez-Sickert C.The dynamics of a mobile phone network[J].Physica A:Statistical Mechanics and ItsApplications,2008,387(12):3017-3024.
[14]Eagle N,Pentland A S,Lazer D.Inferring friendship network structure by using mobile phone data[J].Proceedings of the National Academy of Sciences,2009,106(36):15274-15278.
[15]Gao Lin,Yang Jianye,Qin Guimin.Methods for pattern mining in dynamic networks and applications[J].Journal of Software,2013,24(9):2042-2061.
附中文参考文献:
[4]李楠楠,张宁,周涛.人类通信模式中基于时间统计的实证研究[J].复杂系统与复杂性科学,2008,5(3):43-47.
[8]赵庚升,张宁,周涛.网页浏览中的标度行为研究[J].统计与决策,2009(1):18-19.
[10]BarabasiAL.爆发[M].马慧,译.北京:中国人民大学出版社,2012.
[15]高琳,杨建业,覃桂敏.动态网络模式挖掘方法及其应用[J].软件学报,2013,24(9):2042-2061.