专栏评述
在这篇文章中,任晓龙等人分析了百多万腾讯用户的数据,揭示了QQ在线社交网络的结构特征,以及QQ用户在性别、年龄和地理上的分布。这些结果有价值,但都不是我感兴趣的。我真正感兴趣的,是作者揭示了QQ上的活跃程度和城市经济指标GDP之间的关系。让人吃惊的是,一个城市QQ用户数和这个城市的GDP之间的Pearson相关系数达到了惊人的0.84。这么强的关联,暗示用在线数据预测城市GDP的可能性。最近刘金虎等人的论文“Online Social Activity Reflects Economic Status”分析了2亿多新浪微博的用户数据,发现在线用户注册数目和城市GDP之间的Pearson相关系数可以超过0.86,并且利用这些数据可以进行很好的GDP预测。
任晓龙和刘金虎的论文都只是连接在线行为和线下社会经济的最初步尝试,但是这些结果价值不菲。首先,传统的经济普查要消耗大量的人力和物力,并且有很长的时间延后,而利用在线数据——当然不仅仅是这两篇文章这么简单的单一数据集——其成本相比经济普查几乎可以忽略不计,而且实时可以获得这些数据,不存在分析结果与现实状况之间巨大的时间差。其次,这些分析能够发现一些异常,例如刘金虎等人发现鄂尔多斯、崇左、来宾、中卫等几个城市在2012年之间互联网非常不活跃,但是GDP很高,而这些城市的经济结构比较单一,对于资源储备和资源价格有非常强的依赖,容易遭遇经济风险。例如鄂尔多斯在2012年后就遇到了经济上的巨大挑战!
任晓龙的文章只是一个起点,它告诉我们互联网的数据能够告诉我们更多。
探索人类行为中的各类时空统计特征及其形成机制,对于理解人类自身的行为规律和解释受人类行为影响的各种复杂社会经济现象都具有重要的意义。在人类行为时间特性研究方面,人在多次从事某特定活动之间的时间间隔分布是一个受到广泛关注的问题。在过去的十年里,研究者已经对人类时间间隔分布进行了大量的实证研究,并提出了数十种动力学和非动力学的模型来解释时间间隔非泊松特性的形成机制。看上去时间间隔分布这个问题已经被研究的比较深入透彻了,但符丁、李明江和黎路的文章《基于价值驱动的人类行为动力学实证研究和建模》让我们看到,仍有相当一部分行为的时间间隔分布无法通过现有模型解释,例如健身运动的时间间隔,研究者下载论文的时间间隔等。为此,该文的作者们在实证研究的基础上提出了一种基于价值驱动的人类动力学模型,将个人期望实现的价值作为行为发生的重要影响因素,并分别针对保持价值和非保持价值给出了模型的理论结果。尽管该文还存在部分实证数据略显单薄、两类子模型的异同讨论有所欠缺等问题,但瑕不掩瑜:从价值驱动的角度研究人类行为时间分布无疑是一个新颖的视角,值得从事人类动力学相关问题研究的读者关注。
长期以来,人们认为个体差异性服从均匀的泊松分布。过去10年,人们通过研究大量社会系统上的人类行为,发现个体的差异性呈现非泊松的幂律分布。比如2005年Barabasi在《自然》上的著名论文“The origin of bursts and heavy tails in human dynamics”,从实证角度指出:人们在回复电子邮件的时间间隔分布具有显著的阵发特征,即在一段长期静默后会伴随高频率的集中爆发行为,其时间间隔分布满足幂律分布P(τ)~τ−a,当a<3时其方差发散,因此人类的这类异质行为无法用平稳的泊松过程描述。本刊2013年综述论文《人类行为时空特性的统计力学》对此有详细阐述。探索各类系统中人类时空异质性现象并对其建模分析是一个值得深入研究的课题。
该论文实证研究了新浪微博的用户转发评论行为,指出用户发文的时间间隔分布和微博被转发/评论的次数都服从幂律分布,且二者的幂指数相差1。进一步,作者基于用户行为的时间间隔服从异质的幂律分布这一假设,利用易感-感染(SI)传播模型和BA无标度网络模型从理论到仿真研究了信息传播过程,获得了一致的结果。虽然作者只是在经典的BA网络模型基础上研究了个体差异性对于信息传播的影响,但其背后个体行为的异质性与群体动力学行为之间的内在机理值得继续深入研究。