汪小帆
随着我们能够收集的数据规模和种类的不断增大,如何从大数据构建合适的网络也变得日益重要。如何获得高质量的网络结构数据?如何科学分析数据质量?基于对不完整的网络结构数据所做的分析在多大程度上能够推广到整个网络?这些和大数据、智慧社会、社会物理学有何关系?
从点“赞”呼吁数据新政
积极心理学里面有一项研究表明,如果我看到更多的积极的消息,我也会变得更加积极。如果从朋友圈的点“赞“行为说起的话,就意味着,我们可以用计算机的算法来预测你的性格。也就是说,如果你的点“赞”次数加起来超过300次,那么计算机的判断可能比你的爱人更加了解你的性格。当然有些点“赞”狂人也许觉得并不是如此,我每天在朋友圈里面看到消息就点“赞”,那只是已阅,我已经看过了,这就是心理学的互动。然而,这却带来了我们对如何保证各自隐私的反思,呼吁所谓的数据新政。
在上个月苹果的发布会上,有一项与最近所呼吁的数据新政中关于个人对数据的参与权、处置权和所有权有关。在苹果公司发布的如何发现重大疾病的组件中,鼓励用户把一些医疗数据上传,但是紧接着带来的一个问题就是隐私。在这个发布会上,苹果公司给出的解释是用户可以决定是否参与,而且苹果是看不到你的数据的。而现在技术人员在研究出的多种可能方案中,其中有一种方案就是今后可以通过采用个人数据商店的方式,使得每个人都能够看到你的数据是如何被共享的,如何被使用的。
而在研究的网络科学角度来看,在斯诺登事件出来以后,科学杂志上分析指出所有数据分析的背后都是网络分析。
从2013年6月开始,美国前中情局职员斯诺登陆续披露了美国政府的代号为“棱镜“的秘密项目等监控行为,旨在从网络和通信公司获取庞大数据,以监控通话、电子邮件和聊天记录等。基于人们之间的这些交流数据就可以构建相应的交流网络,其中的每条边表示了两人之间联系的密切程度。在此基础上,有可能通过分析网络的演化趋势来预测恐怖袭击等突发事件,从而有利于社会的安全与稳定。但是,这类监控本身如果没有有效的法律监督的话,那么就有可能严重侵犯公民的个人隐私,反而会让公民生活在一个更加没有安全感的环境中。在这样的时代,如何保护用户的隐私,需要有相关的数据新政。
因此,随着网络时代、信息时代、数据时代的不断发展,越来越需要有关于数据的收集与使用的社会规范与法律框架,实现“数据,让人类更美好“的愿景。
从大数据到好网络
对于很多复杂网络至今还无法通过有效方法获得较为完整的网络结构数据。现实网络大多数是随时间和空间持续变化的。例如,实际的社会网络中,人与人之间的联系与交互是遵循一定时空统计规律出现,而不是一直保持不变的。在这种含有时间空间的网络上的动力学过程可能会呈现出与静态网络和非空间网络极为不同的规律,因此,需要探索这种随时空演化的动态网络上的动力学特性,以及节点、连边的活跃特性与动力学的关联规律。
目前网络科学研究主要针对的是单个网络,而事实上许多网络都不是孤立存在的,而是与其它网络之间存在着相互依赖、合作或竞争等关系。随着数据获取能力的不断增强,我们可以对网络的网络开展从理论到应用的深入研究。例如,以社会网络研究为例,同一个用户可能同时是人人、QQ. Email和微信用户,因此这四种网络之间是存在相互关联的。许多基础设施网络,如电力网络、通信网络、交通网络等等之间也都是相互依赖的,一个网络的故障有可能触发其它网络的相继故障。
因此,随着我们能够收集的数据规模和种类的不断增大,如何从大数据构建合适的网络也变得日益重要。这里涉及到两个问题一是从大数据到好数据,即对数据本身的预处理,如清洗和去噪等,二是从好数据到好网络,即使有了高质量的网络数据,针对所研究的问题,往往也需要对数据做恰当处理以生成合适的网络。社会物理学
社会物理学是大数据科学的一个分支,用于构建人类行为的网络模型,并用这种模型创造具有可操作性的情报信息。它是一门定量科学,可以准确地预测人类行为方式,可以指导你如何影响这些行为以提高决策的精准度或组织内的生产效率。社会物理学科涉及了如何增进组织内部沟通效果的方法、如何更好地保护个人隐私的途径,以及如何抵御日益严重的网络攻击的策略。
在2014年,我和同事在翻译((智慧社会:大数据与社会物理学》一书的时候,曾经问过作者派特教授(Alex Pentland):“社会物理学是存在了两个世纪的很古老的词,你为什么不用计量现代科学更加现代的词,为什么一定要用社会物理学?”他说,“这主要是跟传统的物理学做比较。因为传统物理学的核心主要研究能量的流动如何转变为运动的改变,而社会物理学的核心就是想法在人心目中的流动如何转化为行为的改变。而网络科学如果用一句话来说,那就是它研究的是各种各样不同的复杂网络的共性的特征。这里的网络包括互联网、包括交通网,包括社会网,包括生态网等等。”
其实我们研究社会物理学,也是讲究的互动,互动带来想法的传播,想法的传播带来群体的智慧,群体的智慧使得我们有可能走向更美好的社会。因此,在今天的时代下,社会物理学和网络科学也带给我们了一个启示要使个人具有更好的表现,在很多情况下采用网络激励的手段,比采用个体激励的手段的效果要好得多。
大数据时代的到来为网络科学与工程研究带来了更多的机遇和更大的挑战。也让我们开始熟悉复杂网络的一个共性特征,即所谓的小世界特征。网络的规模可以很大,但是两个节点之间的距离也许比我们想象的要小得多,这个就是社会网络里面所熟知的六度特征。随着网络的不断深入,我们人与人之间的距离会变得越来越小,网络变得越来越大,而世界在某种意义上变得反而越来越小。
因此,复杂网络研究发展到今天已远不能仅仅停留在对各种实际网络计算小世界和无标度等性质的水平上,而是必须要有新的发现与认识。哪些拓扑性质对于刻画网络结构既具有基本的重要性又便于计算?各种拓扑性质之间具有什么样的关系?对于这些问题的认识仍然有待深入。复杂网络分析相关的算法问题是在大数据背景下新挑战——如何快速、有效处理包含数千万乃至数亿节点的巨网络7基于大数据的算法问题有可能成为未来大科学化的复杂性科学研究的技术基础之一。从社团结构挖掘到链路预测和各种推荐算法等,算法复杂性分析、快速近似算法、并行计算、分布式图存储问题等等都值得深入研究。
本文是根据作者在“Futuretrek未来创客2015春季思想峰会”上的演讲及主要观点编辑整理而成。