◆周 涛◆
推荐、预测、排序构成了网络信息挖掘三个主要的问题。在对网络节点的功能重要性进行排序的时候,节点的度和介数——这也是最广为人知的两种中心性指标——被认为是最恰当的指标。2010年的时候,Kitsak等人在《自然物理》上撰文指出,度中心性仅仅刻画了节点的局部性质,对于网络传播问题而言,节点的影响力大小主要取决于它们所在的位置,用 k-核分解的方法可以得到更准确的排序。该文发表之后,节点排序问题变成了复杂网络研究的一个热点问题,吕琳媛等人2014年在《科学通报》上总结了网络节点排序方面德尔主要进展,并且提出了很多未解决的挑战。李静茹等人的文章讨论了含权网络中的节点排序问题,并将主分量中心性指标推广到了含权的情况,得到了比较好的结果。由于权重是很多网络不可分割的特征之一,且权重本身和网络上包括传播在内的若干动力学都存在复杂的相互作用,李静茹等人的工作对于探索权重网络中节点的重要性有很好的意义。当然,针对不同权重的意义,不同的权重组织和分布形式以及不同的动力学规则,如何设计快速、准确的节点排序算法,依然是个远没有解决的问题。希望本文成为这方面研究能够被记住的起点之一。
针对复杂网络的算法研究,包括网络结构和动力学的基本分析工具、社区挖掘问题、图的匹配问题、有向图的特定子图识别问题等,最近都受到越来越多的关注。其中,社区挖掘一直是最受关注的问题,这和本文所讨论的聚簇问题其内核是完全一致的。汤蓉等人提出了分两步走的自动迭代算法,先计算局部簇,再把这些局部的簇整合成一个全局的簇。我认为这是一种很好的思路,并且可以应用到很多复杂网络算法的其他问题中,举个例子,在估算超大规模网络最短路径的时候,就可以采用这种两步走办法,先在主干结构或者说以社区为节点的网络中寻一次路,然后再在局部寻一次路。汤蓉等人的方法中还蕴含了重整化群的思路,在某种程度上可以看做先把一些局部簇看成节点,然后再讨论怎么把这些节点聚成局部簇,这样的话,全局聚簇就可以转变为局部聚簇的问题。这是一个很有潜力的方法论,我觉得这篇文章的方法如果在细节上更多考虑,还能得到远远超过现在的结果。
2013年《复杂性科学专栏》推出了“网络科学热点问题荟萃”,其中一个热点就是网络大数据。抛开数万亿计的万维网不谈,现在的在线社交网络,动辄就有数千万甚至数亿用户,对于超大规模网络进行深度分析是每一位学者都能看到的热点。然而,张恺等人的这篇文章走向了另外一个极端,通过调查问卷,分析一个仅有31人的朋友社交网络。张恺等人通过问卷,把朋友关系区分为“普通朋友”、“比较好的朋友”、“很好的朋友”和“最好的朋友”四类,进行拓扑结构的比较分析。尽管我个人比较怀疑在这么小的网络中讨论小世界效应是否有价值,但是这种集中力量分析小网络的思路和方法在我们这个“大数据时代”也不应该放弃,因为事实上现在绝大多数社交网络的基本理论认知都是来源于深入分析很小规模的网络。当然,我希望未来这方面的研究不仅仅是探讨一些大家都知道的拓扑特征,或者给出一个显而易见的结论——譬如朋友关系越亲密网络连通性越差,而是能够在社会心理层面给出一些深刻的洞见,回答一些不那么显然的问题,例如大家心目中的交际花和好好先生,是否会有更多的特别铁的朋友?