张素娟,甘若迅,樊锁海,刘 鹏
科研合作网络的社团结构和中心节点研究
张素娟1,甘若迅2,樊锁海2,刘 鹏2
(1 暨南大学 科技处,广东 广州 510632;2 暨南大学 信息科学技术学院,广东 广州 510632)
对发表于《ISI-SCIE(Science Citation Index Expanded)》上的PHARMACOLOGY & PHARMACY学科的论文作者合作研究形成的一个复杂网络进行了研究。分析表明该合作网络共有40个子网络,其最大连通子网络节点的度服从幂律分布且有厚尾趋势,具有较小的平均路径长度,较大的聚类系数,存在少数关键节点,具有典型的小世界性和无标度性。并通过GN算法分析和挖掘了该最大连通子网络的社团结构,用度值、介数值和PAGERANK值等指标评价了网络的中心节点,揭示了合作网络中合作水平较高的科研团队和具有影响力的科学家。
复杂网络;无标度性;小世界性;社团结构;中心节点
复杂网络兴起于数学领域,著名的欧拉“七桥问题”是图论的研究开端,而随机图理论的建立在数学上开创了对复杂网络的系统性研究的先例。然而这些研究只是简单的、随机的、抽象的数学方法上的研究,现实中的网络并不完全是简单和随机的。直到20世纪末,对复杂网络的研究终于不再局限于数学领域,考虑到现实中的大量节点及复杂连接结构的实际网络,科学家从社会学到物理学等众多学科中掀起了复杂网络的研究热潮。这一时期两个重要研究的发现推动了复杂网络研究新纪元的到来:1998年watts和strogatz将随机性引入到规则网络中,建立了著名的小世界网络模型[1],该模型真实的描述了实际网络存在的小世界特性;1999年,Barabási和Albert在对万维网的数据进行统计分析时,考虑到实际网络中网络规模的不断增长特性与网络中新的节点倾向于优先连接度较大节点的两个性质,发现网络节点的度分布服从幂律分布并建立无标度网络模型[2]。
科研合作网络是最早研究的复杂网络之一,它描述并影响着科研人员之间的团队合作关系。科研合作网络是典型的社会网络,同时也是一类复杂网络,国内外学者在网络的构造、网络拓扑特性和演化模型等方面进行了初步研究,取得了一些成果,也引起了广泛关注。
《ISI-SCIE(Science Citation Index Expanded)》是国际上最有影响力的检索系统,最具权威性的、用于基础研究和应用基础研究成果的重要评价体系。根据《ISI-SCIE(Science Citation Index Expanded)》中暨南大学的作者的合作关系所构建的科研合作网络可以在一定程度上反映暨南大学学科的合作情况和学术的发展状况。本文收集了2010年《ISI-SCIE(Science Citation Index Expanded)》上发表的PHARMACOLOGY & PHARMACY类的暨南大学作者的合作信息,分析了网络的最大连通子图的拓扑性质,比较了不同的节点指标对于科学家影响力的评价。
1.1 数据来源
本文研究所用的论文选用了《ISI-SCIE (Science Citation Index Expanded)》中作者单位为暨南大学,学科为PHARMACOLOGY & PHARMACY中2010年论文,该数据库没有独著作者,因此搜索的论文即为实际论文数,共129篇,581名作者。
统计每篇论文有几个作者可得该数据库的作者基本信息(见表1):
表1 论文作者数统计表
从表1中可以很直观的看出,论文主要以4-8人为合作形式,所占比例为76%,其中大于8人所占比例为18.3%。每篇论文的平均作者数为6.6个,这比生物医学领域平均3.75个,天文物理领域平均3.35个,计算机平均领域2.53个,凝固态物理领域平均2.66个都要高的多。这说明该合作网络合作规模较大,作者间合作效果良好。
1.2 网络模型构建
本文在无权条件下构建网络模型,把每个科研人员视为网络中的一个节点,如果两个科研人员之间共同发表过一篇科研论文,这两个节点之间就连接一条边,则在科研人员之间形成了网络。为了简单起见,本文没有区分作者的署名顺序,同一篇文章的多个作者间的合作关系用全连接的方式表达。其网络的拓扑结构图如图1所示。
图1 暨南大学PHARMACOLOGY & PHARMACY合作网络拓扑图
通过分析该网络模型,发现该网络是一个分散的非连通网络。整个网络由40个连通的子网络组成,其中最大连通子网络含有316个科研人员,在这个子网络的团队中发表论文数量较多,作者之间的合作更为紧密,相互作用力较大,对于信息的传播具有较大的促进作用。下面选取该最大连通子网络作为研究对象,研究网络的基本特征变量。
2.1 聚类系数
2.2 平均路径长度
所选研究的最大连通子网络是连通网络,故可达性为1。采用Floyd算法计算得到,网络中两节点间最大距离为8,最小距离为1,平均路径长度为3.6956。密歇根大学的M.E.J.Newman[7]曾对生物、物理、数学三个学科领域的合作社会网络进行研究,得到网络的平均距离分别为:4.6,5.9,7.6。由于这三个学科都是传统的基础学科,因此可比性比较高,而本文研究的网络平均距离为3.6956,这与生物学科网络是十分接近的,且与 Co-authors[8]网络的平均距离为4也是十分接近的。这说明3.6956是一个较小的平均距离,具有小世界网络的特征。作者间形成了良好的合作关系,合作交流较为紧密。
2.3 度与度分布
经过对最大连通子网络中的节点度进行统计,可以得到节点的度分布,如图2所示。大多数节点的度在60以内,存在三个节点的度较大,分别为4、42和108。经过这三个的节点的信息流量多,应努力避免这三个节点的阻塞。
图2 节点度分布图
图3 双对数坐标节点度分布图
图4 最大连通子网络模块度变化图
2.4 社团结构
在现实生活中,许多网络都表现出很强的社团性,即网络由若干较为明显的社团构成,社团内部节点间连接相对紧密,而社团之间连接则比较稀疏。本文利用Newman和Girvan等人提出的GN算法[5,6]对该合作网的最大连通子图社团特性进行了分析,其基本划分算法如下:(1)计算复杂网络中每一条边的边介数;(2)找到介数最高的边并将它从网络中移除;(3)重复步骤1和2,直到每个节点就是一个社团为止。
图5 最大连通子网络社团结构图
图6 小社团示例
其社团结构如图5、图6所示。
通过对社团结构图进行分析,我们可以了解到4(Yao,Xinsheng),21(Wang,Ying),38(Liu, Zhong),42(Ye,Wencai),48(Wang,Hui),49(Zhou,guangxiong),218(Huang,Dadong),108(Wang,Yifei),190(Qi, Renbin),191(Lu,Daxiang)等几位作者都处于各自社团内部的中心位置,占主导主用。并且整个合作网络中,作者间的合作比较稳定,且存在较高的科研团队。
合作网络中科学家的影响力我们可以通过网络中节点的重要性来评价,本文使用了4个评价节点重要程度的参考指标——发表文章数、度值、介数值以及Pagerank值。发表文章数可以反映科学家的生产能力,度值可以反映科学家合作交往的广度,介数则体现了科学家在整个网络信息沟通中的重要性,而PageRank值则能够在网络中准确定位节点的相对重要程度。度值和介数这两项指标都是在社会网络分析[14]中经常使用的方法,而Pagerank值则是基于信息搜索分析方法[14]——Pagerank算法得出。
PageRank算法是由斯坦福大学的博士研究生Sergey Brin和Lawrence Page于1998年提出的,并成功应用在Google 搜索引擎中。其基本思想是:当从网页A链接到网页B时,就认为“网页A投了网页B一票”,并根据网页的得票数评定其重要性,并根据投票来源和投票目标的等级来决定新的等级,一个高等级的页面可以使其他低等级页面的等级提升。一个页面的“得票数”由所有链向它的页面的重要性决定。一个有很多链入的页面会有很高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。一个页面的PageRank是由所有链向它的页面的重要性经过递归算法得到的。由于互联网中网页的链接相互指向复杂,该分值的计算过程是一个迭代过程,最终将依照所得的分数进行排序,这个量化的分数就是PageRank值。
表2统计了文章数、合作者数、节点介数、Pagerank值等4项指标分别排前十名的作者。通过表2,我们可以看出Yao,Xinsheng、Ye,Wencai、Wang,Yifei、Wang,Ying、Huang,Yadong、Jiang,Renwang这六人都在这前十名中,这也与社团结构分析中结论相符。因此不管从哪个角度来分析,这六位科学家在该合作网络中都是最有影响力的,应该把他们看成该合作网络的学术领军人。
表2 发表文章数、合作者数、介数、Pagerank值前10作者排名
注:括号中的数值表示该作者的发表文章数、度值、介数值以及Pagerank值
本文以暨南大学2010年在《ISI-SCIE(Science Citation Index Expanded)》中PHARMACOLOGY & PHARMACY发表的论文合作情况作为研究实例,并且构建了网络模型,特别是对占网络规模54.39%的最大连通子网络进行了研究,具体结果如表3:
表3 最大连通子网络性质
另外,通过社团结构分析发现该网络具有显著的社团特性,存在紧密合作的作者团队。并利用了4种不同指标——发表文章数、度值、介数和Pagerank值来度量中心节点在网络中的影响力和的重要性,发现Yao,Xinsheng、Ye,Wencai、Wang,Yifei、Wang,Ying、Huang,Dadong、Jiang,Renwang等人,他们的发表的论文较多,节点度数较高,介数值较大,Pagerank值排名较高,是该合作网络中都是最有影响力的科学家。但是,该网络在过去10年里是如何演化的,如何预测将来的变化,这些都是值得进一步研究以及探讨的问题。
[1] Watts D J, Strogatz S H. Collective Dynamics of “Small World” Networks[J]. Nature, 1998, 393(6684): 440-442.
[2] Barabási A L, Albert R. Emergence of Scaling in Random Networks[J]. Science, 1999, 286(5439): 509-512.
[3] 方锦清,汪小帆,郑志刚,等. 一门崭新的交叉科学:网络科学(上)[J]. 物理学进展,2007,27(3).
[4] 方锦清,汪小帆,郑志刚,等. 一门崭新的交叉科学:网络科学(下)[J]. 物理学进展,2007,27(4).
[5] M Girvan, M E J Newman. Community structure in social and biological networks[J]. Applied Mathematics, 2002, 99(12).
[6] M Girvan, M E J Newman. Finding and evaluating community structure in networks[J]. Phys Rev E, 2004, 69 (2).
[7] Newman M E J.Scientific collaboration networks. I. Network construction and fundamental results[J].Physical Review E, 2001, 64: 016131.
[8] 张小琴,姚洪兴,梁洪振.利用傅里叶变换求解无标度网络的幂指数[J].云南民族大学学报,2007,16:206-208.
[9] 解,汪小凡. 复杂网络中的社团结构分析算法研究综述[J]. 复杂系统与复杂性科学,2005,2(3).
[10]李晓佳,张鹏,狄增如,等. 复杂网络中的社团结构[J]. 复杂系统与复杂性科学,2008,5(3).
[11]刘杰,陆君安. 一个小型科研合作复杂网络及其分析[J]. 复杂系统与复杂性科学,2004,1(3).
[12]徐玲,胡海波,汪小帆. 一个中国科学家合作网的实证分析[J]. 复杂系统与复杂性科学,2009,6(1).
[13]刘涛,陈忠,陈晓荣. 复杂网络理论及其应用研究概述[J]. 系统工程,2005,23(6).
[14]赫南,李德毅, 等. 复杂网络中重要性节点发掘综述[J]. 计算机科学,2007,34(12).
Research on the Community Structure and Hub Node of a Scientific Collaboration Network
ZHANG Su-juan1, GAN Ruo-xun2, FAN Suo-hai2, LIU Peng2
(1 Department of Science and Technology, JiNan University, Guangzhou GuangDong 510632, China;2 School of Information Science and Technology, Jinan University, Guangzhou Guangdong 510632, China)
Study on the author collaboration complex network of journals "ISI-SCIE(Science Citation Index Expanded)" in PHARMACOLOGY & PHARMACY category, It is found that the collaboration networks have 40 sub-networks, and the node degrees of the maximal connected sub-networks obey the power-law distribution. And this collaboration networks has a smaller characteristic path length and a bigger clustering coefficient. And it also has some key nodes and typical characteristic of Scale-Free and Small-World. Moreover, through the analysis and mine of community structure by the GN algorithm, and evaluating the Hub nodes by degree, betweenness and Pagerank value, it is found that, this collaboration networks have some high cooperation level of scientific research groups and some influential scientists.
Complex Network; Scale-Free; Small-World; Community Structure; Hub Node
O157.5; TP391; N94; G35
A
1009-5160(2012)03-0081-05
张素娟(1952-),女,副研究员,研究方向:科学技术管理.
广东省自然科学基金 (10151063201000005);国家自然科学基金(10671076, 11071089);中央高校基本科研业务费专项资金(21609602).