孙 宁,朱家明,程 昊,吴宇函
安徽财经大学统计与应用数学学院,安徽蚌埠,233030
基于社会网络分析法的论文合著关系研究
孙 宁,朱家明*,程 昊,吴宇函
安徽财经大学统计与应用数学学院,安徽蚌埠,233030
针对论文合著关系,利用网络来衡量其影响力的大小。结合Erdos共著作者的信息,利用社会网络分析法,从网络密度、中心性、块模型、主途径等角度,对论文合著关系网络进行了分析与讨论,得到了共著者网络并对其特征进行了说明,揭示了共著网络中最有影响力的人,并明晰了网络中最具有影响力的论文。
合著者网络;中心性;块模型;遍历权值
大科学时代,随着学术交流的日益频繁,合作研究也与日俱增。合作研究的最直接表现是多个科研人员合作发表论文,可简称论文合著。这里的合著关系是对等的, 即合著者对论文的贡献不分先后。若甲、乙和丙合著, 则三人中两两之间都有了合著关系, 即甲和乙有合著关系, 甲和丙、 乙和丙也都有合著关系。一段时期以来,人们借助论文合著网络,一方面分析并揭示合作研究中不同规模的派系,另一方面从发现学术共同体的交流频率、特点出发,来揭示相关学科发展的特点和规律。同时,分析合著现象,通过对某领域在一段时间内作者合著论文的数量及合作状况的分析,来反映该领域科研合作与学术交流的发展速度和质量[1]。整体网研究作为一种全新的研究范式为社会网络统计技术的发展带来了突破,对群体的整体性研究非常重要。整体网可以研究所有网络成员的整体性关系,它把个体镶嵌入其所处的关系网络中进行考察,推崇在定量的基础上进行定性分析,具有规范性和可操作性。鉴于此,本文将运用整体网技术对论文合著网络进行研究。
1.1 对数据的处理
(1)对所给的18 000多人名,利用Excel软件处理,只保留与Erdos直接合作的作者,得到相应的数据。方便建模分析,可将Erdos1中511名作者按字母顺序进行编号:1~511(数据来源详见2014美国大学生数学建模大赛ICM)。
(2)采取社会网络分析中的二元测量法来考察共著者之间的关系。若A与B存在共著关系,则将A与B的关系数据取为1,否则为0。直接与Erdos合作者,如果它们之间合作过,则记为1,否则为0。利用Matlab软件得到表1的0-1矩阵。
表1 511×511的0-1矩阵(部分)
1.2 模型的建立与求解1.2.1 共著者网络图
运用Excel软件,首先输入矩阵数据,然后用Ucinet6软件转换成自己的数据,最后使用Ucinet6 软件自带的NetDraw作图,如图1所示。
图1 共著网络图
由图1可以看出,网络中存在着很多孤立的点(蓝色标记),说明这些作者与其他作者不存在合著关系,去掉孤立点后,如图2所示。
图2 去除孤立点后的共著网络图
1.2.2 网络的特征分析
(1)共著者的网络密度。密度表示网络中实际存在的关系数与理论上最多可能存在的关系数之比,密度越大,说明关系越紧密[2]。网络中的关系总数在理论上最大值为n(n-1)/2。如果该网络所包含的实际关系数为m,则该网络的密度d就是“实际关系数”与“理论上的最大关系数”相除,模型为:d=2m/n(n-1)。
结合合著网络数据,运用Ucinet6进行计算,可得到网络密度d=0.0013。密度很小,说明合著网络内作者间联系非常稀疏,即Erods1(直接与Erods合作过的作者)虽然都与Erods合作过,但他们在总体上学术交流并不密切。
若网络的平均距离很小,则说明短时期内,一些跨区域或行业的大型科研项目在进行,或各种学术会议在召开,或多种形式学术报告在举办,这都为科研人员间的合作清除了障碍,提供了更大的合作空间或更多的合作机会。此种情况下,经过较少环节可将两位科研人员连接起来就成为易事。
(3)共著者网络的分块。块模型是把一个网络中的各个行动者按照一定的标准分成几个离散的子集,这些子集称为“块”。利用块模型可以分析共著者网络整体结构,并考察每个块之间是否存在关系[4]。
由于网络图的规模较大,故将网络图进行分块,讨论不同块之间是否存在联系。使用Ucinet6对网络图进行分析,得到块密度矩阵如表2所示。
由运行结果可知,网络图共分为7块,大部分块内的密度很小,说明这些块成员的联系很少, 块2、3、4、5、6和7内的共著者学术交流很少。
表2 块密度
以整个网络密度0.001 3作为临界值,将密度矩阵中大于0.001 3的值修改为1,小于0.001 3的值修改为0,得到像矩阵,如图3所示。
图3 像矩阵图
由像矩阵可知,块3、4、7不存在与其他块的联系,1块与除7块之外的其他块之间均存在联系。
2.1 建模准备
理论基础:研究个人在网络中拥有什么样的权利,是通过其居于网络位置来体现的,其中的中心位置和中间位置尤其重要。在一个整体网络中,越是处于网络的中心,越可能提供与群体中其他成员较好的联系,其影响力越大,相应的权利也越大[5]。中心位置常用“度数中心度”来衡量[6]。而中间位置反映了某个成员对其他成员的控制能力,常用“中间中心度”来衡量。
定义1 度数中心度:为该点直接相连的点数,刻画的是行动者的局部中心指数,测量网络中行动者的自身的交际能力,不考虑是否控制他人。
定义2 中间中心度:刻画行动者在多大程度上居于其他两个行动者之间,是一种控制能力指数。
2.2 模型的建立与求解
(1)度数中心度。若一个行动者与其他很多行动者存在直接联系,则该行动者就在网络中处于中心地位。一位作者的度数中心度能够反映他在合作网络中的核心性及中心地位。使用Ucinet6软件可以得到不同作者的度数中心度,如图4所示。
由图4可以看出,有接近一半的作者的度数中心度为0。同时,度数中心度比较高的作者很少。
图4 各度数中心度的人数分布图
度数中心度最大的为5,代表作家AIGNER MARTINS ,说明他与其他人合作最多,思想交流和传播知识的范围很广,在某学术领域具有较高的学术地位和较大影响力。
(2)中间中心度。若一个行动者在网络中处于其他两点之间的路径上,可认为该行动者居于重要位置,他具有控制其他两个行动者之间交往的能力[7]。作者间合作也可以看作是信息的交流,中间中心度描述的是网络中的信息经过某一位作者的可能性,也反映了作者的影响力。
表3 度数中心度位于前10位的作者
使用Ucinet6软件可以得到不同作者的中间中心度(部分),见表4。
表4 中间中心度位于前10位的作者
结论:①其中有大部分作者的中间中心度为0,统计出有470位,占作者总数的92%,这些作者几乎不具备控制资源的能力,且中间中心度比较高的作者很少,表明很少作者具有控制资源的能力。②中间中心度最大为65,代指CATER FRANK SYDNEY,说明他对网络中信息的流动有着非常重要的影响,若没有他,则会导致大量最短路径的重新分布,进而引起信息流动的速度和范围的很大变化。
综上可知,AIGNER MARTINS与其他人合作最多,学术交流的范围很广,CATER FRANK SYDNEY对网络中信息的流动有着非常重要的影响,所以这两位作家在这511人中最具有影响力。
3.1 建模准备
理论基础:如果知识通过引文关系而流通,那么参与许多论文之间路径的某个引文关系就要比很少参与论文之间途径的另一个引文关系重要。那些最重要的引文关系就构成了一条或多条主途径,这可能反映出一项研究的骨架结构。
数据的处理,使用谷歌搜索16篇论文的引用关系,建立0-1矩阵。
3.2 模型的建立与求解
(1)建立论文引用关系网络图。使用Ucinet6软件绘制16篇文章的引用关系网络图,如图5所示。
图5 引用关系网络图
(2)主途径分析。主途径主要分析如果要把其他论文连接到一起,那么要在多大程度上需要某篇论文,所得到的结果称为某篇论文的遍历权值。①计算从每个源点指向每个收点的所有途径,并且算出含有某条指定引文关系的途径数量。②把含指定引文关系的途径数量,除以网络中源点与收点间途径的总数量。使用pajek软件进行分析,得到引文网络中的每篇论文的遍历权值,如表5所示。
表5 引文网络中的遍历权值表
由表5可以看出,有一条引文关系对中心性文献的发展很重要,使用软件Pajek进行分析,得出第14篇文章(Watts D.and Strogatz S. Collective dynamics of ‘small-world' networks.Nature,393:440-442,1998)贡献最大,它有着极高的遍历权值(0.78),说明这篇论文能够把之前论文的知识整合到一起,并且为新知识的增长作出了实质性贡献,是输送科学知识和信息的重要渠道,同时还可以说明这条引文关系中被引作者在网络中的影响力最大。
本文通过对合著者网络进行整体网分析,得到了共著者网络,并说明了网络的特征,分析了共著网络中最有影响力的人,并建立了论文引用网络,确定了网络中最具有影响力的论文,通过对这些研究结果的分析,得到以下结论:
(1)度数中心度最大为5,代表作家AIGNER MARTINS,说明他与其他人合作最多,思想交流和传播知识的范围很广,在某学术领域具有较高的学术地位和较大影响力。中间中心度最大为65,代指CATER FRANK SYDNEY,说明对网络中信息的流动有着非常重要的影响,若没有他,则会导致大量的最短路径的重新分布,从而引起信息流动之速度和范围的变化。
(2)网络的密度很小,说明合著网络内作者之间联系非常稀疏,即Erods1(直接与Erods合作过的作者)虽然都与Erods合作过,但是他们在总体上的学术交流并不密切。网络的平均距离很小,则说明短时间内,各种学术会议的召开及多种形式学术报告的举办,都为科研人员之间的合作减少了障碍,提供了更大的合作空间和更多的合作机会。
(3)第14篇文章(Watts D.and Strogatz S.Collective dynamics of ‘small-world' networks. Nature,393:440-442,1998)对中心性文献的发展很重要,它有着极高的遍历权值(0.78),说明这篇论文能够把之前论文的知识整合到一起,并且为新知识的增长作出了实质性贡献,是输送科学知识或信息的重要渠道。
[1]袁润,王慧.基于社会网络分析的图书馆学论文合著现象研究[J].图书情报研究,2010,(3):37-40
[2]邱均平,温芳芳.我国985工程高校科研合作网络研究[J].情报学报,2011(7):746-755
[3]杨思洛,仇壮丽.网络引文研究现状及展望[J].图书情报工作,2009(10):41-44
[4]陈昊,张嵩.基于社会网络分析(SNA)的组织岗位设计[J].青岛大学学报,2012,25(4):58-61
[5]郭金龙,陆宇杰,许鑫.基于社会网络分析的大学生现实与虚拟社会人际关系研究[J].现代教育技术,2012,22(12):91- 94
[6]刘军.社会网络分析导论[M].北京:社会科学文献出版社,2004
[7]王炳成,李洪伟.大学生咨询、信任与友谊关系研究:基于社会网络的视角[J].山西财经大学学报,2010(3):54- 59
(责任编辑:刘小阳)
2014-05-12
国家自然科学项目“基于数据包络分析的环境效率分析评价方法及其应用研究”(71171001);安徽省大学生创新创业训练计划项目“乐不思数”(AH201310378526);安徽财经大学教研项目“数学建模竞赛引领大学生科研创新的研究”(acjyzd201429)。
孙宁(1991-),女,安徽界首人,主要研究方向:经济数学。
*通讯作者:朱家明(1973-),安徽泗县人,硕士,副教授,主要研究方向:应用数学与数学建模。
10.3969/j.issn.1673-2006.2014.09.013
G353.1
A
1673-2006(2014)09-0046-04