基于熵权-模糊综合评价法的学术团体影响力研究

2022-01-12 09:32闫强李自然
关键词:发文学者影响力

闫强,李自然

(北京邮电大学 现代邮政学院,北京 100876)

一、引 言

客观、准确地衡量个人或团体的科研影响力是增强创新、提升科研水平的重要前提。随着科学技术的迅猛发展,科学研究内容和形式更加广泛,复杂性和专业性日益增强[1],科研人员很难单独完成某项课题或项目的研究,科研合作日益凸显其优势。科研者之间的合作、科研机构间的合作、国家之间的合作越来越多,合作形式日益多样化。其中,合著是科研合作最直观也是最重要的表现之一。近年来,科学文献中的合著现象越来越普遍,合作规模越来越大。许多学者对图书情报学、医学等领域的作者合著现象进行分析研究,证实合著现象的普遍性。对于科研合著的研究,目前多采用社会网络分析方法,如基于社会网络构建共引网络、合著网络等科研合作网络,合作网络的可视化等,为本文构建合著网络、挖掘学术团体以及分析学术团体的影响力提供了理论依据。

科研合作已成为不可或缺的研究方式,因此,在衡量科研影响力时不能仅仅局限于个人影响力,更要考虑整个学术团体的影响力。目前研究多基于个体学者视角,对学术团体的综合影响力尚未有统一标准。鉴于此,本文拟以物理学领域的合著论文为数据源,结合社会网络分析方法、熵权法和模糊综合评价法对学术团体的学术影响力进行综合评价。与目前一些研究中采用单一指标或简单加权的方法相比,本文采用的模糊综合评价法更为客观,可为相关研究提供新的思路和参考。

二、文献回顾

(一)学术团体的识别

识别学术团体主要有传统学术团体识别方法和基于社会网络的学术团体识别方法。传统识别学术团体的方法主要依赖于显性数据,即通常基于组织机构、课题组、导师-学生的系谱关系等实际存在的显性组织识别学术团体。近些年,由于社会网络分析方法的迅速发展,目前大多采用基于网络结构的团体识别方法。通常利用作者的合著、引用和被引用等信息构建合著网络、引文网络或共引网络,进而进行学术团体的挖掘。相比于传统方法,基于社会网络的团体识别方法具有更好的数据完整性和准确率,更加省时、省力,客观性更高,不局限于地域和机构的限制。李长玲等[2]构建了以杰出学者为核心识别学术团体的模型:首先,基于改进的p指数识别杰出学者;然后基于杰出学者与其他学者的合著关系识别学术团体中的其他成员,从而发现隐形的学术团体。Zare-Farashbandi等[3]利用社会网络分析方法,构建了2008—2012年发表在JournalofResearchinMedicalSciences(JRMS)上的681篇论文的合著网络,发现了学者之间的合作规律,并对学者和国家在网络中的表现进行评价。刘璇等[4]构建了图书情报学领域的合著网络,发现我国图书情报学现存的 7 个学术团体。

(二)学术团体的学术影响力

影响力是指对其他人或物产生影响或效益,使其产生改变的能力。以往研究表明,科研影响力包含学术影响力和社会影响力。学术影响力是指个人或机构通过学术成果的发表及传播影响其他个人或机构在科研领域中学术方向及成果的能力;社会影响力是指个人或机构的学术成果为人类社会带来影响或效益。目前的研究多探究学术影响力。评价学术影响力的方法主要有定性方法和定量方法。定量方法主要采用以引文为基础的指标,如发文总量与被引频次等。总被引频次指的是某学者所发表的文献被引用的总次数,其特点是直接、易测量,但难以避免重数量不重质量的情况发生。Hirsch于2005年提出h指数,结合论文数量和被引频次进行综合分析,弥补了单一指标只统计总被引数量的缺陷。但是,h 指数也有局限性,如对被引频次高的文献不敏感,存在低估高被引频次文献对学者学术影响力的贡献。丁佐奇[5]获取了Web of Science所收录的论文,对论文的使用次数和被引频次进行相关性分析,证明论文使用次数可以作为评价其影响力指标。Liu等[6]提出AuthorRank方法来测度学术团体的成员在合著网络中的影响力。Ionannidis[7]采用发文量和引用指标对科研人员、团队和机构的学术影响力进行评估。因社会影响力的复杂性、滞后性等特点及学术社交平台的使用频率不高等限制,本文仅探究学术影响力。

(三)学术团体学术影响力的影响因素

国内外对影响学术团体学术影响力的因素的研究方法差别不大,大多基于社会网络的视角,主要关注度中心性、网络密度、聚类系数等[8]。Abbasi等[9]利用社会网络评估学术团体影响力,发现科研者的科研表现与合作网络的度中心性成正比。Krichel等[10]基于RePEc (research papers in economics)数据库中所有作者的合著关系,构建二值合著网络和加权合著网络,并对二者进行中心性分析。Sandra等[11]学者运用时间序列聚类、社会网络分析和引文的时间分布,探究学者与其他学者的合作次数以及合作者之间的相关性与其影响力之间的关系。

综上所述,目前对学术影响力研究的关注点主要在个体学者方面,主要研究个体学者的影响力,而对团体影响力的研究较少,仅有的关于团体的研究多基于实际存在的机构或组织识别的学术团体。其次,目前关于学术影响力的研究学科多集中在图书情报学领域,对于其他学科领域的研究较少。此外,在评价指标的选取上,目前研究多利用少数几个指标,如发文量、被引频次等来衡量学术团体影响力,还未有统一的评价指标体系。为了扩展学术团体影响力的研究,本文以物理学领域期刊论文为研究对象,将学术团体的研究领域由图书情报学等领域扩展到物理学等理工类学科领域。从学术团体内部与外部、学术成果的质与量两个层面,更为全面地探究影响学术团体影响力的因素,丰富了学术团体影响力的指标体系。

三、学术团体的识别

(一)数据来源

本文数据来源于国际一流期刊《物理评论E》(PhysicalReviewE,PRE)。该期刊成立于1993年,是一本广泛的跨学科期刊,主要关注多系统的集体现象。

本文获取了1993—2016年PRE期刊上收录的52 921篇文献的相关数据,包括文献编号、文献题目、文献发表时间、作者、机构等信息。

(二)数据预处理

以PhysicalReviewE期刊为统计源,获得1993—2016年该期刊收录的文献数据,然后进行整理和筛选:

第一,将其中信息缺失(如无作者信息)、信息不详(如文章id不明确)的文献进行筛除,以保证数据质量。

第二,筛选出文章类型为article的论文,得到符合本次研究要求的43 905篇论文。

第三,合著关系的界定。一篇论文有多个作者署名,就认为这些作者之间存在合著关系。

第四,排除仅单独发表一篇论文的著者,即与其他学者没有合著关系的学者,针对剩余的57 278位与他人有合著关系的学者构建合著网络。

(三)构建合著网络

本文将论文的作者抽象为节点,将具有合著关系的节点用无向边进行连接,形成一个无向有权重网络,得到作者合著网络。节点代表学者,连边表示两个学者之间有合著关系(合作发表论文),边的权重代表两个学者合著的次数,即两位学者共同撰写发表的论文数量。本文数据来源是PRE期刊1993—2016年所收录的论文,处理后共得到38 781篇论文,57 278位作者。因此,构建的合著网络节点数为57 278,连边数共144 298条。节点表示学者,节点越大,表示与其他学者合著的次数越多。连边表示合著关系,连边越粗,表示合作次数越多。

对合著网络进行过滤,共获得4 327个联通分量,其中,最大联通分量占比70%以上;其他联通分量规模相近,约在0.03%。鉴于网络规模过大,本文取最大联通分量进行研究(如无特别说明,下文所称的合著网络均为最大联通分量),共计40 647个节点,119 636条连边。

对最大联通分量进行模块化处理,共划分为104个模块,即104个学术团体,分别对每个模块进行研究。最大的学术团体有1 345位成员,核心作者Yu M Y、Zhang J、Kodama R、Tanaka K A和Mima K也在其中;最小的学术团体有15位成员。前五大学术团体的情况如表1所示,其中第一大学术团体的合著网络如图1所示。

表1 各学术团体网络结构特征(前五大学术团体)

图1 第一大学术团体的合著网络

四、模型构建

(一)模型建构思路

构建模型的步骤如下:第一步,确定评价指标,构建学术团体影响力的模糊综合评价的因素集;第二步,确定理想方案;第三步,建立相对偏差模糊矩阵;第四步,基于熵权法确定指标权重;第五步,计算模糊综合评价得分,并对评价结果进行排名[12-14]。

(二)模型的构建

1.选取评价指标

依据科学性、可比性和数据的可得性等原则[15],并结合国内外大量优秀文献中对学术团体影响力的研究方法以及指标的研究,本文将全部指标按“内”和“外”分为四个部分,具体为学术团体产出能力、学术团体内部合作能力、学术团体跨团体合作能力和学术团体明星度[16]。

学术团体产出能力主要包含学术团体人均发文量、学术团体平均被引频次。学术团体内部合作能力指标来源于合著网络的结构特性,包括平均度、网络密度、平均路径长度和平均聚类系数。学术团体跨团体合作能力定义为合著网络中不同学术团体间相互合作、引用的关系,主要利用跨团体被引频次、人均跨学术团体合著论文篇数进行衡量。学术团体明星度是指学术团体中核心作者的情况。

表2 学术团体影响力因素及其描述

(1)学术团体产出能力

① 学术团体总发文量

学术团体总发文量指文章署名包含学术团体的一位或一位以上成员的论文数量。由于互联网技术的发展,多领域合作越来越普遍,体现在合著网络中即为跨学术团体合著,如图2所示。

图2 跨学术团体合著

为精确计算,本文对总发文量的计算方式进行一定的修改。在发文量的计算中采用根据跨学术团体合著论文在各学术团体中的作者数量赋予不同权值的方法。详细计算规则如下:如果该论文有3位合著作者,分别分布在两个学术团体(学术团体1、学术团体2)中,假设学术团体1中有两位作者,学术团体2中有一位作者,则该跨学术团体合著的论文在学术团体1中记为2/3篇,在学术团体2中记为1/3篇。

故学术团体总发文量可定义为

(1)

其中,A代表该学术团体中的论文。

② 学术团体人均发文量

学术团体人均发文量指学术团体总发文量与学术团体成员数量之比。采用学术团体人均发文量可以避免某位成员发文量特别高的干扰。学术团体人均发文量计算公式如下

(2)

其中,M表示该学术团体成员数量。

(2)学术团体规模与效应

① 学术团体成员数量:学术团体内作者总人数,即合著网络中的节点数。

② 学术团体平均被引频次:学术团体发表的论文被其他文献引用的次数总和/学术团体所发表的论文总篇数。对于被引用量,有两点说明:第一,被引用量中包含自引和他引,作者引用自己的论文也计算在内;第二,对施引文献没有太多要求,非PRE期刊的施引文献也在本文统计范围内。

(3)学术团体内部合作能力

① 平均度:在合著网络中,成员的度即与该成员有合著关系的成员个数。成员的度是与该成员有直接合著关系的成员的数量。平均度就是每个成员平均与几个成员合作过。

② 网络密度:网络中线路总长度与面积的比,反映网络节点间相互连边的密集程度[17]。网络密度取值范围为[0,1]。网络密度大的网络,密集度较大,合作互动性较好。

③ 平均路径长度:所有网络节点沿最短路径的平均步数,平均路径长度越短越好[18]。在本文的合著网络中,平均路径长度表明成员之间的合作程度。

④ 平均聚类系数:表明网络图中节点聚集程度[19]。在本文合著网络中,平均聚类系数为学术团体中成员实际进行合作的概率。

(4)学术团体跨团体合作能力

随着互联网技术的发展,信息交流与资源共享越来越便捷,跨团体合作越来越普遍。本文利用跨学术团体合著率、人均跨学术团体合著论文篇数和平均跨学术团体被引频次指标来衡量学术团体跨团体交流能力。

跨学术团体合著即不同学术团体的成员共同发表文献,表现在合著网络中即为不同模块之间的连边(跨学术团体合著片段见图2所示)。跨学术团体合著表现了学术团体之间交流合作、共享资源的活跃程度。

① 跨学术团体合著率=该学术团体内跨学术团体合著的成员数量/该学术团体的成员数量。

② 人均跨学术团体合著论文篇数:跨学术团体合著论文即该论文的作者属于不同的学术团体。人均跨学术团体合著论文篇数=该学术团体内跨学术团体合著论文数量/学术团体成员数量。

③ 平均跨学术团体被引频次:跨学术团体引用是指该学术团体的论文被除自身外的其他学术团体引用,也是衡量不同学术团体之间交流程度的重要指标。论文跨学术团体被引用量即该论文被其他学术团体引用的次数,该学术团体跨学术团体引用总量即为该学术团体的论文被其他学术团体的论文引用的次数总和,即

(3)

平均跨学术团体被引频次=跨学术团体引用总量/该学术团体所发表的论文总篇数

(4)

(5)学术团体明星度

目前,对于确定某一领域的核心学者还没有统一标准,一般是综合考虑学术成果的数量以及被引频次两项指标,两者兼顾量与质两方面。Price[20]主要依据作者的发文量来确定杰出作者。参照相关文献的研究,并结合本文合著网络的特点和研究需求,本文采用PageRank值来确定核心作者。

PageRank是Google用来衡量网页重要程度的算法,能对网页的重要性做出客观评价[21],其计算方法为

(5)

其中,W1,W2,…,WN是被研究的页面,N为网页总数量;页面Wα∈{W1,W2,…,WN},页面Wβ∈{W1,W2,…,WN};G(α)是Wα页面链入页面的集合,PR(Wα)为网页Wα的PageRank值;PR(Wβ)为链接到网页Wα的网页Wβ的PageRank值;Cout(β)为网页的出链数量,σ为阻尼系数[22]。

本文借鉴PageRank排名算法,利用PageRank值来衡量网络节点的重要性程度,即“影响力”。与节点连接的节点个数越多,连边的权重越高,其PageRank值越大,即节点的重要性越高。表现在合著网络中即为某学者合著伙伴越多,与其他学者合著的次数越多,则该学者拥有较大的影响力。

2.建立理想方案

理想方案依据指标的性质(效益型指标、成本型指标)进行确定。如果指标i属于效益型指标,则该指标的理想值为其对应的所有数据的最大值;如果指标i属于成本型指标,则该指标的理想值为其对应的所有数据的最小值[23],即

(6)

3.建立相对偏差模糊矩阵R

设U={U1,U2,…,Un}是需要进行评估的n个方案集合,V={V1,V2,…,Vm}是评价因素集合,用V中因素对U中的每个方案分别进行衡量,得到如下观测值矩阵

(7)

其中,bij表示第j个方案中评价因素i的指标值(i=1,2,…,m;j=1,2,…,n)。

从而得到相对偏差模糊矩阵R

(8)

4.建立各指标权重

采用熵权法计算出各指标的权重:

(1)原始数据矩阵

计算所有方案中各项指标的数据,设有n个方案,m项评价指标,故形成一个n×m的数据矩阵Q=(qij)。

(2)数据标准化

对各指标数据进行标准化处理,标准值记为yij,计算公式如下

(9)

其中,xij是第i个方案第j项指标数据原始值。

(3)学术团体比重

计算第j项指标中第i个方案指标值占所有学术团体的比重,得到如下矩阵P(pij)

(10)

其中,n表示方案的数量。

(4)信息熵e与信息效用值d

(5)评价指标权重wj

计算评价指标的权重wj,可得

(11)

其中,m为评价指标的数目。

5.建立综合评价模型

(12)

根据计算得出的数据乘以其相应权重,最后相加得出各学术团体影响力的综合得分。其中,若Ft

五、模型结果分析

(一)建立理想方案

经过分析选取的10个二级指标,学术团体人均发文量、学术团体平均被引频次、平均度、网络密度、平均聚类系数、平均跨学术团体被引频次、人均跨学术团体合著论文篇数、学术团体核心作者人数、学术团体核心作者人均发文量属于效益型指标;平均路径长度属于成本型指标。

通过计算得到104个学术团体的10项指标的数据,建立的理想方案为

U=(1.080,8.051,11.414,0.4,3.694,0.871,6.038,0.367,8,75)

(二)建立相对偏差模糊矩阵R

根据选取的10个二级指标相关数据,建立相对偏差模糊矩阵为

(13)

(三)计算指标权重

计算所有学术团体中各项指标的数据,形成一个 104×10的数据矩阵Q=(qij),并基于熵权法计算所选取的10项指标的权重,如表3所示。由表3可以发现,在影响学术团体影响力的指标中,所占权重较大的是平均度、网络密度、核心作者人数;人均发文量、平均路径长度所占权重较小。

表3 各指标的权重

(四)计算学术团体的学术影响力得分

将104个学术团体的数据代入公式可得到其学术影响力的综合得分,并进行排名,结果如表4和表5所示。

表4 学术团体的影响力综合得分和排名(前10名)

表5 学术团体关键指标排名情况(前10名)

通过比较,发现学术团体26的核心作者人数均排名第2,核心作者人均发文量排名第3位,平均被引频次排名第6位,人均发文量排名第9位,可以看出其发文数量和发文质量都较高。此外,平均跨学术团体被引频次排名第6位,人均跨学术团体合著论文篇数排名第5位,说明其跨学术团体合作能力也比较强。

学术团体30的人均发文量排名第10位,发文数量较多。其核心作者有8位,排名第1位;核心作者人均发文量排名第7位,说明其发文质量也较高。此外,人均跨学术团体合著论文篇数排名第4位,说明其跨学术团体合作活跃性较高。

综合来看,学术团体26和学术团体30的产出能力和学术成果质量都很高,学术团体内部和跨学术团体合作互动性也较高。因此,二者学术团体影响力较高,与综合评价结果相符合。综合来看,学术团体26较优于学术团体30,与综合评价排名也相符。

(五)模型检验

对于学术影响力的研究多以被引用量进行衡量。文献的被引用量在一定程度上反映了文献的水平,被引频次是衡量一位学者学术影响力的重要指标,其主要优点是客观、简单易得。但仅以被引频次作为学术影响力的评价指标有两大不足:时滞过长,不同年份、不同类型文献的被引用量不具有可比性;未考虑施引文献的质量[24]。

尽管被引频次存在局限性,但由于缺乏更合适的指标,被引频次目前仍然是衡量学术影响力的重要指标。因此,本文将综合评价结果与学术团体被引频次进行相关性分析,以检验综合评价的结果。经检测,本文的数据不满足正态分布,故使用Kendall相关系数。

本文利用SPSS对建立的指标体系计算得出的综合得分与被引用频次进行相关性分析。经计算发现,综合评价得分与被引频次Kendall相关系数为0.701,两者具有强相关性,说明本文所构建的指标体系合理。

被引用频次是评价个人学术影响力的重要指标,但对于学术团体影响力的评价有一定的局限性。首先,被引频次指标将学术团体看作一个整体,忽略了学术团体规模的影响以及学术团体内部的合作情况。其次,只能通过被引用的次数在一定程度上说明学术成果的质量,但具有高被引用量的文献质量并不一定高。

相比于单独使用被引频次衡量学术团体影响力,本文所构建的指标体系综合考虑多种因素,从学术成果的质与量、学术团体的内部与外部两个层面进行综合评价。发文量衡量学术团体的产出能力,人均发文量又排除了学术团体规模对于产出能力的部分影响,两者从量的方面衡量了学术团体的影响力。平均被引频次结合核心作者人数、核心作者人均发文量,从质的方面衡量学术团体影响力,从更深层次的角度衡量学术团体所发表论文的质量。同时,又从内外两方面分析学术团体的合作能力。学术团体的合作情况反映了其资源共享、信息交流的能力,在一定程度上反映了对其他学者或学术团体的影响力。合著网络的网络结构特性量化学术团体内部合作情况,在一定程度上反映其内部相互影响的程度。平均跨团体被引频次、跨团体合著成员及跨团体合著论文衡量了团体之间的合作能力,跨团体合作能力在一定程度上反映了学术团体对其他学者或团体的影响。

六、总结与展望

本文基于PER期刊论文中作者的合著关系构建合著网络,利用社会网络分析方法识别出物理领域的学术团体,利用熵权法和模糊综合评价相结合的方法,从学术团体的内部与外部、学术成果的质与量两方面对学术团体影响力进行综合评价,得到以下结论:其一,学术团体核心作者的表现与学术团体的整体学术影响力息息相关。因此,学术团体需要着重对团体中的核心学者进行培养,充分发挥其核心的作用,借此提高整个学术团体的影响力。其二,合著网络的内部发展不均衡,团体的连通性较差。经过研究发现,学术团体人均发文量和学术团体核心作者人均发文量对学术团体影响力起着非常明显的积极作用。平均度衡量的是学术团体的内部成员与其他成员合作的程度,计算结果显示学术团体网络的平均度与其影响力显著相关;因此,学术团体成员之间进行频繁的交流合作能够对学术团体的学术影响力起到促进作用。其三,本文所构建的物理领域合著网络呈现出明显的小团体集聚现象,大部分作者的合作范围不广。依据熵权法可以发现,平均跨学术团体被引频次和人均跨学术团体合著论文数量在衡量学术团体影响力方面也占据了一定比例,说明跨学术团体对学术团体影响力发挥了一定作用。因此,学术领域应加强跨越专业、机构和区域的学术团体合作。

本文以物理学领域为例,运用社会网络分析方法基于学者合著现象识别出物理领域隐形的学术团体,扩展了学术团体及学术影响力的研究学科领域,为物理等理工学科的学术团体影响力的研究提供参考。从学术团体的内部与外部、学术成果的质与量两层面构建学术团体影响力的综合评价指标体系,丰富了学术影响力的评价指标;采用熵权-模糊综合评价法对学术团体的学术影响力进行量化及排名,为探索和揭示科研领域学术团体影响力的研究提供一定参考和思路。

本文对学术团体影响力的影响因素的探究,有助于研究人员和学术团体的领导者、管理者了解影响学术团体学术影响力的各种因素,为提升学术团体影响力提供一定的参考,有助于科研人员有针对性地提升学术影响力。此外,通过对物理学领域学术团体的研究,对物理学领域开展学者合作、主题会议及搭建合作平台等有一定的价值,为推进科研工作、提高科研水平提供一定的参考。

此外,本研究也存在一定的局限性。首先,在数据来源方面,本文仅对期刊论文进行探究,其他科研成果如专利、专著、科研项目等未考虑在内,未来可以综合多类型科研成果进行综合评价。其次,本文仅考虑了学术影响力,而国外一些研究已经开始对社会影响力进行分析,如社交媒体和文献软件中分享和转载现象[25]。因此,未来可以考虑将社会影响力纳入模型中。

猜你喜欢
发文学者影响力
七部门联合发文 进一步完善和落实积极生育支持措施
学者介绍
学者介绍
太极拳,风縻世界的影响力
My Hobby
校园拾趣
爷孙趣事
以牙还牙
黄艳:最深远的影响力
学者介绍