F指数：一种改进的学术影响力测量方法

2022-09-24 03:59王传毅俞寅威

信息资源管理学报 2022年4期

王传毅俞寅威

(清华大学教育研究院，北京，100084)

1 引言

学术影响力是评价科研成果、学者及学术组织的重要维度。h指数是学术影响力常用的量化评价办法[1]。 h指数兼具考察被引频次和论文数量两个方面，既可以遏制片面追求论文数量的不良倾向，同时又能够激发科研人员撰写高质量论文的热情[2]。但h指数也存在明显缺陷，一是区分度低，特别是对普通科学家的学术影响力进行比较时，h指数并不具备鉴别力[3]；二是信息损失，h指数不仅忽视了高被引论文的贡献，也完全忽视了h 指数以下的论文数量及被引频次[4]；三是只升不降，h 指数是一个累积指标，对年轻的科研工作者不利，同时允许科学家“吃老本”，无法反映科学家研究活力的衰退情况[5]。

为改进 h 指数的缺陷，国内外学者先后提出了改进型h指数，即类h( h-type )指数，主要包括h(2)指数[6]、g指数[7]、A指数[8]、R指数[9]、AR指数[9]、hg指数[10]、hk指数[11]、A+指数[12]等等，其中部分指标是在h 指数的基础上引入新的变量(如论文总被引量、平均被引量、h核心论文被引量、h核心论文平均被引量、论文最高被引量等) ，还有部分指标是对 h 指数进行一定的数学运算(如对论文被引数据进行平方，对几项指标之积求平方根等) ，这些类h指数都不同程度地提高了 h 指数的区分能力，但定义较为复杂，可操作性并不强。真正理想的评价指标需要同时考虑到评价成本与评价精度，在保证必要的评价精度的前提下，指标越直观、越简单、越容易计算越好[13]。此外，对于h指数的累积性问题，也未能完全解决。

随着现代科学的蓬勃发展，学科交叉日益深入，跨学科领域开展学术评价的需求不断增加，学界也开展了诸多探索，大致分为两类：一是对被引量排序位置进行处理的跨学科评价方法，细分为以百分位等级为基础的分区法(如Bornmann等[19]提出的PR6指标、刘雪立等[20]提出的PR8指标和Leydesdorff等[21]提出的PR100指标)和以反向名次为基础的位置法(如Pudovkin等[22]设计的rnIF指数和匈牙利科学计量学家Vinkler提出的PRP指数[23-24])，但此类方法评价结果的稳定性较差，会受期刊分区权重设计和核心期刊目录划定的直接影响。二是对被引量绝对数值进行处理的跨学科评价方法，学者们相继提出了相对被引率(RCR)[25]、基于主题的标准化被引量期望(NMCR)[26]、王冠指标 ( Crown Indicator，CPP/FCSm)[27]、标准化引文得分期望(MNCS)[28]等一系列指标；在“引用端”，也有SNCS(1)[29]、SNCS(2)[30]、SNIP[31]、CSNCR[32]等一系列指标。其计算步骤可大致归纳为四步：①计算某科研实体的篇均被引量；②界定该科研实体所属学科领域；③计算该学科领域论文的平均被引量或平均参考文献量；④基于平均被引，修正篇均被引量[33]。但需要注意的是，学术影响力应该体现在论文数量和论文质量的有机统一上，上述跨领域评价指标仅仅考虑了对篇均被引量的修正，对发文量的关注始终不足，因此仍有进一步优化空间。

鉴于此，本研究试图以兼顾发文数量和质量的p指数为基础，引入加权影响力调节因子，降低不同学科领域引用平均水平差异所带来的影响，构建一个更为合理的跨领域研究成果评价指标。鉴于该指标能够更加公平合理地对待学科领域之间的差异性，本研究拟采用公平的英文单词Fairness的首字母F对指数命名，称为F指数(Fairness index)。

2 F指数的构建

2.1 F指数的计算公式

2.2 F指数与相关指标的区别与关联

3 F指数的实证分析

3.1 数据来源及分析过程

本研究基于Scopus数据库，以哲学(Philosophy in Arts and Humanities)、法学(Laws in Social Sciences)、统计与概率(Statistics and Probability in Mathematic)、机械工程(Mechanical Engineering in Engineering)、作物学(Agronomy and Crop Science in Agricultural and Biological Science)、传染病学(Infectious Diseases in Medicine)、多学科(Multidisciplinary)为研究领域，获取SciVal分析平台统计的上述每个领域近五年发文量最多的500位学者的相关数据(1)检索时间为2021-08-14，为了保证统计口径的一致性，发文量、被引量、FWCI的统计时间段均为2016—2020年，h指数则是截至2020年12月31日的更新数据。(发文量、被引量、FWCI和h指数)，得到3500位学者的数据。

由于少数论文获得了绝大部分的引用，因此引文分布是有偏分布[34]。每个小学科领域都存在着一批“头部学者”，其被引总量和FWCI均名列前茅。同时，也存在一批“尾部学者”，其被引总量和FWCI几乎可以忽略不计。若将“头部学者”或“尾部学者”作为研究对象，各种评价指标会有很强的一致性，难以判断出F指数相较于其他指标在统计性质上的优越性，故本研究主要关注“中部学者”。

为此，本研究的分析过程为：①将每个领域的500位学者按被引总量降序排列，被引总量相同则按FWCI降序排列；②保留每个领域处于上四分位数和下四分位数之间的250位学者，共1750位学者；③将多学科领域的学者数据用于跨学科比较中F指数及其他相关指数的统计性质分析；④将其他六个领域的学者数据用于单一学科比较中F指数及其他相关指数的统计性质分析。

3.2 F指数对跨学科领域学术影响力评价的适用性

由于h指数和p指数不是进行跨学科比较的评价指标，因此分析F指数在跨学科比较的适用性时，不必太过关注F指数与h指数、p指数的相关性，而应深入具体学者的发文情况，评判F指数是否起到了调节不同学科领域平均被引次数差异的效果。同时，FWCI是一个对被引量绝对数值进行处理的跨领域评价指标，本质上就是以Scopus数据库定义的领域内平均水平为ki的标准化引文得分期望(MNCS)[35]。因此，本研究也将学者的FWCI排名和F指数排名进行比较，若两者有较高的一致性，则说明F指数具有调节学科差异开展学术影响力评价的功能。在此基础上，进而考察F指数是否相较于FWCI具有良好的区分度，从而对其跨学科学术影响力评价的适用性作出评判。

3.2.1 对于学科差异的调节作用

多学科领域内的学者主要从事跨学科研究，且涉及领域大不相同，是研究跨学科比较的合适样本。表1呈现了F指数排位前10名和后10名学者的学术影响力数值。结果表明， h指数和p指数有相对一致的顺序判断，但均与F指数的判断有显著差异，FWCI虽相较于 h指数和p指数可实现跨学科评价，但也与F指数的判断有显著区别。

表1 多学科领域学者的学术影响力测算(部分结果)(3)本表仅列出前10名和后10名学者的指标数值，需要全表请与作者联系wcy1985@tsinghua.edu.cn。

相较于p指数，F指数能够更敏锐地探测跨学科研究成果在不同学科影响力的异质性。本研究以p指数排名第一的Launer和F指数排名第一的Mallapaty为例，进行具体分析。两位学者的具体数据如表2所示。

表2 Launer和Mallapaty在多学科领域的相关指标表现

通过计算可得，Launer的篇均被引为44.5，而Mallapaty的篇均被引仅为10.2，与前者存在较大的差距。由此，似乎p指数的排名情况更为合理。但需要注意的是，在多学科领域，不同学者涉及的学科领域并不相同，而这些学科领域的平均被引次数也不相同，需要深入研究两位学者的被引结构。由于篇幅所限，表3以文章的被引量降序排列，保留每位作者排名前五的论文被引情况(2)数据来源SciVal分析平台，检索时间为2021-08-14，需要全表请与作者联系wcy1985@tsinghua.edu.cn。。

表3 Launer和Mallapaty在多学科领域的部分论文被引情况(2016—2020)

Launer排名第一的文章被引量高达549，超过Mallapaty所有文章的总被引量，但该文章所归属的学科领域平均被引次数为15.8,说明该学科领域普遍有着较高的引用量，这也稀释了这篇文章的影响力。反观Mallapaty排名第一的文章被引量为98，但该文章所归属的学科领域平均被引次数仅为2.2，说明该学科领域的引用量极低，该文章被引量为该学科领域平均被引次数的44.99倍，其影响力不言而喻。如果以整体的视角分析两位学者的数据会发现，Launer涉及的学科领域的平均被引次数偏高，24篇文章中有14篇文章的领域平均被引次数>10，有10篇文章的领域平均被引次数>15，而Mallapaty涉及的学科领域的平均被引次数偏低，55篇文章中有43篇文章的领域平均被引次数<3。因此，若仅仅以学者的发文量和总被引量的数据对学者进行评价，而不考虑其所在学科领域的相关信息，就会埋没一批在领域平均被引次数小的学科领域中独占鳌头的学者。F指数能够较好地解决这一问题，对此类学者予以关注。

相较于FWCI，F指数与其相关系数高达0.943，存在显著正相关，说明F指数与FWCI一样，均具有跨领域评价的功能。例如，如表4所示，以F指数排名第一的Mallapaty和FWCI排名第一的Mahvi，均属于高学术影响力的第一梯队，但Mallapaty的发文量(55)远超Mahvi的发文量(23)，这意味着在学术影响力相当的基础上，前者有着发文数量的绝对优势。因此就学术影响力而言，Mallapaty应大于Mahvi，而F指数正是考虑了学术产出数量的因素，所以能够得到更为科学合理的评价结果。

表4 Mahvi和Mallapaty在多学科领域的相关数据汇总

3.2.2 评价结果的区分度

一方面，F指数可对不同学科学术影响力的异质性进行调节，从而实现跨学科研究成果的学术影响力评价；另一方面，F指数必须在评价结果上具有更加精准的区分度，才能优于现有指标。本研究认为，合理的区分度要求每个分数段内的人数尽可能接近正态分布，且同分(无法判断)的人数尽可能少，以免降低评价效率。

从正态性检验来看，F指数是最为接近正态分布的评价指标。根据Kolmogorov-Smirnov检验，h指数的D统计量为0.12777，p值为5.699*10-4；p指数的D统计量为0.12955，p值为4.533*10-4；FWCI的D统计量为0.16167，p值为4.218*10-6；F指数的D统计量为0.11123，p值为4.118*10-3。虽然它们都拒绝了数据分布符合正态分布的零假设，但从D统计量和p值可以看出，F指数最接近正态分布，FWCI最不接近正态分布。

从同分情况来看，F指数出现同分的情况要显著低于h指数和FWCI。表5显示250名学者中， h指数有43名学者不同分，p指数有224名学者不同分，FWCI有89名学者不同分，F指数有148名学者不同分。其中相较于同样具有跨领域评价的FWCI，F指数同分2名及以上学者的人数，显著要低。

表5 多学科领域的同分学者数量分布表

综上，不同小学科领域的发文量差异会对学者的学术影响力评价结果产生显著影响，F指数是更为合理和全面的跨学科评价指标。

3.3 F指数在单一学科领域学术影响力评价的适用性

在单一学科学术影响力的评价中，h指数和p指数虽具有一定的局限性，但也被广泛应用。F指数与h指数、p指数均具有显著的相关性(见表6)，特别是与p指数在各学科领域均呈现中度以上的正向显著相关。这表明，F指数并非是对现有评价指标的颠覆，而是进一步的改进和完善，可用于单一学科学术影响力的评价。

表6 F指数及参照指标相关系数汇总表

进一步，本研究将考察F指数在区分度上的表现，是否更接近正态分布、以及是否出现更少的同分情况。

六个学科领域中250位学者的h指数、p指数、F指数和FWCI经过Kolmogorov-Smirnov检验的结果显示(4)显著性一列中，***p<0.001; **p< 0.01;*p<0.05；+p<0.1，未标明显著性水平的指数则接受Kolmogorov-Smirnov检验的零假设，认为该指数的分布为正态分布。(见表7)。在各个学科领域，F指数的D统计量均为最小值，这表明F指数相较于其他指数更接近正态分布；就显著性水平而言，除了哲学领域之外， F指数在其他学科领域都近似于正态分布。此外，在大多数学科领域中，p指数、FWCI和h指数的D统计量逐渐增大，这代表着p指数是除F指数以外，更接近正态分布的评价指标，但也仅在机械工程领域近似于正态分布。

表7 正态分布检验的D统计量数值及p值

六个学科领域中250位学者的h指数、p指数、FWCI和F指数的同分情况显示(见表8)，F指数和p指数的同分人数小于h指数和FWCI，哲学领域F指数的同分人数小于p指数，但在其他领域均略低于p指数。需要强调的是，由于p指数和F指数都涉及到开方的运算，因此在保留更多位有效数字的情况下，F指数和p指数几乎都不会出现同分的情况，从此意义上讲，F指数的区分度能够得到有效保证。

表8 分领域的同分学者数量分布表

4 结语

本研究提出F指数作为一种改进的学术影响力测度方法，并分别以2016—2020年间在多学科、哲学、法学、统计与概率、机械工程、作物学、传染病学等七个领域各250位学者为研究对象，进行了实证研究。结果发现，F指数虽与h指数、p指数、FWCI显著相关，但能够实现跨学科领域的学术影响力比较，且具有更高的区分度，其分布更接近正态分布，是适用性更广、科学性更强的评价指标。F指数也可用于学者、科研团队及学术组织的学术影响力评价。

但F指数也存在着继续完善的空间。通过理论推导和具体比较几位学者p指数与F指数、FWCI与F指数的评价结果，仅是初步证明F指数可实现跨领域评价，如何能够提升F指数在跨领域比较的评价效能仍需进一步思考，也可考虑引入更多用于跨领域评价的指标，如影响因子百分位、标准化特征因子[36-38]等。此外，囿于数据的可得性，研究数据的被引总量、FWCI均包含学者自引，如能除去自引，其评价结果会更为合理，但自引同时也影响h指数、p指数和FWCI的数值表现，故整体上不会影响本研究主要结论。