学术期刊影响力新修正指数的研究与实证分析

2019-12-18 03:59楼文高王莹莹
中国科技期刊研究 2019年11期
关键词:正态分布年报预处理

■楼文高 王莹莹 张 博

1) 上海商学院信息与计算机学院,上海市徐汇区中山西路2271号 2002352) 上海理工大学出版印刷与艺术设计学院,上海市杨浦区军工路516号 200093

学术期刊是学者进行学术交流、传播科研成果的主要方式和载体,期刊影响力是指其所载的论文在某段时间内促进学术研究与应用发展的能力以及社会对其价值的认同程度和期刊本身传播与扩散能力等的体现[1-3]。虽然期刊界和学术界做出了很多努力,但要对学术期刊作出全面客观和准确的评价仍然十分困难。如果片面强调影响因子(Impact Factor,IF)或总被引频次(Total Cites,TC)等单个指标的作用,将会导致期刊发展出现畸形,极有可能出现为了提高IF而故意减少发文量的“只剩下好看的结果”或只顾增加发文量而不顾质量的“丧失期刊作为学术传播工具的功能”等情形[4]。为此,2013年中国科学文献计量评价研究中心(以下简称“评价中心”)提出了一个由他引TC和IF非线性“平权”组合的用于类内期刊影响力评价与排序的综合指标——学术期刊影响力指数(Clout Index,CI)。2015年起每年出版的《中国学术期刊影响因子年报》(以下简称《年报》),发布每种期刊的CI值(为了便于描述,以下将《年报》发布的CI简称为“《年报》CI”)及其排序。

由于CI同时兼顾了TC(表示期刊发展历史与传承以及发文量等绝对量规模因素)和IF(主要体现期刊前2年所载论文质量等相对量效率因素)对期刊影响力的作用,而且为抑制单纯追求大的TC(与之对应的IF很小)盲目扩大发文量而降低学术质量的情况,提高CI的公正性,引入了基于期刊量效指数(Journal Mass Index,JMI)的调整系数K。因此,CI的合理性得到了国内外期刊界和学术界的基本认可[1-9]。文献[4,7-9]对《年报》CI、JMI的意义和作用以及K的合理性和有效性等进行了充分阐述。同时,文献[1-3,5-6]也指出了CI的内涵以及JMI区间的确定、K值的选取等都存在改进余地。杨浦[5]从CI的数学意义和目标内涵两方面分析了CI的优缺点,认为CI具有引导期刊向论文质量与载文量均衡发展的作用,但通过提高IF更容易提高CI值,仍然将期刊“引导向只追求影响因子的老路”,并提出应对TC和IF进行恰当的预处理使归一化数据更靠近对角线分布和均衡提高两个指标的难度等改进思路。俞立平等[6]认为TC、IF数据服从幂律分布,提出对其取对数预处理,使其接近于正态分布,并舍去调整系数K,以图书馆、情报学(以下简称“图情类”)期刊为例进行实证研究,取得了较好效果,但由于存在计算误差,并未得到其认为的合理得多的结果——《大学图书馆学报》排名(从第6名提高到第2名)高于《图书情报工作》(详见2.3节),而且当IF小于1时,取对数后会出现扩大归一化数据区间的结果,与IF大于1时的情况相反,显然是不太合理的。

综上可知:《年报》CI及俞立平等[6]提出的修正CI(以下简称“YCI”)都有改进余地;应对TC和IF进行预处理使其接近于正态分布,尽可能地分布在对角线附近,减少提高TC和IF对提高CI的难度差异;应舍去基于JMI的调整系数K以减少排名歧义,并进一步研究CI的特性等。本文提出一种新的CI修正方法——NCI(New Modified Academic Journal Clout Index),详细分析函数特性及其数据分布特点,通过对TC取开3次方根和对IF取开平方根预处理,使数据分布接近于正态分布,且使NCI具有较好的区分度和合理性;分别基于复合(他引)数据(TC和IF)对图情类期刊进行实证研究,得到NCI值,与YCI值、《年报》CI值、CSSCI来源期刊及排名等进行比较,发现NCI与《年报》CI、YCI、CSSCI期刊排名等具有很好的一致性,而且NCI能够挖据出更多信息,更全面客观地表征期刊影响力,结果也更为合理和可靠。

1 研究方法和数据获取

1.1 研究方法

1.1.1 《年报》CI简介

《年报》提出的CI是由期刊在统计年的他引TC和他引IF进行组内线性归一化处理后非线性“平权”计算得到,计算公式为[1-3]

(1)

式中:αCI为《年报》提出的CI值;A、B分别是组内期刊IF和TC的归一化值[1-3]。当JMI的取值RJMI在(0.05,0.1]、(0.025,0.05]和(0,0.025]时,K分别取0.2、0.1和0.05;RJMI为其他值时,K取1。

由(1)式可知:(1)IF和TC的归一化值A和B应尽可能地“平权”,即“等权”;(2)如果两种期刊的IF相等,则TC大的期刊,其CI值应该更大。(3)引入基于JMI的调整系数K,可使CI真正达到“不能让不顾载文质量而过多增加发文量的期刊占便宜”的目的,从而引导期刊在载文质量与数量之间实施均衡发展,避免落入期刊发展“误区”——或者为了保证较高的IF而发文量很少,或者为了显著增加TC而不顾质量地过多增加发文量。

1.1.2 《年报》CI的指标和函数特性存在的不足

(1) 选取评价指标以及指标权重因期刊而异的问题。为了更好地体现公平计量,《年报》在计算CI时采用他引TC和IF,但《年报》并没有给出他引TC和IF数据,导致普通学者很难对CI进行深入研究。为此,俞立平等[6]采用复合TC和IF代替他引数据,实证结果表明这种替代是有效的,这样便于直接从《年报》获得数据,开展深入研究。

(3) 舍弃基于JMI的调整系数K。杨浦[5]和俞立平等[6]都认为基于JMI不同取值区间来确定K值的方法不够严谨,《年报》也没有提供理论依据,而是主观地根据调整5%期刊B值来确定K值。俞立平等[6]认为对复合TC进行取对数预处理后,显著降低了个别期刊因TC过大而对CI的不利影响,对图情类期刊的实证结果表明,舍去调整系数K的方案是基本可行的。

1.2 数据获取及其确定合适的预处理方法

(1) 获取数据。为了与俞立平等[6]的YCI值及其排序结果进行比较,从2017年《年报》获取43种图情类期刊的复合TC和IF数据,从评价中心购得相应的他引数据。

表1 部分图情类期刊复合IF、TC及其不同预处理后的数据

图1(a)~(d)所示分别为复合IF及其采用不同预处理方法后得到的直方图和正态分布曲线,偏度、峰度及正态性检验值如表2所示。其中峰度、偏度越接近于0,表明数据分布越接近于正态分布。

图1 复合IF及其经不同预处理后的直方图和正态分布曲线对比

参数A0A03A04A0B0B03B04B0A′0B′0偏度2.5680.9190.5080.3291.7970.7870.3810.155-0.126-0.692峰度10.2401.5400.234-0.1883.2790.389-0.070-0.109-0.7941.214P值0.001c0.2000.2000.2000.0010.2000.2000.2000.1440.200

注:c表示Kolmogorov-Smironov检验(D检验)值;显著性水平P>0.05表示数据服从正态分布;A′0和B′0分别为复合IF和TC取对数预处理后的结果。

由图1和表2可知,复合IF原始数据呈中等左偏态分布,不宜直接进行归一化处理,取开平方根、3次方根、4次方根预处理后的数据均(接近)服从正态分布规律,但数据的区分度逐次降低,从尖峰变为平峰。因此,为保证数据既近似服从正态分布又具有较高的区分度,笔者认为对复合IF取开平方根是比较合适的。从A′0和B′0偏度小于0可知,对数预处理后的数据是右偏的,与原始数据的左偏相反,显然是“矫枉过正”了,是不太合适的。同理可得,对复合TC取开3次方根是比较合适的(限于篇幅,过程略)。

(3) 舍去基于JMI的调整系数K。虽然文献[9]详细论述了调整系数K对“量大质低”期刊调低其CI值的合理性,但对到底应该调低多少是合理的,没有给出令人信服的解释,而且K取离散值,很容易受到处于临界值附近期刊从业者的质疑[1-3,5]。如对J1、J2两种期刊,IF和TC的归一化值A和B均为0.3、0.8,RJMI分别为0.099和0.101(实际差异非常小),则调整系数K分别为0.2和1,J1和J2期刊的CI值分别为320.78和686.20,即后者的CI值是前者的2倍多,这显然是不合理的。上述虽然是特例,但从一个侧面说明调整系数K取离散值是不合理的。且实证研究结果表明,采取本文的预处理方法对TC和IF进行预处理,可显著降低过大TC对NCI的不利影响,故舍去调整系数K。

1.3 NCI的计算公式

综上所述,本文提出的期刊影响力新修正指数NCI的计算公式为

(2)

式中:AN、BN分别为IF、TC经预处理后的归一化值。

2 计算图情类期刊NCI值的实证研究

2.1 数据预处理及其归一化

图2(a)、(b)所示是俞立平等[6]采用的43种图情类期刊的复合IF和TC数据预处理前、后归一化值的散点图。可以看到,图2(b)的数据分布更为分散、均匀,更向(1, 1)点和对角线靠近。大多数期刊数据分布于对角线之上(即BN>AN),即NCI值更多取决于TC,将引导更多期刊向提高IF(载文质量)方向发展,更有利于促进期刊业的均衡发展。

图2 复合IF和TC数据预处理前、后的归一化值散点图(a)复合IF和TC原始数据归一化值散点图;(b)复合IF和TC数据预处理后归一化值散点图

2.2 与俞立平等[6]YCI的比较

将各期刊的归一化值(包括他引数据)代入(2)式可计算得到其NCI值及其排序,列于表3中。作为对比,《年报》CI值、YCI值(αYCI)[6]以及笔者根据文献[6]的公式和数据计算得到的α′YCI值及其排序和CSSCI来源期刊及其排序也列于表3中。

2.3 结果与分析

(1) 俞立平等[6]YCI的计算结果存在一定误差。本文根据俞立平等[6]列出的数据及公式,重新计算得到的α′YCI值,与俞立平等[6]的结果不同,见表3第8列。

(2) 本文NCI值与α′YCI值排序结果具有很好的一致性。根据α′YCI值,《图书情报工作》排名仍然高于《大学图书馆学报》,与NCI值排名一致。在复合NCI排名、《年报》CI排名前24位的期刊中,只有《中华医学图书情报杂志》不同,分别排第21和第27位,表明NCI值虽然采用复合数据进行计算,但高质量期刊排名的一致性很好。《图书情报导刊》的排名相差很大,根据《年报》CI、α′YCI和本文NCI值分别排第41、36和25位,经查,其2017、2018年《年报》CI值分别列第42和21位,可被引文献量从2016年的601篇减少到2017年的174篇,其复合IF仅从0.147提高到0.246(同时TC从6614下降到5889),但其影响力排名却从第42名快速蹿升到第21名,这是难以合理解释的,而根据NCI值,排名仅从第25位提高到第21位,显然要合理得多。

表3 图情类43本期刊的影响力指数NCI值与其他多个CI值及其排序结果对比

(3) 基于不同JMI区间K取离散值是欠合理的。如果2016年《图书情报导刊》所载的可引文献量从601篇增加到955篇,假定他引IF和TC不变,则RJMI在(0.05,0.10]范围内,调整系数K从1变为0.2,2017年的CI值就从159.7“断崖式”下降到37.4,即CI值下降到原来的1/4,排名也从第21名下降到第40名,这完全是调整系数K取离散值导致的,显然是不合理的。

(4) 本文NCI与《年报》CI、α′YCI以及TC、IF之间具有很高的相关性,Pearson相关系数如表4所示。除复合TC与他引IF之间在0.05水平上显著相关外,其他均在0.01水平上显著相关。

表4 NCI值与《年报》CI值、复合(他引)TC和IF之间的Pearson相关系数

由表4可知:NCI与复合(他引)IF和TC之间的相关系数均高于α′YCI,且复合NCI与α′YCI的相关系数高达0.975,说明NCI能比α′YCI从复合(他引)IF和TC中挖掘出更多的有效信息;虽然复合NCI与《年报》CI来源于不同的指标数据,预处理方法也不同,但相关系数达到0.946,采用相同数据时更是高达0.964,表明两个指数具有高度一致性。从排名结果来看,两个指数Q1和Q2区的期刊完全相同。因此,与俞立平等[6]α′YCI和《年报》CI相比,NCI更好地兼顾复合(他引)IF和TC的平衡性。

(5)与CSSCI来源期刊的比较。由表3可知,他引NCI排名前18位的期刊与CSSCI来源期刊完全相同,排名前9位期刊中只有一种期刊不相同。复合NCI排名前18位期刊与CSSCI来源期刊中只有一种期刊不相同,一致性很好。因为无法从中国知网下载《情报学报》2003—2012年的论文,故其TC相对较低,以至于NCI和《年报》CI的排名偏低(分别排在第12位、14位),而在CSSCI中排在第4位。

为进一步验证NCI的合理性和有效性,笔者再选取2016—2018年《年报》图情类、信息与新闻出版学、体育以及中国经济等类别期刊进行实证研究(限于篇幅,具体过程和结果略,备索),均得到类似的结果。

3 讨论

3.1 采用CI指数表示期刊影响力具有较好的合理性

《年报》用TC和IF构建相互掣肘的CI指数是比较合理的,优于IF、TC等任何单一指标,有利于引导期刊在发文质量与数量之间均衡发展。采用非线性“平权”模型替代线性模型以及基于JMI的调整系数K,可有效抑制个别期刊的过大TC(同时IF很小)而出现“大数吃小数”的情况,可均衡IF和TC对提升CI的效能。

3.2 采用基于JMI的离散调整系数K值存在一定的不合理性

对不同JMI区间,笔者建议采用连续的调整系数,有两种解决方案:(1)在RJMI∈(0,0.5]范围内,取K=2×RJMI,即RJMI∈(0, 0.1]时,K=0~0.2,抑制作用稍大于《年报》,RJMI∈(0.1,0.5]时,K=0.2~1,由《年报》的无抑制改为适度抑制,其他情况下K取1,避免出现CI值“断崖式”蹿升或者下降的情况。(2)尽可能压缩采用调整系数K的JMI范围。在RJMI∈(0,0.1]、RJMI∈(0.1,0.3]范围内,分别取K=2×RJMI和K=0.2+4×(RJMI-0.1)的分段线性函数,其他情况下K取1。此外,对TC归一化值是否属于“过大”应作出明确规定(如必须大于0.70),只有“过大”时才需要调整。

采用如上两种方案,可有效避免出现前述无法合理解释的现象,从《年报》[1-3]图2可以看出,需要调整的期刊也不多。今后编制《年报》时,建议改进调整系数K的取值方法。

3.3 NCI与俞立平等[6]α′YCI、《年报》CI值的比较

图情类期刊的实证研究结果表明:(1)NCI、俞立平等[6]α′YCI和《年报》CI均较好地揭示了复合(他引)IF和TC指标数据的有效信息;(2)与α′YCI相比,NCI值与IF和TC的相关系数更高,表明从IF和TC中挖掘出了更多的有效信息;(3)与《年报》CI相比,NCI更好地平衡、兼顾了IF和TC两个指标。

因此,笔者以为,本文提出的NCI更合理和有效,期刊排序结果更接近于实际情况和学界、业界的普遍共识。

3.4 进一步改进CI的思路

文献[1-3,5-6]均认为CI计算方法还需要进一步完善。笔者以为,总的改进思路可概括为:(1)计算公式应尽可能简洁;(2)更好地平衡TC和IF之间的关系,从而引导期刊在载文质量和数量之间均衡发展;(3)IF相同时,TC更大期刊的CI值应该更大,TC相同时,IF更大期刊的CI值应该更大;(4)尽可能使IF和TC的归一化值近似服从正态分布规律,接近对角线分布,使CI保持较好的区分度;(5)尽可能从IF和TC数据中挖掘出更多的有效信息;(6)尽量不用调整系数或者采用连续的调整系数。

4 结论

针对文献[1-3,5-6]提出的CI改进思路等,本文提出一种新的影响力指数修正计算方法(NCI),首先对IF取开平方根、对TC取开3次方根进行预处理,以使其近似服从正态分布,再进行归一化后求得NCI值,可适度压缩高影响力期刊之间的间距,适度扩大中等影响力期刊之间的距离。

对图情类等期刊的实证研究结果表明:(1)新修正指数NCI与俞立平等[6]α′YCI、《年报》CI指数都能很好地揭示IF和TC的分布规律和有效信息;(2)与俞立平等[6]α′YCI和《年报》CI相比,NCI与IF和TC的相关系数更高、更均衡,表明NCI优于α′YCI和CI,其期刊排名更接近于实际和学界、业界的共识;(3)NCI和α′YCI的预处理方法都能有效地抑制过大TC对CI的不利影响,都可舍去调整系数;(4)《年报》基于JMI的调整系数K取离散值有时欠合理,对于处于临界值附近的期刊,必定出现无法合理解释的结果,据此提出两种方案来改进调整系数K值;(5)基于他引数据,NCI排名前18位的期刊与CSSCI来源期刊排名前18位的期刊完全相同,基于复合数据的期刊,只有一种期刊不同,NCI与《年报》CI排名前3、10、14和20位的期刊完全相同,一致性很好。

本文不足之处主要有:(1)采用“试凑法”确定TC和IF的合适预处理方法,虽然符合探索性研究的基本精神,但如何兼顾既近似服从正态分布又保持较高的区分度,理论依据有待完善。(2)虽然经图情类等四个类别的期刊实证研究有效,但对其他类期刊的有效性还有待进一步验证。(3)须对预处理前、后指标数据的内涵进行更好的界定和厘清。

猜你喜欢
正态分布年报预处理
我刊2021年影响因子年报
我刊2021年影响因子年报
我刊2021年影响因子年报
求解奇异线性系统的右预处理MINRES 方法
关于n维正态分布线性函数服从正态分布的证明*
高COD二噻烷生产废水预处理研究
生活常态模式
偏对称正态分布的若干性质
基于预处理MUSIC算法的分布式阵列DOA估计
正态分布及其应用