■俞立平 孙建红
宁波大学商学院管理工程系,宁波市江北区风华路818 315211,E-mail:yuliping@nbu.edu.cn
科技评价包括科研机构评价、科研人员评价、科技政策评价、学术期刊评价等诸多方面。在科技评价中,学术期刊评价是其中非常重要的一个环节,基于学术论文影响力的总被引频次指标在其中得到了非常广泛的应用。自影响因子从1972年起成为期刊评价指标以来,总被引频次几乎与之同时出现[1]。在迄今大多数科技评价中,总被引频次指标成为选取频度最高、权重较大的重要指标之一。
总被引频次是期刊自创刊以来所登载的全部论文在统计当年被引用的总次数,当然从评价机构或学者的角度,总被引频次也可以借用,但主要应用在期刊评价中。从总被引频次的概念可以看出,在同等情况下,创刊早的期刊,由于其发表论文较多,总被引频次值一般也较高,而新创刊的期刊,其影响力的提高也需要读者和学术界一个认识的过程,即使学术质量较高,但总被引频次可能也处于相对不利的地位。总被引频次的这个问题,本质上是期刊评价时的时间特性问题,必须深入分析这个问题,并提出相应的解决思路,以提高科技评价的科学性与可信度。
关于总被引频次的特点与局限研究,李晓红、于善清[2]认为,总被引频次的大小与期刊的创刊年限有直接关系,创刊早的期刊,其总被引频次一定比创刊晚的期刊要高,因此在使用总被引频次评价期刊时一定要考虑这一因素,不能一概用总被引频次的大小来评价期刊的学术水平。李晓萍、姜瑾秋等[3]认为总被引频次主要反映科技期刊包括近期状况在内的历史状况,弥补了因载文量过多而导致影响因子偏低的问题。胡兴戎、王晴[4]发现在2009年累计总被引频次居前10位的口腔医学期刊中,既有影响因子居前10位的期刊(4种),也有影响因子排位较低的期刊。王群英、林耀明[5]选取资源、生态、地理三个相近学科的8个期刊,通过分析它们的影响因子、总被引频次与载文量之间的关系发现,发现载文量与各刊影响因子的相关程度不一,而与总被引频次有较强相关。
总被引频次由于界定比较清楚,对其优点与不足学术界并没有太多的争论。总被引频次用于科技评价,既可以作为单个指标使用,即直接比较不同评价对象总被引频次的大小,也可以在多属性评价时作为评价指标选用,但在期刊评价中究竟应该如何利用总被引频次指标并没有公认的结论,甚至对此进行的深度研究也不多。本文以汤森·路透JCR2011为基础,选取光学、土壤、化学三个学科,对总被引频次的特点及与影响因子的关系进行深入分析,然后对总被引频次用于期刊评价的范围进行系统总结。
所谓科技评价的时间特性,就是科技评价的周期或频率,以及流量评价或存量评价的特点。科技评价的时间特性隐含的科技评价中,并没有引起足够的关注。
任何评价都有一定的周期或频率。有的评价具有一定的周期性,比如CSSCI核心期刊的遴选,每年做一次;有的周期长一些,比如北京大学《中文核心期刊要目总览》,已于 1992、1996、2000、2004 年、2008年、2011年出版过六版,基本上以3-4年为一个周期。有的评价不具有周期性,可能是政府部门或相关机构不定期做一些评价。
评价周期和评价目的与评价的管理功能是紧密关联的。比如优选100名科技人员冲刺诺贝尔奖,重点对其较长时间的成果做评价,虽然最重要的也许是最近3-5年的成果,但评价是长周期的,甚至是累计水平的评价。再如国家社科基金资助期刊遴选,则是每年一次。一些评价机构之所以会相隔3-4年做一次评价,有一个潜在的前提条件就是,本次评价的是自上次评价结束到本次评价之间的情况,尽管可能以评价当年的数据为主,根本原因可能是周期过短的评价没有太大的意义,因为太短周期的评价由于指标数据波动较大,导致每次评价结果相差较大,其实是没有意义的。如果想进行定期管理的话,太长周期的评价也失去了稳定的管理功能。
从评价指标角度,必须注意流量指标与存量指标的区别。所谓流量指标,就是当年数据的统计指标,所谓存量指标,就是累计数据的统计指标。从评价本身来说,科技评价同样也有流量评价和存量评价,遴选100名科技人才冲刺诺贝尔奖,这是对科研人员的存量加以评价,而年度CSSCI期刊遴选,则是典型的流量评价。在科技评价中,存量评价其实是不多的,更多的是进行流量评价。
对于流量评价应该采用流量指标,对于存量评价应该采取存量指标,否则就不具备可比性。在科技评价中,更多是流量评价,所选取的一些评价指标,比如影响因子、即年指标、学科影响指标、特征因子、H指数、被引半衰期等等都是流量指标,只有总被引频次是存量指标,这明显是不合适的,最终会导致办刊历史比较悠久的期刊在评价中得分偏高。总被引频次作为每年公布的存量指标,按道理只能用在存量评价中,根本就不能应用在流量评价中,然而实际情况是,目前国内的主流期刊评价,均将总被引频次这个存量指标作为重要指标引入,学术界对这种情况熟视无睹,实在是一件非常奇怪的现象。
那么,是不是在存量评价中,总被引频次就可以无条件引入呢?其实也并非如此,以遴选百名科技人员冲刺诺贝尔奖为例,学者A年龄较大,从1971年开始发表论文,学者B年轻一些,从1985年开始发表论文,2012年A的总被引频次为800次,B的总被引频次为600次,很明显这是不可比的,因为不同学者、不同学科创新的最佳年龄是不同的。对于期刊评价,不同年度创刊的期刊,总被引频次一般也不可比,或者说由于时间跨度的不可比导致总被引频次不可比。本质上,这里存在一个历史唯物主义的认识问题,要做到可比,也必须对总被引频次进行一定的转换处理。
是不是总被引频次就一无是处,没有利用价值呢?也不能这样讲,只要时间相差不大,还是有一定的应用价值的。比如对于一些办刊历史比较悠久的期刊之间的比较,X期刊办刊90年,Y期刊办刊80年,虽然相差10年,但总体上这种差别可以忽略。
另外一个问题是,能否将总被引频次这个指标通过某种方法折算成可比性指标呢?比如目前应用较多的地区固定资产存量,可以通过一定的方法折算到某年存量,然后再进行比较或实证研究,这样能做到同一年度的存量可比,但总被引频次并不具备这种特性,比如M期刊1980年创刊,10年后1990年的总被引频次是1500次,N期刊2002年创刊,同样10年后2012年的总被引频次是1300次,能否说M期刊优于N期刊呢?也不能,因为引用只有在同年相比才具有可比性,不同年度的学术热点不同,所以不同年度的总被引频次相比就没有任何意义。
当然,创刊历史越长的期刊总被引频次越高只是一种平均现象,即对同等水平的期刊而言是如此,总被引频次受期刊的学术影响力、发文量、文献老化因素等影响,但这些并不影响总被引频次是存量指标的本质。
在科技评价中,学术成果影响力评价是其中非常重要的一个环节,关于影响力评价的指标,比较重要的几个是:总被引频次、影响因子、5年影响因子、即年指标、特征因子等,要分析总被引频次的内涵特征,必须将其与其他反映期刊影响力的指标进行对比分析,思路如下:
第一,总被引频次与期刊影响力指标的排序分析。比较总被引频次的排序与其他期刊影响力指标的排序情况,检验他们是否具有某种一致性,这是典型的非参数检验,因为期刊文献计量学指标一般不服从正态分布。
Friedman检验是1937年Friedman提出的检验方法,也称为Friedman卡方检验,是检验K个总体的分布中心是否有差异的一种方法。其统计量计算公式如下:
公式(1)中,n为评价对象数,k为评价方法序号,R为秩序。
第二,总被引频次与期刊影响力指标的回归分析。分析总被引频次与其他期刊影响力指标的相关情况,比较拟合优度大小。
通过上述比较,如果发现其与某个指标具有较高的一致性,那么总被引频次的性质可以和该指标归于一类,否则的话,结合总被引频次的定义,对其应用范围要进行深入讨论。
本文采用汤森路透JCR 2011年光学、土壤学、有机化学三个学科期刊评价数据为例来进行研究,这样可以提高研究的稳健性。增强版JCR从2007年开始公布,公布的期刊影响力指标共有6个,分别是:总被引频次(Total Cites,X1)、影响因子(Impact Factor,X2)、5 年影响因子(5-Year Impact Factor,X3)、即年指标(Immediacy Index,X4)、特征因子分值(Eigenfactor Score,X5)、论文影响分值(Article Influence Score,X6)。JCR公布的2011年光学期刊77种、土壤学种33种、有机化学56种,由于部分期刊部分指标数据为0,比如有些期刊办刊历史不长,还没有5年影响因子数据,将这些带有缺失数据的期刊删除,最终光学期刊剩下66种,土壤学期刊30种,有机化学期刊54种。
表1 总被引频次的非参数检验
分别对总被引频次排序与影响因子、5年影响因子、即年指标、特征因子分值、论文影响分值的排序进行Friedman检验,其结果如表1所示。
除了光学期刊总被引频次与即年指标在10%的水平上通过了统计检验外,其他都没有通过统计检验,总体上不能拒绝总被引频次与期刊影响力指标排序没有显著不同的原假设,说明总被引频次指标在反映期刊影响力水平上与其他文献计量指标有某种程度的一致性。
总体上,非参数检验是一种相对粗糙的检验,以光学学科总被引频次排名前20的期刊为例(见表2),总被引排名第一的期刊,影响因子和5年影响因子排名第8;总被引频次排名第20的期刊,影响因子排名第4;影响因子、5年影响因子、即年指标、论文影响分值均为第1的期刊,总被引频次排名为11。总体上,从排序的非参数检验来分析总被引频次与期刊影响力的关系特点比较粗糙,需要进一步进行深入分析。
对三类学科的期刊,分别以总被引频次作为因变量,影响因子、5年影响因子、即年指标、特征因子、论文影响分值作为自变量进行回归,拟合优度如表3所示。对光学期刊而言,总被引频次除了和特征因子相关系数较高外(0.872),和其他期刊影响力指标相关系数均不高,拟合优度都在0.5以下;土壤学期刊类似,除了和特征因子相关系数较高外(0.814),其他拟合优度均在0.5以下;化学期刊总被引频次和其他影响力指标的拟合优度均在0.5以下。
从平均值看,光学期刊的拟合优度均值为0.193,土壤学期刊的拟合优度为0.446,化学期刊的拟合优度为0.088,均在0.5以下,可见总被引频次与其他期刊影响力指标之间从数据关系的角度也不具备较高的相关性,难以作为期刊影响力指标。
表2 总被引频次前20种光学期刊
表3 总被引频次与期刊影响力指标的拟合优度
总被引频次指标构成总体比较简单,而且还没有除去自引因素。通过JCR2011光学、土壤学、化学学科期刊的实证研究表明,总被引频次与期刊其他影响力指标的相关性很弱,并没有反映出期刊影响力的某种独特的规律或新的内涵。如果将总被引频次中有限的期刊影响力因素去除,那么总被引频次还能代表什么呢?可能只剩下反映期刊办刊历史的某种因素,问题是如果对期刊办刊历史进行某种考察,直接根据办刊时间判断即可,也用不到总被引频次指标。
在科技评价中,一般都是流量评价,很少用到存量评价。在存量评价中,应该采用存量指标,同样在流量评价中,也应该采用流量指标。总被引频次作为存量指标,被广泛应用在流量评价中,从逻辑上是存在问题的,在时间上不能做到同步,因此本质上是不可比的。
在单指标评价中,对于一些办刊历史相近的期刊,或者从事科研工作时间差不多的学者,总被引频次是有一定意义的,可以大致反映期刊或学者的影响力。在指标体系综合评价中,总被引频次只有在以存量为目的的评价中才具有意义,当然存量评价必须以存量指标作为基础,比如专利数必须是累计专利数,研发经费投入必须是累计研发经费投入,从目前的实践看,这方面的评价并不多。
1 Rousseau R,Yang L,Yue T.A discussion of Prathap’s h2-index for institutional evaluation with an application in the field of HIV infection and therapy.Journal of Informetrics,2010,4(2):175-184
2 李晓红,于善清.慎重使用“影响因子”评价科技期刊.情报科学,2005,(1):75-77
3 李晓萍,姜瑾秋,邢宝山等.影响因子和总被引频次在期刊评价中的作用.深圳中西医结合杂志,2006,(4):270-272
4 胡兴戎,王晴.SCI-E收录口腔医学类期刊情况及引文评价参数分析.中国科技期刊研究,2010,21(4):545-548
5 王群英,林耀明.影响因子、总被引频次与期刊载文量的关系研究——以资源、生态、地理方面的8个期刊为例.中国科技期刊研究,2012,23(1):76-79