俞立平
在学术期刊评价中,复合指标一直被学界格外重视。复合指标是指在一个评价指标中包含了更多信息量如h指数、特征因子等,与单一指标如总被引频次、基金论文比等相比,内涵更加丰富。与指标体系相比,具有良好的简捷性,指标体系的多属性评价因涉及评价指标选取、权重赋值、标准化方法、评价方法等因素,导致评价结果不唯一。复合指标的这些优点使得学术界一直没有放弃完善它的努力,单一指标评价、复合指标评价、指标体系评价三种学术期刊评价模式将长期共存下去。
目前典型的学术期刊评价机构包括中国科学技术信息研究所、中国科学院文献情报中心、北京大学图书馆、武汉大学信息管理学院、南京大学中国社会科学研究评价中心等,在这些评价机构的期刊评价体系中,多数采用指标体系多属性评价,而南京大学CSSCI期刊评价主要采用总被引频次和影响因子两个评价指标,本质上也可以视为复合指标评价。如果复合指标评价能够取得较好的效果,本着趋简避繁的原则,就没有必要采用指标体系进行评价了。
中国知网2015年发布的中国学术期刊影响力指数(CI)具有里程碑意义。这是中国学术期刊引文数据库发布的首个重要的复合指标,它主要采用总被引频次和影响因子两个指标进行评价,同时结合知网提出的学术期刊量效指数(JMI)[1]调节计算细节,中国知网已经基于CI指数进行学术期刊的分区。但同时CI指数也存在一些问题,比如没有修正影响因子自身存在的过度自引/人为操纵载文量、一般不服从正态分布、计算规则不统一、评价时效性不佳等等,如果能有效地修正这些问题,无疑对CI指数的应用和推广具有积极意义。目前在核心期刊评价体系中,CI指数的影响力相对较小,可能也与其存在的这些问题有一定关系。
关于CI指数的应用,伍军红等[2]研究发现,影响因子与总被引频次相关性较弱,因此基于这两个指标构建的CI指数具有一定的合理性,在国际期刊评价中,该指标比单一采用影响因子的效果好。佘诗刚等[3]对入选“中国科技期刊国际影响力提升计划”的中科院英文科技期刊的CI指数进行了动态分析,评估了政策资助成效,并提出期刊的影响力提升策略。丁筠[4]根据文献计量指标与CI指数的相关性提取15个指标,然后通过建立BP人工神经网络模型对CI指数进行预测。
关于CI指数的修正,学术界已经开始了一些探索。俞立平等[5]针对CI指数权重大小不合理、归一化方法导致数据分布偏倚、CI权重调整系数k的确定不严谨、部分评价结果与现实相差较大等问题,提出了修正CI指数。楼文高等[6]根据复合总被引频次和影响因子数据的实际分布规律,提出对影响因子和总被引频次分别采取开平方根和三次方根预处理,推出NCI指数,以修正CI指数。杨浦[7]对CI指数提出的改进思路包括注重指标的独立性、平衡指标提升难度、引导方向符合期刊发展规律等。楼文高等[8]提出基于复合总被引频次、5年影响因子和即年指标3个指标的新影响力指数,简称CI3。
从现有的研究看,CI指数作为中国知网发布的一个新的复合指数,已经产生了一定的影响,但也存在一些问题。尽管学术界已经提出了一些改进思路,但这些思路主要侧重从CI指数本身的不足开展研究,较少涉及指标的内涵,因此在以下方面有待进一步深入:
第一,CI指数涉及的两个评价指标中,总被引频次对办刊历史较短的期刊不够公平,而CI指数的计算采用他引总被引频次和他引影响因子,这又否定了合理自引。指标本源层次的问题如果不加以解决,无疑会影响CI指数的评价结果。
第二,影响因子的人为操纵与过度自引和人为操纵载文量密切相关,而解决该问题最好的方法是采用动态变权函数,但尚未见到变权理论在该领域的运用,有必要进行进一步探索。
第三,即使从统计与数学方法角度看,CI指数的构造还有一些值得深入探讨的空间。
本文基于中国知网CNKI的引文数据,以图书情报学CSSCI期刊为例,提出一种解决问题的新思路——数据变权,对CI指数进行修正。相关研究有利于优化CI指数,以更好地发挥其评价效果,从而推进文献计量学的发展。
CI指数的原理如图1所示,横轴表示影响因子A,纵轴表示总被引频次B,其评价计算公式如下:
图1 CI指数的原理
其中,k为权重调节系数,根据量效指数进行适当调整。
CI指数的优点是考虑了影响因子和总被引频次两个重要指标,原理简洁。在实际中CI指数采用他引影响因子与他引总被引频次进行计算,为了行文方便本文表述时仍采用“总被引频次”和“影响因子”的说法。
(1)完全采用他引总被引频次、他引影响因子而忽视了论文的合理自引
Pandita等[9]指出学术期刊适当自引是一种正常现象,符合科学发现与文献传播的规律。Foo等[10]研究发现,即使像Nature、Science这样的世界顶级期刊,自引率也较高,这是传承与创新的需要。对于学术期刊而言,自引有两种情况,一是作者在该期刊发表论文,引用之前在该刊已发表的论文;二是作者在该刊发表论文,引用其他作者在该刊发表的论文。对于后者而言,尽管是自引,但很大程度上是期刊选题与学科研究方向的持续进展,显然不宜全盘否定。
(2)采用总被引频次评价对新刊不够公平问题
通常情况下,文献老化有一定的规律,一般对于超过30年办刊历史的期刊,尽管期刊办刊历史不同,但时间对总被引频次的影响总体不大。比如A期刊办刊100年,B期刊办刊40年,而引文一般情况在2—7年左右就老化了,其实时间影响并不大。但是如果A期刊办刊30年,B期刊办刊5年,那么对于B期刊而言,采用总被引频次评价就不够公平。
(3)载文量人为操纵防范问题
载文量人为操纵是个隐含问题,可被引文献量与载文量总体上密切相关,它是影响因子计算的分母。图2是中国知网引文数据库中CSSCI期刊最近20年来的载文量,在2009年载文量达到峰值150,069篇后逐年下降,2020年载文量仅为117,361篇。在人文社科研究经费、研发人员不断增长、研究水平不断提高的情况下,这是难以解释的。尽管不同期刊载文量降低的原因不一,有些期刊是论文篇幅延长,但造成这种现象的主要原因是期刊为了提高影响因子人为操纵载文量[11,12]。
图2 CSSCI期刊近20年载文量
在CI指数计算中总被引频次调整系数k只调整较低水平期刊的载文量。CI指数通过量效指数JMI调整总被引频次的权重k,JMI阈值取最小的5%期刊的临界值,如果可被引文献量大于平均可被引文献量,则k取0.05—0.2。这是一种防止期刊人为增加载文量以提高总被引频次的一种预防措施,被调整期刊往往是一些低水平期刊。
部分核心期刊为了提高影响因子在人为减少载文量,对于这些期刊要适当鼓励其扩大载文量以提高期刊的知识和信息量,而目前CI指数只对低水平期刊控制载文量有一定的抑制作用(通过量效指数调整CI权重系数k),所以CI指数只做了一半工作,不够全面。根本原因是其对影响因子与总被引频次采取同样的权重,其实只要适当降低总被引频次的权重,就可以有效防止低水平期刊滥发论文。
(4)评价时效性差的问题
期刊评价的时效性是个隐含问题,《中国学术期刊影响因子年报(人文社会科学)》每年出版一次,意味着期刊每年的发展得到重视,注重期刊的时效性。但总被引频次是期刊创刊以来发表的所有论文在统计年度的被引次数,主要展示的是学术期刊的存量影响力。相对而言影响因子时效性较好,解决的方法是适当提高影响因子的权重,降低总被引频次的权重。
(5)统计相关问题
文献计量指标一般不服从正态分布,其对CI指数的计算会产生潜在影响,通过极差标准化会导致影响因子标准化值A和总被引频次标准化值B的平均值变小,其数据分布规律不可控,并且CI指数很大程度上不服从正态分布。如图1所示,标准化后数据主要分布在45°线右下方,靠近影响因子一侧,这是由总被引频次的极大值较大引起的。
尽管文献计量指标一般并不服从正态分布,但如果在设计CI指数时预先根据这种情况调整标准化方法,是有可能改善这种情况的。比如楼文高等[6]对CI指数的改进就考虑到指标标准化方法对标准化值数据分布的影响。
此外,k值的确定也不够规范,其根据JMI确定,阈值缺乏统一标准,不符合精简美观的原则。
本文对CI指数的修正,重点解决影响因子的人为操纵问题,因此需要首先实现的是防止过度自引与人为操纵载文量。
变权本来是多元统计中的一项技术,其原理是根据一定的规则对某评价指标的少数评价对象的权重进行动态调整,包括激励型变权与惩罚性变权两类。前者是扩大权重,后者是缩小权重,通过灵活变权以更好地体现评价导向和分类评价。
对于期刊的自引问题,只有篇均自引率达到较高水平时,才有必要进行适当的惩罚,而且过度自引越严重,惩罚力度应越大。对于载文量的人为操纵,也需要对载文量偏低进行惩罚性变权。
假设标准化后评价指标为Y,权重为ωi,变权系数为q,则变权后计算结果为:
公式(2)中,等号左侧是变权评价,用变权系数乘以权重得到变权后权重qωi,再乘以评价指标Y。如果换一种思路,如公式(2)等号右侧,也可以将其视作标准化数据扩大q倍以后,再乘以原来权重ωi,其结果是一样的。本文将通过原始数据乘以变权系数来间接达到指标变权目的的方式称为数据变权,这是一种全新的尝试。
数据变权与指标变权表面看是一致的,但本质上还是有较大区别:第一,数据变权能够更好地体现对少数评价对象评价指标的激励和惩罚。评价指标值是扩大还是缩小一目了然,而传统指标变权不够明显,每个评价指标的权重组合均不相同。第二,数据变权对评价方法拥有较大的选择空间,而传统指标变权更多应用在线性加权汇总类评价中。
因为要同时调整自引和载文量,继而影响到影响因子,所以不宜在CI计算公式中直接进行变权,只能调整基础数据,采用数据变权。
关于过度自引,采用惩罚性数据变权,权重调整系数为:
公式(3)中,q1为过度自引调节系数,SC为自引次数,P为可被引文献量,SC/P为篇均自引率,e为自然对数,m为篇均自引率阈值,a为变权调节系数,一般取值-0.2—0.2,a越小调节系数越小,对自引惩罚越严重。公式(3)是个二元选择函数,当篇均自引率正常时,q1等于1,不进行任何调整;当篇均自引率偏高时,就采用变权函数调整,篇均自引率越高,q1值越低,并且肯定小于1。篇均自引率阈值m的确定,可综合考虑学科特点、期刊数量、自引严重程度等进行调整,比如可以设定阈值为0.25。
过度自引调节系数如表1所示,当a=0时,如果篇均自引率为0.25,则数据变权调节系数为0.779,即要将自引次数乘以0.779后视为合理自引进行评价;当篇均自引率为0.40时,数据变权调节系数为0.670,即要将自引次数乘以0.670视为合理自引进行评价。
表1 过度自引调节系数q1
对于载文量,当其偏低时要进行惩罚性变权,可采用以下函数:
其中,q2为可被引文献量调节系数,P为可被引文献量,PA为可被引文献量均值,n为可被引文献量与其均值比值的调整阈值,当P/PA低于n时就进行调整,比如n取值0.5,即对载文量低于平均载文量一半的期刊进行数据变权。b为调节系数,其值在0.5—1.0之间,b值越大,调节系数越大,惩罚越严重,可根据学科特点、期刊数量、载文量等进行调整。
过度自引调节系数如表2所示,当b=0.5时,可被引文献量/平均可被引文献量为0.05时,可被引文献量的调节系数为1.568,即在计算影响因子时,分母要乘以1.568,以对人为操纵载文量现象进行惩罚;当可被引文献量/平均可被引文献量为0.30时,可被引文献量的调节系数为1.221,即在计算影响因子时,分母要乘以1.221,惩罚力度有所降低。
表2 载文量调节系数q2
(1)总被引频次的数据调整
对于办刊历史较短的期刊,由于累计载文量较少,采用总被引频次评价比较不公平,因此原始数据调整方法如下:
其中,q3为总被引频次调节系数,T为期刊办刊年限,HA为被引半衰期的平均值。根据文献老化规律,一般被引半衰期平均年限乘以2基本囊括了绝大多数引用,再加上5年来调节其他年度的引用,从而放大总被引频次,以弥补办刊历史较短的缺陷。
(2)影响因子与总被引频次的权重调整
为了克服CI指数评价时效性差的问题,必须对影响因子与总被引频次权重相等的现状进行调整。其实CI指数已经根据量效指数JMI进行系数k的调整,但调整目的是防止滥发论文,并非从时效性角度考虑,何况权重调整系数k仅对少数低水平期刊有效,因此取消量效指数的调节系数是一种更好的方法。
借鉴南京大学CSSCI期刊评价方法,采用总被引频次权重0.2、影响因子0.8的方法进行权重调整。其优点是影响因子的时效性高,权重占80%,大大提高了CI指数的时效性。其次,由于影响因子受载文量扩大的影响不大,且很大程度上为负向影响,而总被引频次受载文量正向影响大,降低权重后就可以大大削弱这种影响。修正后的CI指数简称为PCI指数:
(3)指标标准化方法采用对数标准化调整
本文作者在CI指数的修正中[13],较早提出采用对数标准化方法,以降低评价指标的数据分布偏倚,使CI指数的计算结果更加接近正态分布,本文继续采用这种方法。首先对评价指标取自然对数,然后再根据极差标准化方法进行标准化:
公式(7)中,X为原始指标值,Y为标准化值,其极大值为1,极小值为0。这里要考虑到一种极端情况,即如果恰好某期刊的总被引频次和影响因子均是学科最差,根据现有CI指数的计算方法,该期刊评价值为0。但完全否定该期刊显然是不合适的,所以还是应该采用极大值标准化,即每个指标除以该指标的极大值。
而采用极大值标准化,又出现了一个新的问题。对评价指标取自然对数,当评价指标小于1时,自然对数值为负数,在存在负数的情况下,原有的极大值标准化方法就会失效,所以必须加上一个合适的正数进行调节。该正数不能太大,否则会降低区分度;也不能太小,否则会使指标取对数后即使变成正数其值也太小。建议采用负数极小值小数点后连续0的个数确定,调整方法为:
公式(8)中,r为评价指标取对数后负数极小值小数点后连续0的个数,分为以下两种情况:
1)当评价指标取自然对数后极小值大于0时,不做任何调整。
2)当评价指标取自然对数后极小值小于0时,应根据r值确定所加的常数值。比如当对数极小值为-0.35729即r=0时,所有的对数值全部加上1;当对数极小值为-0.035729即r=1时,所有的对数值全部加上0.1,使其全部变成正值;当对数极小值为-0.0035729即r=2时,所有的对数值全部加上0.01。
对指标取对数,再对负数进行调整后,就可以采用极大值标准化方法进行标准化,即:
CI指数的优化调整框架如图3所示。CI指数是个简明扼要的复合指标,对其进行优化必须建立在对问题深刻分析的基础上,这样才能最大限度解决其不足之处,充分发挥其评价效果。
图3 CI指数的优化调整框架
CI指数的优化从三个方面展开,一是基础数据的处理,这是评价的前提和基础;二是权重优化,这对结果影响较大;三是数据标准化方法,这是潜在影响因素,往往容易被忽视。基础数据部分,通过调整总被引频次的权重数据解决对办刊历史较短期刊的不公平问题,通过数据变权克服过度自引和人为操纵载文量问题,根本上是解决CI指数评价中完全否定自引以及没有关注到期刊人为操纵载文量的问题。权重优化部分是通过减小总被引频次的权重,解决总被引频次和影响因子等权重评价导致的评价时效性差的问题,同时也解决了低水平期刊为了追求总被引频次滥发论文的问题。标准化方法优化解决了CI指数的数据偏倚问题,同时附带解决了当某期刊影响因子和载文量同时最低时,CI指数值为0的问题,这在学术期刊评价中不宜出现。
基于中国知网出版的《中国学术期刊影响因子年报(人文社会科学)》2020版的数据,选取2020—2021版图书情报类CSSCI期刊开展研究,适当兼顾档案学CSSCI期刊,主要原因是中国知网将图书情报划为一个学科,将档案学另列为一个学科,导致CI指数相差较大。选取CSSCI期刊开展研究的原因是对该类期刊已经研究较多,有较好的对照性,而且学术界对图书情报类期刊的质量总体有较好的把握和感性认识。
首先修正被引次数,得到合理的自引次数,再加上他引次数,就得到有效引用次数,即影响因子计算的分子(见表3)。篇均自引大于0.25(包括等于)的期刊共有6种,有必要进行数据变权调整,这些期刊分别是《情报杂志》《情报学报》《情报理论与实践》《情报科学》《中国图书馆学报》《图书情报工作》,根据公式(3)进行变权,a取0。如《情报杂志》篇均自引率为0.371,自引次数为131次,其调节系数为0.690,这样相乘后得到合理自引次数为90.626次,再加上他引次数559,就得到修正后的被引次数为649.946。《图书情报工作》篇均自引率为0.250,其调节系数为0.779,说明其合理自引的比例更高一些。
表3 修正被引次数的数据变权及结果
对载文量与总被引频次进行数据变权,结果如表4所示。先进行载文量的数据变权,以防止人为操纵。载文量的平均值为179.95,综合考虑,拟对载文量与平均载文量之比低于0.5的期刊进行数据变权,共有5种期刊,分别是《中国图书馆学报》《信息资源管理学报》《国家图书馆学刊》《情报资料工作》《图书情报知识》,根据公式(4)进行变权,b取0.5。《中国图书馆学报》载文量最低,调节系数为1.228,原载文量为53,调整后变为65.095,适当增加载文量以提高影响因子计算的分母。《图书情报知识》的载文量与平均载文量之比为0.450,略低于平均载文量的一半,其调节系数相对小一些,仅为1.051。
表4 载文量与总被引频次的数据变权
学科被引半衰期平均值为5.585年,办刊历史较短的期刊如《信息资源管理学报》,其被引半衰期为4.1年,根据公式(5),总被引频次的调节系数为4.1年的2倍加上5年,除以办刊时间10年,调节系数为1.320,原总被引频次为302次,调整后总被引频次为398.64次,以弥补《信息资源管理学报》办刊历史较短带来的评价上的不公平。
数据变权的最终结果如表5所示,根据修正后的数据重新计算总被引频次和影响因子,从新影响因子排序看,两者还是有较大差距的。
表5 数据变权最终结果
修正影响力指数PCI的计算过程如表6所示,首先对修正后的总被引频次和影响因子取自然对数,总被引频次全部大于0,但影响因子极小值为-0.074;然后根据公式(8),对影响因子自然对数值统一加上0.1,使其全部变为正数后采取极大值法进行标准化;最后,根据公式(6)计算PCI指数。
表6 修正影响力指数PCI计算
续表
PCI指数的描述统计如图4所示,其JB检验值为2.458,p值为0.293,不能拒绝其正态分布的原假设,即PCI指数总体上服从正态分布,这对期刊评价是有意义的。
图4 PCI指数描述统计
修正影响力指数PCI与原影响力指数CI的排序比较如表7所示。由于档案学期刊不具有可比性,因此将这两种期刊删除。从PCI指数排序看,排在前面的期刊依次为《中国图书馆学报》《情报学报》《大学图书馆学报》《图书情报知识》等,这些都是图书情报学领域的优秀期刊。从原CI指数排序看,排在前面的期刊依次是《中国图书馆学报》《图书情报工作》《情报杂志》《情报理论与实践》。相比而言,PCI指数的排名更加符合业界对图书情报学期刊的认知。
表7 新旧CI指数排序比较
《图书情报工作》也是一个优秀期刊,PCI指数排名第七,而CI指数排名第二,对比评价数据可以看出,新旧影响因子该期刊均在第七位(见表5),但该期刊总被引频次为7480次,排在第一,而CI指数计算中总被引频次与影响因子权重相等,所以导致其在CI指数计算中占优势,而PCI指数总被引频次的权重仅为0.2,这样就不占优势,这是PCI指数强调评价时效性的体现。如果要对期刊的历史贡献进行评价,可以采取总被引频次与影响因子权重相等的方法进行PCI指数评价,这样《图书情报工作》会取得一个相对较好的排序。总体上学术期刊评价要服务评价目的,根据评价目的再适当微调评价方法。
PCI指数和CI指数的相关系数如图5所示,两者相关系数为0.803,说明修正PCI指数对CI指数改动较大,两者只能达到中等水平的相关,即PCI指数能够提供更多不同的信息量。
图5 PCI与CI散点图
中国知网提出的期刊影响力CI指数存在较多不足,主要体现在:第一,采用总被引频次评价对办刊历史较短的期刊不公平;第二,完全否定自引违背学术研究规律;第三,只控制低水平期刊的论文滥发问题,但没有鼓励高水平期刊多发论文,未能防止载文量的人为操纵,尤其未解决核心期刊载文量降低问题;第四,采用量效指数JMI来调整总被引频次的权重k,规则不统一;第五,评价时效性差,总被引频次权重偏高;第六,采用极值标准化,导致影响因子和总被引频次同时最低的期刊评价值为0;第七,CI指数一般情况下并不服从正态分布。
本文借鉴变权思路,提出采用数据变权的方法调整总被引频次、被引次数、载文量等基础数据后,再调整CI指数计算中的权重k,同时优化指标标准化方法,提出一个新的期刊影响力指数PCI,并基于图书情报学期刊进行了实证分析。研究发现,PCI指数评价结果更加符合预期,能够防止评价指标的人为操纵,其评价值服从正态分布,能够提供更多的信息量,评价时效性好,克服了传统CI指数评价的不足。
PCI指数计算时,对于过度自引的界定、防止载文量人为操纵度的把握、总被引频次与影响因子的权重等等都是可以进行适当调节的,应根据评价目的以及期刊评价指标人为操纵的程度来进行合理调整,从而提高PCI指数的针对性,以更好地提高评价效果,建议用PCI指数代替CI指数进行评价。
需要说明的是,本文仅仅根据图书情报学CSSCI期刊进行评价,由于学科不同、期刊数量不同等因素的影响,PCI指数还需进一步的测试和检验。