●郭 强,赵 瑾,刘思源,刘新新,王玲玉,谭双岸
(1.郑州大学 信息管理系,郑州 450001;2.中国人民解放军炮兵学院 军事运筹教研室,合肥 230031)
在对期刊、论文以及作者的学术价值或者是学术影响力等进行评价的过程中,被引次数作为一种评价指标与下载次数相比会有其相对的滞后性,而且如果直接利用被引次数来对文献的学术价值进行评价,那么对于研究活动中被使用但在最终成果中未被引用的文献的学术价值,是否需要考虑如何来进行衡量,从而使得期刊、论文等评价对象的该类价值也能够得到体现。尽管可以采取对被引次数进行某种数学修正,使得修正后的被引次数能够包含对该类价值的估计,但是描述精确性的提高也往往伴随着计算复杂程度的上升,这种复杂性不仅体现于被引次数指标自身的量化,还可能会体现在评价指标体系中各指标权重的确定上。由此,可以考虑将下载次数引入指标体系,一方面,从直观上,文献的下载次数能够与该文献被阅读的次数呈高度正相关,从而下载次数可以用来对文献的受利用程度进行反映,这样文献的被引次数指标就无需做数量上的修正,当然前提是在网络环境下;另一方面,文献的下载次数也可视为对文献学术价值的先期反映,从而评价可以有所提前。将下载次数纳入指标体系时,需要相应地赋予其权重,对于权重的确定则需要探讨下载次数自身的性质,以及与其他指标之间的联系,这样对下载次数与被引次数之间的关系进行考察则有一定的实际意义。另外,下载次数与被引次数作为对期刊、论文等的不同侧面反映,同是考察对象的基本属性,同为计量学的基本考察指标,所以对两者之间的相互关系进行探讨也会有一定的理论意义。
对于下载次数与被引次数之间的关系,已有的研究主要包括对下载次数的布拉德福分布考察,期刊的下载次数、被引次数以及影响因子相互之间的等级相关分析,被引次数与下载次数的比较研究,包括对期刊影响因子与下载影响因子所进行的比较研究,[1-3]数据来源为《中国学术期刊网络计量测试报告》与《中国学术期刊综合引证报告》。本文侧重于阐述下载次数与被引次数的对立与统一。下载次数与被引次数的共性源于对同一评价对象的价值描述,但是老化规律的不同、用户的行为与偏好以及网络环境等因素会影响两者之间的一致性,所造成的这种差异也从总体上反映着种种影响因素之间的相互作用。
可以对下载次数与被引次数的关系进行统计研究,其前提是将下载次数与被引次数均视为随机变量,所以两者的概率分布是进一步对相互关系进行讨论的基础。假设以期刊作为考察对象,由于CNKI镜像站版对其所有入库期刊按照学科属性进行了分类,并且能够提供各个期刊的下载次数与被引次数,所以在这里我们仍将其作为数据来源,并以基础科学类期刊为例,得到下载次数与被引次数在期刊中的频次分布,如图1所示,数据统计时间为2009年3月,其中坐标横轴为期刊评价指标的计量单位的倍数,在此对于下载次数与被引次数,计量单位分别取为50000次与1000次,尽管两变量的统计单位有所不同,但是这并不妨碍在图中对两变量的频次变化趋势分别加以描述。
图1 基础科学类期刊按期刊评价指标的分布图
从直观上,下载次数与被引次数这两个随机变量都不服从正态分布,而且曲线拟合的结果分别为y1=79.6365exp(-x/1.7537)-0.1334与y2=42.6188exp(-x/2.1245)+0.7745,判定系数达到0.9779与0.9702,其中y1和y2分别为与下载次数和被引次数相对应的期刊比重,x为该两指标的计量单位数,由此能够有这样的经验认识,即下载次数与被引次数在期刊中是与负指数分布较为吻合,这意味着对于下载次数或者是被引次数相对较少的期刊,其数量会相对较多,而且由于负指数分布的递减速率在所有初等衰减函数中为最快,所以仅有很少部分的期刊具有较高的下载频次或者是被引次数。例如将期刊按照被引次数降序排列,所得列表中的前12.31%的期刊与50.21%的被引次数相对应,而后67.39%的期刊却只对应19.94%的被引次数,这种下载次数与被引次数在期刊中的集中与分散状况也与传统布拉德福定律的内涵相一致,从而所得负指数分布也并不违反对文献计量体系的已有经验认识。另外还需要检验所得经验结果是否具有某种一般性,对镜像站中其余期刊的经验考察显示,从直观上,不同学科属性的期刊集合均具有类似的情形。
另外,对于经验认识希望能够作出一定的理论解释,从而提高所得结果的置信度。若不严格地,第一,在给定的时间段内,期刊的下载频次从直观上会具有最可几的居中取值,也即该时段内的累积期刊下载次数过多或过少的概率都会相对较低,而存在概率相对较大的居中取值或者是取值区间。第二,泊松分布适合于给定尺度(时间或空间)中随机事件发生的次数,且参数λ大于1的泊松分布往往会在变量取值较为居中的时候对应的概率为极大。第三,泊松分布在社会现象中有其普遍性,从而在这里用泊松分布来对给定考察时段内期刊下载次数的概率分布进行描述,即P(ξ=d)=λde-λ/d!,其中 d=0,1,2, …,且λ为正常数。
需要指出,泊松分布的产生要求随机事件流满足平稳、无后效以及普通性。对于期刊而言,新刊用论文能够在一定程度上抵消由于过刊论文的老化而对期刊下载次数概率分布的影响,所以平稳性能够近似得到保证。第二,如果考察时长足够短,那么期刊下载次数等于或多于两次可视为小概率事件,所以普通性也可近似成立。第三,由于从直观上,下载次数多的期刊会更具吸引力,从而会得到更多的下载次数,会有马太效应的出现,所以如果期刊的前期下载次数较多,则后期得到的下载次数可能也会相应较多,这样就很难保证无后效性的近似成立,由此需要对下载次数服从的概率分布进行改进。
由于泊松分布的期望值为λ,该取值应与该期刊自身的学术价值、期刊论文网络获取的便捷程度以及期刊所属学科的发展阶段等客观因素相对应,设λm为所有样本期刊的下载次数期望值的最大值,如果考虑后效性,则应有期刊的下载次数为d’=ξ+αexp[-(λm-λi)],其中λi为第i份期刊下载次数的期望值,且a为正常数,由此,对于下载次数期望值越大的期刊,其(λm-λi)值也相应地越小,于是由后效性所带来的下载次数的增加也就越大,从而能够对马太效应加以体现。由该式可得d’的数学期望为E(d’)=λi+α exp[-(λm-λi)],所以当(λm-λi)很小时,相应期刊下载次数的期望值会很大,而当(λm-λi)增大时,由于负指数函数的关系,期望值会下降得很快,从而会有较多的期刊,其下载次数的期望值相对较小。
图2 考虑后效性的期刊下载次数期望值与(λmλi)的关系图
图2描述了E(d’)随(λm-λi)的变化情况,各参数取值分别为λm=24以及a=12,如此取值的目的是使期刊下载次数的期望值E(d’)能够与图1中下载次数的变化范围相一致,一方面是由于图1中的数据为下载次数的实际情况,另一方面也有利于相互比较。在图2中,从直观上,较少部分期刊的下载次数期望值会相对较大,而期望值相对较小的期刊,其数量则相对较多,而这与图1中实际的期刊百分比随期刊下载次数的变化趋势是相吻合的,所以对于负指数分布能够通过引入马太效应来进行一定程度的解释。但是应当指出,这种建立于图2的直观判断还并不充分,毕竟在曲线的居中部分,其衰减速率并未达至负指数分布的程度,这意味着还需考虑其他的下载次数影响因素以作进一步的探讨。
另外,下载次数或是被引次数等评价指标的分布状况从直观上会具有其复杂性,从而负指数分布未必会成为这些评价指标的唯一表现形式。尽管经验考察具有直观性优势,但是所得到的负指数分布毕竟只是对样本特征的描述,那么研究总体是否具有相类似的性质,还需进行显著性检验,更何况经验考察面对普遍性规律的探求会有其方法上的局限性,下载次数与被引次数实际所服从的分布规律是评价对象自身的学术价值、学科的属性与进展、用户行为、网络环境等诸多影响因素相互作用的缩影与反映,对于下载次数或者是被引次数等评价指标的规律性认识,模型的构建会是可取的解释性方法之一。
对于由经验考察所得到的这种负指数分布尚需做进一步的探讨,但是该结果在一定程度上仍可作为一种依据,来说明如果采用简单相关分析来考察评价指标相互之间的统计相关性,则需要考察方法的适用性,其原因是由于简单相关分析往往要求被考察的变量均须服从正态分布,那么对于非正态分布的情形而言,等级相关分析则较为合适。[1,3]
下载次数与被引次数之间的关系是两者同一性与差异性的对立与统一,为了更好地体现这种同一性,可以考察下载次数与其他评价指标之间的相关性,以便作为参照,这样在图1中也给出了基础科学类期刊的载文量以及期刊影响因子在期刊中的频次分布,目的也是希望能够对该两指标的概率分布进行大致的描述,数据统计时间同上,并且对于影响因子以及载文量,计量单位分别取为0.05和360篇。在图1中,期刊载文量以及期刊影响因子的分布均具有一定的单峰性,且由曲线拟合所得到的方程为y3=11.2178exp[-(x-5.3402)2/24.1304]以及y4=1148.1398/[4(x-4.9697)2+148.6732],判定系数分别是0.9400与0.9394,其中y3和y4为与载文量以及影响因子这两个指标相对应的期刊百分比,x仍为指标的计量单位数。对于单峰性的成因,如果从直观上理解,可以是在一般情况下载文量或是影响因子过大或者过小的期刊,其数量可能都会相对较少。另外还注意到该两指标所服从的这种分布在指标取值偏低处,与偏高处相比,期刊的百分比相对较高,这与期刊整体的实际情况也较相符合,而指标值偏高区域的慢衰减性也在一定程度上反映着期刊整体的发展以及期刊价值的提升。对于期刊而言,选取以上四个指标进行比较的原因是由于这些指标能够从外部较为全面地反映期刊的价值或者是影响力,[2]也即这些指标具有一定的完备性,从该角度,其他评价指标可不参与比较。另外,这些指标相互之间也具有明显的内涵差异,从而可以用来进行两两比较,以显现下载次数与被引次数的相关程度。
仍然以CNKI镜像站版中的入库期刊作为样本集。由于各个期刊均有与之对应的上述四项指标值,所以可以得到其中任意两个指标的随机样本对,对各变量的取值分别由小到大进行编秩,则能够计算该两指标的等级相关系数并做直线相关关系的显著性检验,所得结果如图3所示。
图3 期刊评价指标的等级相关系数(基础科学类期刊)
在图3中1、2、3、4分别代表期刊的载文量、影响因子、被引次数以及下载次数,星号表示在0.01水平下括号内的两个变量为显著直线相关。另外,图中的指标对如果不包含影响因子,则考察的期刊样本数量为739份,否则数量为676份,这是由于部分期刊的影响因子数据未能得到。可以注意到除去各变量与其自身的相关性之外,与其余指标对相比,被引次数与下载次数之间具有较高的等级相关系数,但是需要考察这种直观印象的一般性,以期在一定程度上消除原始数据中的随机因素,况且对于该数据集以及所涉及的基础科学类期刊而言,影响因子与被引次数、载文量与下载次数之间的相关系数也都相对较高,为此对各指标的相关程度按照不同的学科属性分别进行了考察,结果如图4所示。
图4 期刊评价指标的等级相关系数
在图4中,各标号的含义与图3相同,从直观上,期刊的被引次数与下载次数之间较高的相关系数在不同的学科属性条件下均能得到保持,与其他的指标对相比,其相关系数的平均值处于前列,且方差较小。另外,影响因子与被引次数的相关程度也相对较高,方差也偏低,毕竟期刊的影响因子是由期刊的被引次数计算得来的,所以这两个指标之间的密切相关是自然的。而对于下载次数与被引次数,同为对期刊价值的描述是两者高度相关的基础,这种变量变化的同步性是两者同一性的表现,从直观上理解,期刊的下载频次越高,其受利用的程度也就相对越高,从而在研究活动的最终成果中被引用的可能性也就越大;反之,如果期刊的被引次数越高,则期刊信息受传播的范围可能也就越为广泛,所以被下载的机会也就相对越多。两变量之间的这种高度相关性也是利用下载次数来研究被引次数的基础。既然后者与前者相比有一定的滞后性,那么就可以尝试通过下载次数来对被引次数进行预测,从而使得科学评价得以进一步提前。但是事实上往往会面临着与这种同步性不相符合的情形,例如存在期刊的下载次数很高但却仅具有较少的被引频次,[1]再注意到如果期刊的被引次数较高,则通常会有较多的下载频次与该期刊相对应,那么下载次数与被引次数之间的互逆性就可能得不到满足,这种非同步以及非互逆情形也是两个指标之间差异性的体现。对于两者间关系的探讨需要以直观认识作为基础,但是直观认识也能够从侧面反映出两者之间的关系可能并不显然。
对于下载次数与被引次数的差异性探讨,选取期刊样本集合同上,将同一学科属性的各个期刊按照其被引频次降序排列,并用下载次数与被引次数的比值来表征该两个指标之间的差异,[1-2]则每份期刊均有与其对应的序号与比值,从而对于给定的样本集能够得到该比值与期刊序号的关系,如图5所示。
图5 基础科学类期刊的下载次数与被引次数之比随期刊序号的变化关系
图6 下载次数与被引次数之比随期刊序号的变化关系(取自图5)
图5以基础科学类期刊为例,经过检验,对于其他的学科属性也有类似的情形,即在期刊序号偏低或是期刊被引次数偏高的区域,下载次数与被引次数的比值变化相对较为稳定,这意味着随着被引频次的增加(降低),期刊的下载次数也会逐渐增多(减少),从而两个指标变化的同步性可以较好地得到保证。所以直观上,当期刊的被引次数偏高时,期刊下载次数与被引次数的相关性能够体现。图6是图5在期刊序号小于等于300时的截图,其中比值超过30的期刊比例仅为5%,除了这些少量的特例外,指标比值能够维持在较平稳的状态,且剔除特例后的均值与标准差分别为12.2886和5.7113。随着期刊被引次数的减少,从期刊序号300起直至末尾的733,指标比值的震荡幅度逐渐变大,且变化趋向不稳定,以致在被引次数偏低的区域600至700处,被引次数规则递减,但是指标比值却并不随之规则变化,这意味着比值的分子也即期刊的下载次数,其变化亦不规则,从而能够有这样的经验认识:即在期刊序号偏高的区域,被引次数与下载次数之间缺乏变化的同步性,或者是两者相关性较弱的一种体现,类似地有在期刊序号600至733处,指标比值的均值与标准差分别是485.1708和965.6124。同时也注意到在被引次数偏高的区域,指标比值相对较低,而在期刊序号偏高处,指标比值则相对较高,这说明当期刊的被引频次偏低时,对应的下载次数却相对较高,从而是从数值角度反映了期刊下载次数与被引次数在后者偏低时的弱相关。
以上是希望从变量的总量出发来对下载次数与被引次数之间的同一性与差异性进行考察,那么从变量分布的角度,两变量之间的辩证关系是否仍然能够得到体现。首先可以利用图1来对下载次数与被引次数在期刊中的概率分布进行比较,从直观上,并以其他的指标对作为参照,下载次数与被引次数的分布状况依然能够保持较高的同步性,经过计算,该两变量概率分布之间的相关系数为0.9724,略高于期刊载文量与影响因子之间的0.9156,其余变量对的相关系数则均不超过0.5005,这些与图1的直观表象相吻合。如前所述,载文量与影响因子间所表现出来的这种强相关性应属自然,从而能够从侧面反映期刊下载次数与被引次数之间较高的内在关联程度。另外还可考察此类相关系数随指标值增加的变化情况,假设取周期为10个计量单位,则能够得到下载次数与被引次数的移动相关系数曲线,如图7所示。
图7 下载次数与被引次数的移动相关系数
在图7中,坐标的横轴为各移动周期的起始计量单位数,能够注意到随着变量取值的逐渐增加,对于下载次数与被引次数的概率分布而言,两者之间的相关系数呈现递减趋势,究其原因是由于当变量取值增加时,下载次数与被引次数的概率分布或者是期刊百分比的递减速率会有所不同。与下载次数相比,被引次数在期刊中的分布相对较为集中,大量期刊的被引频次处于较低水平,具有高被引频次的仅为少量期刊,所以对于被引次数较低的期刊,其所占的期刊百分比处于较高水平,而下载次数在期刊中的分布则相对较为分散,会有更多比例的期刊具有相对较高的下载次数。相应地,由于总比例为1,所以下载次数偏低的期刊也会有所减少,由此期刊百分比随下载次数的变化曲线会相对较为平坦,于是随着被引次数与下载次数的逐渐增加,两组期刊百分比的变化情况也会逐渐显得不同步,从而相关系数呈现为递减趋势,特别是在变量取值偏高的区域,对于按照被引次数得到的期刊百分比曲线,其变化已不明显,而按下载次数的百分比曲线仍然呈下降趋势,以致在此两者之间的相关系数减至最低。
对于会有更多比例的期刊具有相对较高的下载次数,第一,由于图6所显示的下载次数与被引次数在低被引频次区域处的弱相关性,原本被引次数较少的期刊,其下载次数可能会相对较高;第二,文献资源的数字化以及网络化所带来的便捷性使得原本被引次数较少的期刊能够获得更多的关注;第三,资源的网络化使得期刊集合的下载以及被引用的程度都能够得以提升。作者在调研过程以及后续的科研活动中对所需文献往往会通过基础文献的参考文献来进行追踪,除非对研究领域有一定的了解,则在传统环境下通常会有部分的文献处于检索的盲区,资源的数字化与网络化不仅能够对此有所改进,还能够带来文献获取的便捷性,以及提高对文献间相互关系进行考察的效率,由此可以进一步扩大文献集或是期刊集的下载与被引程度。但是需要指出,下载次数更多地是与期刊的受利用程度相对应,而作者在最终成果中所引用的期刊往往只是其在科研活动中利用过的期刊的一部分,所以与被引次数相比,下载次数在期刊集合中的分布状况总是会显得相对分散,从而与被引次数相比,下载次数较多的期刊数量会相对较多。
还需要说明的是,上述这种比较有其粗糙性,毕竟以上对各指标或变量所选取的计量单位有所不同,如此直接进行比较,只是为了能够得到大致的经验认识。实际上由这种粗糙性所造成的后果在图1中已经有所显现,例如应当是按被引次数得到的曲线会相对陡峭,而下载次数曲线则会相对较为平坦。造成该结果的原因是由于各指标计量单位的选取具有一定的随意性,或者说还需要对各计量单位相互之间的具体对应关系作进一步的探讨,在这里没有作出修正是因为还没有妨碍到上述对两类期刊百分比曲线所进行的定性比较与解释。
除了概率分布,下载次数与被引次数在期刊中的布拉德福分布状况也可以成为考察两者对立与统一的组成部分,类似地可以进行差异性与统一性的经验探讨,结合相应的期刊累积百分比以及布拉德福常数,能够使得这类考察更具严格性。尽管不同的布拉德福常数的确有大小之分,但是从统计的角度两者的差异是否足够显著,例如,如果数值大小的绝对差异是由原始数据的随机性等因素所造成,那么是否可以认为两者实质上并无明显不同,从而同一性能够得以体现。由此需要从统计的角度来考察下载次数与被引次数之间的关系,特别是对两者间同一与差异的程度进行度量。可以首先采取的是将下载次数与被引次数的样本空间分别进行标准化处理,并在此基础上对随机变量的特征量包括均值以及标准差等之间的差异分别进行显著性检验,这样做的目的是希望对下载次数与被引次数之间的对立与统一,乃至两者之间的相互关系进行量化,从而为期刊以及论文等评价指标体系中指标权重的确定建立基础。
[1]张洋.期刊Web下载总频次的布拉德福分布研究[J].图书情报知识,2006(6):38-42,60.
[2]万锦堃,等.期刊论文被引用及其Web全文下载的文献计量分析[J].现代图书情报技术,2005(4):58-62.
[3]庞景安.中文科技期刊下载计量指标与引用计量指标的比较研究[J].情报理论与实践,2006,29(1):44-48.