下载次数与被引次数的同一与差异性研究

2011-04-26 09:06刘新新刘思源王玲玉路世玲
图书馆理论与实践 2011年6期
关键词:基尼系数方差分区

●郭 强,赵 瑾,刘新新,刘思源,王玲玉,路世玲

(1.郑州大学 信息管理系,郑州 450001;2.中国人民解放军炮兵学院 军事运筹教研室,合肥 230031)

与被引次数相比,下载次数能够在一定程度上反映科研活动中被使用但最终未被引用的文献的价值,并且有其提前性,由此,如果将下载次数与被引次数共同纳入到指标体系,来对期刊、论文以及作者等对象的学术价值或是学术影响力进行评价,那么对下载次数与被引次数之间的关系进行考察,对于指标权重的确定会具有一定的意义。本文侧重于该两指标在期刊中布拉德福分布的同一与差异,以及对两者间差异的统计描述。

1 下载次数与被引次数的同一性与差异性

1.1 同一性考察

可以对下载次数与被引次数在期刊中的布拉德福分布状况进行考察。由于CNKI镜像站版能够提供其入库期刊的下载次数与被引次数,所以在这里我们将其作为数据源并选取期刊样本集合。将各期刊分别按下载次数与被引次数降序排列,则能够得到期刊累积数与期刊的累积下载次数或是期刊的累积被引频次之间的关系(如图1所示,数据统计时间为2009年3月)。由于考察时段较长且选取的是大样本,再考虑到截止到2004年CNKI已经具有较高的期刊入网率。[1]所以在这里认为所得原始数据能够近似满足在布拉德福定律中对所有考察期刊应具有相同考察时段的要求。

图1 期刊指标的累积数与期刊累积数的关系图

在图1中,n为期刊累积数,坐标纵轴为期刊评价指标的计量单位的倍数,在这里对于下载次数与被引次数,计量单位分别取为50000次及3000次,计量单位的如此选取尽管会有其随意性,但是并不影响这里对两指标累积量的变化趋势所进行的探讨。直观上,下载次数与被引次数在期刊中的分布均具有布拉德福分布的特征,假设取分区数p为3,那么对于下载次数而言,可以取其核心区的期刊数量为51,此时各个分区的累积下载频次的平均值为21755146,并且标准差仅为117906,如果将布拉德福常数取为各个分组期刊数量的相继比值的平均值,则可得下载次数分布的布拉德福常数为3.215,且标准差为0.082,由此能够认为该分布近似服从传统布拉德福定律的分区描述,而被引次数在期刊中的分布在一定程度上也具有相类似的情形。例如在分区数仍取3的条件下,相应地可以取核心区的期刊数量为46,此时各分区的累积被引频次的平均值为1353695,且标准差只有3727,类似地可以得到被引次数分布的布拉德福常数为3.828,但此时的标准差高达2.001,说明当p=3时各分区期刊数量的相继比值并不稳定,而如果改变分区数,则能够注意到某种规律性的现象。即除了在末尾分区处,期刊数的相继比值往往会变化得较为平稳,从而能够认为造成标准差偏高的原因是由于靠后的分区,特别是末尾分区处的相继比值的异常。

需要指出,这种规律性现象与已有的研究结果是相一致的。[2]在末尾或是靠后分区处所表现出来的这种偏高比值可能是与格鲁斯下垂相对应。由于期刊是按照被引次数进行降序排列,所以末尾分区中的期刊应当具有相对较低的被引频次,而在该处明显偏高的相继比则意味着该分区包含明显偏多的期刊,那么为了保证该分区具有与其他分区相同的累积被引频次,该分区中各期刊的被引次数应当显著下降,以至于累积下载次数的增长率开始随Lnn减小,从而表现为格鲁斯下垂。所以有理由将末尾或是靠后分区处明显偏高的相继比按照特异值来进行处理,毕竟传统布拉德福定律的分区描述并不包含格鲁斯下垂。另外,对于此时在下载次数分布中未出现相继比的异常,除了原始数据自身的随机性之外,一种可能的解释是由于网络环境下的扩散效应,[2]被引次数的分布会更为集中,所以这种靠后分区处偏高的相继比值在被引次数分布中会表现得更为明显。实际上,当改变分区数时,下载次数的分布也会出现同样的情形。考察社会科学类期刊,假设取p等于5,则有各分区期刊数的相继比为1.944,1.743,1.590,3.196,各分区累积下载频次的平均值为8343664,标准差只有69645。

更进一步地,[2]对各指标分布的拟合结果也能够与布鲁克斯公式相吻合。例如对于下载次数,其分段拟合方程为m1=1866965.344n0.647与m1=18310431.901Ln n-53447472.841,核心区与非核心区的判定系数分别高达0.977与0.994,并且都能够在显著性水平为0.05的条件下很好地通过F检验,其中m1和n分别为累积下载次数与相应的期刊累积数,对于被引次数,类似地有拟合方程为m2=114253.923n0.649以及m2=1026106.261Lnn-2466487.864,判定系数分别为0.997与0.975,其中m2为期刊的累积被引频次。所以从直观上,能够认为下载次数与被引次数在期刊中的布拉德福分布特征均达到了显著水平。需要指出,图1是以基础科学类期刊为例,其期刊总数为739,为了进一步检验所得结论的一般性,还需要对镜像站版中不同学科属性的期刊集合分别进行考察,包括图像与分区描述以及曲线拟合等,考察的结果是类似的。

1.2 差异性考察

下载次数与被引次数之间的关系体现了同一性与差异性的对立与统一。在图1中,A与B分别为两累积曲线的拐点,可以注意到与被引次数相比,下载次数累积曲线的拐点对应于更高的期刊累积数,指标的累积量随期刊累积数的增长率在累积曲线的拐点处达到极大,之后增长率则开始减小,由于增长率等于Lnn每增加一个单位所对应的期刊指标累积量的增加值,而且随着Lnn每增加一个单位,相应的期刊累积数分别为1,e,e2,e3,……,这样单位Lnn对应的期刊累积数的增加为ei(e-1)>1,其中i=0,1,2,……,所以增长率开始减小会意味着当每组期刊数量增多时,相应的指标累积量反而会减少,由此能够说明此时开始进入低指标期刊区域,于是在图1中,下载次数累积曲线是靠后进入,而被引曲线则有所提前,从而与下载次数相比,被引次数在期刊中的分布相对较为集中。由图1可以得到指标累积数的增长率曲线(如图2所示)。在图2中,曲线变化的连续性仍然能够得到保持。由于格鲁斯下垂的出现,各指标累积量的增长率均具有其峰值,且图中各增长率曲线的峰值分别与图1中的曲线拐点相对应,之后指标累积量的增长率则逐渐下降,以至最终趋向于零。

图2 期刊指标累积数的增长率与期刊累积数的关系图

对于下载次数与被引次数之间的这种分布差异,还可以利用该两变量的相对量来进行考察,图1反映的是指标的累积量随期刊累积数的变化情况,说明了该两指标的绝对量相对于期刊的绝对数量都能够呈现为传统的布拉德福分布,而指标累积百分比与期刊累积百分比之间的变化关系(如图3所示)则能够在一定程度上显示出这种同一性中的差异,其中原始数据与图1相同。

图3 期刊指标的累积百分比与期刊累积百分比的关系图

在图3中,由于期刊是按照下载次数或是被引次数分别进行降序排列,所以由此所得到的累积百分比曲线越向上弯曲,则说明相应指标在期刊中的分布会越集中。两种极端的情况分别为,仅一份期刊就能够与所考察的期刊集合中的总的指标累积数相对应,以及在期刊样本集中,各份期刊均对应相同的下载次数或者是被引次数,于是指标的累积量与期刊的累积量之间会呈线性关系,其中的正比例系数为与每份期刊相对应的指标值,这样指标与期刊能够始终具有相同的累积百分比,也即这两种情况分别与图中的点(0,0)、(0,1)、(1,1)的连线,以及点(0,0)、(1,1)的连线相对应。

2 差异程度的度量

利用指标累积量的增长率以及指标的累积百分比能够显现出下载次数与被引次数在期刊中分布状况的不一致,进一步地是希望能够在一定程度上对这种不一致的程度来进行度量,一方面是为了使这种对变量间相互关系的探讨更为严格;另一方面则是由于在期刊评价指标的权重确定过程中可能会涉及到该两变量之间定量关系的建立,毕竟指标在期刊中集中或是分散状况的不同可能会影响到单位指标量所能体现的学术价值。为此,将期刊分别按照下载次数与被引次数升序排列,能够得到期刊累积百分比与指标累积百分比之间的洛仑兹曲线(如图4所示)。

图4 期刊下载次数与被引次数的洛仑兹曲线图

类似地,在图4中,由于期刊是按照评价指标升序排列,所以图中的洛仑兹曲线越向下弯曲,则说明下载次数或是被引次数在期刊中的分布越集中,同样存在两种极端情况,即点(0,0),(1,0),(1,1)之间的连线所对应的集中情形,以及点(0,0),(1,1)之间的连线,在该情形下没有一份期刊会在指标量的获取上能够更为特殊。由于对洛仑兹曲线向下弯曲的程度可以利用洛仑兹曲线和点(0,0),(1,1)的连线所围成的区域面积与点(0,0),(1,0),(1,1)所构成的三角形的面积的比值,也即基尼系数来进行一定程度的反映,所以该系数也能够用来近似衡量指标在期刊中的分布状况以及不同分布状况之间的差异。例如当指标的分布最为集中时,洛仑兹曲线退化成为点(0,0),(1,0),(1,1)的连线,相应地有基尼系数等于1。

对于洛仑兹曲线的一般情形,则需要给出该曲线的函数形式以求得曲线所围区域的面积。既然经验考察的结果显示为下载次数与被引次数在期刊中均服从布拉德福分布,且假定传统的布拉德福定律以及相关规律此时对于该两指标也同样适用,那么将期刊按照下载次数或是被引次数降序排列,则由莱姆库勒经验规律可以得到 y’=aLn(1+bx’),其中 x’与 y’分别为指标的累积量以及期刊累积数,a与b均为待定常数;而如果将期刊分别按照各个指标升序排列,并假设x与y为此时的期刊累积数以及指标累积量,则有x=c-x’以及y=d-y’,其中c与d分别为期刊总数以及指标的累积总量,且x与x’的对应关系是:如果x的序号在按升序排列所得到的累积量列表中为p,那么x’的序号在降序排列累积列表中为q=N-p,N为累积量列表中的最大序号,无论是按升序或是降序排列,该序号会保持不变。y与y’之间也具有同样的对应关系,于是有y=d-aLn(B-bx),其中B=1+bc,再将x与y分别转换为图4所要求的累积量百分比X与Y,则有Y=1-(a/d)Ln(B-bcX)。对于给定的期刊样本,c与d可视为已知,参数a与b则可以利用对样本数据进行曲线拟合来得到。

对于下载次数,洛仑兹曲线的拟合结果为Y1=1-0.262Ln(52.730-51.730X1),判定系数为 0.989,函数中各参数的取值分别为a1=17106195.565,b1=0.070,c1=739,d1=65265439;对于被引次数,类似地有拟合结果为Y2=1-0.143Ln(1418.402-1417.402X2),且判定系数与各参数的取值分别为0.970以及a2=581568.354,b2=1.918,c2=739,d2=4061086,于是能够求得各洛仑兹曲线与坐标横轴所围成的区域面积分别为0.213以及0.112,所以下载次数与被引次数的基尼系数分别为0.574以及0.776,由此能够对该两变量在期刊中分散或是集中的程度进行定量描述,由这种描述能够得到有意义且具有一定合理性的结论,即对于给定的期刊集,与下载次数相比,被引次数的分布会更为集中,且被引次数在期刊中的集中程度要比下载次数高出35.2%。另外,当基尼系数取零时则意味着指标的分布最为分散,所以基尼系数的取值界于0与1之间,按照传统基尼系数的划分标准,取值在0.2至0.5之间为过渡区,0.2以下与0.5以上分别表示具有明显的分散或是集中现象,由此下载次数与被引次数在期刊中的集中分布程度均达到了显著水平,这与上述的经验结论是相一致的。

除了基尼系数之外,更为基本地,能够利用布拉德福常数来对指标分布的集中程度进行考察。例如在前文中取分区数为3,则相应地有下载次数与被引次数分布的布拉德福常数分别为3.215以及3.828,由于考察的是同一期刊样本集,所以布拉德福常数越大则表示相应的分布越集中,并且按照布拉德福常数也能够给出诸如被引次数的集中程度会比下载次数高出19.1%,与由基尼系数得到的百分比有所不同的原因是由于描述方法相互之间的差异,毕竟基尼系数与布拉德福常数的得到是分别建立于指标的相对量与绝对量之上。另外,还可以利用累积百分比来直接进行比较。例如在图3中考察与相同期刊百分比相对应的指标累积百分比之间的差异,由这些描述方法所得到的经验结论应当是相互吻合的。需要指出,对于结论中所显现的指标分布差异,除了由描述方法的不同所造成的诸如以上超出比例之间的差异之外,所得布拉德福常数或是基尼系数的差别是否能够成为对各指标分布差异的真正体现,或者说对于由各种经验描述方法所得到的参数差异,这种差异应当达到何种程度才能够认为这种差异是足够显著的。例如考虑到在基尼系数的传统划分方式中,取值大于或等于0.5意味着具有同样的属性,即集中现象的显著性,一方面该划分方式能够提供对指标之间的差异进行判别的方法,另一方面按照该划分方式可以得到基尼系数为0.6与0.8的指标分布之间并无显著差异,而系数为0.4与0.5的分布却具有较为明显的不同,如果再考虑到由于原始数据中的随机因素所造成的差异,则需要考察指标差异的显著性,或者说需要给出判别各指标间差异显著性的标准。一种方法是将下载次数与被引次数同视为随机变量,考察随机变量的期望值以及方差等随机变量的特征量,并在此基础上对参数之间的差异进行显著性检验。

首先需要对下载次数列与被引次数列分别进行标准化处理,以使该两变量的特征量能够进行相互间的比较。由于可以把期刊的下载次数或是被引次数看作是读者整体对该期刊的打分,所以能够考虑将这种分数转化为百分制来进行指标列的标准化,基本的做法是将各指标列分别除以其中的最大指标值,其优点是可以不改变各指标列原有的概率分布。设标准化后的下载次数与被引次数的样本列分别为{d1,d2,……,dn}和{c1,c2,……,cn},此时其中所有的元素均界于0与1之间,并能够得到各指标列的均值与方差分别设为d,Sd2,c,Sc2,n为期刊样本数,可以取为期刊总数,也可以是足够大以致能够体现出统计性质。可以将考察该两指标列的均值或者是方差之间是否存在显著性差异,转化为考察下载次数与被引次数这两个随机变量的期望值或者是方差是否相等。经验考察的结果往往显示为:下载次数与被引次数作为随机变量具有较为明显的负指数分布特征,例如,负指数分布的概率密度函数为,当x>0时f(x)=λexp(-λx),当x≤0时f(x)=0,标的计量单位数,所以指标值界于[i-1,i]对应的概率与已有经验考察所得到的各指标在期刊中的频次分布相一致。

不妨设下载次数与被引次数分别为D与C,且设下载次数与被引次数所服从的负指数分布分别为f(d)=λ1exp(-λ1d)与 g(c)=λ2exp(-λ2c),其中 d,c,λ1以及 λ2均大于零,且当d与c非正时,f(d)与g(c)均等于零,于是可得该两随机变量的期望值与方差分别为E(D)=1/λ1与 D(D)=1/λ12,以及 E(C)=1/λ2与 D(C)=1/λ22。对下载次数与被引次数是否具有相同的期望值或者是方差进行假设检验,[3]提出原假设H0为λ1=λ2以及备择假设H1为λ1≠λ2,可以将d1,d2,……,dn视为下载次数变量的随机样本,由于下载次数服从负指数分于下载次数与被引次数之间存在同一性与差异性的辩

如果原假设H0为真,即当λ1等于λ2时,由于样本均值d与c分别为随机变量D与C的期望值的无偏H0为真时F值特别大或者是特别小的概率都会很小,这样可以设H0的拒绝域为W={F≤c1或F≥c2},也即上式中的双侧检验,可得c1=F1-α/2(2n,2n) 以及c2=Fα/2(2n,2n),其中 F1-α/2(2n,2n) 与 Fα/2(2n,2n) 均为F(2n,2n)分布的上侧分位点,于是H0的拒

依然选取图1中的期刊样本集作为考察对象,并取n为期刊总数739,对下载次数与被引次数进行标准化处理后可得各指标列的均值与方差分别为d=0.070,sd2=0.010,c=0.056,以及sc2=0.007,按照上文对原假设 H0:λ1=λ2进行检验,并且备择假设 H1为 λ1≠λ2,如 果 选取 α=0.05,由 于 F0.025(1478,1478)=1,F0.975(1478,1478)=1/F0.025(1478,1478)=1,则此时必须有d/c等于1,否则拒绝假设H0,这意味着当期刊样本数足够大时,可以直接利用两指标列的均值是否相等,来判断下载次数与被引次数作为随机变量所具有的期望值以及方差是否相同,从而可知两指标列的均值或方差之间是否存在显著性的差异,而这些与直观认识也是相吻合的。

在对专门领域或者是仅与特定研究主题相关的期刊集合进行考察时,由于面临的往往是期刊小样本,所以如果此时考察下载次数与被引次数之间是否存在显著性差异,那么上文中的考察过程则具有一定的意义。例如以《中文核心期刊要目总览》2000年版中图书情报专业的所有17份核心期刊为例,这样选取的原因是由于CNKI镜像站提供的是期刊从其开始提供下载到现在的总的下载次数,但是不同期刊的入库时间以及可供用户全文下载的起始时间都不尽相同,所以如果以CNKI镜像站所提供的各期刊下载次数作为原始数据,那么在对考察对象进行选取的过程中就需要保证所得下载数据相互之间的可比性。为此,一方面可以取考察时段为足够长;另一方面,由于该总览2000年版中的绝大部分期刊在2003年的时候都已入库并能提供全文下载服务,所以可以忽略部分期刊的入库较晚所造成的入库时间差异过大的情形,这样,统计起始时间的不同对期刊下载数据可比性的影响就能够近似忽略不计。此时n取为17,标准化后的下载次数与被引次数列分别为{0.254,0.360,0.260,0.270,0.450,0.370,0.263,0.286,0.454,0.284,0.692,0.239,0.766,0.327,1,0.245,0.416}以及{0.956,0.773,0.582,0.587,0.935,0.598,0.461,0.477,0.495,0.317,1,0.364,0.803,0.410,0.790,0.273,0.495},且均值与方差分别为 d=0.408,sd2=0.047,c=0.607,以及sc2=0.053,以上数据的统计时间为2009年 12月。仍然取假设为 H0:λ1=λ2,以及 H1为 λ1≠λ2,类似地可以令α=0.05,则此时有F0.025(34,34)=拒绝域,所以接受H0,即对于图书情报专业的核心期刊而言,下载次数与被引次数的均值或是方差并无显著差异。

为了与上述结果进行对比,若不严格地,还可以将CNKI镜像站中按图书情报专业归类的所有47份期刊作为考察对象,类似地也能够得到下载次数与被引次数列,且各指标列进行标准化后的均值与方差分别为d=0.242,sd2=0.054,c=0.306,sc2=0.086。数据统计时间同上,在仍取α为0.05的条件下,可得F0.025(94,94)=1.550,F0.975(94,94)=0.645,则相应地有拒绝域W于是接受假设H0,所以即便是对于该类期刊的整体,下载次数与被引次数的同一性也可以得以体现。与上述结果相比,此时d/c与拒绝域的边界更为接近,究其原因,是由于对于核心期刊,其下载次数与被引次数往往具有较高的一致性,而这种同一性在非核心期刊中会有一定的弱化,毕竟下载次数更多地是与期刊的受利用程度相对应,所以被引次数偏低的期刊仍然可以具有较多的下载量。其次,在数字及网络环境下,文献获取的便捷性以及文献间关系的易知性使得被引次数偏低的期刊能够获得更多的关注,另外,作者在调研工作过程中对相关文献往往会通过基础文献的参考文献来进行追踪,从而可能会有部分的低被引文献或是期刊处于检索的盲区,而信息检索模式的转变以及多样化也可以使得对这部分资源的利用能够更为充分,从而对于被引次数偏低的期刊,下载次数与被引次数之间的不一致能够得以体现。同时这也表现为下载次数在期刊中的分布会更为分散,而不仅是高度集中于被引次数较高的期刊中,于是能够从侧面反映对下载次数与被引次数进行随机变量处理具有一定的可行性。

3 结束语

对下载次数与被引次数的差异程度进行考察时,与描述性统计相比,推论统计会使得考察更为严格。上文对该两指标之间是否存在显著性差异进行了探讨,更进一步地,如果存在显著性差异,则还需要对差异的程度进行显著性检验,也即如果接受假设H1:λ1≠λ2,那么下载次数列与被引次数列的均值或是方差在多大的程度上会是显著的不同,或者说需要确定数 β 与 γ,并对 原假 设 Ho':1/λ1=1/λ2+β 以及 Ho'':1/λ12=1/λ22+γ分别进行假设检验。另外,需要指出,在对差异显著性进行考察的过程中,如果考虑到下载次数与被引次数之间同一性的存在,则两卡方变量并非完全独立,由于这是统计量d/c服从F分布的前提条件,[3]所以对统计量的选取还需做进一步的改进,最终是希望对两指标间的差异程度进行度量,以至对该两指标间对立与统一的程度进行量化,从而能够用于指标权重的确定。

[1]王明亮,等.中国知识基础设施工程五年规划的可行性研究[C]//第二届海峡两岸科技资讯研讨会暨第十三届全国计算机情报管理学术研讨会论文集.北京:中国科学技术情报学会,1999:113互122.

[2]张洋.期刊Web下载总频次的布拉德福分布研究[J].图书情报知识,2006(6):38互42,60.

[3]陈萍,等.概率与统计[M].北京:科学出版社,2006.

[4]郑胡灵,刘建平.两寿命指标的一个假设检验方法[J].昆明理工大学学报,2000,25(1):140互143,148.

猜你喜欢
基尼系数方差分区
贵州省地质灾害易发分区图
上海实施“分区封控”
概率与统计(2)——离散型随机变量的期望与方差
方差越小越好?
计算方差用哪个公式
浪莎 分区而治
方差生活秀
基尼系数
基尼系数
新视角下理论基尼系数的推导及内涵