基于被引次数的论文影响力下载类指标研究

2014-01-16 08:56:50郭强赵瑾

图书馆理论与实践 2014年11期

关键词：分值影响力年度

●郭强，赵瑾

（1．郑州大学信息管理系，郑州450001；2．中国人民解放军陆军军官学院军事运筹教研室，合肥230031）

基于被引次数的论文影响力下载类指标研究

●郭强1，赵瑾2

（1．郑州大学信息管理系，郑州450001；2．中国人民解放军陆军军官学院军事运筹教研室，合肥230031）

学术影响力；多属性描述

在对论文的下载次数与被引次数之间的相关性进行考察的基础上，对发表两年后的论文下载次数以及相应的论文影响力分值在论文中的分布状况进行了考察，以期从侧面对所得下载次数能否作为对论文实际下载情况的近似进行探讨。

由于论文的被引次数与论文的学术影响力之间具有相关性，所以，在对论文的学术影响力进行描述时，能够利用论文的被引次数对论文的影响力进行侧面反映。网络环境与数字技术的发展使得被引次数的获取具有了便捷性，因此也能够将论文的被引次数作为反映论文学术影响力的指标。而且为考虑建立在被引次数基础上的相关指标，从而尽可能地满足对被引类指标的全面性要求，在利用论文的被引情况来反映论文的影响力时，需要纳入论文施引期刊的影响力差异，这是因为当论文被具有不同影响力的期刊引用时，论文获得的影响力也会有所不同。考虑施引期刊差异时，对论文的总被引次数与论文发表三年后的被引次数以及最大年度被引次数等被引类指标所表征的论文影响力进行考察，并在此基础上对相应的论文影响力多属性描述的合理性进行探讨。此外，在对被引类指标与下载类指标之间差异性进行考察的基础上，也需要在影响力描述中对论文的下载情况进行探讨。需要指出的是，有时需要用论文总下载次数对其发表两年后的下载次数以及最大年度下载次数进行大致估算，并且需要对相应的论文影响力分值的分布情况进行考察，从而对论文下载类指标取值的合理性进行侧面地检验。同时也需要考虑对相关的论文下载情况与被引情况之间的关系以及相应的期刊下载情况进行探讨，以期对下载类指标值近似的适用性进行考察。

1 相关性考察

利用论文总的下载次数对论文发表两年后的下载次数以及最大年度下载次数进行考察时，需要利用被引类指标与下载类指标之间的相关性，从而通过变量之间的相关关系来对变量的取值进行大致估计。如对于图书情报领域的期刊论文而言，论文在某年度的被引次数与论文在该年度两年前的下载次数之间会具有一定的相关性，那么，能够利用论文在考察年度两年后的被引次数以及被引次数与下载次数之间的相关关系对考察年度的论文下载次数进行估算。由此，能够得到论文在发表两年后的下载次数和论文的最大年度下载次数。同时，在此基础上也能够对相应的论文影响力描述以及影响力分值的分布情况进行考察。需要指出的是，在这里选取论文发表两年后的下载次数对论文的下载情况进行表征，是将论文的下载半衰期取为两年。此外，由于论文的逐年下载次数有时需要利用论文的其他已知指标值来进行估计，所以，在这里只是对期刊的下载指标与被引指标之间的相关性进行类似的探讨。对图书情报领域的期刊论文而言，如果假设论文从其被下载到作者在其最终成果中引用该文献需要的时长为两年，那么从直观上对于该领域的期刊而言，其两年前的下载次数与考察年度的被引次数之间也会具有一定的相关性。如对情报科学期刊而言，能够得到各年度的期刊被引次数与其两年前的下载次数之间的相关系数为0.799，并且在0.01水平下该两变量在总体上等级相关，其中期刊在各考察年度的被引次数以及下载次数是由CNKⅠ镜像站版获取的，期刊下载次数与期刊被引次数的时间范围分别为1980～2010年以及1982～2012年。期刊的下载次数与被引次数在考察年度中可能均不严格服从正态分布，较多年份的被引次数会相对较为居中，被引次数相对较高或相对较小的年份都会相对较少的情形在直观上并不显著。特别是随着期刊的发展，期刊的逐年被引次数会具有上升趋势，期刊的下载次数也会具有类似的情形。由于在这里是对两个期刊指标之间的等级相关性进行考察，类似地也能够对该期刊的下载次数与其被引次数在不同时间间隔情形下的相关情况进行探讨。如当取时间间隔为3年时，能够得到期刊在各年度的被引次数与其前三年的下载次数之间的等级相关系数为0.734，并且也能够在0.01水平下在总体上具有等级相关性，其中下载次数与被引次数的时间范围分别为1980～2009年以及1983～2012年，能够得到这种相关系数随时间间隔的变化情况，如图1所示。

图1 期刊被引次数与下载次数之间的相关系数与考察时间间隔的关系

图1 中，横轴为情报科学期刊的后期被引次数与其前期下载次数的时间间隔，纵轴为该两变量之间的相关系数。可以看出，随着时间间隔的增加，两变量之间的相关系数具有下降趋势，并且相对而言，当时间间隔为两年时，期刊被引次数与下载次数之间也会具有较好的相关性。从直观上，某年度的被引次数会与前期各年度的下载次数有关联，毕竟对论文的前期下载会带来对论文进行后期引用的可能性。因此，不同考察年度的被引次数与下载次数之间的相互作用均会影响该两变量之间的相关性，而且从论文被下载到论文被最终引用所需要的时间延迟也是变量间相关关系的影响因素。在这里，只是希望对建立在这种时间延迟因素上的被引次数与两年前的下载次数所具有的相关性进行侧面地检验，毕竟所得的相关系数与这种直观认识并不相违背。另外，当时间间隔为负时，能够对应于被引次数对下载次数的影响，因为当期刊具有相对较高的被引次数时，也会为期刊带来更多的后期被下载的可能性。此外，需要调整期刊的考察范围，并对期刊下载次数与两年后的被引次数之间的相关性进行类似地检验，从而使得这一考察能够具有一般性。如对图书情报类期刊而言，类似地能够得到每份期刊在各个时间间隔的相关系数，那么，如果将相关系数的平均值作为相应时间间隔相关系数的整体表征，就能够对该领域期刊下载次数与被引次数之间的相关性的整体特征进行考察。需要指出的是，在假设被引次数与其前期下载次数均具有相关性的基础上，在图1中所选取的时间间隔最大为10年，其原因是使得下载次数与被引次数的对数足够多，从而使得该两变量在0.05水平下在总体上等级相关。另外，能够得到时间间隔为两年时的期刊下载次数与被引次数的线性回归方程为d’=22.14c’+100.79，其中c’与d’分别为情报科学期刊的被引次数及其两年前的下载次数，且判定系数能够达到0.983。同时需进一步对期刊被引次数以及下载次数在各考察年度的分布状况进行探讨，对该两变量之间线性关系的显著性进行检验。

那么，假设论文在某年度的被引次数与论文前两年的下载次数之间存在相关性，认为该两变量在总体上具有线性关系的条件下，假设样本的回归关系为d=bc+a。其中，c与d分别为论文的被引次数以及论文两年前的下载次数，且b为回归系数。由于在CNKⅠ的镜像站版中能够得到论文的逐年被引次数，所以，由该回归方程能够得到论文在各年度的下载次数与相应年份的两年后的被引次数之间的关系。进一步对所得的各年度论文下载次数进行求和，并由该下载次数的累计和对论文总下载次数进行近似，其原因是假设论文的下载半衰期为两年。如果考察时长足够长以至于在该考察时段内论文的下载次数累计和具有其统计意义或者是能够对论文的下载情况进行大致的表征，那么，利用该时段内的下载次数对论文总的下载次数能够进行近似地反映。如选取图书情报类期刊在2004年6月与2005年6月出版的论文作为考察对象，选取考察时间为2011年10月，假设论文的被引半衰期为三年，那么根据每篇论文在其发表后的各年度被引次数以及建立在上述回归关系基础上的两年前的下载次数，并且在所得下载次数的累计和能够近似等于论文总的下载次数的条件下，能够得到回归关系中系数b与a的关系式。假设论文的下载半衰期为两年，那么，论文发表后两年中的下载次数会等于论文总下载次数的一半，由此能得到系数b与a的关系式。如对在2004年6月出版的情报科学期刊论文而言，能够得到相应的b与a的关系式并尝试对两系数的取值进行确定。需要指出的是，论文的下载次数与其两年后的被引次数相关联的假设是对于两变量在总体上具有相关性而言的，尽管在此基础上能够假设样本所具有的回归关系，但是样本的实际下载性质与由总体下载性质得到的样本回归关系会有差异。并且上述论文下载半衰期为两年的假设也会具有粗糙性，所以，在所得的b与a的关系中，对于部分论文而言会出现两系数无法确定的情形。其中，包括b与a的关系式的不相容，回归系数b的取值为负数以及会出现论文在某年度下载次数为负数的情况。同时，由于论文的逐年下载次数是由两年后的被引次数得来的，因此，当论文总的被引次数为零时也会出现关系式不相容的情形。除此之外，如果将剩余的回归系数以及逐年下载次数均有意义的情形作为对相应论文实际下载情况的近似，并且如果上述假设在总体上具有一定的合理性，或者会有相对较多的论文的下载性质与这些假设之间具有相对较小的偏离，那么，按照假设硬性得到下载次数时会有相对较多的论文的逐年下载次数为有意义的情形。尽管所得的下载次数在数量上具有意义，但是由上述假设所得到的论文逐年下载次数与论文实际下载情况之间仍然存在偏离，由此需要对所得的下载次数进行检验，或者是对偏离的程度是否能够在可接受的范围内进行大致的考察。在此基础上，对所得的下载次数是否能够成为对论文的逐年下载次数的近似进行探讨，一种粗略的考察是如果能够认为上述的假设在总体上仍然具有合理性，能够接受所得下载次数与实际下载次数之间的偏离，那么所得的论文下载次数至少在整体上应当具有一定的合理性，或者是应当在整体上与相关的直观认识相吻合，并且这种整体性质应当与论文实际下载次数的性质相一致。

在不考虑关系式不相容的情况下，将所得的系数b与a代入上述回归关系，能够得到相应的论文逐年下载次数，论文发表后两年中总的下载次数以及最大年度下载次数也能够得到。对于其中在数量上有意义的情形，包括逐年下载次数以及系数b均为正数的论文而言，需要对这些具有偏差的下载情形的总体情况进行考察，如在每个考察年度中均会有较多的论文具有相对较低的下载次数，较少的论文的下载次数相对较高，同时即使对于下载性质与上述假设具有较小偏离的论文而言也会具有相似的分布状况。在上述回归假设以及下载半衰期为两年的基础上所得到的论文在其发表后各年度的下载次数与论文的实际逐年下载次数之间会存在偏差，尽管论文的下载次数与其两年后的被引次数相关联，而且论文的被引次数也会具有类似情形，即较少的论文的被引次数会相对较高，但是，每篇论文对应的系数b与a并不相同，因此，由上述假设所得的论文下载次数未必能够与论文被引次数的指数分布状况相一致，或者是保持原有的被引次数在论文中的分布性质。利用对所得论文下载次数分布的直观要求，尽可能地从侧面对数量有意义情形下的偏差的可接受程度进行探讨，目的是在此基础上研究利用所得下载次数对实际下载次数进行近似的合理性。任意选取论文发表后的年份例如发表后的第五年，能够得到每篇论文在该年度的下载次数（如图2所示）。

图2 考察年度的下载次数在论文中的分布

图2 中，横轴为论文的序号，纵轴为相应论文在其发表后第五年的下载次数。由图2可以注意到，相对较多的论文具有相对较低的下载次数以及较少的论文的下载次数相对较高，同时也存在下载次数为负数的偏差情况，对于论文在发表后的其余年份中的下载次数也会具有类似情形。需要指出的是，在图2中，关系式不相容、存在某年度下载次数为负数以及b为负数的情形能够占到考察论文数量的66.7%，因此，如果利用所得下载次数进行近似，仍然需要建立在较多论文的下载性质与上述假设之间具有较小偏离基础上，并且需要进一步调整论文的考察范围，对能否有相对较多的论文的下载次数在数量上是否会有意义进行检验。

此外，在得到论文的各年度被引次数时是将期刊引用与学位论文、会议论文引用的情形包含在内，而且由于期刊影响力与学位论文、会议论文影响力描述之间的可比性，在对论文影响力分值进行考察时没有将期刊的影响力差异纳入由被引次数所表征的论文影响力中。

2 影响力描述

在上述回归关系以及论文的下载半衰期为两年能够在整体上具有一定的合理性的假设基础上，考虑将论文发表两年后的总的下载次数、最大年度下载次数纳入到对论文下载情况的反映以及对论文学术影响力的描述中，其余的指标选取为在文献［1］中所建立的论文影响力指标与这些指标的相对指标以及相关的下载类指标，［1］其中的论文被引总量以及论文下载总量是建立在考察时长为足够长的基础上，利用该时段内的被引及下载情况对论文的总的被引次数以及下载次数进行近似。如对于情报科学期刊在2004年6月出版的论文而言，考察时间为2011年10月，那么，在认为论文的下载半衰期为两年的基础上，可以近似地利用该时段内的下载次数来对论文总的下载次数进行表征。相对指标的取值仍然是利用指标的取值与在2004年6月出版的图书情报类期刊论文的相应指标的平均值进行相除得到。由于所选取的论文具有相同的出版年份，所以在所选取的影响力指标中没有考虑论文的年均被引次数以及年均下载次数。而且论文在发表后的两年中的下载次数是建立在论文的下载半衰期为两年的基础上，所以对于每篇论文而言，该指标的取值均能够等于论文在该时段内的下载次数的一半，由于在这里仅纳入了论文的最大年度下载次数而没有将论文在发表两年后的下载次数考虑在内，因此，需要对这里的下载类指标值的获取过程进行进一步地探讨。在得到论文在某年度的下载次数时，是在该年度两年后的被引次数中纳入了论文被学位论文和会议论文引用的情形，所以在考察由论文的被引次数与其发表三年后的被引次数、最大年度被引次数所表示的论文影响力时，没有将施引期刊的影响力差异考虑在内。

进一步需要对指标的权重进行探讨，进而对论文的影响力分值进行考察。由于所选取的论文均属于相同的期刊，所以，在这里仍然利用判断矩阵的特征值与特征向量来对指标的权重进行初步确定。在对指标的相对重要性进行考察的基础上能够得到这些指标的判断矩阵，该矩阵的最大特征值为7.400，与该特征值相对应的特征向量为（0.342,0.104,0.037,0.122, 0.256,0.102,0.037）。另外，该矩阵的一致性指标为0.067且一致性比率小于0.1（为0.050），由此矩阵的不一致性能够接受，其中该特征向量初步作为上述指标的权重并且分别与论文总的被引次数、发表三年后的被引次数、最大年度被引次数、发表三年后的相对被引次数、论文所属期刊的影响因子、论文总的下载次数以及最大年度下载次数相对应。由于这些指标与论文的影响力之间均具有正相关性，在假设这些指标之间能够具有一定独立性的基础上，取论文的影响力分值等于各指标值的线性加权求和，其中要求所选取的指标对于论文影响力的反映具有一定的全面性，并且各指标的取值为其均值化后的取值，由此能够得到在考虑论文最大年度下载次数时的论文影响力分值。由于指标均值化后的取值均为正数，因此，能够对论文影响力的累计分值以及相应的影响力分值的分布状况进行考察，以期能够从论文的影响力分值出发来对上述得到的论文逐年下载次数的合理性进行进一步的探讨。

图3 论文影响力分值在论文中的分布

图3 中，横轴为论文的序号，纵轴为论文的影响力分值。由于所得的逐年下载次数是建立在论文的下载次数与其两年后的被引次数具有相关性以及论文的下载半衰期为两年在总体上具有合理性的假设基础上，那么，如果在数量有意义的情形下，所得的下载次数能够作为对论文实际下载情况的近似，由这种下载次数得到的论文影响力分值至少应当在整体上与由实际下载次数得到的论文影响力相一致。如会有相对较多的论文的影响力分值会相对较低。同时从直观上对于与上述下载假设具有较小偏离的论文而言，也会具有类似的分布状况，由此仍然需要对纳入最大年度下载次数时的论文影响力分值进行考察。尽管单个论文样本的下载情形与该论文实际下载情况之间会具有偏差，但是如果这种偏差能够接受，那么对于样本整体而言，建立在上述假设基础上的论文影响力的分布情况就需要与相关的直观认识相一致。在图3中能够注意到这样的趋势，即较少的论文的影响力分值会相对较高，相对较多的论文也会具有相对较低的影响力分值。由此希望从侧面检验所得的下载次数能否作为对论文实际下载次数的近似，仍然需要进一步地调整论文的范围，从而使得这里的考察能够具有一般性。而且当论文在某年度的下载次数没有意义、系数b为负数以及b与a的关系式不相容时，均没有将该论文的最大年度下载次数考虑在内。此外，上述最大年度下载次数的权重相对较低，因此，论文总的被引次数的分布对于论文影响力分值分布的影响会更多地显现出来，这样就需要进一步对所得下载次数的偏离程度进行考察以及检验。如直接对论文最大年度下载次数的分布状况进行探讨，以确定是否能够利用所得论文逐年下载次数来对实际下载情况进行估计的考察具有有效性。

需要指出的是，在所得下载次数的偏离程度能够接受的基础上，这里的估计只是针对数量有意义的情形或者是下载性质与下载假设具有较小偏离的论文而言。实际上对于偏离程度的考察也只是局限于样本整体，因此单个样本情形有可能会存在相对较大的偏差，从而需要从单个样本出发，对相应论文的逐年下载次数进行探讨以及近似，由此来避免整体性质与样本性质的差异所带来的与论文实际下载情况之间的偏离。

［1］金晶，等．不同学科领域自然科学论文学术影响力评价与比较的可行性研究［J］.科技管理研究，2010（14）:279－284.

G252.8

1005－8214（2014）11－0050－04

郭强，男，博士，郑州大学信息管理系教授，研究方向：信息管理理论分析及绩效评估、系统复杂度评价，发文多篇；赵瑾（1977－），男，博士，中国人民解放军陆军军官学院军事运筹教研室讲师，发文多篇，研究方向：复杂系统分析。

2014－01－08［责任编辑］阎秋娟