文/徐萍
随着互联网技术的高速发展和普及,数字化成为科学论文传播的一条重要途径,文献被引频次、下载频次、期刊影响因子、CI指数等指标在评价学术成果影响力等方面发挥了重要的作用。下载频次与被引频次作为文献价值的集中体现方式一直受到学界的广泛关注,有研究提出了利用下载频次代替被引频次来解决引文评价中时间的滞后性问题。[1-4]因此,下载频次有望成为一个新的考量论文传播和影响的指标。
以往的研究发现[5-12]:下载频次与被引频次(两年后的)具有较强的相关性,文献的被引频次可以通过对应的下载频次进行预测;可以用期刊的前期下载频次借助回归方程对其后期(两年)的被引频次进行估计;期刊的下载频次与被引频次高度正相关,且不是单纯的线性相关关系。也有不少研究直接对被引频次与下载频次具有高度一致性这一说法进行否认,甚至否认两者具有相关性:Andrew等对International Journal of Cardiology上2007年下载频次和被引频次最高的前25篇论文进行比较分析发现,被引频次与下载频次并无明显的关系,由此对 “将被引频次作为评价论文影响力的决定性因素”提出了质疑;[13]杜秀杰等采用简单线性相关系数判断学术论文的被引频次并不是简单的与下载频次成正比。[14]
如果两者具有较强的相关性,是否直接可以利用下载频次对被引频次进行预测呢?有必要对两者关系展开进一步深入探讨。
资料来源:利用中国知网“中国引文数据库”(http://ref.cnki.net.knsref/index.aspx)的高级检索功能(检索日期为2019年3月1日),在“检索项”选择“刊名”,“检索词”输入“西南交通大学学报”,发布时间从2014—2018年的EI来源期刊,检索学报2014—2018年刊登论文的下载和被引用情况,分别按下载频次和被引频次从大到小进行排序,将文章名、发表年份、下载频次、被引频次等相关信息导入到excel表格中进行数据分析。
文章的下载频次和被引频次是计量学评价体系中的两个基本指标,在研究两个随机变量间的相互关系时,常使用数理统计学中的简单线性相关系数,具体公式为[15,16]
式中:r为简单线性相关系数;n为取样数量;xi为被引用频次;yi为下载频次。
基于定量分析,探讨下载频次与被引频次之间的相关性,利用相关系数判别数据的相关性大小,在分析相关性的基础上,使用曲线估计初步确定下载频次与被引频次的函数关系曲线方程,主要是选出最佳的曲线模型,对下载频次与被引频次进行拟合。
表1 被引频次和下载频次TOP50论文数量分布情况 篇
对《西南交通大学学报》2014—2018年在知网上被引频次、下载频次TOP50论文的发表年份进行统计,结果如表1所示。由表1可知:被引频次TOP50论文主要集中在2014—2016年,其中,以2014年最多(27篇,占比54%);2015年发表的论文数其次(15篇,占比30%);2017年和2018年发表的论文都没有进入TOP50。下载频次TOP50的论文集中在2014—2016年,分别占比32%左右,下载频次TOP50的论文主要集中在论文发表后的3~5年。
下载频次可反映上网论文的扩散速率, 是网络环境下期刊传播效率的一个新指标,论文下载量在第一时间反映了文献的使用情况,在一定程度上反映了被使用但最终未被引用文献的价值,相对论文被引频次、下载频次具有更强的时效性。
对《西南交通大学学报》2014—2018年在知网上下载频次TOP25论文进行统计分析,结果如表2所示。下载频次最多的为2015年发表的论文(4347次),对应的被引频次为121次,其中,期刊论文和硕士论文的引用居多。下载频次是2016年发表的排第二论文的2倍多。
表2 下载前25论文被引情况分析
下载频次TOP25论文被引频次和下载频次相关性见图1。相关系数R=0.431,关系式为yi=0.028xi+6.3127。由图1可知:下载频次主要集中在500~1000的范围内,对应的被引频次主要集中在60次以下,下载频次在500~1000次时和被引频次拟合度好,高于1000次时分布比较分散。
具体被引分布情况见图2。由图2可知:下载频次TOP25的论文总被引频次为854,其中,期刊论文引用412次,占比48.24%;博士论文引用64次,占比7.49%;硕士论文引用351次,占比41.10%;会议论文引用23次,占比2.69%。
图1 下载频次TOP25论文被引频次和下载频次相关性
图2 下载频次前25论文被引具体分布情况
对《西南交通大学学报》2014—2018年在知网上被引频次TOP25论文进行统计分析,结果如表3所示。被引频次最多的为2014年发表的论文(152次),对应的下载频次为1459次,其中,期刊论文和硕士论文的引用居多。被引频次与2015年发表的排第二的论文相差31次,但下载频次却相差了3000次左右。被引频次TOP25的论文的被引频次次数主要集中在20次左右。
被引频次TOP25论文被引频次和下载频次相关性见图3。相关系数R=0.458 3,关系式为yi=18.166xi+193.1。具体被引分布情况见图4。由图4可知:被引频次主要集中在20次左右,对应的下载频次主要集中在500次左右,被引频次20次左右时和下载频次拟合度好,大于20次时分布比较分散,拟合度差。
表3 被引频次前25具体数据分析
图3 被引频次前25论文被引频次与下载频次相关性
图4 被引频次前25论文具体被引分散情况
具体被引分布情况见图4。由图2可知:被引频次TOP25的论文总被引频次为933,其中,期刊论文引用476次,占比51.01%;博士论文引用56次,占比6.00%;硕士论文引用386次,占比41.10%;会议论文引用25次,占比2.68%。
被引频次是评价学术质量和影响力的重要指标, 从下载频次可以直接看出文献被读者使用的情况,反映了论文被关注的程度, 但是,不是所有的下载都会被引用。根据本文的研究结果, 文章出版后3~5年下载频次达到峰值,文章出版后4~5年被引频次达到峰值, 而高引用和高下载存在时间差解释了高下载和高被引论文年份不对应的现象。
论文下载频次越高,受读者关注的程度越高,被引用的几率就会增大,通过下载频次直接看出论文被读者使用的情况,视为对论文学术价值的先期反映。文献的被引频次与其质量高度相关,论文被引用意味着研究成果得到发展或评价,被引频次越高,效果越明显。
人们通常认为论文的下载频次与被引频次正相关,即文章被下载得越多, 被引频次也就越高。下载一篇文章后是否引用它要看它的内在质量。当然, 下载频次与被引频次之间拥有某些相关性,但不是完全的线性相关,在一定的下载频次范围内(本文对应的下载频次为500~1000次)下载频次与被引频次是呈线性相关的,超过这个相关范围后被引频次和下载频次相关性不大,所以,不能完全用下载频次对后续的被引频次进行预测。