期刊下载频次和被引频次的相关性研究
——复合H指数视角

2018-11-14 08:29朱雯陈荣刘颖
数字图书馆论坛 2018年10期
关键词:大类期刊论文次数

朱雯 陈荣 刘颖

(华东理工大学科技信息研究所,上海 200237)

在纸质媒介时代,期刊的被引频次、影响因子[1-2]等引文索引指标在评价期刊学术影响力方面发挥了重要作用,但随着互联网的普及和数字技术的高速发展,文献资源的传播方式越来越多样化。在Web 2.0时代,若将单一的被引指标、影响因子作为衡量一本期刊的学术影响力必然存在一定的局限性[3](如滞后性等问题),并有学者指出利用被引指标评价期刊论文只能表现出原文影响力的30%[4]。为改善单一指标的缺点,学者们开始研究下载频次[5-7]及社交媒体使用量[8-10]对期刊评价的影响,而下载频次具有较强的时效性,可以在短时间内反映论文价值[11],并且能在一定程度上反映已被使用但未被最终引用论文的价值[12],因此下载频次有希望成为一个新的考量科学论文传播和影响力的有用的工具和指标[4]。

目前,下载频次与被引频次作为期刊学术影响力的重要指标,其相关性研究受到学者们的广泛关注,主要集中在多学科单篇论文的被引频次和下载频次的相关性或者单一学科单年期刊的被引频次和下载频次的相关性[13-17],多使用基于篇均被引和篇均下载的数据处理方法。但由于统计方法、学科及分析角度等的差异性和局限性,仅利用下载量和被引量简单平均的方法研究相关性,容易出现数据稳定性差等问题。学者们对两者之间的关系观点不一,并且较少有论文以期刊为单位探讨期刊的下载频次与被引频次的相关性在不同年份的变化情况。

由于复合H指数大幅提高了H指数的区分度[18],不仅能反映出期刊研究的创新性,还兼顾了文章数量、质量及高被引论文对即时学术影响力的影响。因此本文通过构建期刊的复合下载H指数(SM指数)和复合被引H指数(SC指数)等指标,探讨不同学科2011—2015年下载频次与被引频次复合H指数的相关性系数变化情况及其原因,为建立综合、完善的期刊评价指标体系奠定基础。

1 研究方法设计

(1)被引H指数(HC指数)。根据H指数定义[19],对期刊当年发表的n篇论文组合而言,在统计年有h篇论文每篇至少被引用h次,剩下的n-h篇论文每篇被引用的次数都小于h次,则h为该刊当年被引H指数。如某期刊2011年共有500篇文章,在2017年有20篇论文每篇至少被引用20次,剩下的480篇论文每篇被引用的次数都小于20次,则该刊2011年被引H指数为20。

(2)下载H指数(HM指数)。对期刊当年发表的n篇论文组合而言,在统计年有h篇论文每篇至少下载h次,剩下的n-h篇论文每篇下载的次数都小于h次,则h为该刊当年下载H指数。如某期刊2011年共有500篇文章,在2017年有312篇论文每篇至少下载312次,剩下的188篇论文每篇下载次数都小于312次,则该刊2011年下载H指数为312。

(3)被引G指数(GC指数)。根据G指数定义[20],对期刊当年发表的n篇论文组合而言,在统计年,论文按被引次数降序排列,并按照降序将每篇论文的序号平方,同时按照同样的顺序将每篇论文被引次数逐一累加,当前g篇论文累计被引次数大于或者等于第g篇论文的序号平方,前g+1篇论文累计被引次数小于第g+1篇论文序号平方时,则g就为该刊当年被引G指数。

(4)下载G指数(GM指数)。对期刊当年发表的n篇论文组合而言,在统计年论文按下载次数降序排列,并按照降序将每篇论文的序号平方,同时按照同样的顺序将每篇论文下载次数逐一累加,当前g篇论文累计下载次数大于或者等于第g篇论文的序号平方,前g+1篇论文累计下载次数小于第g+1篇论文序号平方时,则g就为该刊当年下载G指数。

(5)被引R指数(RC指数)。根据R指数定义[21],对期刊当年发表的n篇论文组合而言,在统计年有h篇论文每篇至少被引用h次,剩下的n-h篇论文每篇被引用的次数都小于h次,则h篇论文的被引次数总和的平方根为该刊当年被引R指数。

(6)下载R指数(RM指数)。对期刊当年发表的n篇论文组合而言,在统计年有h篇论文每篇至少下载h次,剩下的n-h篇论文每篇下载的次数都小于h次,则h篇论文的下载次数总和的平方根为该刊当年下载R指数。

(7)复合被引H指数(SC指数)。某刊当年被引H指数÷所有期刊样本当年总被引H指数+某刊当年被引G指数÷所有期刊样本当年总被引G指数+某刊当年被引R指数÷所有期刊样本当年总被引R指数=复合被引H指数。

其中,SC(x)表示在统计年第x本期刊发表当年的复合被引H指数,HC(x)表示第x本期刊当年的被引H指数,HC(n)表示第n本期刊当年的被引H指数(n为整数),GC(x)表示第x本期刊当年的被引G指数,GC(n)表示第n本期刊的当年的被引G指数,RC(x)表示第x本期刊当年的被引R指数,RC(n)表示第n本期刊的当年的被引R指数。

(8)复合下载H指数(SM指数)。某刊当年下载H指数÷所有期刊样本当年总下载H指数+某刊当年下载G指数÷所有期刊样本当年总下载G指数+某刊下载R指数÷所有期刊样本当年总下载R指数=复合下载H指数。

其中,SM(x)表示在统计年第x本期刊发表当年的复合下载H指数,HM(x)表示第x本期刊当年的下载H指数,HM(n)表示第n本期刊的当年的下载H指数(n为整数),GM(x)表示第x本期刊当年的下载G指数,GM(n)表示第n本期刊当年的下载G指数,RM(x)表示第x本期刊当年的下载R指数,RM(n)表示第n本期刊当年的下载R指数。

2 实证研究

本文以中国知网的《中国学术期刊网络出版总库》及《中国引文数据库》为数据源,以核心期刊为例,从理、工、农、医、经济、人文、社会科学中各选择3门有代表性的学科(见表1)。为保证数据的完整性,每门学科的期刊按照综合影响因子排序,选取排名前5名和后5名共210本期刊,收集每本期刊在2011—2015年每篇论文的下载频次和被引频次,检索时间截至2017年8月1日。本文随后将论文题名、下载频次和被引频次记录组成每本期刊每年记录的3个特征项,将其汇总到Excel中,运用Excel进一步整理筛选,共计306 320篇期刊论文纳入统计分析。

表1 选取的学科

2.1 SC指数与SM指数相关性概况

本文利用SPSS 22.0对样本数据进行K-S检验,结果显示SC指数与SM指数并非所有数据符合正态分布,因此选取Spearman系数计算指标间的相关性系数,结果见表2。

表2 2011—2015年各学科SC指数与SM指数相关性概况

①整体而言,除文学学科及临床医学学科外,2011—2015年理、工、农、医大类中的其他学科的相关性系数普遍高于人文、经济、社会科学,总体相关性保持在中等相关与强相关之间;而2011—2015年人文、经济、社会科学大类中的其他学科的相关性处于中等程度相关或弱相关。②除文学及临床医学学科外,同一大类中各学科之间SC指数与SM指数相关性系数相差不大。③除2013年贸易经济学科外,2011—2015年其他学科SC指数与SM指数呈正相关。

分析原因:①学科间自身存在较大差异,导致理、工、农、医类与人文、经济、社会科学类相关性系数差异大。理、工、农、医类的期刊论文被下载后得到有效引用,导致理、工、农、医大类中学科的SC指数与SM指数相关性强,其相关性系数大于经济、人文、社会科学学科。②同一大类中学科期刊发展具有一定的相似性,学科之间交叉程度高,这可能是同一大类中各学科之间SC指数与SM指数相关性系数相差不大的主要原因。③统计每年期刊的低被引(被引频次小于4)论文数及每年期刊参考外文文献比(总参考外文文献数÷当年期刊总发文量)发现,贸易经济学科2013年发表期刊的低被引论文数高于其他年份,这可能是导致呈现负相关或无相关的主要原因;而临床医学期刊参考外文期刊的数量高于大类中其他学科,这可能是导致相关性系数低于大类中其他学科的主要原因。④进一步探讨文学学科,首先,依据各学科SC指数与SM指数方差发现文学学科2011—2015年各数据波动较小,数据的稳定性较高;其次,文学期刊对现代中国的文化传播起着重要作用,本文所选取的文学学科样本期刊中论文大部分是研究中国文学,学者参考中文文献的比例较高,导致文学学科的期刊论文下载后得到有效引用。

2.2 2011—2015年SC指数与SM指数相关性变化情况

本文将上述各学科SC指数与SM指数的相关性系数放入Excel中绘制折线图。

由图1可知:①除林业、化学学科外,大部分学科2011—2015年相关性系数变化幅度较大;并且2011—2015年同一大类中的3门学科相关性系数变化情况不一致。②从整体来看各学科相关性系数变化在2013年或者2014年出现转折,如机器仪表工业学科在2014年出现下降趋势,医药卫生类中3门学科在2013年出现上升趋势等。③农业科学类、经济类及哲学、社会学、政治、法律类中的3门学科2011—2015年相关性系数基本呈现波动式上升趋势,工业技术类、文化教育历史类中的3门学科2011—2015年相关性系数基本呈现波动式下降趋势。

图1 2011—2015年各学科SC指数与SM指数相关性系数变化情况

分析原因:①由于论文从下载到引用一般需要2年或者更多的时间[22],期刊论文的下载频次和被引频次在2—3年前等发生波动,进而导致各学科SC指数与SM指数相关性系数发展趋势在2013年或者2014年发生变化。②虽然同一大类中学科存在相似性,但各个学科期刊的发展又有着其特性并且学者们的下载和引用行为不确定性高,这可能是同一大类中的3门学科相关性系数变化情况不一致的主要原因。③从各学科期刊论文主题发现,林业、化学学科期刊论文多为基础理论研究,而其他学科实证研究居多,这可能导致这2门学科的SC指数与SM指数的相关性系数变化幅度不大,而其他学科相关性系数变化幅度大。④工业技术类、文化教育历史类近2—3年的期刊论文下载后没有得到有效引用,导致相关性系数下降,而农业科学类、经济类及哲学、社会学、政治、法律类学者从近2—3年文章着手,发现当前研究热点,期刊论文下载并得到了及时引用,导致SC指数与SM指数的相关性系数上升。

由上述分析发现,一方面,虽然同一大类中各学科之间SC指数与SM指数相关性系数相差不大,但各年相关性系数变化情况不一,不能通过同一大类中的学科预测其他学科SC指数与SM指数的相关性系数变化情况;另一方面,不同学科中SC指数与SM指数相关性系数每年变化情况不同,在期刊评价中应考虑不同时间下载频次和被引频次的关系。

2.3 SC指数与SM指数相关性系数变异程度分析

变异程度分析是用来观测总体数据的波动程度的,一般通过变异系数来表示,变异系数为标准差与均值的比,变异系数越大,说明这组数据中的平均数的代表性差。本文进一步分析不同学科2011—2015年的“SC指数与SM指数相关性系数”变异程度,旨在从客观上探析2011—2015年SC指数与SM指数相关性的波动概况,结果见表3。

表3 2011—2015年各学科SC指数与SM指数相关性系数变异程度

可以看出环境科学、机器仪表工业、林业、农学、基础医学、药学、化学、物理、文化理论/新闻事业、文学、经济学和民族学学科外,其他学科的SC指数与SM指数相关性系数变异程度较大,由此说明,2011—2015年不同学科中下载频次和被引频次相关性系数处于波动中,不能使用统一的标准(如仅使用单一指标下载频次)进行期刊评价。

结合图1和表3的分析发现:一方面,在期刊评价中需要将期刊论文发表时间列入评价指标,不同时间下载频次和被引频次应赋予不一样的权重值;另一方面,环境科学、机器仪表工业、林业、农学、基础医学、药学、化学、物理、文化理论/新闻事业、文学、经济学和民族学学科中已知某一年的下载频次和被引频次的相关性系数,一般情况下可以预测未来4年内下载频次和被引频次的相关性。

3 结论

本文以理、工、农、医、人文、经济、社会科学大类中3门学科在2011—2015年核心期刊论文的下载频次和被引频次为基础,构建期刊的复合被引H指数(SC指数)和复合下载H指数(SM指数)指标,探讨2011—2015年不同学科中的SC指数与SM指数相关性系数变化情况及其原因,得出如下结论。

(1)除贸易经济学科2013年外,期刊的下载频次与被引频次一般具有正相关性。说明下载频次指标在某种程度上与被引频次指标所反映出的信息一般具有一致性。

(2)2011—2015年理、工、农、医类期刊的下载频次和被引频次的相关性高于经济、人文、社会科学类。说明2011—2015年理、工、农、医类期刊的利用效率高于经济、人文、社会科学类期刊。导致这一情况的原因可能是学科之间的差异及不同样本期刊的研究主题,如理论基础类的期刊论文下载频次和被引频次均高,而实证研究类的期刊论文下载频次偏高、被引频次偏低。

(3)除文学及临床医学学科外,同一大类中的不同学科间的期刊下载频次和被引频次的相关性系数相似,但2011—2015年同一大类中的不同学科间的期刊下载频次和被引频次的相关性变化情况不一。说明除文学及临床医学学科外,理、工、农、经济、社会科学同一大类中的学科之间的复合H指数相关性可以互相推测,但相关性变化情况不能互相推测,导致这一情况可能的原因是同一大类中的学科间的交叉程度高,存在一定的相似性。

(4)2011—2015年不同学科间的下载频次和被引频次的相关性系数波动较大。说明在期刊评价中需要将期刊论文发表时间列入评价指标,不同时间下载频次和被引频次所赋权重不同。如农业科学类的评价近4—6年的期刊时下载频次所赋权重偏大,工业技术类学科近2—3年的期刊时下载频次所赋权重偏大,而经济类及哲学、社会学、政治、法律类学科学科进行期刊评价时下载频次和被引频次需要相互参照,所赋权重值相差不大。

(5)2011—2015年环境科学、机器仪表工业、林业、农学、基础医学、药学、化学、物理、文化理论/新闻事业、文学、经济学和民族学学科的下载频次和被引频次的相关性系数变异程度小。说明上述学科期刊在已知某一年下载频次和被引频次的相关性,在一定程度上可以预测未来4年内的期刊下载频次和被引频次的相关性概况。

最后需要特别指出的是,在多学科比较中,法律学科复合H指数之间的相关性偏低,数据源仅是导致相关性系数偏低的一种原因,下一步将深入研究法律学科的学者引用行为、研究主题等对复合H指数的影响。

猜你喜欢
大类期刊论文次数
基于CiteSpace 的中医软坚散结法的可视化分析
机场航站楼年雷击次数计算
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
一类无界算子的二次数值域和谱
谈大类招生背景下音乐教育课程的创新与发展
依据“次数”求概率
化学学科大类人才培养研究
中文科技期刊论文LaTeX模板的研究与实践
公共图书馆不应认可的职称期刊论文探析——基于重庆图书馆职称期刊论文的实证调研
人文社科期刊论文被引频次和下载频次相关性研究