龚舒野
(南通航运职业技术学院图书馆,江苏南通 226010)
下载频次角度的h指数研究
——以图书馆学情报学核心期刊为例
龚舒野
(南通航运职业技术学院图书馆,江苏南通 226010)
文章基于下载频次角度提出了评价期刊的hd指数,并以中国知网(CNKI)为数据源,选择图书馆学情报学核心期刊为研究对象,通过实证研究说明了hd指数在评价学术期刊方面的科学性和合理性,并探讨了影响期刊hd指数的因素。
h指数;hd指数;期刊评价
2005年,美国物理学家J.E.Hirsch提出了一种新的文献计量方法—h指数(h-index),并利用h指数对学者个人的学术成就进行评价。Hirsch将h指数定义如下:如果一位学者发表的NP篇学术论文中有h篇学术论文,这h篇学术论文中每一篇论文的被引次数均大于等于h,并且其余论文中每一篇论文的被引次数均小于h,则这位学者的h指数为h。[1]
h指数的提出,立即引起学术界的广泛注意,美国的《自然》杂志也对h指数进行了相关报道。[2]众多的学者、机构将h指数运用于各自的评价活动。布劳温等人在评价期刊影响力时使用了h指数,并对期刊h指数进行了定义:对于一种期刊,如果刊载的论文中有h篇论文,这h篇论文每篇被引用次数至少为h,同时h为自然数并且为最大,则h为该期刊的h指数。[3,4]鲁索在研究期刊h指数时发现不同期刊的载文量存在差异,由此可能导致不同期刊间h指数缺乏可比性,并提出期刊相对h指数的概念,即将期刊h指数除以对应载文量。[5]
尽管h指数已经被用于多领域评价并取得不少成果,但由于h指数自身的原因,也存在一定的不足,主要表现在以下五个方面:第一,h指数是从引文角度进行评价,资深研究人员比新研究人员的优势大得多;第二,当h指数相同时,不能对被评对象进行区分;第三,当科研成果以团队形式发表时,不能体现个人在其中的贡献;第四,h指数受引文数据库的影响较大,不同数据库得出的结果会有差异;第五,不能区分被引情况,即被引是他引还是自引。基于上述h指数存在的缺点,有学者对h指数进行扩展,引申出基于下载频次的h指数。
Hirsch提出的h指数是用来考察被引频次,即从被引的角度来评价学者的学术贡献等作用,为了区分,本文把期刊h指数定义为期刊hc指数。虽然基于被引频次的期刊hc指数能够很好地反映一份学术期刊的质量,但期刊论文的下载频次在一定程度上也能反映出该期刊的影响力。基于期刊hc指数的定义,可以将对基于下载频次的h指数做如下定义:对于一种期刊,如果刊载的论文中有h篇论文,这h篇论文每篇被下载次数至少为h,同时h为自然数并且为最大,则h为该期刊的h指数。为了与基于被引频次的h指数区分,将基于下载频次的h指数定义为期刊hd指数。
2.1 数据选择
本文选择北大版《中文核心期刊要目总览》(2011年版)中的“G25图书馆事业、信息事业类核心期刊表”中的19种核心期刊为研究对象,以中国知网的“中国学术期刊网络出版总库”及“中国引文数据库”为数据来源进行研究。[6]为了便于比较研究,本文选定从2001-2011年间上述19种期刊刊载的论文,于2013年4月17日采集数据。
2.2 hd指数分析
表1对18种北大版核心期刊的若干项指标进行了汇总统计。从数据汇总情况看,18种期刊的hd指数的范围是227-452。其中《情报杂志》的hd指数最高,说明共有452篇文论至少被下载了452次;《国家图书馆学刊》的hd指数最低,说明共有227篇论文至少被下载了227次。从数值上看,《情报杂志》具有广泛的影响力,在图书情报界已被广泛认可。[7]
从hd指数和hc指数数值本身看,hd指数具有以下两个特点:一是数值较大,二是数值重复现象较少。hd指数的取值范围为227-452,hc指数的取值范围为29-65。hd指数平均为hc指数的7倍。在统计的18种期刊中,《图书馆杂志》和《图书情报知识》的hd指数均为311,《图书馆论坛》和《现代图书情报技术》的hd指数均为315,出现了相同的分值。同时,观察hc指数分值就会发现,出现相同分值的情况更多。这一现象在其他文献中更明显。出现分值相同的时候,期刊的区分度则会大大降低,对于期刊评价则会带来一定的困难,从而降低该指标的评价功能。hd指数和hc指数相比,虽然hd指数也出现了同分值,但由于下载频次相对于被引频次更活跃,也就是说hd指数的变化更敏锐,因此hd指数在期刊评价时具有一定的优势。
表1 核心期刊数据统计汇总表
2.3 hd指数与核心期刊排名分析
北大版《中文核心期刊要目总览》至今已出版6版,第6版由北京大学图书馆等27个单位的108位专家和工作人员参加研究,全国各地8 000余位学科专家参加了核心期刊表的评审工作,其研究成果具有较高的科学性、准确性和可靠性。将hd指数与核心期刊进行对比分析,对于研究hd指数在期刊评价中的科学性和合理性具有一定借鉴意义。
表1中的数据,正数表示排名上升,负数表示排名下降,0表示排名未变化。从表1中汇总数据看,2种期刊排名未变化,3种期刊排名变化浮动为1,1种期刊排名变化浮动为2,1种期刊排名变化为3,即接近1/ 2的期刊排名变化较小,说明hd指数在一定程度上能够对期刊评价产生正面影响。但是,另外有四种期刊的排名变化浮动在8以上,最多的达到-12,说明hd指数与核心期刊的排名存在一定程度的偏离。
2.4 hd指数与其它指标相关性分析
表1中的Nd代表某期刊在统计期间内的总下载量,其数值范围为167 441-1 345 621。总下载量是个直观的指标,很容易从数据库中获得。总下载量在衡量期刊的影响力方面容易被大家所接受,但是总下载量却具有很大的随意性和不确定性。随着时间的推移,即使经过较短的时间,这个指标的数值也会发生变化。通过计算单篇最高下载量与总下载量的比值发现,有两种期刊的结果超过分别为1%和1.17%,其余期刊的比值均在1%以下,最小值0.269%,数值的差距较大。这说明单篇论文的高下载频次会极大的影响到总下载量。同时,总下载量只是简单地提供了下载量这个信息,至于期刊中哪些论文对总下载量做出哪些贡献却无法明确。通过统计单篇最高下载量这个指标可以得出期刊刊载的论文中最受读者关注的是哪篇论文,但无法明确期刊总影响力和质量。通过统计发现,每种期刊在相同统计期刊内载文量是不同的,这也客观上造成了期刊总下载量的差异。篇均下载频次这个指标能够很好地克服载文量不同对下载量的影响,但对于区分期刊影响力贡献不大。
期刊hd指数能很好得揉合载文量、总下载量、单篇最高下载量等几个指标,具有一定的优势。第一,数值较稳定。虽然网络环境下论文的下载行为成为一种常态,基于下载量的hd指数就会因为下载行为而发生变化。但从hd指数设计的原理上看,短时间内能够改变hd指数数值的论文只局限在hd指数附近的若干篇。因此hd指数具有较高的稳定性。第二,能够提供较多的信息。从hd指数的定义上看,hd指数试图寻找期刊载文和单篇下载频次之间的平衡点。因此获取hd指数数值的同时,还能获得该期刊的高被关注论文。例如,《中国图书馆学报》的hd指数390,就是说《中国图书馆学报》的刊载论文中有390篇论文的下载频次大于等于390,同时还能看出到底哪些论文对hd指数做出了贡献。
笔者利用SPSS18.0统计分析软件,将表1中hd指数分别与载文量(N)、总下载量(Nd)、单篇最高下载量(Ntop)、篇均下载频次(Ntop/N)及hc指数进行相关性分析。分析结果如下:hd指数与N在0.01水平上相关性显著,Pearson相关系数为0.594;hd指数与Nd在0.01水平上相关性显著,Pearson相关系数为0.868;hd指数与Ntop在0.01水平上相关性显著,Pearson相关系数0.714;hd指数与Ntop/N不相关;hd指数与hc指数在0.01水平上相关性显著,Pearson相关系数为0.684。从分析结果看,除hd指数与Ntop/N不相关外,hd指数与其余评价指标均相关,其中相关系数最高的0.868,最低的为0.594,这一结果与预期相符合。从分析结果看,hd指数在一定程度上能够对期刊影响力进行阐释,并且能够引导学术期刊走上从“量”转换到“质”的发展轨道。
从hd指数的定义看,hd指数与hc指数均能反映一种学术期刊的学术影响力及期刊质量,并且两者之间存在一定的相关性,说明这两个指数可以从不同的角度对期刊进行评价。但hd指数也有其特定的个体影响应当在期刊评价时引起注意。
3.1 全文数据库对hd指数的影响
从本文获取hd指数的过程看,全文数据库是准确获取hd指数的关键。而全文数据库收录学术期刊的时间与纸质期刊出版的时间不可避免地存在着时间差。随着学术交流的加速和频繁,人们对期刊论文的时效性提出了更高的要求。期刊论文在出版的最初一段时间会引起学者的广泛关注。突出表现为在最初的一段时间内被大量下载。如果全文数据库能够在最短时间内刊载最新的期刊论文,则能够在“关注高峰期”内被学者获取,从而使得hd指数保持合理性。
3.2 检索系统对hd指数的影响
全文数据库在保证及时收录期刊论文的同时,其检索系统的高效、便利及智能化也是影响hd指数的因素之一。衡量一个检索系统通常有查全率、查准率、响应时间、新颖性、可存取性、收录范围、使用方便性等几个方面。一个高效、便利及智能化的检索系统可以帮组用户在最短的时间内、准确地获取满足用户需求的信息。
3.3 下载动机对hd指数的影响
在考察hd指数过程中,无法避免用户复杂的下载动机这个因素。用户检索论文的动机不同,会造成论文下载频次的巨大差异,从而影响hd指数的数值。部分用户是为了获取某个研究领域全部的信息,从而大量下载该领域的论文;部分用户在研究过程中为了解决某个具体问题而对该主题论文集中下载并研究;部分论文属于应用型或介绍型论文,对某特定问题提供参考解决方案,会有较高的下载频次,但被引用的可能性较低。客观上影响hd指数的因素较多,这些因素会“人为”加大下载频次。但真正对hd指数产生实质的、长期影响的因素依然是学术期刊所刊载论文本身的质量和价值。只有不断刊载高质量论文,才能引起广大学者的注意,不断地下载并引用论文,hd指数才能真正地提高。
本文从论文下载频次的角度审视h指数,并以图情专业核心期刊为样本进行实证研究。研究结果表明,基于下载频次的hd指数能够在一定程度上反映期刊的质量,与部分传统的期刊评价指标具有一定的相关性,并且可以将hd指数作为评价期刊的一项指标。但本研究的实证数据仅仅来源于图情专业核心期刊,所选择的数据库仅为中国知网的“中国学术期刊网络出版总库”及“中国引文数据库”。为了更好地研究hd指数在评价期刊时的科学性和有效性,以及与期刊指标的关系,还应该开展多学科、大样本的统计与分析。
[1]J.E.Hirsch.An index to quantify an individual's scientific output[J].Proceeding of the National Academy of Sciences of the United States of America,2005(46):16569-16572.
[2]BALL P.Index aims for fair ranking of scientists[J].Nature,2005(7053):900.
[3]Cronin B.Machos L.Using the h-Index to Rank Influential Information Scientists[J].Journal of the American Society for Information Science and Technology,2006(9):1275-1278.
[4]Braun T,Grazel W,Schugert A.A Hirsch-type index for journals[J].The Scientist,2005(22):8.
[5]Rousseau R.案例研究:美国信息学会会刊h指数的时间序列变化[J].科学观察,2006(1):16-17.
[6]许新军.H指数对电子期刊影响力的解析—以图书馆学情报学期刊为例[J].情报杂志,2011(5):63-67.
[7]龚舒野.基于h指数和hm指数的《情报科学》核心作者分析[J].情报科学,2013(1):82-85,95.
Research on the Hd-index for Downloading Frequency——Taking the Core Periodicals of Library Science and Information Science as a Case of Study
GONG Shu-ye
(Library,Nantong Vocational&Technical Shipping College,Nantong 226010,China)
Based on downloading frequency,this article proposes the hd-index for periodical evaluation.In addition,taking CNKI as its data source and core periodicals of library science and information science as its object of study,it demonstrates the scientificity and rationality of hd-index in evaluating academic journals as well as studies the factors affecting the hd-index.
H-index;hd-index;Journal evaluation
G250.2
A
1671-9891(2014)01-0098-04
10.3969/j.issn.1671—9891.2014.01.025
2013-08-21
龚舒野(1981—),男,江苏南通人,南通航运职业技术学院图书馆馆员,硕士。