利用H指数与二八法则划分期刊文献核心区的优势比较

2015-03-26 02:39张良辉董国雅

中国科技期刊研究 2015年9期

■张良辉董国雅刘虹

1）四川农业大学图书馆，四川省雅安市雨城区新康路46号 625014

2）西南石油大学图书馆，四川省成都市新都区新都大道8号 610500

期刊刊载的文献并非所有的都会获得被引，在被引用过的文献中，各期刊之间的被引频次相差非常悬殊；即使是同一期刊刊载的文献，被引频次也是呈不均衡分布的。科研工作者由于受时间和精力的约束以及出于文献可信度等方面的考虑，倾向于引用有较高学术影响力的期刊刊载的文献；科研工作者又倾向于把研究成果发表于较高影响因子等高评价指标的具有较高影响力的期刊，以获得更广泛的同行承认。而期刊则倾向于从来稿中选择并刊载有较高创新性的研究成果，以获得较高的同行承认。科研工作者及期刊的长期互动，使得高影响力期刊刊载的文献较多被高影响力期刊的其他刊载的文献所引用。学者基于期刊学术影响力的择刊发表和择高被引文献引用，形成了期刊文献之间引用与被引用的关系。期刊的学术影响力、期刊对稿件的录用标准和期刊所刊载文献的学术影响力三者之间存在着同向加强的机制，因此期刊的学术影响力与期刊所刊载的文献影响力总体上存在着正相关的关系［1，2］。在期刊作者、读者和期刊的长期互动下，期刊在学术影响力方面客观地呈现出分层现象，本质上是科研工作者长期互动的结果［3］，这不仅导致了大量高水平的研究成果发表在少数影响力较高的期刊上，也导致了大量文献的引用主要集中于少量影响力较高的期刊及文献。

科研工作者在文献引用方面由于各种因素的存在而具有一定的偶然性［1］，虽然个人的选择行为会包含非学术性的动机和偏好，但当统计量达到一定阈值时，学者对期刊学术影响力的共识性判断就会显露出来。20世纪60年代，美国科学社会学家默顿（Merton）指出同行承认是反映科学家社会角色被同行承认的指标，是科学王国的硬通货［4］。在科学研究的资源分配体制中，同行承认是给予科研工作者科研资源分配的重要依据［5］。高被引文献不能说都很重要，但重要的文献通常都具有较高的同行承认，因而具有较高的被引量，少数高水平论文贡献了期刊绝大多数的被引频次，期刊的影响力主要是由少数高被引文论文（high cited paper）贡献的，近年来已有学者对高被引论文做了大量的关于引文偏态分布的研究。Seglen通过分析发现引文数据具有幂律分布特征，是典型的偏态分布［6］。Glanzel［7］和 Bornmann等［8］认为用算术平均值来反映引用的集中趋势可能歪曲引用的真实分布，并发现了引文是非正态分布的。Vinkler认为使用影响因子对文献被引测度反映的不是文献的真实被引量，并证明了引文分布具有右偏性［9］。Adler等认为，根据幂律法则，算术平均数主要反映了部分高被引文献的引用值，引文分布同样具有右偏性［10］。Van Raan的研究发现将引文数据作为单一平均值的做法，其评价结果会远高于或低于论文的真实影响［11］。俞立平首次采用基尼系数分析期刊评价指标的内部差距，发现期刊评价指标普遍是右偏的，并且不服从正态分布［12］。这些研究都发现引文分布是偏态分布，引文大量集中在了少数的文献上。

1934年，英国文献学家布拉德福（Bradford）认为学术期刊核心区（nucleus）是专题文献较为密集的期刊，并首次提出了文献集中与离散规律［13］；1955年，加菲尔德（Garfield）博士发现期刊的影响可以通过论文的被引频次来测度［14］。随着引文分析法的进一步发展，核心区期刊表现出了学术质量较高的特性，引证分析成为了评价期刊影响力的有效手段，核心区的期刊即为核心期刊［15］。

期刊文献的引用是典型的偏态分布，那么能不能基于引文偏态分布并通过某些方式找到期刊刊载文献的核心区呢？因此，本文根据期刊论文被引频次不均的特点，基于论文被引频次提出期刊文献核心区的概念。期刊文献核心区是某期刊刊载文献的核心区，也就是在某一时期内，某一期刊所刊载的全部文献中的高被引文献部分，这部分文献即为期刊文献核心区。期刊文献核心区有如下特征：第一，核心区的文献总体上有着较高的被引频次；第二，核心区文献占期刊载文量比值较低；第三，核心区的文献篇均被引频次较高。

目前关于期刊核心区的研究大多是关于某学科的划分学科核心期刊及其相关研究，而关于期刊文献的核心区划分还鲜见报道，仅有严建新等基于被引频次对Nature和Science的引刊做了核心区划分的尝试性研究［16，17］。那么，从期刊影响力的角度看，怎样的区域是受到特别重视获得了较高的被引量，能对期刊影响力产生特别的影响？如何找到期刊文献的核心区？用H指数和二八法则能划分出核心区吗？划分出的核心区是H指数还是二八法则更具有集中性？这些问题都将是本研究的重点。

1 研究方法及研究对象

1.1 研究对象

本文的研究对象为WoS收录的图书情报学（Information Science and Library Science，LIS）领域的期刊，在WoS中共检索到84种期刊15592篇文献的数据。本研究中分别记录这15592篇文献的被引频次，作为研究的主要数据。本研究中的数据收集时间为2015年3月10日至2015年3月20日。

1.2 研究方法

2005年美国加州大学圣迭哥分校Hirsch教授提出了 H指数（H-index）［18］并用 H指数评价科学家的学术成就，之后经过延伸和扩展，H指数被应用到学术期刊评价［19］。Martínez用 H指数的方法选出了经典引文［20］，本文期刊文献核心区的划分借鉴了这一做法。

1897年，意大利经济学家帕累托（Pareto）发现20%的人占有80%的财富并提出了“二八法则”；1969年，美国学者特鲁斯维尔（Trueswell）研究馆藏与流通的时候发现图书馆流通量的80%产生于馆藏量的20%，将二八法则引入到了馆藏研究中［21］。李江等研究发现20%的期刊占据了80%的被引频次，因此推测在期刊文献的引用方面二八法则普遍存在［22］。

本研究采用H指数和二八法则对采集到的数据进行期刊文献核心区的划分，并分析了期刊核心区划分的差异。其数据处理的具体方法为：第一，记录一种期刊所有的文献的被引频次并按降序排列；第二，用H指数法遴选出H核内文献，用二八法则遴选出占总被引频次百分之八十的文献；第三，计算遴选出的文献量与期刊载文量的比值，其余83种期刊做相同的处理，所得到的数据即为本研究的数据。

2 数据分析

2.1 期刊核心区的测度

从图1可知，按H指数来划分核心区，每种期刊其核心区文献量与期刊载文量的比值均小于按二八法则划分的核心区，说明按H指数来划分的期刊文献核心区比按二八法则划分的文献核心区更具集中趋势。

严建新对Nature和Science期刊被引核心区的研究表明，8942种施引期刊中4.1%的期刊集中了被引量的80%，20%的期刊集中了被引量的93.5%，引文分布的集中情况远高于二八法则［17］。从表1可知，采用二八法则划分文献核心区，被引频次达百分之八十的文献量占总文献量为6.12%～48.61%，均值为33.81%；而采用H指数划分文献核心区，其核心区文献量占总文献量为0.56%～26.09%，均值为7.80%。

图1 核心区文献占载文量比值

表1 H指数与二八法则核心区文献量与期刊载文量比值

2.2 H指数与二八法则核心区文献篇均被引量

计算H指数划分的文献核心区、二八法则划分的文献核心区和期刊全部文献的篇均被引频次。从图2可知，其篇均被引频次均呈现出H指数划分的文献核心区＞二八法则划分的文献核心区＞期刊全部文献。每种期刊的核心区文献篇均被引频次均呈现出H指数划分的文献核心区最高的趋势。

从表2可知，核心区文献篇均被引频次与期刊总文献被引频次比值均呈现出H指数划分的文献核心区＞二八法则划分的文献核心区，并且H指数划分的文献核心区篇均被引频次与期刊所有文献篇均被引频次最大值达到19.66倍之多。H指数划分的文献核心区与二八法则划分的文献核心区之比最高达3.61。

表2 核心区文献篇均被引频次比值

图2 核心区不同划分方式篇均被引频次

2.3 学科H指数与学科二八法则

纵观学科总体，我们以整个学科按H指数和二八法则来划分核心区，来分析H指数和二八法则的差异。通过对学科所有载文的计算得出学科H指数为75，其核心区文献占总文献量为0.67%，占总被引频次为8.58%；而二八法则划分文献核心区，其核心区的被引量占总文献量百分之八十的文献量为38.05%。H指数来划分的期刊文献核心区，被引频次达到76次的文献为核心区文献；而二八法则划分文献核心区，被引频次达到6次的文献为核心区文献。就学科而言，6次的被引频次相对来说是较低的，76次的被引频次是较高的，如何在节省各种资源的情况下找到核心区的文献，选择较低被引频次作为阈值，那么将浪费巨大的资源；选择较高的被引频次作为阈值，则会节省资源。因此从学科的角度来看，采用H指数来划分的期刊文献核心区比按二八法则划分的文献核心区更具集中趋势，能节约大量资源而精确定位核心区文献。

表3 学科H指数与学科二八法则核心区差异

3 结果

本研究中采用H指数划分文献核心区，其核心区文献量占总文献量为0.56%～26.09%，均值为7.80%；而采用二八法则划分文献核心区，其占被引量百分之八十的文献量占总文献量为6.12%～48.61%，均值为33.81%。就整个学科而言，按H指数和二八法则来划分核心区，通过对学科所有载文的计算得出学科H指数为75，其核心区文献占总文献量为0.67%，占总被引频次为8.58%；而二八法则划分文献核心区，其核心区的被引量占总文献量百分之八十的文献量为38.05%。H指数划分的文献核心区与二八法则划分的文献核心区相比，其篇均被引频次均呈现出H指数划分的文献核心区＞二八法则划分的文献核心区，并且H指数划分的文献核心区篇均被引频次为二八法则划分的文献核心区的数倍。

严建新等的研究发现引用Nature和Science最多的都是美国科研机构的学者，且引用Nature比引用Science多32%。中国科研机构的学者引用Science略多于引用Nature，其他国家的学者更多地是引用Nature［16］。本研究发现采用H指数来划分期刊文献核心区比采用二八法则来划分期刊文献核心区更具有集中优势，与严建新研究Nature和Science引刊发现现实被引频次比二八法则具有更高的集中度有着相似性。

4 结论

较少论文拥有较多的被引频次，而大量的论文拥有的仅为较少的被引频次，由于马太效应，高被引论文会获得持续的关注，因而能获得持续的被引频次，而低被引论文随时间的推移获得高被引的概率不大，除非是“睡美人”的苏醒。期刊文献核心区是期刊所受到特别重视的文献部分，这揭示了期刊管理的另一种模式，即并非全面、均衡的让所有文献获得均衡的被引频次，而是着眼于某些具有特别意义或重要性的文献，利用起对于期刊被引频次的优势地位，以实现期刊影响力的扩大。这一模式有助于揭示期刊影响力管理的方式及变化，探讨期刊文献核心区在期刊全部载文结构中的地位和作用，分析核心区和非核心区差异的形成原因、过程及对期刊的影响。抓住了期刊文献被引频次极度不均衡这一重要特征，并进一步指出期刊提高影响力的根本途径——通过深度挖掘高被引论文和“睡美人”论文而提高期刊影响力。特别应注意的是期刊文献核心区，决不是固定不变的，而是会随着被引频次的改变而变化。随着“睡美人”论文的挖掘，低被引及零被引论文获得了较高的被引频次时，这些论文成为了高被引论文，期刊将会建立新的文献核心区。

跟踪某一学科领域近几年的热点论文，分析热点论文的特征、属性，了解行业学科发展态势，从而使得在组约稿过程中做到有的放矢，这对于提高期刊的学术水平无疑具有重要促进作用［23］。本研究发现按H指数来划分的期刊文献核心区比按二八法则划分的文献核心区更具集中趋势，因此编辑可以根据H指数的划分核心区的方式迅速抓住学科发展动向并约请到热点文章，使这些文献成为期刊的高被引文献，并提高期刊影响因子等一系列期刊影响力评价指标［24］，同样，科研工作者也可以根据相同的方法找出当前的研究热点从而把握研究方向。

本研究选择的期刊发文年代是一个时间跨度，随着年份的增加，期刊文献的被引频次有所改变，因此，发表时间较近的文献由于时间关系或许没有成为高被引文献，这对本研究产生了一定的影响。这需要从历史的角度来加以追踪，并挖掘“睡美人”论文建立新的期刊文献核心区。H指数划分期刊文献核心区，提供了一种定位文献的新方式，但是不同学科的期刊在学术维度上的分层存在着巨大的差异，学科的百分比也存在着巨大的差异，使用不同的方式方法划分期刊文献核心区，并进一步研究期刊在学术纬度上的分层机制将是我们今后研究的一个方向。

［1］邱均平，嵇丽.美国《科学引文索引》与科学评价研究［J］.科研管理，2003，24（4）：22－28.

［2］邱均平.关于核心期刊几个问题的思考［J］.图书情报知识，1995（4）：16－19.

［3］严建新，王续琨.中国科学技术期刊的学术分层机制［J］.科学学研究，2008，26（1）：52－57.

［4］默顿.科学社会学［M］.鲁旭东，林聚任，译.北京：商务印书馆，2003：395－397.

［5］李正风.科学知识生产方式及其演变［M］.北京：清华大学出版社，2006：209－223.

［6］Seglen PO.The skewness of science［J］.Journal of the American Society for Information Science，1992，43（9）：628－638.

［7］GlänzelW.Seven Myths in Bibliometrics About facts and fiction in quantitative science studies［J］.Collnet Journal of Scientometrics and Information Management，2008，2（1）：9－17.

［8］Bornmann L，Mutz R，Neuhaus C，et al.Citation counts for research evaluation：standards of good practice for analyzing bibliometric data and presenting and interpreting results［J］.Ethics in Science and Environmental Politics，2008（1）：93－102.

［9］Vinkler P.Introducing the Current Contribution Index for characterizing the recent，relevant impact of journals［J］.Scientometrics，2009，79（2）：409－420.

［10］Adler R，Ewing J，Taylor P.Citation statistics［J］.Statistical Science，2009（1）：1－14.

［11］Van Raan，Anthony F J.Measurement of Central Aspects of Scientific Research：Performance，Interdisciplinarity，Structure［J］.Measurement Interdisciplinary Research＆Perspectives，2005，3（1）：1－19.

［12］俞立平，刘爱军.指标数据分布与内部差距对学术期刊评价的影响——以JCR数学期刊为例［J］.图书情报工作，2014，58（21）：105－110.

［13］Bradford S C.Sources of information on specific subjects［J］.Engineering，1934，137（3550）：85.

［14］Garfield E.Citation indexes for science：a new dimension in documentation through association of ideas.［J］.Science，1955，122（3159）：108－111.

［15］Garfield E.Citation analysis as a tool in journal evaluation［J］.Science，1972，178（4060）：471－479.

［16］严建新，苏芳荔，徐莉莉.期刊引证形象的量化表达——以2010年Nature和Science的引证形象为例［J］.图书情报工作，2014，58（21）：99－104.

［17］严建新，徐莉莉，苏芳荔，等.Nature和Science期刊基础核心区的划分——基于其2003～2012年载文的引刊分析［J］.中国科技期刊研究，2014，25（2）：264－270.

［18］Hirsch JE.An index to quantify an individual's scientific research output［J］.Proceedings of the National Academy of Sciences，2005，102（46）：16569－16572.

［19］Braun T，Glänzel W，Schubert A.A Hirsch-type index for journals［J］.Scientometrics，2006，69（1）：169－173.

［20］Martínez M A，Herrera M，López-Gijón J，et al.H-Classics：characterizing the concept of citation classics through H-index［J］.Scientometrics，2014，98（3）：1971－1983.

［21］Trueswell R L.Some Behavioral Patterns of Library Users：The 80/20 Rule.［J］.Wilson Libr Bull，1969，43（5）：458－461.

［22］李江，伍军红，孙秀坤.中国科技期刊的“核心区”研究——基于布拉德福定律与二八法则的统计分析［J］.中国科技期刊研究，2011，22（6）：869－873.

［23］丁佐奇，王明华.基于ESI的植物动物学研究领域热点论文分析及对编辑组稿的启示［J］.中国科技期刊研究，2014，25（11）：1384－1390.

［24］任胜利.国际学术期刊出版动态及相关思考［J］.中国科技期刊研究，2012，23（5）：701－704.