我国人文社会科学文献引文起飞分布规律探究

2022-05-19 06:58张靖雯孙建军
情报学报 2022年4期
关键词:睡美人比例系数

张靖雯,闵 超,孙建军

(南京大学信息管理学院,南京 210023)

1 引 言

单篇文献的被引过程是一个从零开始随着时间逐渐累积的动态过程,被引频次在时间轴上呈现的曲线被称为“引文曲线”[1]或“引文模式”[2]、“引文生命周期”[3]。一般而言,“经典引文曲线”的动态变化包括发表后进入引用阶段的首次被引,而后进入引文快速成长阶段达到引用次数高峰,之后引用次数逐渐减少进入衰老阶段。在对引文动态的研究中,闵超等[4]将引文理解为一种动态变化的扩散过程,并提出时间环境、首次被引、引文起飞、引文高峰、引文累积速度等引文扩散要素及研究框架。其中,引文起飞作为引文扩散的起点,是引文生命周期由引入阶段进入快速增长阶段的转折点[5],通常是文献被广泛采纳、成为高影响力文献的重要信号。

起飞最早用于描述市场中新产品销售曲线从引入阶段到成长阶段出现的急剧增长的现象[6],如果将发表的文献看作市场中的新产品,那么引文曲线中的起飞现象即为引文起飞。学界对于引文起飞的研究较少,“延迟承认”现象的发现,使引文曲线的快速增长开始得到学者们的关注。van Raan[7]在2004 年将延迟承认现象总结为睡美人,即文献在发表后很长一段时间内处于低被引或零被引的状态,就如同沉睡的睡美人,而后在某个时点被唤醒,到达高被引状态;同时提出了睡美人文献的量化定义。睡美人文献的“苏醒”是一类特殊引文曲线的起飞现象,我们将睡美人文献的“苏醒”点推广至所有的引文曲线,普通文献的引文曲线也有被引频次迅速增长的转折点,即引文起飞。引文动态研究更加关注引文生命周期,从首次被引、引文峰值到文献衰老。首次被引关注文献从未被引用到引用的状态转变,许多研究基于首次被引构建了引用速度指标[8-9],用于评价文献吸引引用的能力;引文峰值是引文曲线的最高点,是文献生命周期走向衰老的拐点,许多研究从引文峰值入手对期刊影响因子等评价指标进行修正[10],预测引文完整生命周期[11]等。遗憾的是,引文起飞作为引文动态中连接首次被与引文峰值的重要环节一直未在学界引起重视,而引文动态特征相关的实证研究,学者大多选择自然科学[3,10,12-14],部分学者选择社会科学[15-17],只有极少数学者选择人文科学[18]。

引文起飞作为文献快速吸引引用的起点,是学术成果被承认和关注的关键节点[5],关于引文起飞的研究有助于进一步理解文献被引过程的动态机制。因此,本文选择人文社会科学领域文献,聚焦被引速度快速增长的起点,试图探究引文起飞分布规律及分布模型,讨论引文动态扩散内在机制以及引文起飞在学科分类及被引速度指标构建中的相关应用,为理解引文动态模式提供新角度。

2 相关研究

2.1 引文起飞相关研究

起飞的概念由Golder 等[6]提出,用来描述新产品从引入阶段到成长阶段产品销售曲线急剧增长的转折现象。类似地,引文曲线也有从引入阶段进入成长阶段的转折点,即引文起飞。在引文分析中,通过对睡美人文献的研究,引文起飞的现象得到学者们的关注。睡美人文献表现为发表后一段时间是零被引或低被引,但在某个时点突然出现高被引。van Raan[7]在2004 年给出睡美人定义,并将睡美人特征归纳为沉睡期、唤醒期2 个时期,以及睡眠深度、睡眠时长、唤醒强度3 个指标。研究发现,睡美人“沉睡期”一般在3~5 年,苏醒期在4 年以上[19-20]。睡美人文献是较为罕见的引文现象。Dey等[21]首次对计算机领域中的睡美人现象进行识别,其中“算法与理论”和“科学计算”的子领域占全部睡美人文献的50%。van Raan[13]在物理、化学工程及计算机科学3 个领域识别睡美人文献,发现睡美人文献的数量在3 个领域中逐渐增加。Healy[18]在2760 篇哲学文献中仅识别出4 篇睡美人文献,说明哲学领域中的引用相对疏离。Ho 等[15]在心理学领域仅识别出3 篇睡美人文献。Lange[16]识别了2 个心理学期刊的论文,发现命中型文献(发表后不久就被科学界发现的作品)比睡美人文献与学术界关注的热点更相关。引文曲线的快速增长是睡美人苏醒的标志。Li 等[22]通过观察引文曲线快速增长特征,发现了“全要素睡美人”,即睡美人文献在沉睡前引文曲线出现引用跳跃。Li 等[19]引入基尼系数,构建“心跳图谱”,基于睡美人文献苏醒的快速增长特点,通过计算引用分布的均匀性来识别睡美人文献。Ke 等[23]从引文曲线点线角度出发,连接引文最高点与原点作为参考线,规定引文曲线上与参考线垂直距离最大的点为睡美人文献“苏醒”时刻。睡美人文献的识别研究使得引用的爆发增长被学者关注,普通文献的引文曲线也有进入快速增长的阶段。Eom 等[24]在引文动态研究中发现引文爆发(burst) 现象,并以引文增长率进行度量,发现90%文献在发表后的前4 年出现引文爆发(增长率>3)。睡美人文献识别、引文爆发为引文起飞的识别提供了借鉴参考,相关研究提出了依据引文曲线分类选择不同方法进行引文起飞的识别[5]。引文起飞是普通文献引文曲线被引频次迅速增长的转折点,对引文起飞的研究一方面能用于更好地识别睡美人文献,另一方面能进一步探究高影响力文献实现科学知识扩散的内在机制。

2.2 引文曲线特征研究

科学引文索引的建立使引文成为评估研究绩效的重要指标之一。引文数据,如期刊影响因子[25]和科学家h 指数[26]等以被引频次为基础的量化指标被广泛应用于学术文献质量和影响力的评价中。然而,被引是一个时间相关的二元事件,引文的发生是一个动态的过程[4]。引文曲线是单篇文献被引的动态表现,对引文曲线特征的研究主要集中在首次被引、引文波峰和睡美人文献中。

首次被引是文献打破零被引的重要起点。Nane[27]以 Web of Science 数据库 2000 年收录的文献为研究对象,发现大多数文章在出版后2 年内首次被引。Hancock[28]对期刊Journal of Research in Music Education(JRME) 1988 年至 2013 年的 617 篇文章进行分析,发现25%的文章在出版2 年后首次被引,30%的文章在出版后3 年内首次被引,90%的文章在出版后10 年内首次被引;这与国内学者武群芳等[17]对经济学科3 种期刊进行研究发现10 年的时间可使文献有充足时间至少获得一次引用相一致。文献实现首次被引的时间是文献吸引引文能力的有力表现。Schubert 等[9]在即时指数(immediacy index)基础上考虑文献被引的时间因素,首次提出论文响应时间(response time),即文献出版日期到首次被引日期所经过的时间。Egghe 等[8]基于h 指数思想提出首次被引速度指标(first-citation-speed-in‐dex,FCSI),FCSI 越高,文献从发布到第一次被引之间的时间越短。武群芳等[17]在Egghe 等[8]研究基础上,引入零被引率对FCSI 指标进行改进优化,一定程度上弥补了FCSI 在大数据下区分度小的不足,但FCSI 指标仅适用于文献组或期刊。首次被引是文献是否被“使用”的判断标准。Rousseau[29]最早提出双指数模型用来描述文献组中首次被引的比例分布。Egghe[30]在此基础上,提出递减指数与洛特卡定律相结合的首次被引分布模型,实现凹形和S 形两种曲线的拟合。高晓培等[31]以科技期刊论文为研究对象分析首次被引分布规律,发现不同学科、不同出版年的论文首次被引时间间隔均服从幂律分布。然而快速响应并不意味着高影响力[32],文献实现首次被引是文献引用状态的转变,并非实现高被引的标志。许多文献可能在首次被引后便再无引用或短暂低被引后走向衰老,而引文起飞是文献由低被引到高被引的转折点,是文献实现知识扩散、高影响力的重要起点,因此,引文起飞的“响应时间”一定程度上更能代表文献吸引引文的能力。

首次被引后文献被引数量逐年上升,到达引文峰值,即引文波峰。引文波峰是实现高影响力的重要时刻,波峰到达时间也得到众多学者关注。姜春林等[33]统计分析了经济学、管理学和图书情报学领域部分期刊,发现期刊引用峰值出现在出版后的1~3 年。Liu 等[10]以28 种眼科期刊作为研究对象,统计了2001—2006 年每年论文的引文趋势,发现被引峰值出现在发表后的2~4 年。党兰学[34]统计了50 本科技期刊被引数据,发现科技期刊论文被学位论文引用的峰值出现在第8 年,而被期刊引用的峰值出现在第5 年。Bouabid[11]基于文献引用模式利用引文峰值构建模型预测文献完整生命周期,发现不同国家间文献引用峰值出现在4~5 年。Zhao 等[35]选择Web of Science 中被引数最高的100 篇文献的引用数据进行分析,发现高被引论文的引用峰值远远超过一般论文引用峰值,其分布平均值为21.9 年。李凌英等[12]以大量文献数据为基础,对单篇文献引文波峰分布分析后发现大多数文献在发表后0~5 年到达被引首次波峰和最高峰。引文波峰是引文起飞后的直接表现,引文曲线在引文起飞后进入引文数量的快速增长期从而出现引文波峰。对于引文起飞的进一步研究有助于我们了解引文模式,预测引文峰值,构建引文生命周期。

2.3 述 评

在研究领域上,引文曲线相关研究多以自然科学领域文献为研究对象,如物理学[12]、医学[10]等,部分研究涉及社会科学[15,17],极少数涉及人文科学[18]。由于学科的差异,自然科学相较于人文科学拥有更多的载文量和被引量,期刊引文索引及文献分布规律最初是从自然科学文献研究得来的[36]。然而随着人文社会科学知识体系的不断完善以及科学技术的快速发展,人文社会科学的“科学性”显著增强[37],人文社会科学领域文献及引文数量不断增加,对人文社会科学引文的规律探究尤为必要。在数据集的选择上,大多数学者只选择了单个学科[10]或几个学科[13]的文献,也有学者从期刊角度出发,只选择部分期刊作为研究数据来源[28]。Clänzel 等[32]选择数学和细胞生物学文献数据进行研究时发现不同期刊、学科领域文献首次被引分布差异较大。单一学科的数据研究结果具有较强的学科特点而不能推广应用至其他学科,具有一定的局限性。

在引文特征的研究对象上,目前学界关于引文起飞的研究较少,相关研究主要集中在首次被引、引文峰值和睡美人文献。首次被引的研究主要集中在分布模型构建和评价指标的量化;引文峰值在其规律性探究基础上更关注文献生命周期,如通过引文峰值讨论期刊影响因子的时间窗[10]。首次被引、引文峰值都是引文曲线的重要组成部分,首次被引关注文献是否被“使用”的状态,以文献转变为“使用”状态的时间评估文献吸引引文的能力;而引文波峰作为文献生命的“辉煌时刻”,是决定文献生命周期的关键时刻。引文起飞作为连接首次被引与引文波峰的“中间角色”,与首次被引相比,引文起飞预示着引用的持续增长,更能体现文献吸引引文的速度和能力;与引文波峰相比,引文起飞是引文波峰的必要条件,引文起飞的进一步研究或许能探究更多的引用模式。睡美人文献的“苏醒”是特殊文献上的引文起飞,对于所有文献来说都有其被“唤醒”的时刻,因此引文起飞更具一般性和普遍意义。

综上所述,学界对于引文起飞的研究尚不够充分,相关研究主要集中在睡美人文献,睡美人文献的苏醒是文献进入快速增长的起飞点,是引文起飞的典型代表。鉴于此,本文选择我国人文社会科学领域的专业引文数据库——中国社会科学引文索引(Chinese Social Sciences Citation Index,CSSCI),选择10 年及以上引文时间窗,对应24 个人文社会科学学科,对引文起飞分布及分布模型展开研究。

3 数据与方法

3.1 数据采集

中国社会科学引文索引(CSSCI)是我国专业的中文人文社会科学引文数据库,收录管理学、经济学、历史学、法学、政治学等学科800 多种学术期刊。本文采集CSSCI 数据库1998—2018 年的文献及引文数据,截至2018 年,CSSCI 数据库共计收录171 万余篇学术论文和超过232 万论文间引用关系对。引文曲线的形成需要一定的时间,单篇文献年均被引频次过低,甚至为零时,引文曲线呈现不规则波形,大量不规则波形引文曲线掩盖了其他规则引文曲线,会影响研究结果的科学性和有效性。因此,本文选择时间窗在10 年以上(包括10 年)、年均被引频次不小于1 的文献,即2008 年以前(包括2008 年)发表的总被引频次不少于20 的文献,对应24 个学科,共计7553 篇。

3.2 引文起飞识别

目前,学界对于引文起飞并没有系统的识别方法。在前期的工作中,我们提出利用论文被引速率(citation speed,CS)对引文曲线进行分类,根据引文曲线类型不同分别运用人为参数法、年度引文法和年均被引法进行引文起飞的识别[5]。

对7553 篇文献进行引文起飞的识别,人为参数识别法的识别率为69.67%,总体引文起飞识别正确率达90%以上。通过人为参数识别方法发现部分文献有2 个以上起飞点。其中,大部分文献只有1 个起飞点,占总文献的78.73%;1336 篇文献有2 个引文起飞点,占17.69%;少数文献的起飞点个数可达4 个,占总文献的0.42%。可见引文起飞作为文献影响力快速增长的转折点,大部分文献生命周期中有且仅出现1 次。本文仅选择第一次起飞点为研究对象,探究引文起飞分布规律。引文起飞在4 种曲线类型中的识别情况如图1 所示。由图1 可见,利用被引速率对引文曲线分类后根据不同曲线类型选择相应的方法进行引文识别的效果较好。

图1 4种曲线类型引文起飞识别情况

4 结果与分析

4.1 数据的基本特征

通过计算论文被引速率(CS)对7553 篇文献的引文曲线进行分类,论文被引速率代表论文累计被引的速度,本文分别以0.3、0.5、0.7 为分界将引文曲线分为延迟承认型、厚积薄发型、领先优势型和昙花一现型。如图2 所示,厚积薄发型和领先优势型文献数量最多,分别为3567 篇(占47.2%)和3370 篇(占44.6%),昙花一现型文献为461 篇(占6.1%),延迟承认型文献数量最少,仅155 篇,占文献总数的2.1%。由此也证明,大部分文献的被引曲线符合经典的引文生命周期曲线,即文献发表后被引频次逐渐增加,达到峰值后逐渐减少。

图2 文献类型分布

对文献引文起飞识别结果进行统计(表1),发现近一半的文献(3191 篇,42.2%)在发表年就实现引文起飞;起飞时间距发表年10 年以上(包括10 年)的文献有391 篇,占文献总数的5.2%;起飞时间最晚的可在发表后18 年才实现引文起飞(3篇,0.04%)。文献数量随引文起飞时点的增加而逐渐减少。从被引均值上来看,起飞时点较早的文献被引频次普遍较高,在发表年就实现引文起飞的文献篇被引均值为48 次,而发表后18 年才实现起飞的被引均值为26 次,前者几乎是后者的2 倍,也印证了睡美人文献是少数现象。

表1 引文起飞时间分布

4.2 引文起飞与首次被引、总被引数

首次被引是文献突破零被引状态的起点,而引文起飞是文献进入快速引用的转折点,是引文知识扩散起点。首次被引和引文起飞两者之间可能存在重叠。当引文起飞出现在首次被引前一年或两者重叠时,说明文献首次被引后就进入快速引用阶段;当引文起飞在首次被引之后时,说明引文曲线经历成长阶段后快速增长,也可能是睡美人文献。在7553 篇文献中,较多文献在发表年或发表第一年达到引文起飞状态,共4194 篇,占全部文献的55.5%;87%的文献在发表后的6 年内达到引文起飞状态。说明大部分文献在发表初期就进入引文快速增长阶段,而后达到生命周期峰值,这与首次被引[27]、波峰分布[12]研究相一致。

将首次被引距离发表年时间与引文起飞距离发表年的时间分别作为X 轴和Y 轴,观察首次被引与引文起飞不同位置的文献数量对数分布,如图3 所示,色块颜色越深代表文献数量越多。从图3 可以看出,大部分文献集中分布在左下角,且文献首次被引和引文起飞紧邻在一起,首次被引距离发表年的时间间隔越小,引文起飞与首次被引的时间间隔也越小,说明大多数文献“适应力”较强,并且由于优先链接机制,在早期首次被引后直接进入引文快速增长阶段。

图3 首次被引-引文起飞对数分布

一般认为,文献的被引频次在一定程度上反映了文献的影响力。在首次被引和引文起飞关系的基础上引入文献的总被引频次指标,构建三维空间散点分布图。在图4 中,X 轴表示首次被引时点,Y轴表示引文起飞时点,Z 轴表示文献总被引频次,每个圆点代表1 篇文献。文献密集地分布在首次被引时点0~3 年,起飞时点在0~3 年,总被引频次在200 次以下区域。从总体分布来看,高被引文献一般在发表2 年内实现首次被引,在发表5 年内实现引文起飞。这表明如果一篇文献在发表初期得到初次引用并进入快速增长阶段,就容易获得更多引用,成为高被引文献。当引文起飞距离发表年的时间间隔较长时,文献获得高被引的概率将大大下降。

图4 引文起飞-首次被引-总被引数三维散点分布

由于文献总被引频次分布差值较大,本文选取按被引频次排序后的前20%共1511 篇文献作为高被引文献,以此为界,对比高被引文献和非高被引文献三维散点分布情况。从分布密度可以看出,高被引文献的首次被引集中分布在发表后0~2 年,引文起飞集中分布在发表后0~3 年;而非高被引文献分布较为散乱,没有明显的集中分布现象。在高被引文献分布中(图4a),引文起飞距离发表年较长的文献可能为睡美人文献。

4.3 引文起飞指数分布模型及拟合

1)引文起飞分布基本特征

对于文献的首次被引,不少研究提出了如双指数模型[29]、幂律分布模型[31]等用于探究首次被引的分布问题。与首次被引相似,CSSCI 论文的引文起飞论文数与引文起飞论文比例分布规律是我们考察的内容。

绘制引文起飞的论文数比例分布趋势图,X 轴代表引文起飞时间,Y 轴代表不同引文起飞时间下的论文数量比例,如图5 中的圆点所示。从图5 中可以看出,引文起飞分布趋势为当引文起飞时间较小时,论文数量比例随着引文起飞距离发表年的时间增多而迅速下降;当引文起飞时间较大时,论文数量比例缓慢下降,引文起飞分布曲线呈指数分布。

图5 引文起飞论文比例拟合效果

2)引文起飞的分布规律描述

引文起飞论文数比例分布呈凹形,总体分布呈指数分布。因此,本文选择指数分布模型尝试对引文起飞分布特性进行拟合。指数分布也称负指数分布,在统计学中,是描述泊松过程中事件的时间概率分布。一般情况下的指数分布的概率密度函数表示为

其中,参数λ>0,指数分布的区间是[0,∞),与引文起飞时点的取值区间相一致。因此,根据指数分布的概率密度函数,以t表示引文起飞距发表年的时间,以R(t)表示引文起飞时点论文比例,引文起飞论文比例分布的指数分布规律可以表示为

其中,α、β、C均为常数。公式(2)可以解读为在一组论文中,引文起飞论文比例服从参数为β的指数分布,α+C是论文发表年就实现起飞的论文比例。

对引文起飞论文数比例分布使用指数分布函数进行拟合,拟合后的引文起飞论文比例分布函数为R(t) = 0.39e-0.93t+ 0.02,反映拟合效果的拟合优度R2=0.96,R2值越大,说明拟合效果越好。指数分布函数的拟合曲线如图5 中虚线所示,可见拟合曲线与论文数比例分布(圆点)较为一致。

4.4 人文社会科学引文起飞学科模型拟合

1)学科文献引文起飞分布情况

表2 列出了7553 篇文献数据的基本特征。可以看出,各学科论文数量分布差异较大,其中,经济学类的论文数量最多,占论文总数的42.5%,也是除军事学外被引均值最高的学科,其文章的最大被引达1687 次。管理学和图书馆、情报与文献学(下文简称“图情文献学”)紧随其后,分别有1184 篇(占15.7%)和611 篇(占8.1%)。从最大被引数来看,经济学(1687)、心理学(1022) 和管理学(794)3 个学科的最大被引较大,而宗教学的最大被引仅为29,可能是由于经济学、心理学和管理学论文数较多而宗教学论文数较少。不同学科引文起飞时间均值分布在1~4 年,不同学科篇均引文起飞差异较大,其中,文学、考古学、历史学,以及人文、经济地理等学科引文起飞时间均值都在4 年以上,而经济学、管理学、新闻传播学等学科引文起飞时间均值较短,图情文献学篇均引文起飞仅为1.05年。学科间引文起飞均值差在2 年以上,可见引文起飞在不同学科间具有一定差异。由于部分学科的文献数量较少,如马克思主义、军事学、艺术学和教育学4 个学科论文数仅为个位数,为了保证学科特征分析的准确性,本文仅选取文献数量在100 以上的学科进行学科引文起飞规律分析,共计10个学科。

表2 文献数据集的特征值

2)各学科引文起飞分布规律拟合效果

由上文分析可知,引文起飞总体分布规律符合指数分布,按学科分类进行引文起飞论文比例的分布规律拟合,考察各学科的拟合情况。从拟合结果来看,除政治学学科的拟合优度为0.88 外,其他学科的拟合优度均在0.90 以上,说明各学科引文起飞论文数比例分布都可用指数函数来近似表征。

观察表3 拟合系数发现,不同学科间拟合系数α、β、C有一定差异。其中,系数β差异较大,图情文献学系数β为2.052,而心理学的拟合系数β仅为0.343。为了进一步探究不同β系数的学科拟合曲线差异以及α、β系数代表的具体内涵,本文选择拟合系数α相近、拟合系数β大于1 的图情文献学、新闻学与传播学,以及拟合系数β相近且小于1 的社会学、心理学共4 个典型学科,分为A、B 两组,根据拟合效果图,探究系数β含义。由图6 拟合曲线的形状可以看出,当β>1 时,引文起飞论文数比例随引文起飞时间的增加而快速下降,拟合曲线呈现出接近90°的急转,曲线转折点靠近Y 轴;当β<1时,引文起飞论文数比例随引文起飞时间的增加而缓慢下降,拟合的指数函数曲线形状柔和,呈圆滑的弧线,曲线转折点离Y 轴较远。当拟合系数α相近时,β系数越大(如A 组的图情文献学和B 组的管理学),引文起飞时点分布就越集中,发表年起飞的文献数远高于其他时点起飞文献。由此可以推断,系数β反映的是引文起飞论文数比例随引文起飞时间下降的快慢,即学科中起飞时点分布差异的大小。当系数β值越大时,引文起飞论文数比例随引文起飞时间的增加下降越快。因此,拟合系数β一定程度上反映了文献集中引文起飞时间分布的集中离散情况。

图6 引文起飞论文比例拟合效果

表3 各学科拟合特征值

选择拟合系数β相近、α系数相差较大的新闻学与传播学和法学2 个学科绘制拟合效果(图7),探究系数α含义。当拟合系数β相近时,拟合曲线形状相近,而α较大的新闻学与传播学在发表年起飞的文献比例高,α较小的法学在发表年起飞的文献比例较小。由拟合公式可知,文献发表年就实现引文起飞的文献数占比为α+C,而实际数据的拟合可以发现拟合系数C远远小于α,均值在0.01 左右。因此,拟合系数α可近似表示某学科在发表年实现引文起飞文献比例,系数α值越大,在发表年实现引文起飞文献比例越高。

图7 不同拟合系数α的引文起飞论文比例拟合效果

在学科层面上观察拟合系数α和β可以发现,不同学科在拟合系数上具有较大差异。对于图情文献学、新闻学与传播学和经济学等更贴近生活的学科,α、β值相近且较大,说明学科吸引引用能力较强;而对于管理学、语言学和心理学等理论性较强的学科,α值相近且较小,学科吸引引用速度较慢。

4.5 不同被引频次拟合结果

文献被引频次一定程度上反映了科学研究的影响力。高被引文献与非高被引文献引文起飞是否服从指数分布?为了进一步探究拟合结果系数内在含义,探寻高被引文献形成的内在机制,本文按照总被引频次从高到低排列,前25%的文献和后25%的文献分别划为被引频次较高组和被引频次较低组,其他的文献为被引频次适中组,共三组。被引频次高、中、低三组文献的引文起飞拟合结果如表4 和图8 所示,不同被引频次组引文起飞比例分布均符合指数分布,拟合优度都在0.93 以上。

图8 不同被引频次引文起飞比例分布拟合效果

表4 不同被引频次引文起飞比例分布拟合结果

观察拟合系数可以发现,高被引频次文献组拟合系数α和β均大于中、低被引频次组,可见高被引文献引文起飞分布更为集中,近一半的文献在发表年实现引文起飞,这说明多数具有高被引潜力的论文在发表之初就实现了引文起飞,高被引文献拟合曲线的尾部是睡美人文献。可以发现,拟合系数α随着被引频次的降低而变小,被引频次较低的文献组拟合系数α、β均小于被引频次居中和被引频次较高的文献组。然而在被引频次较低的文献组中,大部分文献在发表后2年内实现引文起飞,反映了人们在引用文献时一般倾向于引用较新的文献阐述当前研究现状,也进一步说明了文献发表时间越久,其被引用的概率会越低。

5 讨 论

5.1 引文起飞分布的内在机制

从引文起飞的分布规律来看,大多数文献在发表后1~3 年内实现引文起飞,首次被引往往伴随着引文起飞。文献从发表到被引,经历了首次被引、引文起飞,进而实现引文高峰。关于引文高峰的分布,不论是以期刊为单位的文献集或是单篇文献,引文高峰均出现在文献发表后的5 年内[10,38],这与本文的研究发现是相一致的。文献被引表明文献受到学界的关注,产生影响;当论文撰写者在查找相关主题的文献时,为了了解领域内最新研究成果,研究者一般倾向于阅读最近发表的论文,并在研究成果中进行引用。因此,对于新发表的文献,在引用上具有一定的“优先优势”[39]。普赖斯提出的“累积优势”[40]进一步解释了引文起飞的产生,文献被引用的概率与其被引频次成正比,即文献的被引频次越高,获得引用的概率越大。在发表初期就获得引用的文献与未被引用的文献相比,由于“累积优势”更容易获得更多的引用,从而实现引文起飞;Schubert 等[9]的研究也表明,4 年内没有获得被引的文献之后获得引用的概率也大大降低。

高被引文献引文起飞集中分布在文献发表初期,近一半的高被引文献在发表年即实现了引文起飞,而低被引文献引文起飞的分布较为离散。从引文起飞时点与篇均被引频次来看,随着引文起飞时

点的增加,篇均被引频次逐渐减少。引文起飞是文献实现其影响力扩散的重要起点,是文献吸引引文能力的重要体现,潜在的高被引文献具有快速吸引引用实现引文起飞的能力,这与文献引用的适应性机制[41]是相一致的,适应性节点在加入网络后能以较快的速度获取链接并超越旧节点。

5.2 引文起飞分布的应用

(1)为学科知识门类划分提供参考。科学文献是知识成果的重要载体,其所承载的知识在传播和利用过程中必然经历扩散老化的过程,而不同的学科、知识门类由于内在的学科特质,其知识引用、扩散及衰老过程存在一定差异性。不少研究也证明了不同学科领域间的引用存在显著差异[42-43]。Moed[44]发现,面向大众研究的文献更易吸引引用;也有研究发现知识面较窄的学科获得引用概率较低[45]。在文献老化研究中,普赖斯指数从文献的参考文献角度出发衡量各知识领域文献的老化程度,通过比较普赖斯指数可以发现不同学科领域存在不同老化规律[46-47]。引文起飞比例分布模型的拟合以单篇文献的引文曲线为研究对象,以文献生命周期为基础,一定程度上反映了科学文献知识扩散、老化的整体趋势,其拟合系数α和β对科学文献集的引文起飞整体分布进行量化描述,是科学文献集吸引引用速度的重要体现。通过不同学科的引文起飞比例分布拟合结果可以发现,学科性质较为相似的学科α和β值较为接近,如图情文献学、新闻学与传播学。不同学科α、β系数差异较大,拟合系数α、β一定程度上反映了文献集知识扩散的整体趋势,可为学科、知识门类划分提供参考。

(2)为引用速率指标构建提供新角度。科学文献的被引频次一直被视为科学评价的重要指标,被引频次作为固定时间窗内的静态指标,其弊端也不断显现。从引用的动态角度来看,科学文献的质量不仅体现在被引频次上,更体现在文献的被引速度上[48]。Schubert 等[9]最早将被引速度引入文献计量学,而早期的被引速度仅以首次被引速度作为计量指标,以文献由零被引进入被引的状态转变衡量文献科学研究质量[30]。然而,首次被引仅代表文献被引生命周期的开始,是文献“被利用”的起点,而引文起飞代表着文献“被广泛关注”的起点。比如,睡美人文献在发表初期获得首次被引后一直处于低被引状态,多年后突然被广泛关注实现引文起飞。因此,以引文起飞时间构建学术评价指标衡量文献被引速度、吸引引文的能力,用于评价科学文献质量更具有说服力,为学术评价提供了一个新的视角。

6 结 论

本文在前期研究工作基础上,通过对引文曲线中引文起飞的识别,选择人文社会科学领域,探究我国人文社会科学引文起飞分布规律及学科间的差异,扩充引文起飞研究框架。本研究发现:①大部分文献只有一个引文起飞点。引文起飞作为文献被认可和广泛采纳的起点,大部分文献生命周期中有且仅出现1 次,这符合文献生命周期理论;我国人文社会科学文献引文起飞主要分布在发表后的0~3年,并且首次被引往往伴随着引文起飞,高被引文献的引文起飞时间分布较为集中。②引文起飞的论文数比例分布符合负指数分布规律,指数分布函数的拟合效果良好。各学科间的引文起飞分布均符合负指数分布。指数分布函数的拟合系数α可近似表示某学科在发表年实现引文起飞的文献比例,拟合系数β一定程度上反映了论文在引文起飞时间分布上的集中离散情况。③我国人文社会科学各学科引文起飞分布规律有较大差异。其中,图书馆、情报与文献学,以及新闻学与传播学引文起飞均值较小,引文起飞比例时间分布较为相近,在发表年实现引文起飞的文献占比较大,文献在起飞时间上的分布较为集中;而心理学、法学引文起飞均值较大,从引文起飞比例分布来看,发表年实现引文起飞的文献占比不足一半,文献在起飞时间上的分布较为均匀离散。从学科层面来看,拟合系数一定程度上代表了学科和知识门类的划分。④不同被引频次分组均服从引文起飞比例的指数分布。不同被引频次的引文起飞指数分布模型能进一步解释文献被引的内在机制和睡美人现象。

本文以我国人文社会科学文献作为研究对象探究引文起飞分布规律,在引文起飞识别基础上进一步探究文献引用过程的内在机制。本文在数据选择上仅以人文社会科学领域文献为研究对象,研究结论是否适用于自然科学领域是一个值得探讨的问题。相关研究也表明,由于不同的出版和引文环境,文献的引用在学科间存在差异,如自然科学相较于人文社会科学,高被引更集中,文献老化速度较快[36];相较于人文社会科学,自然科学领域睡美人文献占比高于人文社会科学领域[15,18]。故后续研究工作可进一步对比人文社会科学领域和自然科学领域引文起飞分布规律的差异,挖掘影响引文起飞相关因素,探讨不同层面引文起飞模型拟合系数代表的深层含义及具体应用。

猜你喜欢
睡美人比例系数
人体比例知多少
组成比例三法
小小糕点师
苹果屋
嬉水
用比例解几何竞赛题
GO GO SLEEP!睡出水光肌!
《睡美人怕什么》等
睡美人(中)
待定系数法在分解因式中的应用