郭丽娜 周 群
(中国农业大学图书馆 北京 100193)
对于早期科学社会学家而言,颠覆性研究是科学奖励体系中的概念[1],其重点在于研究结果的新颖性或原创性,它可以灵活指代新理论的创建、现有理论的改进或对已知现象的更好描述。库恩将科学研究进程分为颠覆性研究和渐进性研究两种发展状态,二者相互作用,交叉渗透,形成科学发展的动态结构,其中,颠覆性研究是科学范式的根本突破[2],导致范式转变的科学突破在科学体系内具有重要作用。受库恩的启发,后来的科学社会学家将颠覆性研究视为对科学权力结构的挑战,即颠覆性研究的“新颖性”令人恐惧,并在一定程度上被某个领域的“统治阶层”以同行评议等形式所抵制[3-5]。
近年来,颠覆性研究或技术的识别已成为科技创新领域的热点和前沿议题。在管理学和情报学领域,研究人员提出一系列不同维度的指标,试图预测和挖掘潜在颠覆性研究,并围绕已有颠覆性研究进行验证。但已有识别与探测方法多围绕颠覆性研究对技术、市场或产业等的影响展开,缺少对其本质与特征的探讨,或基于管理学和计量学方法进行事前预测研究。同时,各类预测方法在信度与效度上的判断标准比较单一,颠覆性研究的有效测度仍存在一定困难。
颠覆因子(Disruption)[6]从引文网络角度测度论文的颠覆性,它的提出为颠覆性研究的识别和探测提供了新视角。在引文分析视角下,科学范式从不断的科学进步到发生科学革命,发生了各种规模的引用级联,通过分析颠覆性研究论文的“增强效应”,能够揭示颠覆性思想如何实现突破,并在现有科学范式中占据优势[7-9]。本文以高颠覆因子论文为切入点,在考察高颠覆因子论文分布特征的基础上,探讨了颠覆因子与传统计量指标的相关性,不仅有助于加深认识颠覆因子的特征、测度目的和角度,也能够帮助研究人员正确理解和使用颠覆因子,进而与其他指标或特征相结合,形成更加全面、精确的测度体系,以使其在计量指标体系和科技评价中发挥功能和效用。
在文献计量学领域,学术论文和专利作为科学研究活动的主要产出形式,是颠覆性研究识别方法的主要数据源[10],其识别方法主要是围绕引文特征,如引文曲线、引文网络以及不同数据源的组合展开。其中,引文网络能够体现文献研究主题间的相关性,并在结构上反映文献研究主题的演变和引发研究范式转变的颠覆性研究[11]。
2016年,Funk等[12]基于专利的动态引文网络提出测度技术颠覆性的指标,用来描述一项新专利对已有引文网络造成的影响,即若引入新专利使得焦点专利(待测专利)的后向引用专利被引量减少,则说明焦点专利具有颠覆性,计算公式如下:
(1)
其中,i为引用焦点专利或其后向引用专利的专利,n为其数量。i引用焦点专利时fi=1,否则fi=0;i引用焦点专利的后向引用专利时bi=1,否则bi=0。该指标通过测度新专利的出现对已有引文网络造成的巩固或破坏,来表征新专利对现有技术稳定性的影响,进而评估其颠覆性。
2019年,Wu等[6]在此基础上改进上述指标并提出颠覆因子(Disruption)的概念,并将颠覆因子用于识别颠覆性研究,其计算公式如下:
(2)
其中,NF代表只引用焦点文献的论文数,NB代表同时引用焦点文献及其参考文献的论文数,NR代表只引用其参考文献的论文数。
从上述公式可以看出,若焦点文献(待测文献)的施引文献较多地引用其本身而非参考文献,则这篇论文是对先前成果的颠覆,反之,则是对先前成果的继承或巩固;颠覆因子的值大于0则研究可能为颠覆性研究,越接近于1则研究的颠覆性越强,反之,颠覆因子的值小于0则可能为渐进性研究,越接近于-1则研究的渐进性越强。其计算示意图如图1所示,以待测焦点文献为中心形成的引文网络包括焦点文献(黑色矩形)、焦点文献的参考文献(灰色矩形)以及二者的施引文献。
图1 颠覆因子计算示意图
其中,t为焦点文献的出版年,F为只引用了焦点文献的论文(白色圆形),B为既引用焦点文献又引用其参考文献的论文(白色矩形),R代表只引用了焦点文献的参考文献的论文(黑色三角形)。
Wu等[6]在研究中发现诺贝尔奖关键论文位于颠覆因子分布的Top2%,均具有较高的颠覆性,而综述型论文多为对先前工作的回顾,属于渐进性研究,分布在Bottom46%,验证了颠覆因子识别颠覆性研究的准确率为83%,且当识别颠覆性极高的研究时准确率更高。此外,研究还发现颠覆性研究多存在引用延迟现象。
颠覆因子的提出和应用引起许多学者的关注和讨论,Bornmann[13]基于案例分析发现部分论文在发表之初并未显示出颠覆性,随着时间推移颠覆因子趋于稳定,其颠覆性才显现出来,指出颠覆因子与论文引用时间窗口有关。随后,Bornmann[14]又计算了2000-2010年Scientometrics期刊上所有论文的颠覆因子,对高颠覆因子论文(颠覆因子阈值设置为Top1%)的相关信息进行了统计分析,发现论文集的颠覆因子集中分布在0附近,高颠覆因子论文仅占分布的极小部分。此外,Wei等[15]利用颠覆因子对比了诺贝尔奖论文与非诺贝尔奖论文的被引次数和颠覆性,发现诺奖论文被引次数显著高于非诺奖论文,但颠覆性并未高于非诺贝尔奖论文,其研究表明就诺贝尔奖论文而言,作者数量和参考文献数量均与颠覆因子呈负相关;也有学者[16]将颠覆因子用于评估科学家个体的学术颠覆性,研究了科学家的国际流动性与其学术颠覆性的关系,发现具有海外经历的中国科学家,在回到中国后学术颠覆性显著增加;还有学者[17]在保持颠覆因子核心思想不变的基础上提出了一些变体。Bu等[18]则受颠覆因子设计思路的启发,建立了科学出版物影响力的多维测度框架。
总之,颠覆因子基于引文关系测度研究的颠覆性,焦点文献的颠覆性取决于施引文献的参考文献与焦点文献的参考文献的重叠程度。换言之,如果许多施引文献未引用焦点文献的参考文献,则焦点文献具有颠覆性,表明焦点文献可能提出了不同于其参考文献的新思想、新方法。
本研究以1954-2014年PubMed数据库中被SCI收录的12 472 382篇期刊论文为总数据集[6],其颠覆因子的分布情况见图2。可以看出,论文颠覆因子值高度集中分布在0附近,颠覆因子接近于1或-1的论文仅占分布的极小部分,这与颠覆性研究的定义及其在科学研究中的实际分布情况一致。根据图2中的分布情况,本研究将总数据集按照颠覆因子大小降序排列,将论文数量前0.1%的论文(即12 472篇论文)定义为高颠覆因子论文,进而得到高颠覆因子论文的颠覆因子阈值为0.4,即其颠覆因子分布范围为[0.4,1]。
图2 颠覆因子的频率分布直方图
由于1980年以前的大部分论文在Web of Science数据库中存在信息缺失的情况,为了保证论文各项引文指标的获取,研究进一步限定时间窗口为1980-2014年,最终得到5 966篇高颠覆因子论文作为本研究的研究对象。
本文的传统计量指标主要采集自Web of Science和Scopus两大数据库,分别包括Web of Science数据库中的WOS引用、CNCI(Category Normalized Citation Impact)、IF(Impact Factor)和NR(参考文献数)指标信息,以及Scopus数据库中的Scopus引用、CS(CiteScore,引用分数)、SNIP (Source Normalized Impact per Paper,篇均来源期刊标准影响指标)、SJR(SCImago Joumal Rankings,期刊声望指数)指标信息,如表1所示。
表1 传统文献计量指标信息
由于数据集取自WoS数据库,WoS数据库中的指标覆盖率均在95%以上,高于Scopus数据库的74.27%。同时可以发现,上述指标均属于论文或期刊影响力层面的测度指标,这与颠覆因子所测度的颠覆性的测度角度有所不同,但在实际应用中通常也用于论文层面的评价,本文探讨了上述指标与颠覆因子之间的相关性。指标数据的采集时间为2019年6月28日。
3.1高颠覆因子论文描述性统计本文数据样本时间跨度35年,且数据截至2014年。本节主要基于高颠覆因子论文的时间、国家、机构、学科和期刊的主要分布特征进行描述性统计分析。
图3为高颠覆因子论文数量与被引频次的时间分布。从论文数量的趋势线(黑色)可以看出,高颠覆因子论文呈现明显的逐步下降趋势。2001年以前的论文占比分别达到80%。1980年的高颠覆因子论文最多,为282篇,而到2014年仅有22篇高颠覆因子论文,说明高颠覆因子论文随着年份逐年降低,受时间累积的影响显著。从论文被引频次趋势线(灰色)看,在大多数年份,论文总被引频次均在20 000次以上,且波动性较大,但仍表现出显著的下降趋势,这也与论文被引频次受时间累积影响有一定的关系。
图3 高颠覆因子论文数量与被引频次的时间分布
图4显示了1980-2014年高颠覆因子论文的被引频次分布,在5 966篇高颠覆因子论文中,有3 672篇论文的被引频次低于50次,占比达到61.5%;分别有835篇和1 004篇论文的被引频次介于51-100次和101次和500次之间,占比14.0%和16.8%。被引频次大于500次的论文急剧减少,仅为454篇,其中,有74篇高颠覆因子论文的被引频次大于5000次,最高的一篇论文被引频次达到63 990次。经统计,5 966篇论文的平均被引频次为664.5次,远远高于WoS数据库中历年发表论文的年均被引频次。结果表明,颠覆因子指标能够在一定程度上反映论文的学术影响力,高颠覆因子论文同时具有较高的学术影响力,即被引频次较高。
图41980-2014年高颠覆因子论文的被引频次分布
表2分别统计了高颠覆因子论文的作者国籍和机构分布(发文量前10)情况。可见,产量位居前列的均为发达国家,其中,美英两国是高颠覆因子论文的最大产出国家,占比达50%以上,其次为德国、加拿大、法国等。与此同时,尽管我国发表的论文总量跃居世界第一,但贡献的高颠覆因子论文均远低于美、英等发达国家,仅为105篇(表中未显示),位列第12位,低于印度的111篇。从高颠覆因子论文的所属机构看,其所属国家更为集中,前10的机构中,除加拿大的多伦多大学以外,其余均为美英两国的研究机构,其中以英国的伦敦大学最多,为196篇。
表2 高颠覆因子论文的作者国籍和机构分布(载文量前10)情况
图5和表3基于InCites平台分别统计了5 966篇高颠覆因子论文的学科和期刊分布情况,将5 966篇论文导入InCites平台后,由于部分论文数据年份较早,有279篇论文信息缺失。图5显示了5 687篇论文的ESI学科分布情况。可以看出,高颠覆因子论文的学科同样相对集中,以临床医学领域占比最大,达到54.8%。其次,社会科学是高颠覆因子论文产出的第二大学科,有395篇(6.6%)。此外,药理与毒理学、植物学与动物科学、生物学与生物化学等生物和医学领域的论文占比约为3.7%~4.7%,也是产出高颠覆因子论文较多的学科。而经济学与商学、数学和空间科学领域的论文占比较低,空间科学领域仅有1篇高颠覆因子论文。
图5 高颠覆因子论文的ESI学科分布
表3 高颠覆因子论文的期刊分布
表3列出了高颠覆因子论文载文量前10的来源期刊。可以看出,除AppliedOptics期刊外,高颠覆因子论文主要来源期刊均为医学期刊和综合性期刊,其中综合性期刊包括两大顶级期刊即Science和Nature。医学期刊中,英格兰医学期刊(BMJ)、柳叶刀(Lancet)、新英格兰医学期刊(NewEnglandJournalofMedicine)和美国医学会期刊(JAMA)等均为医学领域的权威期刊。值得注意的是,表中的期刊大多属于自然科学领域的权威期刊,具有较高的篇均被引频次和影响因子,其中以Lancet的影响因子最高(59.102),以Nature期刊的篇均被引频次最高(1401.29)。结合图4的论文平均被引频次,在一定程度上说明,高颠覆因子论文与其学术影响力及其来源期刊的影响力是相关的。
3.2高颠覆因子论文引文曲线特征引文曲线是指论文被引次数随时间变化而形成的曲线,能够从时间维度较为直观地揭示引用分布规律。引文曲线类型的识别和判断,通常采用曲线拟合方法,利用数学上的曲线方程来选择较为合适的曲线类型,进而完成对单篇论文被引次数年度分布的拟合。较为经典的引文曲线分类方法是由Avramescu[20]提出的,主要可分为经典型(类似正态分布)、指数增长型(类似指数函数)和昙花一现型(迅速达峰值,然后急剧下降)三类;李江等[21]在此基础上总结出五种引文曲线类型:经典型、指数增长型、双峰型(两个生命周期)、波型(无生命周期,呈现无规律上下波动)及睡美人型。
本研究基于引文曲线分析框架分析了高颠覆因子论文引文曲线特征,通过曲线拟合对高颠覆因子论文的引文曲线进行分类。首先,利用曲线拟合识别规则引文曲线,利用对数正态函数判断引文曲线是否为经典型,通过指数函数识别引文曲线是否为指数增长型,拟合优度R2>0.6则认为符合该类型引文曲线。其次,在不规则引文曲线中识别睡美人型、昙花一现型等引文曲线。依据Van Raan[22]对睡美人现象的数学定义,将睡美人型引文曲线的具体计量标准设定为:论文发表前3年零被引或低被引,而后突然高被引,且年均被引次数在20以上。对于昙花一现型引文曲线,则利用其“发表后迅速达到引用高峰,之后几乎不再被引用”的典型特征来识别。最后,对其余论文的引文曲线类型进行统计分析。
图6 高颠覆因子论文的代表性引文曲线类型
研究发现,在5 966篇高颠覆因子论文的引文曲线中,有占比超过58%的3 497篇论文年均被引次数小于1,无法反映其引文曲线特征,本文将其统计为“其他”。此外,经典型、指数增长型、昙花一现型、波型及睡美人型等引文曲线均存在,还发现一种至少两个生命周期、被引次数波动较多的新型不规则引文曲线,本文称其为多峰型引文曲线。因此,高颠覆因子论文引文曲线类型可以分为两种规则引文曲线(包括经典型和指数增长型)和四种不规则引文曲线类型(包括睡美人型、昙花一现型、波型和多峰型)。上述代表性引文曲线类型如图6所示。
表4为高颠覆因子论文的引文曲线类型分布情况。可以看出,高颠覆因子论文的引文曲线类型中,多峰型引文曲线论文数远远超过其他五种类型,为1 666篇,占比27.92%,其次是经典型引文曲线,为408篇,占比6.84%。在年均被引频次方面,指数增长型被引次数最高,年均161次,其次是睡美人型,年均52次,而昙花一现型、波型、多峰型引文曲线的年均被引次数均不高,分别为1.58、6.06和8.54。值得一提的是,其中的睡美人型引文曲线的论文占比高达到1.09%,而通常情况下论文中睡美人论文的占比仅为0.01%~0.1%[23],这也表明高颠覆因子论文与睡美人文献存在较高的关联度,具有颠覆性的研究在论文发表之初不被认可的可能性要高于其他类型论文。
表4 高颠覆因子论文的引文曲线类型分布
3.3颠覆因子与传统计量指标的相关性研究
3.3.1 正态性检验 相关性分析常用方法包括Spearman相关分析方法和Pearson相关分析方法,当变量符合正态分布的假设时,两种方法均适用,否则只能选择Spearman秩相关分析。为确定正确的相关性分析方法,首先要对样本数据进行正态性检测,本部分使用K-S单样本正态性检验方法对高颠覆因子论文的颠覆因子(D)与各计量指标进行检测(见表5)。
表5 高颠覆因子论文各指标的单样本Kolmogorov-Smirnov检验
由表5可知,样本数据的显著性水平小于0.01,即样本不服从正态分布。此外,所有指标均为连续型变量,因此本文选用Spearman秩相关分析探讨各指标间的相关性。
3.3.2 相关性分析 利用SPSS21.0对高颠覆因子论文的颠覆因子与各计量指标进行Spearman相关性分析。高颠覆因子论文的颠覆因子与各计量指标间的Spearman相关系数如表6所示。
表6 高颠覆因子论文各指标的Spearman相关性分析
由表6可知,首先,在高颠覆因子论文中,颠覆因子与WOS引用、CNCI和Scopus引用呈弱正相关。具体而言,颠覆因子与WOS引用、CNCI的相关系数分别为0.035、0.049(在0.01的水平上显著相关),与Scopus引用的相关系数为0.031(在0.05的水平上显著相关)。说明对高颠覆因子论文而言,其被引频次和引文影响力也相对较高。颠覆因子的计算核心思想在于计算只引用焦点文献与既引用焦点文献又引用其参考文献的论文的比例之差,因此,论文被引次数对其颠覆因子有积极的影响,但影响不大。
其次,颠覆因子与SNIP、SJR的相关系数分别为0.034和0.036,在0.05的水平上显著相关。SNIP和SJR均为期刊层面上的评价指标,二者存在较弱正相关关系。
最后,颠覆因子与NR、IF、CS没有必然相关性,即高颠覆因子论文与其参考文献数量、引文分数和所在期刊的影响因子关系不大。在高颠覆因子论文中,颠覆因子与参考文献NR的相关系数为-0.025,显著性水平为0.06。根据颠覆因子的计算公式,当焦点文献的参考文献较少或被引次数较多时,会导致该文献的颠覆因子较高,即参考文献数量与颠覆因子应该是负相关的,但在高颠覆因子论文集中二者并无必然相关性,这说明参考文献数对高颠覆因子论文的颠覆因子影响不大。
值得一提的是,SNIP、SJR、IF和CS均为期刊影响力评价指标,但与颠覆因子的相关性表现并不一致。具体地说,颠覆因子与SNIP、SJR具有一定的相关性,但与IF和CS却没有必然相关性,这主要是由指标的不同运算方式决定的,即IF和CS均只考虑了期刊被引频次和载文量两个因素,二者仅时间窗口有所差异。SJR不仅考虑引文的绝对数量,也考虑引文的质量,将期刊的选题和声望等更多因素纳入期刊评价的考量,而SNIP从篇均引文数的角度减少不同主题领域期刊引用行为的差异,从而试图对不同主题领域的来源期刊进行直接比较,以此突破传统影响因子(IF)无法考量不同研究领域的引用情形。即SNIP指标消除了学科之间的差异,这在一定程度上说明,颠覆因子同样消除了不同学科因素的影响。
本研究以高颠覆因子论文为切入点,通过揭示高颠覆因子论文分布特征和引文曲线类型,分析颠覆因子与传统计量指标的相关性。研究发现,高颠覆因子论文中,颠覆因子同样存在引用时滞问题,其论文数量随时间逐步减少,被引频次主要集中在0~50次之间,但仍有少量论文在10 000次以上,最高达63 990次;高颠覆因子论文主要来源于科技发达国家的高水平研究机构;在学科和期刊分布上看,高颠覆因子论文主要集中于临床医学和社会科学领域,且以高影响因子的医学期刊和综合性期刊为主;其引文曲线类型中,以多峰型占比最多,且存在比例相对较高的睡美人型文献,在一定程度上证明了颠覆性研究受到延迟承认的可能性较大。最后,高颠覆因子论文通常具有较高的传统计量指标值,即具有较高的学术影响力,但其颠覆因子与传统计量指标的相关性并不显著,在实际运用中,可以作为论文评价的有益补充。
在文献计量学领域,颠覆性研究的识别和探测仍处于摸索阶段,尚未形成成熟可靠的识别理论与方法,目前仍以传统的引文分析方法为主。其主要原因在于颠覆性研究早期计量特征的捕捉和探测难度更大,即便在一定范围内捕捉到“颠覆性研究”这一特征的计量学信号,但得到的潜在颠覆性研究数量仍然很大,对于其后期能否成长为真正的颠覆性研究仍缺乏更多依据支撑,导致分析结果的准确度和有效性降低。而颠覆因子的提出为测度论文的“颠覆性”这一特征提供了一个新的观察视角,其从科学演进的角度考察论文在科学研究中的开创或继承角色,并通过其对参考文献和施引文献的联系或中断作用来表征其“颠覆性”,为构建和完善颠覆性研究识别方法和指标体系奠定理论基础,也为颠覆性研究的识别提供分析思路和情报学基础。