文利情
(广东省立中山图书馆 广东广州 510110)
在西方的格林童话中,美丽的公主因为受到女巫的诅咒,接触纺锤时陷入昏睡;百年之后一位勇敢的王子披荆斩棘找到了沉睡的公主,并用真爱之吻破除诅咒唤醒了公主。2004年,荷兰的定量科学家Raan[1]借用睡美人童话故事,把发表后很少引用、但若干年后被引却迅速上升的特殊引文现象命名为“睡美人”(sleeping beauty)。明确发表后很少被引用的论文等到其某日被某篇论文引用后才会被大量引用,并提出了相关的几个定量标准——“沉睡”期年均被引≤2,“苏醒”后四年内总被引>20,即“睡美人”三大指标:沉睡时长S(length of the sleep)、沉睡深度CS(depth of sleep)、唤醒强度CW(awake intensity)。
“睡美人”是科学计量学中对发表后历经多年低被引而后转为高被引的那些学术论文的童话浪漫的描述称呼,也就是迟滞认可现象。虽然迟滞现象早在20 世纪70 年代就被认识和研究,Raan也不是第一位相关领域的研究者,但他第一次形象而有趣的命名,为迟滞承认领域的研究注入了新的动力,激发了各国学者进行相关研究的兴趣,而Glānzel和Garfield[2]把“王子”设定为“公主”沉睡后第一次引用、被引次数相对较高、与“公主”共同被引达到一定次数的论文。依此标准,他们发现有些“公主”先后被多位“王子”亲吻,也发现存在一位“王子”同时亲吻多位“公主”的现象;李江和叶鹰合作发现高品质论文中存在“公主”“纺锤”“王子”同时出现的“全要素睡美人”(allelements-sleeping-beauty)。这些相关研究发现,“睡美人”论文往往是具有原创性发现当时却未被认识、而沉寂若干年后终被学界肯定的重要文献。
“睡美人”现象在科学研究中是发生概率非常小的事件。有两个数据可以部分说明这个情况:Glānzel考察了SCI数据库1980年收录的45万篇论文的被引用情况,发现每1万篇论文中,只有大约1.3篇论文能满足他所定义的迟滞承认的标准[3]。Raan发现1988年SCI数据库所收录的大约100万篇论文中,只有41篇论文符合他提出的“睡美人”的标准。但是像Romans“睡美人”这样比较极端的例子,只有一个。具体到上述那篇非常标准的“睡美人”案例,其发生的大背景——两次超弦理论革命在弦理论发展史上是唯一的,在科学研究中也是非常罕见的现象。
除了上述学术上发生的特殊性,“睡美人”沉睡的另一个重要原因是,该文发布的是一项早熟的科学发现。实际上,表面显示出来的时间错位,其内里本质很有可能是其做出的早熟科学发现与当时的科学理论和科学范式不一致,因此,不被同时代科学家理解和认可,有时还会受到抵制,这正如爱因斯坦提出相对论,同时期能理解其意义的不过寥寥数人,而如今,引力波的发现,完善了相对论的整个论据,势必在科学界引发巨大影响,而此时距离爱因斯坦相对论的提出,已然一个多世纪过去了。这就是Garfield所总结的,早熟发现和阻滞发现都是迟滞承认的子集[4]。查阅相关文献尚未发现Romans“睡美人”被超弦理论同行批评或抵制的蛛丝马迹。因此,“睡美人”论文沉睡的原因主要是所发布的科学发现走在了时代前面,同时代科学家看不到其重要意义。
通过对上述现象的思考,另外一个层面上对于沉睡原因的解释有:是科学新秀,而不是权威发表了超前于时代的论文,再经过一段时间的科学发展,科学权威进行了相似研究并发现了新秀之前的研究论文,这样就唤醒了“睡美人”。
“睡美人”现象也有相当深刻的学术意义,科学中的迟滞承认现象应该值得科学社会学家关注和研究。情报学家从文献收藏角度提醒我们,由于“睡美人”现象的存在,在文献收藏上不能短视,否则,等“睡美人”文献苏醒之时,相关信息储存不当,会导致需要时无法找到此类文献的出处以及数据,对于科学研究带来较大的损失[5]。再考察关于“睡美人”现象的学科差异,在李江、姜明利、李玥婷[6]的《引文曲线的分析框架研究——以诺贝尔奖得主的引文曲线为例》一文研究中表明:在自然科学界中“睡美人”的比例分别为8.0%、6.7%、4.0%,而社会科学家中“睡美人”的比例仅为1.4%。“睡美人”曲线中公主有一段沉睡期,沉睡期内极少被引用,这被认为是“过早的科学发现”,未能得到认可。一旦被唤醒之后,状态突变,被引次数短时间内激增,这种现象在自然科学家中较常见,国外相关专家的研究也证实了这一观点。社会科学家的引文曲线相对平滑,“睡美人”现象较罕见。
另一方面,2010年武汉大学的马费成、望俊成等人[7]则从信息生命周期的角度对“睡美人”被唤醒的原因作了一些探讨。他们认为,人们在同一信息的不同生命周期阶段对其有着不同的需求,可以从这一角度来研究造成阻滞发现的原因。
对“睡美人”现象的承认存在到逐步发现并不断寻找其意义的过程中,各国学者都作出非常大的努力,使用了大量数据采样和数据分析。正是由于“睡美人”的稀缺而又规律不明以及不可预测,使得此方面的研究一直都没有停止过,还在不断深入中。
“睡美人”现象是一种小概率事件,寻找“睡美人”论文需要借助大型数据库和引文分析工具。
考虑到现阶段“睡美人”现象的研究成果,决定考察物理学类论文的“睡美人”现象。由于物理包含很多下属学科:应用物理、核物理、地球物理等,按照时间和质量的要求,选择其中一个子分科作深入研究。
首先,从方便获取数据的角度,笔者考察了CNKI中国引文数据库CCD、CSCD中国科学引文数据库,期刊选择北京大学图书馆“中文核心期刊”中21种物理类刊物。在考察过程中,遇到了以下一些问题:笔者在比对了《物理学报》以及《发光学报》后发现,数据误差较大,发文数被引数无法统一。CSCD出现了由于作者标明不清,文章计算重复的情况:例如统计《物理学报》2000年发布的论文,共计有452篇,查询2000—2015年的被引情况时总文章数达到800多篇。CCD也出现了数据不稳定的情况。最后为了保证数据获取的准确性及其数据意义,选择了SCI(科学引文索引)作为数据来源。
查找SCI数据,寻找物理的下级科目,考虑到论文价值,简单直接的方式是选择影响因子较高的学科门类,根据观察排比,选择PHYSICS、NUCLEAR,即核物理相关类目的期刊。此类目录下含21种期刊,确定采样数量,考虑工作强度的可控性,选取影响因子前11位的期刊(即影响因子>2的11本刊物)进行取样调查(如表1所示)。
表1 取样期刊总引用量及期刊影响因子列表
第一步,设定取值范围,利用SCI数据库获取以上11种期刊2000—2010年的论文被引数据;第二步,从2000年开始直至2010年,通过SCI获取这部分期刊所发表论文在其发表后第S年的CS,直到2015年末的沉睡深度。网站获取数据分批量作出CS曲线;第三步,通过大量曲线分析查找、数值设定查找等各种数据处理工具进行数据筛选,选取在S>5的情况下CS曲线前期平滑<20后期突变增大的点、CS-1<20而CS>20时的点记录,并记录此数据点CW,即唤醒强度。通过大量取样分析,观察不同的曲线情况,对于核物理类目下11本期刊2000—2010年发表的论文进行“睡美人”现象判定。
图1为Annual Review of Nuclear and Particle Science的部分引文数据样本曲线形状。横坐标为年份,纵坐标为被引次数(也就是沉睡深度)。Var***表示论文题目,为方便阅读,此图做变量处理简化命名方式。
图1 Annual Review of Nuclear and Particle Science 的部分引文曲线图
考察“睡美人”现象时,曲线种类主要有3种(如图2-图4所示)。
图2 M型的引文曲线图
图3 倒V型的引文曲线图
图4 下降型的引文曲线图
通过对11本期刊将近5万篇论文进行曲线分析,其中有引文数据的将近4.3万篇。由于本次数据处理设置的唤醒强度>20,在数据处理中,MAX[CS]<20的数据最早删除;S<5的情况下,CS>20的数据也一并删除,剩下数据约为1万条左右。按照上述筛选之后,需要处理的数据减少了80%,对于剩下的数据曲线进一步分析,未发现符合“睡美人”现象条件的相关论文。笔者自行设计了符合此次查找要求的“睡美人”曲线以供参考,如图5所示。
图5 符合此次查找要求的“睡美人”曲线
在科学发现中,论文的迟滞承认现象即“睡美人”现象并不多见,对此方面的研究有利于我们进一步探讨该现象对科学发现的影响。经过一番数据收集与分析,此次计量研究,并未发现符合“睡美人”现象的论文,但是发现两点有趣的现象。首先,按照之前研究者相关论文得出科研的数据,1万篇论文应存在1.3篇符合“睡美人”现象的论文,将近5万篇的取样,理应存在6~7篇符合三要素的“睡美人”;其次,按照诺贝尔奖得主的比例计算8%的数据结果,理应存在更多的“睡美人”。然而,此次采样结果分析之后并没有发现“睡美人”现象存在。经过笔者反复思考回顾,有以下几点可能存在的问题:①采样期刊量较少。虽然此次采样选取总量也达到47000多篇论文,但由于睡美人现象本身就是罕见的科学现象,总量不足对于其发现肯定有较大的影响。②采样时间设置较短。2010年发表的论文的相关引文数据,S最大值即为6,S>5的情况下,CS>20的可考察范围就仅限一个取值范畴,以此类推,2005年往后的论文,其引文数据考察时S都不可能>10,严重限制了可考察到的情况。拥有较多引文数据的论文仅限于2000—2004年发表的相关论文,此区间较为狭窄。③唤醒强度设置过高。本文按照Raan的设置值,将唤醒强度设置为>20,有可能此数值设定得较高,考察时,论文总被引量>20的论文数量都锐减到了2万篇左右,影响到了“睡美人”现象的发现。补充说明一点,自然科学类“睡美人”现象发生概率远大于社会科学类,其唤醒强度设置不适宜过低。但由于绝大多数科学家讨论时设置的唤醒强度都较高,也应该是考虑到了“睡美人”应为真正的“美人”,太易于唤醒的论文,达不到其“美人”的研究价值。
对于“睡美人”现象的判定,将唤醒强度设定过高对其定义和发现会造成比较大的影响,相反若是设置过低,则其结果并不存在太大意义。根据大量数据观察,笔者认为更为有效的参考值理应在12以上。笔者将继续对相关数据进行优化处理,进一步选取更为合适核物理类学科的沉睡深度、唤醒强度,以便于相关学科科研人员可以从中获得有益结论帮助其进行科学研究。