◇临清市新时代文明实践服务中心 郭艳霞
虽然绝大多数的科学出版物都是在发表后的最初几年里被引用的,但也有一些有趣的论文—被称为“睡美人”,在发表后的几年里被引用的次数并不多,但随后却突然开始被大量引用。在这项工作中,我们关注在计算机科学领域的“睡美人”。我们选出了5000多名计算机科学中的“睡美人”,并根据他们的子领域和他们的引文概况来描述他们。我们还提出了一种早期识别“睡美人”的方法,该方法试图根据出版物是否可能是“睡美人”文献对其进行分类。
科学文献是科技工作者交流的主要手段,科学引文的数量是衡量科学文献的重要指标。科学引文随时间变化,呈现一定得特性。绝大多数论文在发表后的最初几年被引用,然后呈指数衰减,但很少有特别受欢迎的论文能随着时间稳步积累被引用。人们还观察到另一类有趣的论文—那些在发表后几年没有被大量引用,但突然开始被引用的论文,通常被称为“睡美人”文献[1]。
对论文的“晚唤醒”或“晚识别”现象早有研究。然而,几乎所有之前的研究都集中在基础科学的论文上,但在计算机科学领域对“睡美人”文献的研究非常稀少。
在这项工作中,我们使用从微软学术搜索抓取的大型论文数据集,我们识别和描述了计算机科学中超过5000个“睡美人”文献。我们发现“睡美人”文献中有各种子类,它们在各个方面的行为都不同。例如,虽然一些“睡美人”文献在唤醒后被引用的次数继续增加,但许多其他“睡美人”文献在几年后被引用,然后被引用次数再次下降。研究表明,“睡美人”文献的许多特性取决于计算机科学领域的相关子领域。例如,大多数“睡美人”文献来自的子字段“算法和理论”和“科学计算”。这些“睡美人”文献中的许多在较长的时间后苏醒(与其他子领域的“睡美人”文献相比);然而,一旦他们醒来,他们经常被计算机科学的其他子领域引用。相比之下,来自子领域“自然语言和语音”和“硬件和体系结构学”通常只引用自他们自己的子领域。
理解科学论文的引文增长动态一直是文献计量学中一个有趣的问题[2]。在研究计算机科学论文的有效生命周期的引文动力学时,一个广义的观察结果[3]揭示,在发表论文之后,在最初的两到三年内,引文收集的频率会有一个初始增长(增长阶段),随后是一个恒定的峰值,也就是说,进入引用的频率在接下来的一到两年里变得停滞(饱和阶段),然后,在文章的剩余生命周期中出现最终的下降(衰退阶段),然后逐渐地,在某个点上观察不到进一步的活动(废弃阶段)。然而,我们本论文的动机源于Ruiz-Castillo[4]提出的一个基本问题与科学计量学相关的内容如下:“不同科学的引文分布是非常相似还是相当不同?”
Chakraborty[3]在早期的工作中引入了计算机科学领域中科学文章的各种引用分布图的想法。他们提出了一种新的引文增长模型来模拟这些不同的引文分布。在接下来的工作中[14],他们展示了如何使用这些概要信息来预测一篇文章在其发表时的未来被引数。其提出了一个两阶段的分层学习框架,在第一阶段使用基于规则的方法将被试论文的引文轮廓映射到一个类别;然后在第二阶段,对只属于映射类别的论文进行训练,预测该论文未来的被引次数。他们还通过分析论文的引文分布和上下文属性(如关键词、主题等)来量化论文(相对于领域)的跨学科性。
关于论文“晚醒”或“晚认”现象的研究很少。Garfield[5]是第一个提供此类论文例子的研究者。后来,Glanzel[6]估计了这种延迟识别,并揭示了这种现象的有趣特征。Raan首先创造了“睡美人”这个词,指的是识别延迟的论文。李江等人[7]分析了分析了诺贝尔奖得主论文的引文曲线,发现了识别延迟的文章。最近,杜建等人[8]引入了一种无参数方法来识别科学中的“睡美人”文献。
Li and Shi[9]提出了一套基于引证谱增长速度的新标准来从诺贝尔奖得主的文章中检测天才文章。然而,他们提出的标准也有一些特别的选择。例如,该标准不适用于很少被引用或从未被引用的文章。一篇文章至少被引用9次,在发表10年和50年后至少被引用90次,分别满足该准则。
Li等人[10]研究了四个特殊的案例,“睡美人”似乎被纺线伤到,进入睡眠,然后被王子唤醒。他们还选择了一些特别的标准来鉴别“睡美人”—某段时间(至少5年)平均被引用次数少于2次,而在接下来的4年里平均被引用次数超过20次。在另一项研究中,Li和Ye[11]提出了三个标准—基于平均水平的标准、基于四分位数的标准和无参数的标准,以此来区分“睡美人”。van Raan[12]进一步研究了“睡美人”的两个重要性质:①“睡美人”的时间依赖分布、作者特征、期刊和领域;②“睡美人”的认知环境。他研究的是物理、化学和工程科学论文,并观察到一半的“睡美人”论文是面向应用的。从上述讨论中可以明显看出,不同的研究使用了不同的标准来识别“睡美人”文献。屈文建等人[13]对高被引文章引文曲线进行了分析。
本节描述计算机科学论文的数据集,以及我们如何从该数据集识别“睡美人”文献。
我们使用了一个从微软学术机构抓取的计算机科学论文的大数据集搜索(MAS)。具体来说,我们收集了截至2012年MAS检索的所有计算机科学领域发表的论文。该数据集包含200多万篇论文的数据。对于每一篇论文,数据集包含论文的详细信息(例如,标题、作者、发表地点和年份、关键词),以及本文引用的其他论文的名称。此外,每篇论文都映射到计算机科学的一个或多个子领域。计算机科学共有24个子领域,如“算法与理论”、“科学计算”、“人工智能”、“网络与通信”等,每篇论文都会提到一个或多个子领域。
在这项研究中,我们关注的是1950年至2011年期间的引文,对此我们有近乎完整的数据。此外,我们决定把重点放在受欢迎的论文上,只考虑了那些至少被引用20次的178383篇论文(到2011年为止)。
接下来,我们从论文的规范化引用分布图中识别“睡美人”文献。Raan于2004年提出了识别“睡美人”文献的三个维度:①睡眠期间的持续时间;②睡眠深度,即睡眠期间的平均被引次数;③唤醒强度,即睡眠后4年的累计被引次数。在上述三个维度中,我们只考虑前两个维度来标识“睡美人”文献。我们不考虑第三个维度,因为“睡美人”文献在觉醒后的年份中可能有非常不同的引文分布图。
具体来说,如果一篇论文在其发表后的前10年,其规范化引文分布图中的所有数据点都小于0.20,我们就认为该论文是一篇“睡美人”文献。换句话说,我们关注的是睡眠期至少为10年的论文,睡眠期的平均年被引次数最多为其峰值的20%。请注意,我们从过去的一系列工作中调整了这些标准。通过这个过程,我们将5086篇论文确定为“睡美人”文献(占我们数据集中所有论文的2.85%,这些论文至少被引用20次)。
值得一提的是,对于大多数情况,我们实际上考虑了一个灵活的标准。例如,前10年的标准化引用计数被认为是。发布后的时间窗口为年。标准中的灵活性最终产生了与上面所述差不多的一组“睡美人”文献。
有人可能会反对我们的标准化程序,如果一篇论文从发表之日起就得到越来越多的关注,随后又被多次引用,那么在最初几年的比例就会变得相对较小,通过我们的方法,它可能会被误认为是“睡美人”文献(这类论文通常被称为“常青”论文,而不是“睡美人”)。为了交叉验证已确定的5086篇“睡美人”文献中是否存在此类论文,我们进一步测量了每个已确定的“睡美人”文献在其休眠时间(发表后的前10年)的原始引用计数。我们没有发现任何“睡美人”文献在睡眠时间被引用超过50次。因此,我们得出结论,我们的归一化方法没有错误地将普通文献甚至是常青的文章检测为“睡美人”文献。
在本部分中,我们将根据前面所述的方法来描述“睡美人”文献的特征。
如前所述,数据集中的每篇论文都映射到的一个或多个子字段计算机科学。我们统计了识别的5086个“睡美人”文献在不同子字段中的分布情况。在“睡美人”文献中,“算法与理论”和“科学计算”的子领域占50%以上,而“人工智能”和“科学计算”的子领域占50%以上,“自然语言和言语”占了另外22%。我们还注意到,对于“睡美人”文献的三个子类中的每个子类,跨不同子字段的分布几乎保持相同。
我们统计了某一子领域(包括在我们的数据集中)的所有论文中有多少部分是“睡美人”文献。同样,来自“算法与理论”和“科学计算”子领域有更高比例的论文成为“睡美人”文献,这可能是因为这些论文贡献的算法/方法后来在计算机科学的不同子领域中得到了应用。有趣的是,尽管“信息检索”这一子领域的“睡美人”文献比许多其他子领域少,但这一子领域的论文成为“睡美人”文献的比例高于许多其他子领域。
我们首先检查不同“睡美人”文献的引用分布图在它们被唤醒后看起来是否相似或不同。为此,我们应用以下启发式方法检测“睡美人”的引文分布图中的峰值:①高峰应该是一个局部最大值,两侧的高度比最多(或等于)小峰高;②峰值的高度应该是至少70%的全球最大峰高;③连续两个峰应该相隔2年以上,否则,他们被视为一个峰值。有趣的是,我们根据唤醒后引文分布图的峰值数量观察到“睡美人”文献的三个不同子类。
(1)单峰特征。这些“睡美人”文献在苏醒后逐渐积累被引次数,导致被引轮廓出现峰值,随后被引次数下降。这个子类占所有已识别“睡美人”文献的43.8%。
(2)多峰特征。这些“睡美人”文献的引文轮廓有多个峰,峰间间隔为几年(占全部“睡美人”文献的37.9%)。
(3)这些“睡美人”文献的被引分布随时间持续上升,至少持续到2011年(直到我们有完整的被引数据为止)。这个子类包含18.3%的“睡美人”文献。
我们比较了“睡美人”文献的总被引次数(从至少被引20次的论文中选出)和在我们的数据库里的178383篇论文中,至少有20引用的文章。一般来说,“睡美人”文献最终比其他类型的论文获得更多的引用。例如,25%的“睡美人”文献被引用100次或100次以上,而在所有论文中这一比例不到11%。因此,“睡美人”文献虽然得到认可的时间较晚,但比其他论文更受欢迎。
我们还比较了三类“睡美人”文献的总被引频次。在“睡美人”文献中,单调递增的子类通常被引次数最多,其次是多峰,然后是单峰。
我们对大量的计算机科学出版物数据集进行了实证分析,以理解和预测“睡美人”文献。我们发现了跨越计算机科学的各个子领域的5000多个“睡美人”文献,并根据他们醒来后的被引分布图,以及他们被引的不同子领域的数量,描述了这些“睡美人”文献的特征。后期,我们将继续探究识别“睡美人”文献的新方法,更大限度地挖掘“睡美人”文献的价值。