刘富康,苟震宇,黄文彬,步 一
一般认为科学文献的生命力取决于其他文献对该文献的引用,而科学文献的使用频率会随文献年龄增长而下降,该现象称为“科学文献老化”或“文献老化”(Literature obsolescence)[1]。文献老化这一概念最早于1927 年由情报学家Gross提出。通过对期刊Chemical Literature的引用数据进行分析,Gross发现文献在发表15年后引用数量达到总引用次数一半[2-4]。1943 年Gosnell对文献老化展开更深入的理论研究[5],从老化速率角度分析三份高校图书馆藏书清单,提出知识载体会随着时间推移逐渐失去价值。此后文献老化研究迅速发展,并大量引入定量研究方法。1958年Bernal在国际科学信息会议上首次提出使用“半衰期”衡量科技文献的老化速率[1-2];1960年Burton等对科学文献“半衰期”进行深入研究,提出经典的引文老化负指数模型——Burton-Kebler 模型[6];1971 年 Price 提出普赖斯指数(Price Index)用以衡量各学科领域文献老化程度[7]。此后的研究主要针对这些经典模型和指标进行进一步拓展。国内文献老化研究集中于Burton-Kebler方程等老化模型及其一系列修正式和普赖斯指数、引文半衰期指标的实证性研究[8],关注这些模型、指标在特定学科的应用。随着网络技术发展,文献老化研究开始更多关注网络信息的老化问题[9-10]。
科学文献老化既是一种客观的社会现象,又是一个复杂的动态过程。通过对科学文献老化问题的深入研究,图书情报学领域的学者、图书馆和情报所工作人员可以理解文献传播的动态规律,用以指导文献采购、剔旧;对未来科学文献的利用情况作出预测,为文献情报的组织管理提供指导,还能为科学计量学、科学学及科技史研究提供定量依据和建模途径。邱均平将文献老化研究分为三类:文献老化理论研究、关于研究方法和定量描述方法的研究以及应用研究[11],其中应用研究包含馆藏文献老化研究、网络文献老化研究和学科文献的老化研究[12]。本文从理论模型、影响因素、现象特征和实践应用4个方面综述国内外科学文献老化的研究方法和定量描述方法及应用研究,为后续研究提供参考。
根据研究者时序视角的差异,文献老化理论模型分为基于共时法和基于历时法两类[13]。基于共时法模型关注的是某焦点文献的参考文献,一般按照时间倒序研究,也叫“回溯法”;基于历时法的理论模型关注的是某焦点文献的施引文献,研究该文献在整个生命周期的引用频次,也叫“前瞻法”。在过去,计量学者提出许多文献老化理论模型,并引入各种指标对文献老化程度进行测算。这些经典研究成果关注不同层次的文献老化现象。例如,普赖斯指数适用于学科、期刊和文献三个层面[14-17];Brookes 负指数模型、Burton-Kebler模型及其修正式、引文半衰期指标等主要适用于学科层面[18],从期刊和文献层面开展的研究较少,剩余有益性指标主要关注期刊层面;基于知识元的文献老化模型[19]、Ye模型[20]和文献老化编码模型[21]则从文献层面进行研究。文献老化理论模型成果丰富。一方面半衰期和普赖斯指数等传统模型仍受到青睐;另一方面,基于文献生命周期视角的研究近年兴起[21-24]。与此同时,一些学者不仅提出创新性的知识元模型[19],还吸收、借鉴其他学科研究成果,如从生物学领域引入Ye模型进行老化研究[20]。图1对目前主要的文献老化理论模型进行分类梳理,表1对目前模型细节、优缺点等进行了详细梳理。
表1 文献老化理论模型比较
图1 文献老化理论模型体系
(1)基于半衰期计算文献老化程度的模型包括负指数模型和概率模型:负指数模型以Burton-Kebler模型[6]为核心,但未考虑引用延迟对老化的影响。莫德列夫修正式[25-26]将引用延迟因素引入Burton-Kebler方程以提高模型的准确性;丁学东[27]提出了分段模型用以描述引文数量随时间的变化,其本质是基于Burton-Kebler模型的级数模拟,在特定参数下,丁学东模型可以转化为Burton-Kebler模型。概率模型则通过使用不同的概率分布(包括但不限于使用正态分布[28-29]、对数正态分布[30]、伽马分布[31]和泊松分布[32]等)对引用数据进行拟合,获得对应参数的估计值。
(2)普赖斯指数[7]是Price1971年提出的衡量各学科文献老化程度的指标,适用范围广、计算较简单,仍受到学者的青睐。但普赖斯指数采用固定五年引文窗口,不完全适用于不同学科领域文献老化的计算。
(3)文献生命周期模型关注文献发表后的生命历程。Bouabid提出基于论文被引次数的文献生命周期模型[22],使用二阶导数计算文献初始被引次数增长和减少的最快速率以识别文献老化与否,该模型也可以用来预测未来剩余被引率并计算引文的生命周期长度;Gou 等[21]完善了Bailón-Moreno 等提出的文献老化过程GMAV模型[33],创新性地提出文献老化编码模型,通过对文献老化字符串的统计分析,揭示不同学科老化现象的特点和规律,为文献老化研究提供新的方向。林辉等[23]、Wang等[24]也从文献生命周期理论出发提出适用范围不同的老化模型。
(4)基于知识元的文献老化模型[19]认为科学文献老化速度本质上是知识元在新老文献中转移的速度,文献的知识元全部转移则表示该文献已经完全老化,但“知识元”的概念如何操作化仍需进一步研究。陈京莲等人将生物学领域中描述植物在光抑制条件下光合作用的响应模型——Ye模型引入到文献老化领域[20],发现相较于负指数模型等,Ye模型的拟合效果更好,理论结果与实际值具有高度一致性。
学界对文献老化的影响因素及各因素的影响程度没有达成一致,但对文献老化现象达成基本共识:文献老化只表明特定文献的引用频次的降低,是文献本身(载体)的老化而非知识的老化。文献老化的影响因素主要包括:文献数量增长、学科类型、学科发展阶段、学科需求、信息技术的发展、语言、文献质量等[14,25,34-37],前四点主要是从学科和期刊层面解释文献老化现象的发生,最后两点主要从期刊和文献个体层面进行解释。
李慧总结邱均平和徐恩元的研究[11,34-35],将影响文献老化的因素归纳为:一是文献数量增长:科学文献老化的根本原因是科学知识的增长和更新,一般而言(新)文献增长越快,(旧文献)老化越快。二是文献的学科特点:文献所属学科领域的差异会导致文献老化速率差异。三是学科的发展阶段:在学科发展初期,由于原始文献较少,文献数量呈指数增长,文献老化速率较快,随着学科发展成熟,文献数量不再保持指数增长态势,文献老化速率较慢[34]。四是文献的类型和性质:如同一学科的图书、期刊、学位论文、标准文献等不同类型的文献老化速率不同[25]。五是用户需求和信息环境:从需求看,不同类型用户对文献的需求不同,科研骨干人员对最新文献更感兴趣,而刚刚进入科研岗位的人员需要了解历史背景文献资料[34];从信息环境看,数据库、检索系统和搜索引擎等技术的发展导致较老的文献通过这些技术数字化后,其被发现和使用的概率会增加[14-15]。
刘茜等[37]认为引文动机也会影响文献老化速率计算的准确性,在计算文献老化速率时需要考虑“引文不均等”现象,也即通过引文动机区分不同引文的重要性。施引文献的引用行为可能包含多种引用动机,其作者的引用目的和态度不尽相同,单纯使用文献被引频次来计算文献老化速率可能存在偏差,但问题有待进一步探讨。
文献本身的质量、撰写的语言也是影响文献老化的重要因素。Burton等[6]认为在某个学科领域,研究热点的迅速变化会缩短半衰期,即加速文献老化。在某种程度上,较快的老化速度可能源于文献本身信息质量差,许多文献在发表之初就有一种内在的“过时性”,导致这些文献在发表后迅速老化。Alvarado[1]认为语言可能是影响文献老化的重要因素,他对2007-2010年发表的86篇研究洛特卡定律的文献进行分析,发现这些文献最常见的是英语、葡萄牙语和西班牙语,并且使用这些语言撰写的文献老化速度更慢,而使用中文、德文等撰写的文献被所谓的国际社会使用或引用的频次会更少,老化速度相对更快。
不同学科领域的引文膨胀速率不同,一般认为引文膨胀具有延缓文献老化的作用。Galiani等[38]从引文膨胀的角度出发研究文献老化影响因素,构建了一个包含12 个领域近6 万篇文献、500万条引用关系的数据集,发现经济学、金融学、数学、政治学、心理学、社会学和统计学受引文膨胀的影响较大,文献生命周期更长,老化速率更慢。Higham等[39]也认为引文膨胀会延缓文献老化的速度。
国内外其他研究对文献老化的影响因素也多有涉猎[40-44],或可归入上述七类影响因素,或可通过上述影响因素间接解释。
文献老化实证研究主要关注图书和论文文献的老化。多数学者认为,无论是论文还是图书,如果从学科这一层次来研究文献老化速度,结论总体来看和Price提出的“硬科学的老化速率较高,软科学的老化速率较低”[7]的观点一致,但在具体的学科分类中可能会有细微差别。
对图书老化规律的研究发现,人文社科的图书老化速率明显低于自然科学,这一现象与学科特点有关:人文社科研究更新迭代速度较慢,而自然科学对文献的研究时效性有较高要求,更新迭代速度较快。Walker等[45]对康奈尔大学2002年、2004年、2006年、2008年的图书使用情况进行研究,发现2002年图书使用率最高的学科是历史和医学;2002-2008年政治、教育、数学和计算机科学、军事科学等老化速率最快;老化速率较慢的是通用图书及历史、艺术、农业和图书馆学等领域的专业图书,其中通用类型图书使用率相对更高,每年超过9%。O’Neill等[46]、Fry[47]分别使用OhioLink数据集中不同时间的数据,都发现生物科学等自然科学的图书老化速率最快,文学、历史等领域的图书老化速率相对较慢,图书老化速率最慢的是艺术与娱乐领域。
论文文献老化研究集中于学科之间老化速率对比研究或特定学科的老化现象研究。总体看,文献老化速率在逐渐变慢[1,4,27,48],且社会科学文献老化速率低于自然科学。
Alvarado[1]分析 2007-2010 年发表的 86 篇研究洛特卡定律的文献,发现这些文献老化速率非常慢,平均老化年龄为17.4年,且老化速率以每年9%下降。Bouabid等[48]基于发达国家(六国集团,G6)和新兴国家(金砖国家,BRICS)在Web of Science(WoS)中收录的文献数据,也发现各学科文献老化速率降低,而且不同学科的文献预期寿命差异很大。Finardi[49]使用1999-2010年JCR学科分类中管理学和化学(多学科)两种类别的文献,研究其老化特征的区别,发现化学文献从发表后第二年就开始老化,而管理学文献在10年的时间窗口中较少出现老化现象。Zhang和Glänzel[14-15]使用 WoS 核心合集 1992 年 74.9 万篇和2014年173.3万篇文献,利用普赖斯指数对文献老化程度进行度量,发现社会科学文献的老化速率最慢-,物理学和生物化学文献的老化速率较快;物理学和生物化学文献老化特点的相似性在Vieira等[50]研究其引文分布特点时也有发现,Parolo等[51]在研究生物学、化学、医学和物理学文献的老化速率时也得到了相似的结论。
国内不少研究也关注期刊文献老化现象的学科差异问题。邱均平等[12]以CSSCI 2006-2008年收录的近30 万篇文献及其引文数据为样本,基于共时法对比分析人文社会科学七大学科门类的老化规律,发现历史学科的老化并不严格遵循负指数函数规律,人文学科比社会学科文献老化速率慢,且人文社会学科目前最大引文年限为3年,比普赖斯提出的2年更长一些。李琼等[52]发现西夏学文献对“档案性”文献的依赖性强,这和邱均平等提出的历史学和哲学两类学科对“档案性”文献依赖大的观点[12]是一致的。游毅等[4]使用SCI/SSCI中数学、经济学、计算机科学和历史学4门学科中各40种期刊在1980-2009年的期刊发文和被引数据,发现文献老化总体趋势变缓,且新兴学科老化速率高于传统学科。
综合相关实证研究还发现,实验数据集的时间窗口、覆盖范围对于文献老化研究的结论有重要影响。王富国[53]基于CSSCI 2006-2009年间管理学和图书情报与文献学学科领域的引文数据,对两个学科的文献进行负指数老化模型分析、老化指标分析,发现图书情报与文献学的老化速度比管理学快,并近似计算出该阶段这两个学科的半衰期分别为4.6年、5.3年。这一结论和黄利平对图书情报和管理学的文献老化研究成果略有差异:黄利平[54]认为图书情报学的被引半衰期为3年,管理学领域的被引半衰期为3-5年;但在图书情报学的老化速率高于管理学这一点上,两者的结论一致。研究结论的差异可能和二人所使用的数据集有关,两人均使用CSSCI管理学和图书情报与档案学的部分期刊引用数据,但王富国使用的引用数据平均时间晚于黄利平,计算出图书情报和管理学的文献半衰期也更短。前述O’Neill等[46]和Fry[47]的研究结果的差异也是使用不同时段的OhioLink数据集所导致。
钟晶晶、俞立平等学者在特定学科领域也曾进行学科老化现象的实证研究[55-63]。此外,杨思洛等[64]对中国引文数据库中1994-2013年标准类引文数据进行计量分析,发现大部分社会学科的标准引用量为零,自然科学的标准引文数量和被引频次相对较高。
科学文献老化现象特征研究成果丰富,对典型文献(发表后短时间内即达到引用峰值,而后引用逐年减少)的引用老化特征研究较完善,针对非典型文献的研究近年逐渐兴起。He 等[65]使用1900-2015年WoS数据和部分APS数据对非典型的文献进行研究,根据引用年龄分布特点将其分为唤醒型文献(awakened articles)、第二行为型文献(second-actarticles)和以上二者的综合型文献(second-act awakened articles)三类。Li等[66-67]也研究了该类具有双峰特征的延迟承认文献的引用特点,并提出此类文献的识别方法。此外,Yin 等[13]从时间的维度对引用行为进行研究,建立理论框架,找到“回溯法”和“前瞻法”的年龄分布之间的数学转换关系,为未来文献老化研究提供更坚实的实证和理论基础。
另一方面,随着网络技术进步,信息爆炸增长,网络信息老化受到关注。一些学者在研究时将文献老化理论“移植”在网络信息老化研究上[68-69],也有学者从传播学理论出发,结合已有文献老化理论,建立新的网络信息老化模型[70-72]。目前网络信息老化研究热点集中在微博[68-69,71-73]、Twitter[74-75]等社交平台的信息老化上,对其他方面的网络老化信息关注较少。而且当前网络信息老化研究仍然集中于老化速率描述及不同类型、平台的网络信息老化速率比较,对新的模型、方法的探索研究相对不足。
文献老化的应用主要体现在图书馆等知识服务组织的管理和文献推荐与排序活动中。文献剔旧源于信息资源数量增长带来的藏书空间紧张问题,是图书馆和其他知识服务组织管理工作的重要部分。文献剔旧需根据藏书容量和类型执行多样化的标准。蔡晓丽[18]针对这一问题,基于文献老化现象中不同学科之间的差异性,为自然科学和社会科学分别制定不同的剔旧标准,并且强调社会科学由于老化速率较慢和本身的文献的特殊性,需要结合其他统计指标共同构建剔旧标准。蔡迎春[76]以图书引用半衰期和图书借阅次数两个指标为主,辅以定性分析,以馆藏经济类图书为例进行了藏书复选的实证分析。谢明诠[77]认为不能将老化文献直接剔除出图书馆,而应当将老化文献转移至储存图书馆,这有利于文献的长期保存、保障图书馆资源的完整性。李卓卓等[78]提出了基于布拉德福常数和半衰期的文献老化分布象限图,指出不同象限内的文献在剔旧时应当使用不同的策略。
在文献推荐与排序的实践应用中,将文献老化特征融入原有推荐系统中是当前学者的主要研究方向。邓齐强等[79]从书目推荐入手,通过降低老化图书的关联支持度,减少老化图书中较弱的关联规则,以实现从推荐书目中剔除老化程度较高的文献的目的。王玉斌等[80]将信息老化量度与协同过滤推荐算法结合,通过实验分析发现,与传统的协同过滤算法相比,新的协同过滤算法的推荐结果具备更好的时效性。Wang等[81]在文献重要性排名中引入老化特征,将老化特征加入PageRank算法中,并使用美国物理学会APS数据集进行实验。结果表明,加入老化特征后PageRank算法在论文和作者排名精度方面的性能有了显著的提升。熊回香等[82]在进行学术论文推荐时,借助文献老化指标,加入不同类型论文的时间价值特征,获得了更好的推荐效果。
自20世纪上半叶被正式提出以来,文献老化领域取得了丰富的研究成果。然而梳理近年来国内外关于文献老化的新近研究成果后,发现颠覆性、创新性研究较少,多为围绕已有经典模型进行的补充性、实证性研究。部分研究关注文献老化理论模型的优化改进,如基于概率统计模型提出对数正态分布模型、泊松分布模型和伽马分布模型,但这些模型不仅计算复杂度高,而且效果也需更为广泛数据集的验证[20];基于知识元[19]和老化编码[21]的模型在创新性上有了一定的突破,但将其应用于实践中仍需更多探索。
现有研究将文献老化的影响因素归纳为文献数量的增长、学科类型、学科发展阶段、学科需求、信息技术的发展、语言、质量。对前四点因素而言,以往研究已经进行大量质性和量化的分析;但针对后三点影响因素的探索仍显不足。比如,不同学者就信息技术的发展对文献老化的影响得到了相矛盾的观点[14-15,51]:技术发展使得老旧的经典文献更容易获取,这表现为文献的老化速率减慢;但又使得大量具有替代性的新文献涌现,这可能导致文献的老化速率提升。另一方面,语言因素关乎学者获取信息的认知、行为、特点。语言对文献老化的影响可进一步衍生为学术群体信息行为特点对文献老化的影响,因此文献的载体形式、内容表达形式等可能同样对文献的老化速率有着重要影响[1,35],这些也有待于更深入的研究。但目前的定性研究缺乏实际调研[18],定量分析则大多停留于现象描述层面,缺乏机制或因果层面的分析。
学者很关注文献老化问题的实证性研究。从较为传统的论文文献[50-63,83-87]和图书文献的老化程度实证研究[1,8,45-47,88],到非典型老化特征文献研究[65]和网络信息的老化特征研究[9,68-75],实证研究起到了检验已有理论成果、增进对老化规律的认识、指导管理实践的重要作用。但现有的实证性研究往往是应用已有的模型、指标对某一特定集合的文献的老化速率进行计算,较少有根据实践活动的实际经验对已有的模型、指标提出改进或应用建议,少有能够根据实践反馈结果促进相关理论的进一步发展。同时,实证研究还多存在结论局限性大、部分结论存在矛盾等问题,这是由研究数据对象的限制所引发的。
文献老化应用研究集中在图书馆剔旧、书目及信息推荐和排序领域。从目前研究来看,大多数学者仍停留在“建议”层次,缺乏对图书馆现有剔旧标准的实际考察,较少提出详细、具有可行性的剔旧标准。显然,不同图书馆应当根据其藏书容量和藏书类型设置不同的剔旧标准[18,76-77],这要求研究者们进一步将其研究成果“落地”,切合实践之需要。相较其他研究而言,文献老化研究成果的应用研究已迈入一个更广阔的天地。除剔旧外,相关研究成果还广泛应用于推荐、评价等其他与文献相关的活动中。比如,在设计图书馆书目推荐系统时,除考虑到用户需求与图书内容的匹配程度外,还需要考虑到图书自身的老化程度[79];在进行与文献相关的学术评价时,不仅考虑评价对象本身的价值、意义,还考虑到评价对象的老化特征[81],有针对性地对不同类型的文献使用不同的评价标准。
文献老化不仅是文献计量学的子领域,而且被泛化为一种思想,即从时间维度观察事物的一种思维方式。这使得在进行很多研究时,研究者或多或少地会以文献老化的视角思考问题。例如,在期刊、论文影响力评价时,评价者需要考虑文献的老化特征和引文时间窗口[80-81];在知识服务组织中,管理者需要考虑文献的老化程度[18,76-79,88-89];在文献和信息的发布、获取、利用过程中,用户需要考虑到文献和信息老化过程[14-15,68-69,71-72,74-75]。当信息日益成为一种生产要素,文献成为学术和相关实践活动的必要资源,文献老化及其相关问题的研究就愈发体现其价值。近年来文献老化相关研究继承了经典的研究成果,并在此基础上做出改进、优化和发展;但另一方面,这些研究多数囿于以往的研究模型,相对缺乏新的研究模式和视角。文献老化研究已有近百年历史,如何在新的时代环境、技术背景下挖掘文献老化研究的新价值,探索新的研究范式;如何借助文献老化研究的思想成果,将其融入更广泛的研究问题领域中,还有待于更多具有创新性、颠覆性的深入研究。最后,本文列举以下值得关注的问题,以期引起学界更多的探讨。
(1)如何利用复杂网络的理论与方法,将文献老化的量化模型从“数数”变为“建网”,从而对焦点文献和施引文献之间形成的引用网络结构及其互动、交叉、衍化等诸多复杂关系在时序维度下的变化进行表达和描述[90]?
(2)随着结构化全文数据资源可获得性的不断提高和自然语言处理技术进步,如何将文献老化研究从基于题录数据全面转向基于全文本数据的研究,以细化文献老化研究的粒度,提高文献老化研究的精度?譬如,基于对引文句内容、引用句位置、引用动机的分析,剔除伪引,设置引用权重,从而“修正”原始的引文曲线,提高文献老化研究结论的准确度。
(3)如何进一步拓宽文献老化研究的应用场景,挖掘潜在的理论、实践和政策意义,更好地服务于学术评价、信息服务和情报工作?以学术评价为例,学术评价总是需要在及时性与准确性之间做出平衡[91],一方面需要更长的时间以获取足够的信息进行恰当的评价;另一方面,需要在尽可能短的周期内完成评价以指导后续实践。因此,研究时间维度下文献信息价值变化的文献老化有着重要的潜在价值,这仍有待于未来作出更深入的探讨和研究。