陈京莲
(井冈山大学图书馆,江西 吉安 343009)
载文量是指某一期刊在一定时期内所刊载的相关学科的论文数量。科技论文产出数量是体现科技成果产出的一个重要量化指标,在很大程度上说明科研发展水平[1]。载文量是反映一份期刊信息量的重要指标,期刊载文量多,在一定程度上表示这种期刊信息量较多,可供学者选择的信息较多,因而该刊论文被引的次数也可能较多。但有不少人对此持不同观点,认为载文量多的期刊,其论文水平并不一定就高;相反,载文量少的期刊,也可能是优秀期刊。例如,有的刊物放松对论文质量的控制,提高稿件录用率,把刊物由季刊改为月刊,其结果是载文量提高了,刊物的信息量也提高了,但刊物水平反而下降了。当前,有不少文献报道了载文量与期刊影响因子之间的关系,但尚无一致的结论。Hooydonk[2]认为载文量与期刊影响因子为线性增长关系。何荣利[3]和俞立平等[4]的研究发现,期刊影响因子与载文量无关。于挨福和马虎兆[5]运用模型假设及实证检验的方法,得出期刊的载文量对影响因子影响不显著的结论;黄明睿[6]基于预防兽医学及相关学科科技期刊数据,对单刊的影响因子与载文量的关系进行了研究,认为二者呈显著负相关;刘晨霞等[7]研究了论文载文量增长与期刊影响因子之间的关系,认为期刊的影响因子约31%可由载文量决定。此外,他们还发现:当期刊10 年的载文量处于中等(载文量为300~700 篇)时,影响因子随载文量的增大呈现出减小的趋势;但当期刊10 年的载文量处于较少(载文量为106~300 篇)或较大(载文量为700~1 070 篇)时,期刊影响因子随载文量的增大有增大的趋势。然而,许力琴等[8]对71 种高校自然科学学报2010—2017 年的载文量进行了统计,认为载文量下降会导致期刊影响因子的下降。由此可知,不同期刊或同一期刊不同时间的选取对研究其载文量对期刊影响因子的影响应该会导致不同的研究结论。
科研工作者在研究载文量和期刊影响因子关系的同时,也有不少学者研究主题词在文献检索中的作用以及如何对主题词进行自动提取等问题[9-10]。主题词是指能体现一篇论文或一部著作的中心概念的词语,也指检索资料时所查内容中必须有的词语[11]。主题词能够帮助人们快速地了解、把握文档主题及内容,以便人们高效地管理、检索及阅读文档[12]。当前,随着科学技术的迅速发展尤其是网络的普及,各期刊的载文量随时间的快速增长、出版周期的减少以及论文的迅速传播,科技工作者已无法通览其研究领域内的所有文献。为了快速获取所需文献,人们通常利用主题词从Web of Science、Scopus 和CNKI 等数据库中查找到自己所需要的论文。
在自然科学研究中,有些主题词横跨多个学科,如物理学、化学、文献计量学、环境科学、工程学和医学等,比如半衰期,其在不同的学科领域意义也不尽相同。在文献计量学中,Gosnell[13]在1944 年提出了文献老化的半衰期概念。1958 年,Bernal 提出用半衰期来表征文献情报老化速度(历时半衰期)。1960 年,Burton 和Kebler[14]提出了共时法半衰期测度的方法,他们将文献的半衰期定义为这样一段时间:在此时间内已发表的某一学科领域内正在被利用的全部文献中较新的一半,或目前所利用的文献中较新的一半是在多长时间内发表的。由此可知,虽然半衰期这个主题词在不同的学科中其含义存在差异,但是作为一个重要的参数已经被广泛用于定量研究不同学科中有关现象的自然规律中。另一方面,在不同学科中,含有半衰期的载文量随时间的增加符合什么规律,是线性增加,指数增加,还是先指数增加然后负指数下降等等,我们尚不清楚不同学科中含有主题词半衰期的载文量对时间的响应遵循什么变化规律,还有待于进一步研究。而这些问题的深入研究对明晰含有重要主题词的载文量对时间的响应规律具有重要的理论价值和现实意义。
因此,文章从含有主题词的文献载文量增长和文献老化的角度出发,利用主题词半衰期在物理学、化学、环境科学、生物化学、工程学和文献计量学等6 个学科领域出现的载文量对时间的响应规律,构建出特定主题词载文量对时间的响应模型,指导学术资源建设和服务,以丰富文献计量学理论和研究方法。
在2020 年3 月23—25 日,利用Web of Science平台中所有数据库检索2000—2019 年间主题词半衰期在物理学、化学、环境科学、工程学、生物化学和文献计量学等6 个学科的载文量对时间的响应规律。20 年期间6 个学科中含主题词半衰期的载文量分别为:9 007 篇、27 880 篇、10 400 篇、10 858篇、37 586 篇和432 篇(表1)。
表1 6 个学科中含主题词半衰期的载文量(篇)
为了能真实地描述主题词载文量对时间的响应规律,构建了一个载文量对时间的响应模型,即:
式中,N(t)是时间为t 时的载文量;t 为时间(单位:年);t0为起始时间(单位:年);a、b、c 和d 是4 个与时间无关的系数。简单地对公式(1)进行数学分析可知,N(t)随时间t 的增加而逐渐增加,达到极大值后又逐渐下降。
公式(1)的一阶导数为:
如果公式(1)的一阶导数等于0,那么公式(1)就有可能存在极点。假如N′(t)=0,如果用tmax表示
载文量峰值所对应的最大时间,则有:
如果载文量峰值用Nmax表示,则有:
由此可知,新构建的模型不仅可以直接给出载文量的峰值,并且还可以给出载文量峰值所对应的最大时间。
此外,由(1)式可知,当ce-d(t-t0)>1 时,则公式(1)将变为指数方程,即
如果b=0,则(1)式在形式上就将变为Logistic模型。由此可知,Logistic 模型是公式(1)的特例。
逻辑斯蒂(Logistic)模型是比利时数学家Verhulst PF 提出来的一个数学模型,现在该模型已被广泛用于生物学和科技文献增长[15-22]等领域。该模型的具体表达式为:
其中K 为所允许的最大载文量;N0为t=t0时的载文量,r 为载文量的增长率。
可以求得公式(6)的一阶导数,且其一阶导数恒大于0,因此,该函数是一个没有极点的渐近线,所以无法得到载文量峰值所对应的最大时间。
文章是利用SPSS 18.5 进行数据处理,并利用公式(1)和逻辑斯蒂模型分别拟合主题词半衰期出现在物理学、化学、环境科学、工程学、生物化学和文献计量学等6 个学科的载文量对时间的响应数据,并进行相关性分析。作图由Origin 8.5 软件完成,然后用Adobe Illustrator CS 5 进行图形处理。
图1 为物理学、化学、环境科学、工程学、生物化学和文献计量学等6 个学科的载文量对时间的响应关系拟合曲线。由图1 可知,物理和工程学中出现半衰期的载文量对时间的响应曲线类似,载文量随时间的增加而逐渐增加,然后快速增加到最大值,最后载文量又随时间的增加而快速下降;环境科学中出现半衰期的载文量随时间的增加而逐渐上升到最大值,上升较为平缓,然后又逐渐下降;化学、生物化学和文献计量学中出现半衰期的载文量对时间的响应趋势介于上述两者之间。此外,由图1还可知,新构建的模型可以较好地反映6 个学科出现半衰期的载文量对时间的响应趋势,且具有较高的确定系数(R2)。由图1 可知,新构建的模型拟合化学学科中出现半衰期的载文量对时间响应曲线的拟合度最好,工程学次之,文献计量学的曲线最差。同样,逻辑斯蒂模型拟合化学学科的载文量对时间的响应曲线的拟合度最好,环境科学次之,生物化学最差。6 个学科中出现半衰期的载文量对时间的响应曲线与逻辑斯蒂模型的拟合曲线存在较大的差异,且与式(1)相比,其R2也较小。结果表明:逻辑斯蒂模型不能很好地拟合6 个学科出现半衰期载文量对时间的变化趋势,其原因为逻辑斯蒂模型是一个没有极点的函数,不能真实地反映本文研究的载文量到达峰值后会随时间增加而下降这种趋势。
图1 6 个学科中出现主题词半衰期的载文量对时间的响应曲线
表2 给出了2 个模型分别拟合6 个学科中出现主题词半衰期的载文量对时间的响应曲线,得到载文量峰值和对应的峰值时间2 个关键参数。由表2 可知,新构建的模型可以得到载文量峰值和对应的峰值时间2 个关键参数,而逻辑斯蒂模型只能给出载文量峰值,不能给出峰值时间。然而,表2 的数据表明2 个模型给出的载文量峰值非常接近。
表2 2 个模型拟合6 个学科中出现主题词半衰期的载文量对时间的响应曲线得到的2 个关键参数
通过Web of Science 平台中所有数据库检索了2000—2019 年间主题词半衰期在物理学、化学、环境科学、工程学、生物化学和文献计量学等6 个学科载文量并进行统计分析,利用新构建的模型和逻辑斯蒂模型分别拟合了它们的载文量对时间的响应曲线,得出以下结论。
(1)新模型不仅可以很好地拟合主题词半衰期在6 个学科中的载文量对时间的响应数据,而且还可以直接给出它们的载文量峰值和对应的峰值时间。拟合结果表明,在2000—2019 年间,主题词半衰期在文献计量学中的载文量最小,年最大载文量仅为33 篇,而在数据库里检索到的年最大载文量仅为41 篇;在生物化学学科出现该主题词的载文量最大,年最大载文量达到2 125 篇,而在数据库里检索到的年最大载文量达到2 224 篇。主题词半衰期出现在其他学科的最大载文量介于这两者之间。同时,新模型给出的最大载文量与观测值相差很小,给出的峰值时间与观测值非常接近。此外,从表1 可知,虽然主题词半衰期在文献计量学中尤其在文献老化中是一个重要的术语[23-27],借助于该主题词,人们可以从载文量或文献的被引频次等研究某学科、某期刊或单篇文献的老化趋势和文献老化的成因等[28-32],但该主题词的载文量在文献计量学中并不多,这意味着国内外从事文献老化研究的学者数量较少,还有待于进一步提高。
(2)从拟合结果来看,逻辑斯蒂模型只可以给出主题词半衰期在6 个学科中的最大载文量,但拟合曲线与观测点之间存在较大的差异,且该模型不能反映该主题词载文量随时间的响应变化趋势。这是由于该模型是一条没有极点的渐近线。此外,该模型尚不能给出载文量最大时的峰值时间。所以,虽然该模型被广泛应用于文献增长规律的研究,但在应用逻辑斯蒂模型研究主题词载文量时需要注意其适用范围。
(3)新构建的模型比逻辑斯蒂模型和指数方程更具有普适性。因为在特定的条件下,如当ce-d(t-t0)>1时,该模型可以简化为指数方程。此外,如果取b=0,新模型则将退化为Logistic 模型,Logistic 模型是新模型的特例。由此可知,新模型可以为文献增长和文献老化的研究提供一个可供选择的数学工具。