基于文献计量的中文科技新词探讨

2018-03-01 07:19赵伟
中国科技术语 2018年6期
关键词:文献计量学大数据

摘要:文章以中国知网的中文学术文献数据库为基础,利用词频统计,结合时间参数,对中文科技新词做了探讨。文章认为,高被引论文的关键词包含了专业领域的重要中文科技名词。统计结果表明,大部分高被引论文为基金论文。由于基金论文在全部论文中所占比例较低,因此,不需要考虑全部新论文,只要对其中基金论文的关键词做词频统计,就有助于发现大部分重要中文科技新词。这样,既减少了工作量,也减少了盲目性。此项工作对科研工作者和术语工作者有一定帮助。

关键词:大数据;文献计量学;基金论文;词频统计;中文科技新词

中图分类号:N04;H083;G353.1文献标识码:ADOI:10.3969/j.issn.1673-8578.2018.06.003

Discussion on the Chinese Scientific Neologism Based on Bibliometrics//ZHAO Wei

Abstract:This paper discusses the Chinese scientific neologisms based on the academic literature database of CNKI by use of the word frequency statistics considering time parameter. The author propose that important Chinese scientific terms are included in the keywords of highly cited papers, and our statistical results show that the most of highly cited papers are funded papers. So, most of important Chinese scientific neologisms can be found by term frequency statistics based on the keywords of funded papers. Considering the proportion of funded papers is relatively small, we think this method can reduce the workload and blindness.

Keywords:big data; bibliometrics; funded paper; word frequency statistics; Chinese scientific neologism

引言

首先说明,本文所指的科技新词,是指在所考察时段才出现,而在该时段之前没有出现过的科技名词。科技新词发现越早,越可以及早规范定名,就可以尽量避免因定名过晚,多名并存导致的混乱。

从中国知网(CNKI)来看,关于这方面的文献,主要有3篇:才磊的《科技新词工作初探》[1],张晖的《科技新词工作实践探索》[2]和余恒、崔辰州、张晖的《天文学英语新词自动提取系统》[3]。《科技新词工作初探》主要就科技新词的概念、科技新词的界定、科技新词的来源及其构成着手,探讨了如何开展科技新词的命名及审定工作,但未讨论具体如何操作。《科技新词工作实践探索》在操作层面做了探讨,提出自动抽取与专家推荐相结合的办法,但实际效果与期望有一定差距,未能持续开展工作。在中文名出现之前就及早发现英文科技新词并为之确定中文名是最理想的。因此,《天文学英语新词自动提取系统》就提出了一套全新的天文学英语新词自动提取系统。该系统综合使用脚本过滤、术语识别、正则表达匹配等多种方法,能够自动追踪Ar Xiv论文数据库的更新,分析天文学论文的内容,生成推荐术语列表。但一个问题是Ar Xiv论文数据库虽然可以免费获取,但覆盖的学科及论文数量都太少,大部分学科都缺乏可免费获取的系统、全面的论文资源,因此作用有限;另一个问题是该系统虽然按照词频统计生成了新词列表,但并不是每个科技新词都值得为之定名——很多科技新词没什么价值,往往过段时间就会被淘汰或很少使用。所以,如果对每个科技新词都要关注,都要定名,就会做很多無用功。对科技新词而言,更重要的是确定其重要性,只有重要的科技新词才需要及早定名。

术语学工作者或不熟悉某专业领域的科研工作者,虽然对相关专业也有一定了解,但毕竟不了解该领域发展的前沿,所以能首先认识到一个科技新词(包括中文或英文新词)重要性的,更多的可能还是一线专家。一个科技新词的定名,需由相关领域的众多专家经过一定时间的讨论,按照一定的程序才能审定公布。而了解一个科技新词的重要性,并在该领域从事科研工作的专家,出于学术竞争及创新性的考虑,往往会尽快使用该词发表论文,而不会等到许多专家都知道,再经过较长时间讨论并给出规范名称再使用该词。他使用该科技新词时,要么自己为该词命名,要么沿用别人用过的名称。所以,大多数科技新词,在规范的中文名称审定公布之前,就已经有其他中文名称存在了。因此,要想由术语学工作者、名词审定工作者,在其他人命名之前就首先为一个重要的科技新词确定中文名,是一项比较困难的工作。更可行、更容易的是及早发现一个重要的已有中文名的科技新词。

鉴于英文科技期刊的国际影响力,目前大家对英文科技新词及其中文译名都比较重视。但实际上,除了英文科技新词之外,探讨原创的中文科技新词也很重要:首先,中国已成为具有重要影响的科技大国,有很多重要科技成果是首先用中文发表的,因此,中文科技论文里有很多原创的重要的科技新词。其次,在世界历史的长河中,中国曾经在很长一段时间里遥遥领先西方,目前中国正处于民族伟大复兴的征途中。许多有识之士认为,按照目前的发展趋势,中国将来有望再度领先世界。中国的科技、文化、中文也将有望像现在的美国的科技、文化和英文一样,成为世界的主流,越来越多的重要的科技新词也将首先在中文科技论文里出现。因此,不管是立足现实,还是面向长远,探讨中文科技新词都具有重要意义。所以,笔者在此主要探讨及早发现重要中文科技新词的问题。

关于发现中文科技新词,要考虑两个问题,一是来源,二是如何筛选。

关于来源,笔者认为,科技名词毕竟属于专业领域,要从专业文献数据库中筛选,否则选用良莠不齐的非专业文献,从数量上求多求全,会做很多无用功。考虑到科技新词反映了科技发展动态,笔者以中国知网的期刊论文数据库为数据源,选择论文的关键词筛选科技新词。选择论文关键词的原因在于方便中文分词。对选择论文的关键词筛选科技新词,有人提出异议,认为在实践中存在科技新词可能首先不在论文的关键词中出现,而在正文中出现的情况。但笔者认为,一个重要的科技新词,不可能在该领域所有时段、所有论文的关键词中都不出现,它总会在某些时段、某些论文的关键词中出现,否则该词就无足轻重。因此,即使在出现该新词的时段的论文的关键词中没有发现该词——这意味着该词在该时段虽然是新词,但并未得到大家关注;也能在其后的某些时段、某些论文的关键词中发现该词——这意味着该词的重要性在这些时段才逐渐得到了大家的认可,该词也成为这些时段的重要科技名词。所以对关键词做词频统计,在原则上可以发现所有重要的科技新词。

关于筛选方式,利用大数据做词频统计是发展方向,但需要改进。实际上,现代科技发展越来越快,各学科越来越趋向纵深与融合,专家精通的领域也越来越狭窄,很难对所在领域的最新进展有全面系统的了解,所以仅依靠少数专家提供科技名词的传统模式已经难以适应现代科技快速发展的需求,需与时俱进,探索新的模式。利用大数据统计选词就可以从宏观量化上弥补这个不足。改进的思路是建立一个可尽早判断科技名词是否重要的大概原则,以便尽量缩小筛选范围,当然还要保证是新词,不是以前出现过的旧词。

一重要名词与重要论文

科技新词的定名不能等太久,否则其使用就会越来越混乱。而新词刚出现的时候,其所代表的概念的内涵和外延都不太稳定,与所在领域的其他科技名词的关系也不太清晰,因此,即使该领域专家也需要等一段时间才能发现其是否重要,不可能一蹴而就。这就是一对矛盾。这里所说的判断科技新词重要性的原则,不是从科技新词的科学意义上来判断的,而是从术语学的角度,为了减少工作量,缩小筛选范围而发现的形式特征。但这些形式特征足以保证大多数具有重要科学意义的科技新词,在设定的较小的范围内,在其出现的早期就被发现,因而可以尽量减小这个矛盾。

对术语学工作者或不熟悉某领域的科研工作者来说,从一个科技名词的名称上来判断该词是否重要并不容易。但如果有很多论文和不同的作者研究、使用的名词,即高频词应该很重要。显然,这种判断对旧词来说是成立的。但对新论文、新名词来说,这样判断就行不通了,因为研究、使用新词的论文和作者都很少,该词词频不可能很高。所以,不能从词频角度来判断新词是否重要。

另一方面,如果一篇重要论文把该词作为关键词,就能判断出这个科技名词可能很重要,即重要论文的关键词就包含重要名词。这就把判断科技名词重要性的问题转化为判断论文重要性的问题。对旧论文旧名词来说,判断其重要性还是很容易的:一篇论文是否重要,一般来说,目前的判断标准还是以被引频次为主,即高被引论文就是重要论文。高被引论文的关键词就包含重要科技名词。所以,可以用高被引论文关键词词频统计的方法来发现重要名词。但对新论文新名词来说,从论文被引频次判断就行不通了。因为新论文刚出现不久,人们不能立刻判断出其是否重要,还需要有一过程,因而被引频次可能不高。所以,对于新论文新名词,就需要寻找其他特征。如果找到了与高被引论文有关的其他特征,就可以根据这些特征预判新论文、科技新词的重要性。

二与重要论文有关的特征

中国知网的检索条件有:支持基金、来源类别、来源期刊3个选项,另外检索结果的分类浏览还有研究层次,这几项与论文的重要性有关,需要仔细分析。

1.基金论文

一篇论文是作者一个研究项目的成果,是否重要是从结果来判断的,但这个研究项目还是一个过程,我们还可以从整个研究过程来看。可以认为,一篇重要的论文来自于一个重要的研究项目。而一个重要的研究项目在源头上一般是需要有资金资助的,而有资金资助的研究成果当然就是基金論文了。所以,是否有基金资助有可能作为论文重要性预判的一个重要依据,基金论文很可能会成为重要论文,或者说大部分基金论文比非基金论文重要。

由此可以想到:基金论文的被引频次一般比非基金论文的被引频次要高。实际上,已经有多篇文献发现了这个规律,如董建军通过对中国知网中国学术文献出版总库中收录的各类基金论文的文献量和篇均被引频次的研究,发现基金论文从整体上来看能够获得比一般论文较高的被引用[4];戚尔鹏,叶鹰用Web of Science数据库收录的2010—2012年基础学科论文数据进行实证研究,结果揭示除逻辑学外所有基础学科的基金资助引用优势为正,表明基金论文的被引频次和影响力普遍高于非基金论文。讨论分析了基金论文获得较高引用的原因,揭示基金论文更易获得引用是因其具有相对较高的品质[5]。

以上是从文献的质量来比较,从数量来看,又是如何呢?即高被引论文中的基金论文能占多大比例呢?关于这方面的统计数据,目前还没有查到相关文献。为此,笔者分别以数学、物理学、化学、力学和生物学为文献检索目录,检索了中国知网2010—2012年历年的期刊论文、高被引期刊论文(这里指被引频次≥5,检索时间为2018年8月中下旬),并筛选出高被引论文中的基金论文。统计结果见表1。

从表1可见,这些学科的大部分高被引论文是基金论文。除数学略高于64%以外,其他4个学科的高被引论文中的基金论文所占比例都高达70%以上,有些甚至超过80%。显然,数学研究主要依靠研究人员自身的理论思维,而其他学科则还与客观世界的实践、实验有关,需要具备一定的物质条件,没有资金支持,研究工作很难开展,而有更多资金支持就可能做出更好的研究成果,这是科技领域大部分高被引论文是基金论文的重要原因。

既然统计数据表明大部分高被引论文是基金论文,而高被引基金论文又只是全部基金论文的子集,那么某时段期刊论文中的全部基金论文就包含了该时段大部分高被引论文,即重要论文。这些论文之间的集合关系可用图1表示。其中,A代表期

刊论文,B代表高被引论文,C代表基金论文,B∩C代表高被引基金论文,B∩C占了B的大部分。

显然,从宏观比例上看,论文越多,其所包含的关键词也越多。因此,对该时段全部基金论文(C)的关键词做词频统计,就可以发现该时段大部分高被引论文(B∩C)的关键词,这些关键词就包含了该时段大部分重要论文(B)的关键词,即该时段大部分重要的关键词。实际上,科研工作者在申请科研基金的时候,需对所在领域文献有充分了解,因此基金论文会引用之前的高被引论文,所以,基金论文的关键词会包含所在学科的一些重要科技名词。对新时段而言,对该时段全部基金论文的关键词做词频统计,就可能提前找到将来被发现具有重要意义的大部分科技名词。

2.来源类别与来源期刊

对来源类别来说,显然,SCI来源期刊、EI来源期刊、核心期刊、CSSCI、CSCD都是比较重要的期刊,在这些期刊上发表的论文一般来讲比其他期刊论文重要。检索时,文献分类目录选择对应的学科,来源类别可以选择以上那些重要的分类,当然也可以是全部期刊。选择来源类别主要是为了包含综合性期刊里的专业论文。

对来源期刊来说,检索每个学科的专业期刊时,如果文献分类目录选择对应的学科,则检索出的文献就会比不选择学科的检索结果少很多。如检索《力学进展》2010—2012年的文献时,文献分类目录选择“力学”时,找到135条结果;但不做任何选择时,找到240条结果。这是因为,现在各学科都是互相交叉、融合发展,而不仅仅局限于本学科本专业。所以,在检索某学科的专业期刊时,不能选择文献分类目录中的学科选项,而是要不做任何选择,就包含了专业期刊里的全部论文。

以上选择期刊来源类别并对应学科目录的检索结果,和选择全部专业期刊并不对应学科目录的结果有重复,需要查重并删除重复的内容。

3.研究层次

检索结果的分组浏览下有个“研究层次”选项,显然,重要的科技新词与“研究层次”下的“基础与应用基础研究(自科)”及“工程技术(自科)”关系密切,其他层次可不用考虑。

三如何查新

检索到了需要的重要论文之后,要对这些论文的关键词做词频统计,才能发现重要的科技名词。但词频统计发现的不同名词很多,而且大部分都是之前很早就出现过的旧名词,新名词很少。如果一一检验,既费时又费力,会做很多无用功。那么怎样才能尽快发现新名词呢?为行文方便,以下举例说明。

前文曾说过本文所指的新名词,是指在所考察时段才出现,而在该时段之前没有出现的名词。例如,在t1—t2期间才出现的新名词,在t1之前(包括t0—t1期间)就没有出现。我们可以考察延拓的时段t0—t2。知网的文献检索结果有“PubTime发表时间”这一项。显然,如果在做词频统计的时候,同时统计关键词在t0—t2期间最早出现的时间,就会发现在t1—t2期间出现过的很多关键词,最早在t0—t1期间就已出现,这些关键词就肯定不是t1—t2期间才出现的新名词,这就可以筛掉很多旧名词,只剩下少数最早出现时间在t1—t2之间的术语才需要检验是否新名词,这就可以减少很多工作量。

显然,时段t0—t1越长,筛掉的旧名词就越多,需要人工一一检验t1—t2之间的新词就越少。当t0—t1足够长之后,就会筛掉该专业发展历史上几乎所有的旧名词,这时候基本上只需要统计关键词的词频和最早出现的时间,不用人工一一检验,就可发现t1—t2之间的新词。而时段t0—t1足够长的情况,实际上相当于一个包含该专业发展历史上所有常用和重要术语的语料库和术语库,由此也可见建设完备的语料库和术语库对发现科技新词的重要性。另外,如果所考察的时段较长或该时段距离现在时间较早,就不能以基金论文为考察对象,而应以该时段的高被引论文做时段延拓和词频统计。

四发现重要中文科技新词的步骤

以下用对基金论文做词频统计发现t1—t2期间甲学科重要科技新词为例详细说明。

(1)將考察的时段延拓为t0—t2。

(2)检索文献分类目录为甲学科,来源类别为SCI来源期刊、EI来源期刊、核心期刊、CSCD,分类浏览为“基础与应用基础研究(自科)”及“工程技术(自科)”的论文,或者选择全部期刊论文,从中筛选出基金论文文件。

(3)检索来源期刊为甲学科领域的重要专业期刊,分类浏览为“基础与应用基础研究(自科)”及“工程技术(自科)”的论文,从中筛选出另一个基金论文文件。

(4)对上述两个文件做查重,重复的论文只保留一个,形成一个包含为t0—t2期间全部基金论文的文件。

(5)对这个包含全部基金论文文件的关键词做词频统计,同时统计每个关键词所在论文的发表时间,最后形成一个包含所有不同关键词、词频及与每个关键词对应的最早论文发表时间的列表。

(6)根据这个列表,最早发表时间在t1之前的论文对应的关键词就是旧名词,这些名词占了很大比例,不需要再检验。需要检验的是该列表中在t1之后才出现的论文的关键词是否为新名词。这些名词分两部分,一部分名词是虽然在该列表中在t1之后才出现,但在整个知网文献数据库中(或该学科的文献中)在t1之前出现过,这部分也是旧名词;另一部分是在整个知网文献数据库中(或该学科的文献中)在t1之后才出现的名词,这部分名词就是t1—t2期间才出现的新名词。

(7)发现中文新名词之后,还要再查找与中文新名词相对应的英文名词,反过来,也要以英文名词查找与之对应的中文名词,这个过程不能忽略。因为中文名词与英文名词有可能不是一一对应的关系,在这个过程中就有可能发现看似不同的中文名词表达的却是相同的概念。实际上,对于首先在英文中出现的新名词而言,有不同的中文译名是很常见的现象,所以对这些名词需要格外注意。

另外,关键词词频统计的本质是术语查重,要以消除关键词中的空格和符号形成的连续文字串为对象进行统计[6],这样就把文字相同而符号不同的中文名词统一视为为一个中文名词,也能发现相同中文名词的不同表现形式。对英文名词也要做类似的处理。

在此基础上,就可以形成表示各种新概念的中英文新名词列表,供专家审定。

五查新词范例

以下以对中国知网2011—2012年间的力学领域期刊基金论文做词频统计来查找科技新词为例,来验证此方法的效果。选择力学学科的原因在于,力学是发展成熟的经典学科,新概念、科技新词发展较慢,所以,更能检验此方法的效果。选择该时段的原因在于,可用到目前为止(2018年9月)的文献中出现这些科技新词的词频和高被引论文的被引频次来验证其重要性。限于篇幅,仅展示2011—2012年间出现的部分力学新词,见表2。表2中的时段词频是指该时段力学领域期刊基金文献中出现的关键词的词频;全部词频是指迄今为止(2018年10月),所有类型中文文献包含论文主题或摘要在内的词频;最高被引论文频次是指论文主题或摘要中包含该名词的论文的最高被引频次。由表2可见,这些当时出现的新词在现在来看还是比较重要的。由此可见,用本文的方法发现新词确实行之有效。

六结语

用对基金论文做词频统计的方法发现中文科技新词的意义在于:所发现的基金论文中的新词的重要性,是经过专家判断的,有一定的可靠性;在做词频统计时,只要所考察的时段足够新,所发现的名词就是该时段的新词,而不是旧词;统计数据表明,大部分重要论文是基金论文。因此,所考察时段全部基金论文的新词,在数量上包含了该时段的大部分重要新词;由于基金论文在该时段全部论文中所占比例较低,因此,只对其中的基金论文做词频统计,既减少了工作量,又减少了盲目性。考虑到应用的方便性,本研究未采用专业软件,而是用Excel来实现的。希望此文对科研工作者和术语学工作者有一定幫助。

参考文献

[1] 才磊.科技新词工作初探[J].中国科技术语,2008(2):49-51.

[2] 张晖.科技新词工作实践探索[J].中国科技术语,2013(6):5-9.

[3] 余恒,崔辰州,张晖.天文学英语新词自动提取系统[J].天文研究与技术,2015(3):374-380.

[4] 董建军.中国知网收录的基金论文资助现状和被引情况分析[J].中国科技期刊研究,2013(2):307-312.

[5] 戚尔鹏,叶鹰.基础学科论文的基金资助引用优势研究[J].大学图书馆学报,2015(6):11-16.

[6] 赵伟.术语查重探讨[J].中国科技术语,2016(4):19-24.

猜你喜欢
文献计量学大数据
《现代泌尿外科杂志》2011~2013年文献计量学指标分析
《广西民族研究》创办30年来刊发文章的回顾与展望
中文图书评价体系研究
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索