侯晓岚 余恒 樊东卫
摘 要:现代科学研究内容日趋细化,进展日新月异,对研究趋势和前沿进展的把握变得越来越困难。文章尝试通过分析研究论文中的术语词频来定量追踪学科发展趋势。利用“天文学英语新词自动提取系统”对近20年间天文学论文预印本的全文进行术语提取,在此基础上分析宇宙学领域中与暗能量研究密切相关的概念术语(超新星、宇宙微波背景辐射等)在论文中的出现频率。通过考察这些关键词的词频随时间的变化趋势,分析它们与学科研究动态之间的关系,从而理解科学发现等热点事件对研究工作和学科发展的具体影响,为天文学及其他学科的研究进展和趋势分析提供一个客观的量化方法。文章证实新设备和新数据在推动天文学新兴理论和促生研究热点方面具有不可或缺的重要意义和价值,而诺贝尔奖项等公众热点事件并没有对宇宙学领域的研究热度产生长期影响。
关键词:学科名词;术语提取;词频分析;宇宙学;暗能量;研究趋势
中图分类号:H083;P159文献标识码:ADOI:10.3969/j.issn.1673-8578.2020.03.001
Abstract: Modern scientific research is becoming more and more specific, and changing more and more frequently. It is difficult to follow research trends and the progresses of frontier fields. This paper attempts to quantitatively trace the development of subjects by analyzing term frequency of scientific journal papers. We use the Automatic Extraction of Astronomical English Terms System to extract terminology from the full text of astronomical preprint papers published in the past 20 years, and to analyze the occurrence frequency of terms related to dark energy in the cosmology field. By investigating the correlation between the trends of these words over time and the dynamics of disciplinary research, we understand how scientific discoveries and hot-spots affect professional researches. Not only could it provides an objective quantitative method for the research progress and trend analysis, but also plays as a reference for research evaluation and scientific policy design in China.
Keywords: scientific term; term extraction; word frequency analysis; cosmology; dark energy; research trend
收稿日期:2020-01-05
基金項目:国家自然科学基金委员会-中国科学院天文联合基金(U1731243)
作者简介:余恒(1982—),男,博士,北京师范大学天文系副教授,主要研究方向为宇宙学、星系团、天文信息学。通信方式:yuheng@bnu.edu.cn。
引 言
现代科学研究方向渐趋细致纷繁,论文数量与日俱增,这使得对研究趋势和前沿进展的把握变得越来越困难。术语作为学科发展的信号和风向标,新的术语通常意味着新的知识和进展。因此,如果能够直接从学术论文中的术语出发,根据其出现特征分析学科发展趋势,应该能够更加准确地反映相关领域的研究动态,对专家学者的个人判断形成有效补充。
已经有一些公司和产品在这个方向上努力,如谷歌趋势、论文标注网站ScienceWISE、可视化文献分析软件CiteSpace等。不过由于数据来源的限制,这些软件和产品在学术领域主要根据论文的摘要和关键词进行分析。但关键词主要用于限定文章的学科分类,并不总能精确刻画文章的研究内容。而简短的摘要中关键术语的重复频率并不高,不适合机器自动分析提取。因此基于论文全文的语料分析和关键词提取有着不可替代的研究价值。
相较于其他学科,天文领域的论文全文更易于获取并用于分析,论文预印本网站arXiv在其中居功至伟。始建于1991年的arXiv网站是由美国康奈尔大学运营的一个涵盖物理学、天文学、数学、计算机科学、统计学、生物学、金融学等学科的国际化论文发布和展示平台。相关学科的研究者会在论文投稿前或者发表前将文章上传到这个网站上,供全世界的同行开放阅读,以获得最大程度的关注和引用。这个平台不仅打通了不同期刊和数据库之间的信息壁垒,它所提供的论文全文托管服务更是极大地方便了相关研究的开展。天文学是较早使用arXiv论文平台的学科,绝大部分经过同行评议的天文学论文都有相应的arXiv记录。截至2018年12月31日,arXiv网站总论文数约148万篇,其中天体物理分支下论文数为219 540篇,占总论文数的14.8%[1]。
“暗能量”问题作为宇宙学研究领域近20年来最大的热点引起了天文学界广泛的研究兴趣。本文拟围绕“暗能量”概念,根据论文中术语的词频变化来讨论它与两个重要的观测证据“超新星”和“宇宙微波背景辐射”之间的互动关系。文章前两部分介绍了本文所使用的数据和分析方法;第三部分讨论“暗能量”相关术语词频随时间的变化趋势,并分析它们之间的相互影响;第四部分是总结与展望。
一 样本介绍
我们使用基于词性标注(POS tagging)方法开发的“天文学英语新词自动提取系统”是能够对论文预印本网站arXiv中全文数据进行自动化术语提取的一套程序[2]。这是目前唯一对天文学专业论文全文语料进行分析的工具,能够根据词语在文章内和文章间的出现频次提取高频词汇。我们用这套工具完成了对1993—2018共26年间近22万篇天文学论文的术语提取工作。其中每月在10篇以上论文中出现的高频名词,共有78 811个。文章总数和热点词数的年度统计如图1所示。从中可以看出高频词的提取总量和论文总数直接相关。本文的分析均在此基础上完成。
二 分析方法
考虑到arXiv网站上每月收录的文章数并不固定,而且从1993年至今每月文章数的增长幅度较大,单以包含目标术语的文章总数来统计学科趋势会有明显的系统偏差。因此首先要对文章数进行归一化处理。本文采取的归一化方法是将每月含有目标术语的文章数除以该月天体物理分支下提交的论文总数,得到含有该关键词的文章占当月文章总数的占比。如果天文学各个分支学科的研究者对arXiv网站的接受程度没有明显的差别,那么这个文章占比可被认为是该特征术语(乃至该领域)在天文学科中的热度。
除了年提交数的变化,由于季节和假期的影响,每月提交论文数也会呈现出一定的波动。而对于新兴领域的特有名词,有关论文甚至达不到每月1篇。为了抑制数据中的偶然波动,本文采取将每六个月的结果加总平均的方法来平滑发表趋势的短期涨落,凸显长期变化特征。
为了验证数据的完备性以及方法的可行性,我们首先选取几个天文领域的通用术语,检验它们的词频趋势是否符合预期。
1.样本标定
我们选取天文学中的三个通用名词——模型(model)、观测(observation)和黑洞(black hole)作为标定术语。其中,模型(model)是科学论文中的一个通用名词,在天文学领域主要出现在理论天体物理方面的文章中。观测(observation)与之类似,但主要出现在实测天体物理领域。天文学方向的论文通常属于二者之一。因此包含两个词的文章比例应该比较接近,而且趋势稳定,不随时间变化。黑洞(black hole)是天体物理领域的经典术语,指的是空间中具有极大引力场以致包括光在内的任何物质都不能逃逸的致密天体。对黑洞的研究可以上溯到18世纪末,现代天文学的许多分支都涉及这个概念,在观测和理论两方面都有持续的研究热度。因此它在论文中的出现频率也不应有明显的波动。
将1993—2018年间含有model、observation和black hole的论文数进行归一化及平滑之后,可得到如图2所示的趋势。在1996—2018年间这三个词的趋势比较平稳,且模型和观测的纵坐标之和近似为1,这也符合我们对天体物理论文可分为理论和实测两大类的预期认知。而1993—1995年间网站收录的论文总数较少、学科不全、格式也不统一,给术语提取造成困难,导致这一时期的词频统计出现了明显偏差。因此我们选择1996—2018年这23年间的论文来进行术语频次的研究。
2.术语频次阈值
一篇科研论文包含众多术语,不过其中许多是作为背景知识而存在的,并不都是文章討论的重点。可以为关键词在文章中的出现次数(术语频次)设定阈值,以保证提取的术语能真实代表相关论文的研究方向。因为科研论文会在文中反复提到所研究的术语对象,而相邻领域的论文更可能只是在背景介绍中涉及有关概念。
以暗能量的重要观测证据宇宙微波背景辐射(cosmic microwave background, CMB)为例,图3展示了它在单篇文章中的出现频次大于0次、大于3次、大于5次和大于10次的文章占比。
随着阈值越来越严格,满足条件的文章数是逐渐降低的。包含该词的文章(单篇词频>0)几乎是讨论该词文章(单篇词频>10)的两倍。而且,包含该词的文章比例呈逐年缓慢上升的趋势,这说明有越来越多的文章提到CMB的概念。天文界对这个概念的关注度持续上升。但若只看单篇词频数大于3的文章,上升趋势几乎消失了。而当单篇词频数设为5和10时,占比趋于定值,完全看不到上升迹象。所以,研究CMB文章的比例其实并没有明显变化(虽然有一些重大科学事件会引起论文数的短期上升,但都在一年内回归常值。这些高峰我们会在后面讨论)。因此有必要为术语频次设定一个阈值,以去除非密切相关论文所带来的“泡沫”。本文将单篇文章中的术语频次设为5,只将术语频次高于此阈值的文章用于趋势分析。
原则上,还应按文章长度对术语频次进行归一化,以防止长论文中术语频次可能偏高的问题。但本文所依据的语料绝大部分是科技期刊论文,结构类似,篇幅接近,这个效应并不显著。因此本文在后续分析中略过此步。
三 趋势研究
宇宙学是天文学中研究宇宙诞生和演化的一门学科。1924年美国天文学家哈勃发现周围的星系都在远离银河系,天文学家才知道宇宙并不是永恒不变的,而是正在膨胀。当时人们普遍相信,在引力的作用下,宇宙的膨胀会逐渐变慢。但1998年,超新星(supernova)的观测结果表明宇宙的膨胀速度不仅没有减慢,甚至还在增加[3-4]。现有的理论都无法解释这个现象。于是“暗能量”(dark energy)的概念被创造出来[5],用于提供宇宙加速膨胀所需的斥力。而宇宙微波背景辐射(CMB)作为大爆炸的直接证据,也是研究宇宙学的重要窗口。2003年美国国家航天局(National Aeronautics and Space Administration,NASA)威尔金森微波各向异性探测器(Wilkinson Microwave Anisotropy Probe,WMAP)卫星测量的结果也直接证实了宇宙加速膨胀的现象,从而成为暗能量理论的重要观测证据[6]。但也有研究者认为这也许是因为现有的引力理论在宇宙尺度上并不适用,需要修改[7]。“暗能量”问题作为近20年来最大的宇宙学研究热点引起了天文学界广泛的研究兴趣。本节将通过相关术语的趋势图来具体分析“暗能量”及有关概念之间的互动和影响:
1.超新星
超新星(supernova,SN或SNe)是大质量恒星在演化末期以极高亮度爆发并死亡的一个剧烈过程。在望远镜发明之前的1000年里,人类一共只记录了五颗超新星。而今天,天文学家们每年都会发现上百颗超新星。超新星主要分为I型和II型,其中吸收伴星物质而塌缩的Ia型超新星占所发现超新星总数的80%[8]。这类超新星具有典型的光变曲线,可被当作标准烛光测量距离,从而推算宇宙膨胀的速度变化。
由图4超新星相关术语论文数占比随时间变化趋势(1996—2018)可以看出,自1996年以来,超新星的研究热度在持续上升。这是由于望远镜远程观测技术、数码照相设备、图像自动识别技术的结合构成了全新的超新星搜寻发现系统,大大提高了超新星搜索效率。超新星的发现数量在1996年首次上升到每年100个[9]。1998年Adam Reiss等人通过高红移处Ia型超新星数据发现宇宙加速膨胀的证据[3],引发了超新星和宇宙学研究的热潮。图4中1998年上半年的竖线就对应Adam Reiss的论文发表时间。
在超新星结果出来之后,美国芝加哥大学Michael Turner教授随即提出“暗能量”一词在理论上解释加速现象[5]。随着越来越多的观测数据以更高的精度证实了之前的结论,“暗能量”一词迅速成为宇宙学领域的热门话题。
2011年10月(对应图4中的第二条竖线),最早用超新星发现宇宙加速膨胀证据的两个团队获得诺贝尔物理学奖。这一奖项让更多的公众关注这一学科,但对相关领域的研究并没有明显的带动作用。而且,Ia型超新星作为最先被研究清楚的类型,它在整个天文学科中的论文占比相对稳定。但考虑到超新星研究领域的论文体量在持续增加,Ia型超新星在其中所占的比重其实是在逐渐降低的。相关研究者的注意力更多地放在其他物理过程不那么清晰的超新星类型研究当中。
2.宇宙微波背景辐射
宇宙微波背景辐射(CMB)是宇宙大爆炸的残余辐射,在宇宙学领域有重要研究价值。自1964年被发现以来[10],天文学界对它的研究探测从未终止过。由于大气在CMB辐射的峰值波段并不透明,当代对CMB的研究与空间设备发展水平密切相关。
COBE卫星是美国1989年发射的CMB卫星,用于研究CMB的空间分布和频谱。它作为第一颗研究CMB的卫星,产生了深远的影响,在项目结束多年后仍有论文专门研究。2001年美國国家航天局发射了第二代CMB空间探测器——威尔金森微波各向异性探测器,目标是测量宇宙微波背景辐射温度的微小涨落。2003年2月,NASA公开了第一年的WMAP数据[6],这直接带动了相关领域的研究热潮,并成为Science(《科学》)杂志评选的年度科技进展之首[11]。
WMAP团队随后又在2006年3月、2008年2月、2010年1月、2012年12月分别进行了三年、五年、七年、九年的阶段性数据发布[12],都产生了不同程度的积极影响。但都不如第一次数据释放时热度提升明显。
2006年10月诺贝尔物理学奖授予COBE团队的美国科学家约翰·马瑟(John C.Mather)和乔治·斯穆特(George F.Smoot),以表彰他们发现宇宙微波背景辐射的黑体形式和各向异性。但在公众热情高涨的同时,相关研究论文的总体占比反倒是下降的。可能是由于媒体和公众的关注,相关研究者的公共服务时间增加,科研时间相应减少。不过,相关指标在半年内就回复到正常水平。
2009年欧洲航天局(European Space Agency,ESA)发射了普朗克卫星(Planck satellite),以更高的精度测量CMB各向异性,对WMAP的结果进行独立检验。该项目分别在2013年3月、2015年2月、2018年7月进行了三次主要的数据发布[13]。如图5所示,在项目发射前夕和第一批数据公开后,提交的论文有明显的阶段性提升。虽然普朗克卫星在2013年就停止运行,但对它数据的分析和应用仍在继续。
图5还显示了CMB的研究热度与大科学设备的数据产出密切相关。虽然设备相关的论文只占相关研究的一小部分,但这些关键数据直接带动了整个领域的研究热度。不过,长期来看CMB方向的论文占比并没有发生明显变化,说明这个领域的规模并没有因此扩大。这对于宇宙学这类以国家投入为主的基础学科来说是正常现象。
3.暗能量
在宇宙加速膨胀被发现之前,宇宙学模型(cosmological model)及其基本参数(cosmological parameter)是宇宙学方向的经典课题。1998年,“暗能量”的概念随着宇宙加速膨胀的发现而被提出[5],并迅速成为新兴研究热点。虽然研究者对宇宙学参数的讨论并未中止,但涉及宇宙学模型的文章比例一直在降低。这是因为随着观测数据越来越精确,标准宇宙学模型的地位愈加巩固,而非标准宇宙学模型的研究困难日益增大。天文学家们的研究重点逐渐转移到标准暗能量宇宙学模型中各项基本参数的精度限制上。
与此同时,超新星和CMB观测数据直接推动着“暗能量”的理论研究。不过,理论研究者需要半年到1年左右的缓冲时间来理解并消化新数据。所以,观测成果峰值和暗能量论文热度之间存在一定延迟。学界对暗能量的讨论随着WMAP数据的释放而达到一个很高的热度水平。在2010年末持续了十余年的“暗能量”的研究热度开始下降,因为短期内没有更新更重要的数据出现。在缺乏关键性数据的背景下,理论研究很难再有所突破。虽然2011年诺贝尔物理学奖和2012年Planck数据释放对这个领域都有短期提振的效果,但更高精度的数据并不足以改变热度持续下降的趋势。研究者们从理论探讨开始转向实测,希望通过新的技术和设备获取更多的数据来检验或挑战现有理论。
不过,“暗能量”的问题毕竟仍未解决,它的论文占比仍然停留在一个较高的水平上(2018年arXiv数据库的天文学科平均每月收录1000多篇论文,其中约15篇与暗能量研究有关)。理解“暗能量”的本质对于揭开宇宙演化和结构形成的奥秘至关重要。最终的答案将有待更多的实验、更先进的设备、更精细的观测来揭晓。
四 總结与展望
本文利用“天文学英语新词自动提取系统”从论文中提取的关键术语列表来追踪“暗能量”相关的天文术语。笔者根据学术论文中专业术语的出现特点,对所用数据进行了归一化标定,并选取了合适的提取阈值来避免无关论文的干扰。通过绘制它们随时间变化的论文占比趋势图,清晰直观地展示出该领域近23年的研究趋势和热度变化。这首先说明这个系统从论文中获得的关键术语是有效且完备的,利用论文术语列表来追踪科研趋势的思路也是切实可行的。
需要指出的是,本文依据arXiv网站所收录的专业论文,体现的是科学家研究热度的趋势变化,并不反映公众的兴趣和媒体的热点。这些来自原始论文的专业术语能够帮助研究人员了解各专业方向的研究动态和发展趋势,评估科学项目和发现的学术影响及价值,从而建立一套更加客观合理的专业评价和量化机制。
“暗能量”相关研究近20年的发展过程充分体现了天文观测与理论研究之间的互动关系。超新星搜索技术的进步直接颠覆了传统的宇宙学观念,促生全新的“暗能量”概念。而宇宙微波背景辐射(CMB)天文卫星(COBE、WMAP、Planck)的数据,也直接大大加深了我们对现有标准宇宙学模型的理解,同时也为其他宇宙学模型提供思路和限制。天文学这类基础学科的科技进步越来越多地依赖于国际合作项目和大型科学装置。新设备和新数据能够直接导致新的科学发现、提出新的科学问题、找到学科发展方向。而诺贝尔奖级别的顶级学术奖项作为实至名归的荣誉追认,是向公众普及宣传科技进展的契机,但并没有对科研工作者的研究方向产生直接的影响。因此,我们在关注学科热点时,更应该看到这些成绩背后长期的投入和坚持。
通过回顾“暗能量”的研究趋势变化,我们看到新技术、新数据在推动新兴理论和研究热点方面具有重要的意义和价值。在持续不断的设备投入和数据产出的支撑下,近20年的CMB和超新星研究都表现为平稳的发展趋势。暗能量的热度虽然在近期有所下降,但有关宇宙学参数的相关研究并未减少。超新星作为目前探测距离最远的标准烛光,仍将在暗能量研究中占据重要地位。未来如LSST[14]等更大范围的巡天将发现更多的超新星,能够对暗能量相关宇宙学模型参数的范围进行更有效的限制。与此同时,CMB方面的研究将趋于细化。我们对CMB透镜效应、B模偏振、小尺度不均匀性等问题的理解都将会对现有宇宙学模型的精确性提出更高的要求。理论方面,由于尚不存在可与现有宇宙学模型旗鼓相当的候选模型,所以在颠覆性的新数据出现之前,未来对暗能量的研究可能仍将以参数限制和模型细化为主。
参考文献
[1] arXiv submission rate statistic [EB/OL].(2019-01-01)[2019-10-04].https://arxiv.org/help/stats/2018_by_area/index.
[2] 余恒,崔辰州,张晖.天文学英语新词自动提取系统[J].天文研究与技术,2015,12(3):374-380.
[3] Riess A G, Filippenko A V, Challis P, et al. Observational Evidence from Supernovae for an Accelerating Universe and a Cosmological Constant[J]. The Astronomical Journal, 1998, 116: 1009-1038.
[4] Perlmutter S, Aldering G, Goldhaber G. Measurements of Ω and Λ from 42 High-Redshift Supernovae[J]. The Astrophysical Journal, 1999, 517(2): 565-586.
[5] Huterer D, TURNER M S.Prospects for probing the dark energy via supernova distance measurements[J]. Physical Review D (Particles, Fields, Gravitation, and Cosmology), 1999, 60(8): 081301.
[6] Bennett C L, Halpern M, Hinshaw G, et al. First-Year Wilkinson Microwave Anisotropy Probe (WMAP) Observations: Preliminary Maps and Basic Results[J]. The Astrophysical Journal Supplement Series, 2003, 148(1): 1-27.
[7] de OLIVEIRA-COSTA A, Tegmark M, Zaldarriaga M, et al. Significance of the largest scale CMB fluctuations in WMAP[J]. Physical Review D, 2004, 69(6):063516.
[8] Li W, Leaman J, Chornock R, et al. Nearby supernova rates from the Lick Observatory Supernova Search - II[J]. Monthly Notices of the Royal Astronomical Society, 2011, 412: 1441-1472.
[9] Richardson D, Jenkins R L, Wright J, et al. Absolute-magnitude Distributions of Supernovae[J]. The Astronomical Journal, 2014, 147: 118.
[10] Penzias A A, Wilson R W. A Measurement of Excess Antenna Temperature at 4080 Mc/s[J], Astrophysical Journal, 1965, 142: 419-421.
[11] Seife C. Illuminating the Dark Universe[J]. Science,2003,302(5653): 2038-2039.
[12] Bennett C L, Larson D, Weiland J L, et al. Nine-year Wilkinson Microwave Anisotropy Probe (WMAP) Observations: Final Maps and Results [J]. The Astrophysical Journal Supplement, 2013,208(2): 20.
[13] Ade P A R, Aghanim N, Arnaud M, et al. Planck 2015 results XIII. Cosmological parameters [J]. Astronomy & Astrophysics, 2016,594: A13.
[14] Ivezi , Kahn S M, Tyson J A, et al. LSST: From Science Drivers to Reference Design and Anticipated Data Products[J]. The Astrophysical Journal, 2019, 111: 1-44.