共词分析国内外生物信息学领域研究态势

2020-11-03 10:03刘亚文张红燕阳灵燕
生物信息学 2020年3期
关键词:信息学热点领域

刘亚文,张红燕,阳灵燕

(湖南农业大学 信息与智能科学技术学院,长沙 410128)

生物信息学(Bioinformatics)是一门由生命科学、计算机科学、数学、物理学和化学等学科交叉而形成的前沿学科,其研究内容涵盖了大规模的基因组、转录组、蛋白质组等多个组学层次的各自及整合性研究,应用领域也覆盖了生物、医学、药学、农学、环境监测等多个领域[1]。生物信息学发展史可分为3个主要阶段[2]:(1)前基因组时代(50~80年代)是基本生物信息学理论、方法、模型和软件体系形成阶段;(2)基因组时代(80年代末~2003年),人类基因组计划的实施进一步推动生物信息学的发展;(3)后基因组时代(2003年-至今)的核心内容之一是充分利用大量生物数据挖掘其生物信息和规律。作为一门新兴学科,生物信息学领域的研究文献逐年增加,这些文献客观记录了该领域的发展概貌,开展相关文献分析以了解生物信息学领域的研究现状和研究热点,对把握其未来的发展趋势意义重大。目前,已有不少学者开展了文献分析在生物信息学领域中的应用研究,如宋茂海等基于CNKI、中华医学会数据库采用共词分析和可视化方法探讨了生物信息学领域的学科分类和热点内容[3];王俊等基于大数据背景,从迅速发展、主要研究模块、基础背景等方面分析了生物信息学的研究现状[4];王蕊等基于Web of science数据库分析了生物信息学数据库研究的发展趋势[5]。但利用文献计量分析和关键词共词分析,同时基于CNKI中文数据库和Web of science外文数据库来对比分析国内外生物信息学领域研究的相关报道却极其鲜见。

当两个或两个以上的关键词同时出现在同一篇文献中时,则称之存在共现关系[6]。这种共现关系的紧密程度体现在关键词共现的频次上。关键词共词分析通过捕捉关键词关系,分析它们所代表的学科和主题的结构变化,来跟踪该研究领域的研究热点,揭示其研究主题的演变过程[7]。本文以国内外生物信息学领域相关论文为研究对象,利用R语言编程工具,对文献进行计量分析、关键词共词聚类分析,并以图文展示了国内和国际生物信息领域的研究热点与发展趋势,以期为我国生物信息学领域科研人员的后续研究提供参考。

1 数据与方法

1.1 数据来源

采用的国内文献来源于CNKI数据库,以“生物信息学”为主题词进行检索,选择全部期刊文献,共检索到1996~2018年共23年相关期刊论文6 893篇;国际文献来源于Web of science数据库,以“bioinformatics”为主题词进行检索,选择核心合集论文,共检索到2007~2018年共12年相关SCI收录论文32 406篇。数据均于2019年1月采集。

1.2 研究方法

1.2.1 数据预处理

数据预处理主要通过利用R语言编程环境(RStudio Version 3.5.1)编写R程序对原始数据进行数据清洗,数据清洗包括删除作者为空的文献记录、删除关键字为空的文献记录等操作,清洗处理后最终得到中文文献6 717条记录,外文文献30 160条记录。

1.2.2 高频关键词提取

预处理后的数据包含多个字段,CNKI文献数据中包含的字段有Title(标题)、Author(作者)、Keyword(关键词)、Summary(摘要)、Year(年份)等,Web of science文献数据中包含的字段有AU(作者)、TI(标题)、PY(出版年)、AB(摘要)、DE(作者添加的关键词)、ID(Web of science根据文章内容增加的关键词)等。无论是中文文献还是外文文献,本文用于处理分析的主要是年份字段和关键词字段。其中,国际文献的关键词字段有作者关键词“DE”和WOS增加的关键词“ID”,考虑到“ID”更具客观性,故选用“ID”关键词字段为后续分析所用。

年份字段主要应用于文献的计量分析和热点变迁的分段研究,关键词字段则主要用于研究热点和研究主题的提取。通常一个关键词字段会包含多个以“,”或“;”分隔开的关键词,我们先采用R语言扩展包tidytext中的unnest_tokens函数来提取关键词;接着将其中的同义关键词合并,如:关键词“mirna”和“microrna”合并为“mirna”;最后,统计关键词词频,并按频次由高到低排序,得到关键词词频表,并从中选取频次较高的前n个关键词作为高频关键词。

1.2.3 共词分析

将高频关键词两两配对,构造高频关键词共现矩阵,矩阵中的元素为两两关键词的共现次数。进一步,以共现矩阵为基础,构建关键词共现网络。具体而言,共现网络以n个高频关键词为网络节点,当两个关键词之间的共现次数大于等于k次时,两个关键词节点间存在连线。

在共词分析中,n和k的设置并无统一标准。高频关键词选取过多或是共现次数设置过小将导致所得研究热点过于宽泛,而高频关键词选取过少或是共现次数设置过大将导致所得研究热点缺乏代表性。综合考虑文献数量和关键词词频情况,最终设置n=40、k=3,即选取前40个高频关键词用于构建共现矩阵,共现次数大于等于3次设置网络连线。

1.2.4 聚类分析

基于关键词共现网络利用R中的cluster_louvain函数创建可视化聚类图,并对其展开聚类分析。cluster_louvain函数采用的是Louvain聚类算法,即通过计算相邻节点间的模块度增量,实现节点间的动态聚合[8]。Louvain算法快速、准确,被公认为性能最好的社区发现算法之一。节点中心度是社会网络分析的量化指标之一,中心度高的节点通常是较为关键的研究热点[9]。特征向量中心度更是把相邻节点的中心度也考虑在内[10]。通过分析聚类网络图和特征向量中心度,找出每类的核心关键词及主要特征,进而挖掘出生物信息学领域的研究热点及发展趋势。

2国内生物信息学领域研究态势分析

2.1 国内文献量年变化趋势分析

对1996~2018年CNKI数据库中生物信息学相关的期刊论文量进行统计,利用R软件中的plot函数绘制文献量年变化趋势图,如图1所示。从图中可以看出相近年份间文献量略微有些波动,但总体上文献量呈增长趋势。这也从一定程度上反映了我国生物信息学的发展处于持续上升的成长期。

图1 1996~2018国内生物信息学文献量变化趋势图Fig.1 Trend of domestic bioinformatics literature quantity between 1996 and 2018

2.2 国内研究热点分析

关键词是某一研究主题的提炼和对文章核心思想的高度概括[11]。通过对关键词频次和中心度的统计分析,得到40个高频关键词的相关结果(见表1)。其中,频次排名靠前的关键词有“克隆”、“基因克隆”、“序列分析”、“基因”、“数据库”、“电子克隆”等,各关键词前后的频次差距不大,体现了生物信息学领域研究热点的多方向发展。

进一步共词分析和聚类分析,得到国内生物信息学文献关键词聚类图(见图2),图中关键词节点的颜色不同表示所属类别不同,40个关键词被聚成了4类。整体分析时所得表1中中心度较高的关键词有克隆、基因表达、基因克隆、序列分析等也基本上是各类别中的核心关键词。

依据聚类结果及中心度情况,结合具体文献和专业知识,可将国内生物信息学领域研究热点归纳如下:

(1)基因克隆及生物信息学分析研究 这一类的高频词有克隆、序列分析、基因克隆、表达分析、race、原核表达、rt-pcr等。传统的基因克隆方法利用限制性内切酶和连接酶在体外连接的方法构建重组载体,步骤繁琐且受限于酶切位点,随着测序技术的发展,一些简化组装流程的DNA克隆及组装新技术竞相发展[12]。生物信息学分析包括了序列分析、基因分析和蛋白分析等多种方法。利用基因克隆技术结合生物信息学分析研究以达到对基因功能、结构预测的目的是国内生物信息学领域的研究热点之一。

(2)生物信息学数据库与基因挖掘研究分析 这一类中包含的高频关键词有数据库、基因表达、人类基因组计划、数据挖掘、计算生物学、序列比对等。生物信息学的数据主要贮藏在数据库中,而数据挖掘则从生物信息学数据库中调用、提取数据[13]。生物信息学数据库的主要特点有:数据库种类的多样性、数据库数据量增长惊人、逐渐形成综合性生物信息学数据库平台、数据库高度网络化等[14]。如何利用生物信息学数据库并采用合适的数据挖掘算法进行有效的基因挖掘研究分析是国内生物信息学领域的研究热点之一。

(3)miRNA研究分析 这一类中包含的高频关键词有生物信息学、mirna、启动子、靶基因、转录因子、基因芯片等。miRNA也就是MicroRNA,是基因表达的负调控因子,主要通过RNA干扰(RNAi)途径进行调控[15]。随着生物信息学技术的发展,新miRNA的发现及其相关调控机制的研究分析已成为国内生物信息学领域的研究热点之一。

(4)电子克隆分析 这一类的高频词有基因家族、水稻、拟南芥、玉米、电子克隆、表达序列标签。电子克隆技术是近年来发展起来的基因克隆新方法,其应用是基于数据库、计算机网络和应用软件这三部分生物信息学资源而展开的[16]。电子克隆技术是发现新基因和确定基因功能的重要手段,也是国内生物信息学领域的研究热点之一。

表1 1996~2018生物信息学中文文献高频关键词表Table 1 High frequency keywords in Chinese literature of bioinformatics between 1996 and 2018

图2 1996~2018国内生物信息学文献关键词聚类图Fig.2 Keywords cluster of domestic bioinformatics literature between 1996 and 2018

2.3 国内研究趋势分析

前文对国内生物信息学领域研究热点做了整体分析,此处对国内研究热点随时间变迁作进一步分析。以40个高频关键词为行,年份为列,分年度统计每个关键词出现的频次,构建国内文献年份-关键词统计表(见表2)。

为了便于国内外的对比分析,将1996~2006年的国内文献高频关键词作为整体分析,结果表明国内早期生物信息学的研究热点主要集中在基因数据库研究,其代表高频关键词有“数据库”、“人类基因组计划”等;对2007~2018年的文献,通过分析各高频关键词的频数相对密集年份等特征可知:2007~2010年更侧重于蛋白质数据库研究以及本体和结构域研究,代表关键词有“蛋白质组学”、“数据挖掘”、“结构”等;2011~2013年主要是电子克隆研究,代表关键词有“电子克隆”、“水稻”、“序列分析”等;2014~2018年该领域研究热点更加多样,主要在miRNA分析、基因和蛋白质结构和功能预测分析等,代表关键词有“亚细胞定位”、“基因芯片”、“miRNA”、“功能”、“计算生物学”等。

表2 国内文献年份-关键词统计表(部分)Table 2 Year-keyword statistics of domestic literature (partial)

3 国际生物信息学领域研究态势分析

3.1 国际文献年变化趋势分析

2007~2018年SCI数据库中生物信息学相关文献量的年份变化趋势(见图3)。从图中可以看出文献量逐年增长,速度较快。总的来说,国际文献的年份统计结果显示了生物信息学领域的研究正处于发展中。

图3 2007~2018国际生物信息学文献量变化趋势图Fig.3 Trend of international bioinformatics literature quantity between 2007 and 2018

3.2 国际研究热点分析

通过对国际文献关键词频次的统计分析,得到40个高频关键词(见表3)。从表3中不难发现,关键词expression、identification、protein、gene、gene-expression的频次较高。而主题检索词“bioinformatics”并不是频次最高的关键词,这一现象也从侧面说明了选取WOS的关键词字段“ID”进行共词分析是合理的。

表3 2007-2018生物信息学国际文献高频关键词表Table 3 High frequency keywords in international literature of bioinformatics between 2007 and 2018

同上,通过共词分析和聚类分析,得到的国际生物信息学文献关键词聚类图,40个关键词被聚成了2类(见图4)。

同上,依据聚类结果及中心度情况,并结合具体文献和专业知识,可将国际生物信息学领域研究热点归纳如下:

(1)miRNA及与之相关的分子间相互作用研究 这一类包含的高频关键词有cells(细胞)、proliferation(增殖)、apoptosis(细胞凋亡)、micrornas、pathway(神经通路)等。miRNA及其产物mRNAs形成复杂的调控网络,参与细胞的生长、分化、增殖、死亡等一系列重要的生命过程,基因表达谱微阵列的生物信息学分析已被广泛用于识别各种疾病中的重要分子机制和生物标志物[17]。利用生物信息学分析方法挖掘miRNA功能并得到与之相关的分子间相互作用成为了国际生物信息学领域的研究热点之一。

(2)基因、蛋白质等功能预测与应用研究 这一类包含的高频关键词有identification(识别)、expression(表达)、protein(蛋白质)、database(数据库)、prediction(预测)、sequence(序列)。众所周知,生物实验的实施大都费用昂贵且费时,而生物信息学的产生就是为了攻破这些传统的生物学难题。例如,蛋白质组学领域的一个重要研究方向就是利用有效的算法对DNA结合蛋白进行鉴定与预测[18]。因此,利用数据库和有效的计算预测方法在基因、蛋白质等功能预测与应用方面的研究是国际生物信息学领域的研究热点之一。

3.3 国际研究趋势分析

分年度统计40个国际文献高频关键词出现的频次,构建国际文献年份-关键词统计表(见表4)。 并参照国内文献划分时间段来进行研究趋势分析,即分为2007~2010年、2011~2013年、2014~2018年三个时间段。结果表明,2007~2010年该领域在国际的研究热点侧重于数据库分析以及实验工具、算法的改进;2011~2013年的研究热点集中在蛋白质分析及应用;2014~2018年的研究热点较为偏向于miRNA分析及应用。

图4 2007~2018国际生物信息学文献关键词聚类图Fig.4 Keywords cluster of international bioinformatics literature between 2007 and 2018

表4 国际文献年份-关键词统计表(部分)Table 4 Year-keyword statistics of international literature (partial)

4 讨论与总结

以国内外生物信息学领域期刊论文为研究对象,从年文献量变化趋势、研究热点、分阶段研究趋势三个方面进行分析,得出结论如下:

1)国内外年文献量变化趋势分析 国内外生物信息学研究均处于高速发展期,文献量均呈逐年增长趋势,不过国内文献的增长速度小于国际文献的增长速度。

2)研究热点分析 国内的研究热点有基因克隆及生物信息学分析研究、生物信息学数据库与基因挖掘研究分析、miRNA研究分析、电子克隆分析等;国际的研究热点有基因、蛋白质等功能预测与应用研究和miRNA及与之相关的分子间相互作用研究等。国内外研究热点均聚焦在基因挖掘、蛋白质结构与功能预测、miRNA分析等,但国内的生物信息学领域研究更侧重于理论研究,而国际生物信息学领域研究则更加注重其在疾病(癌症)治疗、药物设计等方面的实际应用。

3)分阶段研究趋势分析 国内生物信息学领域研究热点在不同阶段内略有波动,呈现了较为明显的热点变迁状况;而国际生物信息学领域研究热点在不同阶段内的变化很小,高频关键词的频次几乎都是逐年增加,而且关键词之间的联系较强,是较为均衡的发展。整体来看,国内外生物信息学的研究范围均在不断拓宽。

猜你喜欢
信息学热点领域
热点
鸡NRF1基因启动子区生物信息学分析
2020 IT领域大事记
领域·对峙
热点
初论博物馆信息学的形成
结合热点做演讲
中欧医学信息学教学对比研究
新常态下推动多层次多领域依法治理初探
热点