基于Web of Science的植物数据库可视化分析

2024-03-04 13:02娄岱金赵国强
江西科学 2024年1期
关键词:发文聚类领域

娄岱金,苏 玥,罗 涛,赵国强,叶 凡

(江西科技师范大学生命科学学院,330013,南昌)

0 引言

随着植物学科各方面研究的深入,与植物相关的数据资料越来越多。同时,计算机技术的发展和数据库的出现,为植物资料的保存和共享提供了可行性的解决方案[1]。在20世纪50年代,早期的植物学家进行植物普查和样本采集,建立了以书籍、手册和索引为形式的纸质数据库,仅是包含了简单的文本和图像数据[2]。21世纪初,随着计算机技术的发展,研究人员将植物数据库进行了数字化,使得存储、管理和共享变得更加高效[3]。再后来,高通量测序技术的突破使得植物数据库更加丰富,数据库存储的组学数据为基因功能、遗传和进化等研究提供支持[4]。至今,植物数据库在不断迭代并可持续发展,在植物学研究、生态学、保护生物学、药物开发等领域都发挥着重要的作用[5]。

国内一些高校利用植物数据库整理和存储校园内的植物情况,例如,南京林业大学校园植物数据库工程的构建[6]。此外,一些省市利用植物数据库来记录和宣传当地的名贵药材和稀有植物,如长白山显花植物数据库[7]和贵州药用蕨类植物数据库[8]等。欧洲食品安全局(European Food Safety Authority)定期更新木霉菌宿主植物物种数据库[9],目的是为风险评估员、风险管理人员及处理木霉菌属的研究人员提供信息和科学支持。Xu等[10]设计了PlantPhoneDB植物数据库,提供了4种细胞类型之间配体-受体对的相互作用评分方法,为研究人员提供了从scRNA-seq数据集推断细胞之间通信的综合资源。Hussain等[11]研究并开发了孟加拉国药用植物数据库,研究分布在孟加拉国各地的各种药用和营养植物,并为研究人员、卫生从业者和药物开发人员提供一个方便操作的界面。由此可见,植物数据库的研究日益受到广泛的关注,并发表了越来越多的文献[12-13],这些零散的论文信息,导致很难从数量庞大的文献中掌握研究重点和现状[14],从而忽略了未来的发展趋势和热点[15]。因此,全面了解植物数据库的研究现状、热点和趋势是尤为必要的。

可视化分析有助于对植物数据库研究领域进行定量和客观的分析,并为学术研究提供知识交流[15],所带来的直观感受使得人们获取更多的信息[16]。为解决这一问题,运用科学的可视化软件对该领域进行统计分析[17],从而推动植物数据库方面的研究。VOSviewer是荷兰科技研究中心开发的一款软件,可提供文献的聚类、叠加、密度视图等,有助于研究某一领域的科研方向和热点[18]。CiteSpace是一款基于Java语言的多元、分时和动态的可视化软件[19],利用共引分析理论和“寻径网络”算法等[20],通过数据挖掘、信息处理等技术对特定领域文献集合进行计量[21],以揭示科学演化的关键路径和知识拐点,实现对学科演化潜在动力机制的分析和学科发展前沿的探测[22]。Scimago Graphica是一款简单易上手的轻量级绘图分析软件,不需要复杂的数据处理和建模。

基于此,本文通过筛选Web of Science(WOS)植物数据库领域的相关文献,采用文献计量的分析方法,借助可视化分析软件揭示植物数据库的发展现状和研究热点。同时,对植物数据库研究发展进行动态分析,预测植物数据库的未来研究趋势[23]。最后,对植物数据库未来研究的可行方向进行展望,以期为植物数据库研究领域进一步发展提供科学参考。

1 数据与方法

1.1 数据来源

以Web of Science(WOS)核心数据集SCI-EXPANDED为数据源,检索策略为TS=(plant) AND TI=(database),检索时间跨度为2004—2022年,初获1 544篇文献,精炼检索结果,去除会议录论文、会议摘要、社论材料等,得到1 457篇文献。

1.2 数据筛选

为了保证检索结果的准确性和客观性,3名筛选人员分工合作,一个筛选,一人重复筛选,一人核对,筛选标准为:

1)所保留的论文应当是有关植物数据库构建或是介绍植物数据库;

2)文献的主题涉及到植物,判断主要研究对象是否为植物。

从Web of Science中以纯文本格式(.txt)导出,记录为“全记录与引用的参考文献”,共导出550条文献记录。

1.3 研究方法

使用Origin 2022对植物数据库相关文献的发文量进行统计分析;采用VOSviewer的数据分析模块对发文作者(Author)、发文国家(Country)、发文机构(Institution)、关键词(Keyword)进行分析;利用CiteSpce 6.1.R2对突现词(Bursts)进行可视化分析。

2 文献计量分析

2.1 发文量分析

研究领域的总发文量代表了该领域的发展水平,年发文量的变化反应了该领域的动态变化趋势[24]。筛选出2004—2022年间收录的关于植物数据库的文献共550篇,发文量的年度分布特征如图1所示,2004—2022年发文量整体呈逐步上升趋势。并且在2012年左右增速明显加快,这可能是因为高通量DNA测序技术的进步推动了组学技术的成熟,并引发了对数据库存储的高需求。总体而言,植物数据库在以一种良好的态势逐年上升,数据库的类型和内容呈现多样化,包含生态数据库、组学数据库等,这些数据库的建设为植物研究提供了重要基础和丰富的信息资源,在植物科学、生态学、农业等领域都起着重要作用。

图1 2004—2022年植物数据库研究领域发文数量

2.2 发文作者分析

表1总结了植物数据库研究领域发文量前10的学者,同时对其发文量、总引用数、平均引用数、H指数和所在国家进行统计,以便对该领域有一个全面的了解。排名前10的学者中,中国占4位,日本和捷克分别占3位。其中,发文量最多的是来自中国的Su Zhen(13篇),其次是日本的Sakurai Tetsuya(10篇)和捷克的Milan Chytr(8篇)。总引用数排名前3的学者分别为Jitka Klimešov(1 623篇)、Su Zhen(737篇)和Luo Jingchu(587篇)。同时,其平均引用数也位居前列。H指数是HIRSCH[21]在2005年提出的一个基于作者的论文数量及论文被引用次数来衡量作者发文质量和产出水平的重要指标。H指数排名前3的作者分别是Su Zhen、 Sakurai Tetsuya和Milan Chytr,实验数据表明,他们发表的文章具有一定的代表性,且在该领域有着较高的质量和水平。

表1 植物数据库研究领域发文量前10作者

图2展示了作者网络合作图谱,每个节点代表一个作者,节点之间的连线代表了作者之间的合作关系,不同颜色代表了不同的合作群体。从图2可知,节点与节点之间连线较多,表明作者之间存在一定的交流,不同群体之间存在合作关系。图2中显示出了多个密切合作的作者群。例如,以Su Zhen和Xu Wenying为首的的合作群体,整合了基因组学、转录组学和代谢组学等信息,构建了动植物功能基因组综合信息平台;而Luo Jingchu和Liu Xiaochuan的合作群体,则从基因组水平上系统地预测转录因子并构建植物转录因子数据库。

图2 植物数据库研究领域发文量作者图谱

2.3 发文国家分析

发文国家分析可反映出植物数据库研究领域的分布情况。如图3(a)所示,在发文频次上,中国位居首位,发文频次为161,占总发文数量的26.3%;排名第2的是美国,发文频次为115,占总发文数量的18.8%;排名第3的是德国,发文频次是59,占总发文数量的9.6%。这3个国家发文总量占总发文量的54.7%,在植物数据库研究领域具有重要的影响力,为其他国家的植物数据库研究起到了引领作用。排名在4至10的依次是日本、印度、法国、英国、西班牙、澳大利亚和捷克。这些国家植物数据库研究的高产,反映出其生物技术和信息技术足以支持植物数据库领域的研究。一方面,表明这些国家重视植物领域的发展;另一方面,也表明这些国家的信息技术足以支持数据库的发展。这也从侧面证实了这些国家的生物技术和信息技术共同推动了植物数据库的研究,其研究成果具有代表性和较大的影响力,对植物数据库领域的发展起着很大的推动作用。由图3(b)可知,这些国家除少数几个国家外,其他国家形成了较强的合作网络体系,特别是美国、德国、中国等,与其他国家之间的合作更为紧密,国家之间达到了资源共享以及互惠互利的局面。图3(c)表示发文量靠前的国家在地理位置上的分布和聚类,颜色相同的国家被归为一个合作集群。从图3可以看到,研究植物数据库的国家被分为5个聚类,为首的3个集群分别是:美国、中国为代表的集群,日本、英国、加拿大等构成一个集群和以俄罗斯、芬兰、阿根廷为代表的集群。从图3中还可以发现,在集群与集群之间没有明显的界限,集群之间相互覆盖,表明植物数据库研究在全球范围内存在广泛的合作。

图3 发文国家 (a)发文量前10国家占比图; (b)发文国家网络合作图谱;(c) Scimago graphica和VOSviewer生成的发文国家地区分布图

2.4 发文机构分析

由表2的发文机构可知,植物数据库研究机构主要集中在中国、法国和美国等国家。其中,中国科学院(Chinses Academy of Sciences)的发文频次最高,共发表31篇文章,为植物数据库的研究做出了巨大贡献;其次是法国国家科学研究中心(Centre National de la Recherche Scientifique),与大学和国际科研机构建立合作关系,促进跨国科学研究项目的进展;发文频次第三的是加利福利亚大学体系 (University of California System),发表了25篇文章。为了进一步了解主要研究机构间的合作关系,绘制了主要机构的合作关系图(图4(a)),该图共有201个节点,其中,发文量在3篇以上的机构有116个,发文量排在前十的机构之间连线较多且聚集在一起,表明前十机构之间存在紧密的合作关系,相互输出的成果较多,机构之间的相互交流推动了植物数据库领域的研究发展。另外,由图4(b)可知,H指数最高的是中国科学院,总引用数最高的是法国国家科学研究中心,这些机构的文章具有一定的代表性和可引用性。

表2 2004—2022年植物数据库研究领域前10机构

表3 植物数据库研究发文量前10的期刊

图4 机构图谱 (a)机构合作关系图谱;(b)前10机构发文量、总引用量、平均引用量和H指数

2.5 发文期刊分析

表3列出了发文量前10期刊的总引用数、平均引用数、H指数、JCR分区以及5年影响因子(IF)等信息,排名前10的期刊共发表285篇文章,占目标文章总数的51.81%。其中,Nucleic Acids Research(核酸研究)杂志为高产期刊,发文量94篇,占比17.09%。其次是Database The Jourbal of Biological Database And Curation(生物数据库与策展)和Plant And Cell Physiology(植物和细胞生理学),分别占比7.81%和5.81%。总引用数最高的前3期刊分别为Nucleic Acids Research,Plant Physiology(植物生理学)和Plant And Cell Physiology,同时这3个期刊的平均引用数也位居前列。根据H指数,排名前3的期刊分别为Nucleic Acids Research(50),Plant And Cell Physiology(21)和Plant Physiology(19)。发文量前10期刊的IF在1.6到16.4之间,表明有关植物数据库研究期刊的权威性差异较大。IF排名前3的期刊分别为Nucleic Acids Research(16.4),Plant Physiology(8.7)和Frontiers In Plant Science(6.8),其他期刊影响因子均在5分左右。综合多个指标显示,Nucleic Acids Research,Plant And Cell Physiology和Plant Physiology是植物数据库研究领域的活跃和代表性期刊。

2.6 经典文献分析

550篇论文的总被引数共30 053次,篇均被引频次为54.64次。表4介绍了被引频次前10文献的研究内容、期刊、被引频次等。据表4可知,在2004—2022年间,被引次数最高的论文是Zimmermann, P等在2004年发表在Plant Physiology杂志上的论文,被引频次为1 980次,此篇文献构建了 GENEVESTIGATOR在线基因表达数据库平台以及具有查询和分析功能的在线工具,提供了超过22 000条拟南芥的基因表达信息。被引频次排在第2的是一篇名为TRY - a global database of plant traits的文章,详细地介绍了TRY植物功能性状数据库。发表在Journal of Ecology杂志上的The LEDA Traitbase: a database of life-history traits of the Northwest European flora文章被引次数为1 171次,这是一篇关于欧洲西北地区植物群落生态数据库的文章。总之,通过被引前10的文章可发现植物数据库存储的数据呈现多样化,主要以组学数据、生态数据为主。

2.7 关键词分析

2.7.1 关键词频次分析 关键词是文章的提炼与浓缩,高频关键词能够反映出某一领域的研究热点、研究方向和未来发展趋势[24]。WOS文献经过筛选共有2 429个关键词,刊载频次居前10位的关键词依次是:database(130次),identification(80次),evolution(57次),resource(53次),genome(50次),Arabidopsis(48次),sequence(40次),annotation(39次),expression(36次),genes(36次)。

2.7.2 研究热点 使用VOSviewer软件生成该领域的关键词共现图(图5),在图谱中节点大小表示关键词出现的频次,相同颜色的节点代表相同的聚类[25]。关键词聚类分析能够揭示植物数据库研究领域的热点主题。对关键词聚类进行分析,可将植物数据库研究的热点主题分为6个聚类,聚类1(红色区域)占关键词频次的17.19%,是与植物功能性状、植物多样性、维管植物、气候、群落、分类等密切相关的关键词,这表明生态方面的研究是植物数据库研究内容的一大主要部分,此外,维管植物也是植物数据库研究领域的新热点内容。聚类2(绿色区域)占关键词频次的12.63%,是与质谱法、天然产物、通路、药物发现等密切相关的关键词,表明药用植物的研究也是植物数据库的重点关注对象。聚类3(深蓝色区域)占关键词频次的10.52%,代表关键词是预测、蛋白质、RNA、生物起源、基因、全基因组、非生物胁迫等。聚类4(黄色区域)占关键词频次的10.52%,是与拟南芥、表达、算法、比较转录组、基因网络等密切相关的关键词。聚类5(紫色区域)占关键词频次的10.17%,是与DNA、预测、基因组测序、进化等密切相关的关键词。聚类3、4、5占关键词频次的31.21%,表明了组学研究一直以来是生物信息学研究的热点问题,同时也是植物数据库研究领域的主要存储内容。聚类6(浅蓝色)占关键词频次的10.52%,是与结构、种质资源、分子标记、遗传学等密切相关的关键词,揭示了这类数据库在植物育种、作物改良等领域发挥着重要作用。根据聚类主题的不同,对植物数据库进行划分:生态数据库、药用植物数据库、组学数据库和遗传资源数据库。

图5 2004—2022年植物数据库研究领域关键词图谱

2.7.3 研究趋势 关键词突现性是指在一定时期某个关键词出现频次快速上升,突现强度越高表明在该段时间内研究人员关注度越高[26],表6中红色部分表明该关键词为热点关键词的时段,突现历史距离越近越可被视为该领域的研究趋势[27]。为了更好地研究植物数据库的最新动态变化和预测该领域的未来发展趋势,利用 Citespace中的突现检测算法(Burst Detection)对关键词进行突现分析。如表6所示,列举了植物数据库研究领域的突现关键词。据表6可知,序列(draft sequenc)、生物学(biology)、工具(tool)和资源(resource)等关键词出现时间较早且跨度在4年以上,表明植物数据库的研究最开始是建立在生物学基础之上且作为一种生物学研究工具;信息(information)、数据库(database)、拟南芥(Arabidopsis thaliana)、水稻(rice)、蛋白质(protein)、基因(gene)为2008到2019年间出现的突现关键词,这表明研究专家逐渐意识到数据库在植物研究领域的重要性,植物数据库的研究主题由此发生转变,趋向于构建不同形式和不同内容的专门化植物数据库。例如,水稻数据库、植物蛋白数据库等。预测(prediction)、表达(expression)和多样性(diversity)是近3年出现的突现关键词,可被看作植物数据库研究领域的研究趋势,这表明植物功能预测、基因表达分析和植物多样性研究受到越来越广泛的关注,可能成为未来植物数据库的热点研究内容。

表6 植物数据库研究突现词

3 结论与展望

3.1 结论

随着科技的发展,植物数据库研究越来越受到研究人员的重视,本文在梳理前人研究的基础上,以Web of Science(WOS)核心合集为数据源,分别从发文量、发文作者、发文国家、发文机构、经典文献和关键词方面对植物数据库的发展状况进行了系统分析,结果表明。

1)随着科技的发展,植物数据库研究越来越受到研究人员的重视,发文数量在逐步上升,主要产出国为中国、美国、德国等。我国在该研究领域中涌现出了像中国农业大学生物科学学院的Su Zhen和北京大学生物信息中心Luo Jingchu一批优秀学者。

2)关键词聚类图谱,列举了植物数据库研究领域的六大热点主题,根据聚类主题的不同,对植物数据库按照研究内容进行划分:生态数据库、药用植物数据、组学数据库和遗传资源数据库。

3)在植物数据库的研究中,关键词出现频次最多的是database(130次),identification(80次),evolution(57次),resource(53次),genome(50次),arabidopsis(48次),sequence(40次),annotation(39次),expression(36次),genes(36次),表明这些研究内容是植物数据库的研究热点。

4)根据突现词时间变化规律可知序列草案(draft sequence)、生物学(biology)、工具(tool)和资源(resource)等出现时间较早,表明植物数据库的早期研究工作主要集中在原始数据的分析和处理,同时强调将植物数据库作为生物学研究工具的重要性,而后水稻(rice)、蛋白质(protein)、基因(gene)、预测(prediction)等突现词的出现象征着植物数据库的研究在逐渐地细化,很多科学机构根据自己的研究内容建立了专门的植物数据库。

3.2 展望

植物是地球上重要且具有丰富价值的资源,植物数据库为植物领域的发展提供了无限的可能[28]。根据可视化研究的结论,对未来植物数据库的研究和发展提出了个人的见解。目前,植物数据库的研究内容是基于生物信息学研究,而关于食品供应、农业生产、环境保护等植物相关产业的研究比较少,今后的研究应当结合食品科学、农业科学、生态保护等学科来推动植物数据库领域的多方面发展。此外,有关植物数据库的研究主要是针对植物数据库存储内容的,而关于植物数据库构建技术上的研究却寥寥无几,今后的研究应当利用现代生物技术和计算机技术等运用到植物研究的各个环节,集成跨学科知识、打破学科分割、实现植物和数据库技术的共同发展。国内外对植物数据库的研究开展了大量的工作,并取得了许多重要的研究成果,植物数据库研究内容也在逐渐细化。然而,一些小型化和私人化的植物数据库,由于缺少平台或资金投入难以实现成果的最大转化。这在一定程度上造成了信息的流失和资源的浪费,不利于小型植物数据库网站的发展。一些政府部门及相关机构应当建立政策和采取保护措施,以避免植物数据库资源的流失和浪费。

猜你喜欢
发文聚类领域
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
领域·对峙
校园拾趣
爷孙趣事
以牙还牙
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
新常态下推动多层次多领域依法治理初探
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例