孙 萌,李荣田
(1黑龙江大学生命科学学院/黑龙江省普通高等学校分子生物学重点实验室,哈尔滨150080;2黑龙江大学农业微生物技术教育部工程研究中心,哈尔滨150080)
水稻是一年生禾本科谷类作物,世界重要粮食作物之一[1];按稻谷类型分为籼稻和粳稻、早稻和中晚稻、糯稻和非糯稻。水稻喜高温、多湿、短日照环境,种植面积较大,适于在有浅水层及湿润的水田中种植[2]。水稻中含有水分、碳水化合物、蛋白质、脂类、矿物质和维生素等多种营养成分。随着生活水平的不断提高,人们对水稻品质提出了更高的要求。水稻的主要营养成分是蛋白质,蛋白质是评价大米品质的重要指标之一,蛋白质的含量决定了大米的食味品质和营养品质[3]。近年来,对水稻中控制生理性能的蛋白质的种类、含量、营养占比等的相关研究较多,其中对蛋白质组学、水稻叶片蛋白质含量、水稻籽粒蛋白质种类及盐胁迫影响的相关蛋白分析是研究热点。中国水稻产量居世界第一,但由于水稻品质以及品质检测技术落后等原因,中国的水稻在国际市场上缺乏竞争力[4]。通过对相关文献进行分析,不仅能为水稻中蛋白质的相关研究提供一定参考,而且能为水稻研究乃至农业种植领域的蛋白质研究提供相关研究信息和热点启发。
Citespace是一款由陈超美开发的,着眼于科学分析中蕴含的潜在知识,在科学计量学、数据可视化背景下逐渐发展起来的引文可视化分析软件[5-9]。传统的计量学图谱通常以二维、三维展示科学统计结果,而科学图谱分析软件Citespace则运用聚类分析、网络分析等数学分析原理,宏观显示各研究领域研究热点、前沿热点及进展[10]。Citespace为研究学者带来直观的学科热点和研究数据的便捷,但未见使用Citespace对水稻蛋白质领域开展的研究。笔者从Web of Science数据库中检索相关文献,利用Citespace开展发文作者合作网络、高频热点等方向的知识网络图谱研究及相关领域预测。
利用Web of Science学术信息资源检索平台,选择Web of Science核心合集数据库,以主题=(rice protein),时间跨度=(2018—2020),检索方式为基本检索,2021年6月16日进行文献检索,共检索出与rice protein相关文献7225篇,被引频次总计40799篇(去除自引)。
文献计量学是一种源于20世纪基于文献统计学的成熟的文献计量和信息挖掘获取的方法,Citespace则是一款将数据分析结果以可视化图谱呈现的引文可视化分析软件。本研究在对收集到的文献数据进行处理时使用了Excel和Citespace 2种工具。对于结合引文分析、多元统计分析、聚类分析等基本方法,并利用Citespace对收集的文献进行处理来建立相应的科学图谱,辅以统计软件Excel制作出的相关图表。利用Citespace软件,通过收集到的文献的关键词的分布情况,可以很好地表明当前对于水稻蛋白质研究的热点。
不同国家年发文量的差异可以在一定程度上体现出该国家在相关领域的研究进展情况。图1为2018—2020年水稻蛋白质研究领域发文排名前10位的国家。中国以发文量3778篇排名第一,占发文总数的50.54%(图2),排名第二、第三位的是美国和印度,发文量分别为906、775篇,中国的发文量比位居第二名多2872篇,可见中国在水稻蛋白质领域的相关研究中占主导地位且研究势态良好,以及中国的相关科研工作者对水稻蛋白质领域研究的重视程度高。由图1可见,发文量最多与最少的国家发文数目之差高达3600篇,这种差异在一定程度上体现出在水稻蛋白质研究领域各个国家的研究进展和水平差异较大,若能促进国家之间的学术交流和互动,增进学术氛围的交织,将能使各个国家的学术水平更上一层楼,使水稻蛋白质领域研究早日取得更大进展。
图1 水稻蛋白质领域前10位国家发文量
图2 水稻蛋白质领域前10位国家发文量百分比
通过对2018—2020年水稻蛋白质研究领域机构发文量进行文献计量学分析,得出2018—2020年水稻蛋白质研究领域世界发文量排名前10位的机构(表1)。通过对表1分析,发现水稻蛋白质研究领域高发文量前10位的机构均来自中国,且前10名中发文量超过400篇的仅有2个。其中排名第一的为中国科学院,发文430篇,占总文献数的5.95%;其次是中国农业科学院、南京农业大学,发文分别为414、338篇,占比为5.73%、4.68%。中国为世界水稻产销第一大国,对水稻蛋白质的相关研究很重视,而发文前10位机构均来自中国,也体现出中国在水稻蛋白质领域的研究具有领先地位。
表1 2018—2020年水稻蛋白质领域世界发文量排名前10位机构
应用可视化分析软件Citespace进行机构间合作共现图谱网络的构建[11],设置time slice length=1,node type=institution,得出2018—2020年水稻蛋白质领域机构合作共现图谱(图3)。图中节点数为此领域发文机构数,节点间的网络连线为机构间合作次数,连线越多说明机构合作越密切,节点的中心度为网络中节点连接数目的衡量标准,中心度越大说明此机构与其他机构往来越频繁。图3中共有406个节点、2098条连接线,合作网络较密切。从与其他机构的合作频繁程度来看,图中中心度最大的机构为国际水稻研究所(0.11),可见国际水稻研究所在所有机构中处于关键枢纽的地位,与其他机构合作最为频繁;此外,中心度大于0.07的机构还有来自美国的康奈尔大学(0.10)、来自美国的加州大学戴维斯分校(0.08)和来自比利时的根特大学(0.07),说明这3个机构在世界范围内水稻蛋白质领域的研究交流也较为频繁,占次级多方面网络合作主导地位。
图3 水稻蛋白质领域机构合作共现图谱
高频关键词往往代表了某个领域中的科学研究热点,而高频关键词的聚类分析则往往指向此研究领域的当下研究方向,分析高频关键词聚类图谱能有效预测相关学科未来研究前沿及发展方向[12-13]。本研究运用可视化分析软件Citespace对水稻蛋白质研究领域的相关文献进行高频关键词图谱(图4)制作及分析,并导出水稻蛋白质研究领域2018—2020年相关文献高频关键词前20位(表2)。
表2 水稻蛋白质领域高频关键词
图4 水稻蛋白质领域相关文献关键词共现图谱
由图4和表2可知,2018—2020年水稻蛋白质领域出现频次较高的关键词为水稻、蛋白质、拟南芥、表达、基因、识别、植物、生长等;且此领域的科学研究大部分集中于水稻蛋白质的识别、基因转录、基因表达方向,且其中研究的蛋白质种类主要为与水稻生长、耐受性、抵抗性、应激性相关的蛋白质。此外,在关键词中不乏质量、产量、积累等词汇,可以得出当下水稻蛋白质研究领域中部分次要研究方向与水稻的种植、生产、优良植株的产量等实际应用方向有关。
分析水稻蛋白质领域的高发文作者可以从一定程度上看出此领域在研究区间内受研究学者的重视程度。表3为从Web of Science数据库中分析得出的2018—2020年水稻蛋白质领域高发文作者排名。Wang J发文量排名第一,为105篇,占2018—2020年相关领域总发文量的1.45%,且在2018—2020年水稻蛋白质领域高发文作者前20名中,发文超过100篇的作者仅Wang J一人,发文量大于90篇的分别是Zhang Y、Wang Y、Li Y,其发文量分别为96、94、92篇;排名前20位的作者中此领域发文最多的作者的发文量大于此领域发文最少作者的2倍,在一定程度上说明水稻蛋白质领域的学者研究进展存在一定差异。但由于Web of Science数据库中存在较多未被认领及同名作者,这对相关领域的作者发文量的相关分析造成一定影响与误差,因此仅能为水稻蛋白质领域的后续研究提供一定参考。
表3 水稻蛋白质领域高发文作者
图5反映了在2018—2020年水稻蛋白质领域作者间合作活跃程度及研究的发展势态。通过设置算法为“TOP 50”以获得大量数据中以每一年为时间单位、每一时间单位中的发文量前50的作者,从而得到2018—2020年水稻蛋白质领域高发文作者合作共现网络图谱。由图5可知,图中中心度最高的作者为Li Jing,中心度高达0.33,说明其在水稻蛋白质领域中与众多作者学术联系较为频繁,其次是Zhang Yu(中心度为0.32)、Yang Jun(中心度为0.3),而图中中心度大于0.1的学者有16位,占图中全部学者的11%,说明2018—2020年水稻蛋白质领域的相关研究学者之间合作密切程度仍存在增长空间,建议增进学者间学术交流,营造良好学术氛围,以期获得更多的研究成果。
图5 水稻蛋白质领域高发文作者合作共现网络图谱
在了解一个领域内的科研水平时,使用文献计量学对该领域内发表的文献的数量和质量进行分析是一个很好的方法,这样就能够较好地把握领域内的研究动态以及水平[14-16]。学者们对于水稻蛋白质进行了很多研究,很多研究成果被发表出来,但还没有学者使用文献计量学的方法对此领域进行研究[16-19]。然而,这种方法在研究时也有一些不足之处,主要体现在检索数据的方式比较单一,在所有的研究数据中传统数据较多等,这些问题的存在会对研究结果的准确性带来一定的影响。基于此,分析相关文献的关键词,通过关键词来分析某一领域的研究热点,展现当前的研究动态,应当成为学者们在今后进行研究时关注的重点[20-23]。
Web of Science数据库收录全球学界影响力比较大的主流期刊,在此数据库内搜索关键词,然后对得到的关键词进行处理,可以有效地了解领域内研究的发展现状[24-25]。本研究基于Web of Science数据库,采用可视化图形软件对2018—2020年发表的关于水稻蛋白质的文献进行分析,展示了近3年全世界科学家们对水稻蛋白质研究的热点和趋势。(1)2018—2020年水稻蛋白质研究领域国家间发文量存在显著差异。中国共发文3778篇排名第一,占此研究领域2018—2020年发文量的一半以上;其次是美国、印度、日本、韩国,且发文量差异较大,一定程度上体现不同国家在此研究领域科研差异和重视程度的不同,也可见中国在水稻蛋白质领域的科学研究进展处于领先地位。(2)2018—2020年水稻蛋白质研究领域高发文机构均来自中国,发文量超过300篇的相关机构为中国科学院、中国农业科学院、南京农业大学,这也再次证实中国对水稻蛋白质领域相关研究的重视程度,而其他国家的相关机构在此领域可能正处于发展中阶段;在机构合作共现网络分析中,中心度最高、与相关机构合作最为密切的机构为国际水稻研究所;其次分别是来自美国的康奈尔大学、来自美国的加州大学戴维斯分校、来自比利时的根特大学,且三者中心度均大于0.07,说明三者近年来在水稻蛋白质研究领域的研究交流频繁;图谱的连接线数目达到2098条也可说明在水稻蛋白质领域各机构积极合作互助,营造了良好科研氛围,学术研究交流密切。(3)从2018—2020年水稻蛋白质领域关键词的频次统计及高频关键词的聚类分析可以发现,水稻蛋白质领域当下研究热点主要集中于影响水稻各个主要生长期生理性能的相关蛋白质的识别、改造,及相关基因的转录、表达、改造方向,其中也不乏对水稻种植、优良品种的选育等环节的优化及蛋白质产物的积累、产出等方面的设计,且由2018—2020年水稻蛋白质领域的关键词图谱及2020年相关领域关键词聚类分析图谱可分析得出,未来水稻蛋白质领域研究热点将继续与此相关。(4)从2018—2020年水稻蛋白质领域高发文作者排名得出Wang J发文量最多,为105篇,其次是Zhang Y、Wang Y、Li Y,一定程度上说明水稻蛋白质领域的学者研究进展存在一定差异,但也由于Web of Science数据库中对同名作者的认领和信息完善还存在缺陷,因此无法辨别较多作者是否为同一作者,因此可能后续还需要在各数据库中进行作者及文献的统计汇总。通过分析作者合作共现网络可以看出,2018—2020年水稻蛋白质领域的相关研究学者之间合作紧密程度仍存在增长空间,建议相关研究学者增进学术交流,营造良好学术氛围,以获得更多的研究成果。
本研究基于Web of Science数据库,虽然很好的了解全世界范围内科学家对水稻蛋白质的研究趋势,但是中国科研工作者大量的研究并未收录到Web of Science数据库中,可能会导致无法准确了解国内科研工作者对于水稻蛋白质的研究趋势,今后将进一步整合Web of Science数据库和CNKI数据库对水稻蛋白质的研究态势进行分析,以获得更加准确的结果。本研究发现,检索词或者检索式对于文章的结果影响是十分重要的,本研究检索式采用rice protein,这可能会导致文献数量过多,使得结果出现偏差。这就需要在分析结果的时候,需要对文献内容进行进一步的筛选,从而使得结果更加准确。本研究针对水稻蛋白质发展态势进行研究,发现国内学者对于水稻蛋白质或者说水稻蛋白质的研究,目前无论从发文量和引用次数来看,在世界上并未处于落后阶段,相反中国学者通过近些年的努力,已经和世界先进国家的研究水平比较接近。但国内还没有该研究领域世界一流的杂志,这是十分遗憾也是影响国内科研进一步提升的一个原因,在目前国家提倡提高科研代表作的政策下,未来提高国内水稻蛋白质研究领域杂志影响力是一个必须要考虑的方面。