中国科学院植物研究所,北京 100093
生物多样性信息学 (Biodiversity Informatics) 指利用信息技术,对生物多样性基本数据 (Primary data)的管理、算法的探究、分析和解释,尤其是在物种水平上的应用。它的内容覆盖了系统学、进化生物学、种群生物学、行为科学,以及从传粉生物学到寄生病和植物社会学的宏生态学等领域和植物社会学的宏生态学等领域[1,2]。它的核心问题是 (1) 回答生物界有什么:主要通过生物物种名录来回答,包括分类学名称的处理及其系统结构,DNA 序列信息,特别是条形码数据,主要用于分类和构建系统树;(2) 在哪里:主要通过标本数字化/地标化、文献数字化、公民科学的观察数据、遥感影像解译出的生态系统/生境结构和分布数据、模型预测的物种潜在分布信息等;(3)怎么样:主要通过在线工具和科学工作流等 eScience平台,实现生物多样性信息整合和深度挖掘,为相关学科的研究人员、决策者和管理者提供服务[3]。
近年来,随着生物信息学的快速发展,生物标本作为生物多样性信息学发展的重要载体,被越来越多的国家和机构重视[4]。各个国家积极推进生物标本数字化[5]。截止 2017 年 5 月底,法国国家自然历史博物馆 600 多万份植物腊叶标本全部数字化;美国国家标本数字化项目已经完成 9975 万份标本的数字化 (https://www.idigbio.org/);澳大利亚生物多样性信息系统 (http://www.ala.org.au/) 具有丰富的信息和良好的用户体验;作为全球最有影响力的生物多样性信息网络 GBIF (http://www.gbif.org/) 已收集 7 亿多物种分布记录,动物分布记录中 11.62% 来自标本,植物分布记录中 34.64% 来自标本。生物标本成为生物分布记录的最重要组成部分。我国从 2003 年开始推进标本数字化工作[6]。
国家标本资源共享平台 (NSII,http://www.nsii.org.cn/) 是生物多样性信息学在我国快速发展的产物。NSII 是国家科技部认定并资助的国内最大的生物多样性数据共享平台,包括植物标本子平台 (http://www.cvh.ac.cn)、动物标本子平台 (http://museum.ioz.ac.cn)、教学标本子平台 (http://mnh.scu.edu.cn)、自然保护区标本子平台 (www.papc.cn)、岩矿化石标本子平台 (http://www.nimrf.net.cn) 和极地标本子平台(http://birds.chinare.org.cn)。NSII 汇集了植物、动物、岩矿化石和极地资源等标本照片、名录、文献和图片信息等,自 2006 年开始陆续建立在线信息共享平台,NSII 网站 2013 年正式上线。NSII 的发展经历了三个阶段:
第一阶段 (2003 年—2008 年) :原始数据积累阶段。NSII 从 2003 年开始建设,初期受到科技部“标本资源的标准化整理、整合与共享平台建设项目”的持续支持。这个阶段主要是以资助项目的形式进行数据搜集和和数据标准化整理。这个阶段资助的项目包括以下几类:名录数据库类、分布数据库类、志书类、野外考察类、基因水平的物种数据库。第一阶段的原始数据积累为以后的发展做好了铺垫。
第二阶段 (2012 年—2016 年) :标本数据快速增长与专题服务共存的阶段。经过 2009—2011 年三年的搁浅后,重新启动的 NSII 不仅有了明确的发展目标:定位生物 (植物、动物、岩矿化石和极地资源) 标本数字化,而且有了完善的团队和专业的网站专人定期整合共享标本数据。这一阶段 NSII 标本数据分门别类的增长迅速。同时因为科技部资金及时到位,在发展标本数字化的同时,六大子平台围绕着标本开展了很多的专题研究。比如珍稀濒危植物专题、濒危兽类专题等。这一阶段标本数据急速增长,与专题服务齐头并进。
第三阶段 (2017年) :数据积累的基础上突出数据共享和专业数据服务。NSII 是生物多样性信息学在我国发展的产物。在高度信息化的今天,面对 NSII如此庞大的标本数据和如此丰富的专题,怎样发挥数字化标本数据的优势,有效发挥其推动科学研究的作用是未来 NSII 发展的重中之重。而这一切的基础,即是标本数据的信息共享。数据共享及针对性的专业数据服务将是这一阶段的主要特征。也将是未来一段时间 NSII 努力的方向。
截止 2016 年 12 月 31 日,NSII 数字化并在线共享标本数据 1264.9 万条。标本类型包括植物、动物、化石、真菌、冰雪样品、矿物、矿石、岩石、沉积物、陨石等标本,数量分布见图 1。目前,我国标本数字化最多的三类标本为植物 (完成数字化 924 万份)、动物 (完成数字化 327 万份)、化石 (完成数字化6 万多份)。由于各类标本的基数和数字化难度不同,数量不能完全反映工作进展情况。
2009—2012 年,因为经费的原因,NSII 数字化暂时停顿几年。总体上来说,NSII 标本数字化过程中,每年的增量均保持在 60 万份左右。2012 年年底,NSII 项目重新启动后,每年的数字化增量平稳上升,但增量的幅度没有 2008 年以前大。主要是因为标本数字化越到后期,标本鉴定等都会影响数字化的速度。2004—2008 年,标本数字化每年的增量起伏变化较大。而 2013—2016 年标本数字化增量维持在一个比较稳定的水平,并且逐渐增长 (图 2)。2012 年年底,NSII 牵头单位中国科学院植物研究所专门成立了NSII 办公室,并与各个子平台一起对标本数字化的数量和质量进行把关。所以近些年的标本增量缓慢,但质量稳步提升。
图1 国家标本资源共享平台 (NSII) 数字化标本分类统计 (截至 2016 年 12 月 31 日)Fig. 1 Classi fi ed statistics of digital spcimen in NSII (As of December, 31st, 2016)
图2 标本数字化数量的年际动态Fig. 2 Interannual dynamics of digital quantity of specimen
NSII 的标本通过六个子平台:植物标本子平台,动物标本子平台,教学标本子平台,自然保护区标本子平台,岩矿化石标本子平台和极地标本子平台组织完成标本数字化,由 NSII 办公室整合汇总后集中在 NSII 网站向用户开放共享。六个子平台2013—2016 年标本数字化总量在逐年增长,个别子平台数量下降 (图 3)。2016 年年标本数字化总量已经达到 75 万份。
动植物标本数字化量在各个省的分布有较大的差异 (图 4),植物标本数据量最多的三个省份是四川 (1446242)、云南 (1126375)、广西 (434206)。动物标本数据量最多的三个省份为云南 (485205)、四川(308825)、广东 (186765)。动植物标本数据基本符合我国生物资源分布的规律。同时也可以看出:我国植物标本数字化的量远远大于动物标本数字化的量。
根据《中国植物志》中的数据,中国维管植物有 301 科,NSII 数字化标本量超过 5 万的科达到 45个,占到植物总科数的 15% (图 5)。蔷薇科标本量超过 60 万份,菊科达到 50 万份,禾本科和豆科的标本数字化量也都超过 40 万份。尽管如此,还需要提高标本数字化总量,使得其他科的标本数量达到一定的水平,为专科专属的研究提供丰富的在线数据。
图4 国家标本资源共享平台数字化标本省际数量分布Fig. 4 Inter provincial quantitative distribution of digital specimens in NSII
NSII 数字化动物标本数据量超过 2 万的科共有38 个 (图 6)。数字化标本数量最多的是鲤科,达到 19万份。但在 38 个科中,其中只有 4 个隶属于硬骨鱼纲,其余 34 个均为昆虫纲。需要加大动物标本的数字化程度。
自 2003 年项目开始以来,先后有 100 多家标本馆和博物馆参与标本数字化工作。经过统计,馆藏标本数字化超过 10 万的标本馆一共 26 个。对这26个标本馆数字化类别进行分析后得知,有 38.5% 属于植物标本馆,15.4% 是动物标本馆 (图 7)。总体上来说,植物标本馆数字化标本较多。应该鼓励更多的动物标本馆/博物馆积极参与,以便加快动物标本数字化的进程。
标本照片不仅可以为分类学研究提供参考,也可以为近年来兴起的基于性状的研究提供难得的材料,包括物种响应气候变化的规律等研究。动植物有图和无图数据量对比中可以发现,植物标本数据 45.8% 的数据有标本照片,动物标本只有 4% 的数据有标本照片 (图 8)。尽管拍摄植物标本的图片比拍摄动物标本容易,但也应该提高所有标本数字化中图片的比例,以便更好地位用户提供服务。
图5 国家标本资源共享平台数字化植物标本数量超过5万份的科Fig. 5 The family with more than 50,000 copies of digital plant specimens in NSII
图6 国家标本资源共享平台数字化动物标本数量超过2万份的科Fig. 6 The family with more than 20,000 copies of digital animal specimens in NSII
图7 数字化标本超过 10 万份的单位 (资料截至 2016 年 12 月 31 日)Fig. 7 The institution with digital specimens that more than 100,000 copies (Data as of December, 31st, 2016)
图8 数字化标本有无图片的数量统计Fig. 8 Quantitative statistics of digital specimens that with or without pictures
对 2013-2015 年的标本数据进行统计发现:这段时间数字化的标本重视拍摄标本图片。其中,植物标本 89.4% 数据有图片,只有 10.6% 的标本数据无图片。动物标本有 52.1% 的数据有图片,47.9% 的数据无图片。
标本信息中明确标注有花的标本 630 900 条,占植物标本总数的 6.8%;有果的标本 449 100 条,占植物标本总数的 4.9%。
截至 2016 年 12 月 31 日,NSII 拥有 12649287条标本信息在线共享。其中 99.3% 的数据有分布信息记录。其中,94.4% 的数据到省级分布,65.2% 的数据分布信息到县级,66.2% 的数据有小地名。
为了实现此目标,NSII 从 2017 年开始,尝试开放科属专家审核数据机制,提倡科属专家及区域专家对某些科属或某个地区的标本数据进行学名和分布地信息的审核 (http://www.nsii.org.cn/2017/wikilet.php?w=@DBReview)。并定期返回审核结果,在 NSII网页上以数据集的方式发布。同时鼓励和提倡专家借助审核过的标本数据发表论文。逐步建设开放式国家标本资源信息网络,改进平台的工作模式。
标本的分布信息字段是标本采集信息中关键的字段之一,根据标本上记录的具体分布信息,将其地标化,为科学研究提供更为方便和准确的数据资料,是NSII 整理数据的重中之重。NSII 将进一步组织人力推动标本地标化工作。
1200 多万份十大类的标本,如何盘活存量资源,让它们有效地为科研工作者和大众服务,是 NSII面临的一个大的课题。NSII 需要不断地统筹数据,加强不同数据集之间的高度整合与关联。同时从用户需求出发,以数字化标本资源为核心,重点推出特色专题数据库,从而提高用户体验。
近年来, 生物多样性信息学快速发展, 全球和区域水平的生物多样性数据库不断建立和完善。标本数据作为生物多样性数据库中重要的组成部分,应该走出国门,与国际接轨。比如可以加强与全球生物多样性信息网络 (GBIF)、澳大利亚生物多样性信息系统(ALA)、美国标本数字化平台 (iDigBio) 等的合作,进一步提高 NSII 的国际化水平,支撑我国一带一路等国际战略的实施。
[1]王利松, 陈彬, 纪力强等. 生物多样性信息学研究进展[J], 生物多样性. 2010, 18(5): 429-443.
[2]Soberon J, Peterson T.Biodiversity informatics: managing and applying primary biodiversity data [J]. Philosophical Transactions of the Royal Society B: Biological Sciences,2004, 359, 689-698.
[3]马克平. 生物多样性信息学在中国快速发展. 生物多样性 [J], 2014. 22: 251-252.
[4]Johnson NF .Biodiversity Informatics [J]. Annual Review ofEntomology, 2007, 52, 421-438.
[5]Beaman RS, N Cellinese. Mass digitization of scientific collections: New opportunities to transform the use of biological specimens and underwrite biodiversity science.ZooKeys, 2012, 209: 7-17.
[6]马克平, 娄治平, 苏荣辉. 中国科学院生物多样性研究回顾与展望 [J]. 中国科学院院刊. 2010. 25: 634-644.