基于千万标本记录的 NSII 发展方向的探索

2018-05-20 06:56肖翠李明媛叶芳范明雪杨灵范雪马克平
数据与计算发展前沿 2018年5期
关键词:彩色照片名录物种

肖翠,李明媛,叶芳,范明雪,杨灵,范雪,马克平*

1.中国科学院植物研究所,北京 100093

2.安徽农业大学资源与环境学院,安徽 合肥,230031

引言

在信息化如此发达的今天,原始数据是推动各行各业智能化发展的基石。植物标本对于分类学、生态学、博物学等学科发展有着举足轻重的作用。而标本数字化打破了实体标本的诸多不便,使植物标本更好的服务科研。标本数字化、数字照片 (即彩色照片)、文献志书数字化等都是信息化的产品[1]。

国家标本资源共享平台 (NSII,http://www.nsii.org.cn/) 是国家科技部科技基础条件平台之一,立足于我国生物标本数字化及其衍生数据建设工作,是我国最大的生物标本数据共享平台。2003年NSII 以专题的形式开始建设,2012年作为大平台步入正轨,经过原始数据积累 (2003年-2008年)、标本数字化数据快速增长与专题服务并存 (2008年-2015年)、数据建设基础上突出数据共享与服务 (2016年-今) 三个阶段历时 15年的发展,截止 2018年年底,NSII 已经成为拥有超过 1400 条标本记录,580 多万标本照片,近 200 个不同类型的专题的数字化标本数据共享平台[2]。

国家标本资源共享平台下设植物标本、动物标本、教学标本、保护区标本、岩矿化石标本和极地标本等 6 个子平台。2018年8月,国家科技部科技基础条件平台对原有的数据平台结构做调整,经过多轮调研和专家论证后,动物子平台、岩矿化石子平台从国家标本资源共享平台分离出去,分别成长为国家动物标本馆和国家岩矿化石标本馆,其余 4 个子平台仍然留在原平台改名为国家植物标本馆,重心转移至实体标本馆。平台重新调整后,原国家标本资源共享平台 15年积攒的数据状况如何,基于多年积攒的数据还需要做哪些工作,国家标本资源共享平台将何去何从?这些问题都亟需梳理。

1 NSII 数据现状

1.1 标本数字化总量

截止 2018年8月15日,NSII数字化并上线共享标本数据 1427.3 万条。标本类型包括植物、动物、化石、真菌、冰雪样品、矿物、岩石、沉积物、陨石等,详细数量见图 1。目前,我国数字化量最多的标本类型为植物 (数字化量超过 1000 万份)、动物 (完成数字化 368 万份)、化石 (完成数字化量 7.9 万份)。平台调整后,数据在NSII平台可以继续增量的类型为植物标本,其余标本的共享将不在NSII有所体现。

1.2 标本数字化增量建设

2013-2019年,标本数字化的量在逐年增加,特别是近两年,增加标本数字化量是 NSII 的重中之重。2018年正在承担的数字化量为 82.8 万,2019年计划量已经超过 110 万 (图 2)。NSII鼓励有标本存量的单位,积极推进 NSII 体系,扩大平台数据积累,完成“大数据”的原始集成。重点支持馆藏量大、具有优质或特色标本资源但数字化较少的标本馆[3]。

1.3 数字化薄弱标本馆

截止 2018年10月1日,NSII 的数字化标本量已经超过 1400 万,其中植物数字化标本量超过 1000 万。根据纽约植物园对中国标本馆馆藏量的统计显示,中国 329 家标本馆馆藏量为 1868 万,目前 NSII 已经完成数字化的标本量为 740 万,占所有馆藏量的 39.6% (图 3),仍有 1128 万没有数字化 (附录 1)。

1.4 植物标本照片现状分析

标本数字化包括两方面内容:标本标签信息的数字化与标本拍照。标签信息数字化是为了记录采集信息,建立数据库;标本拍照是方便不同人在不同地点远距离查阅标本。标本拍照是标本数字化的核心工作。但由于设备、技术等种种原因,在起初的数字化过程中并没有对所有标本进行拍照。用最新出版的《中国生物物种名录》 (物种总数为 42958 种) 与 NSII 现有的数据进行匹配后,发现 12698 种物种仍然没有数字化的标本照片 (图 4)。有标本照片的物种,照片数量和质量悬殊较大。

图1 国家标本资源共享平台 (NSII) 数字化标本分类统计 (截止 2018年8月15日)Fig.1 Classified statistics of digital specimen in NSII (As of August, 15th, 2018)

图2 标本数字化数量的年际增量 (截止 2018.5.7)Fig.2 Interannual dynamics of Digital quantity of specimen (As of May, 7th, 2018)

1.4.1 植物标本照片数量统计

植物标本照片 100 张以下的数量最多,高达 23291 种;其次是没有标本照片的植物有 12698 种;照片数量在 500-1000、1000-2000、2000-3000 的物种数量分别为 1071 种、578 种、138 种;标本照片多于 3000 张的物种有 6 种,分别是:油茶 Camellia oleifera (3180 张)、珠芽蓼 Polygonum viviparum (3157 张)、藜 Chenopodium album (3123 张)、鱼腥草Houttuynia cordata (3100 张)、龙牙草 Agrimonia pilosa (3046 张)、萹蓄 Polygonum aviculare (3003 张)。 (图 5)

图3 NSII 已数字化标本量占馆藏量的比例的标本馆的数量统计Fig.3 The number of Herbariums about the proportion of digitized specimens number to the collection amount in NSII

图4 国家标本资源共享平台数字化植物标本照片数量统计Fig.4 The number of photos of digital plant specimens in NSII

1.4.2 无标本照片植物的科属统计

无标本照片的植物物种涉及 328 科,1291 属。(http://www.nsii.org.cn/2017/wikilet.php?w= NSIIEvents_2018034)

1.4.3 无标本照片植物的省份统计

全国各个省份均有数字化不到位的物种 (图 6),每个省份标本数字化了但没有标本照片的物种数不同。其中云南、贵州、四川、新疆和西藏数字化了标本记录,但没有标本照片的物种数分别是 8016 种、6684 种、5280 种、2405 种和 1921 种。这与各个省份标本数字化量、各省的植物种类的结果一致。植物种类越多、数字化的越多,信息的不完整性也相对较多。

1.5 植物彩色照片现状分析

由 NSII 资助的中国自然标本馆 (CFH,http://www.cfh.ac.cn/) 是我国植物彩色照片数量最多的网站,截止 2018年8月15日,CFH 照片数量已经超过 1000 万张,并且照片量每天以上千张的速度增长。用《中国生物物种名录》 (物种总数为 42958 种) 与 CFH 物种的彩色照片名录匹配后,发现没有照片记录的物种有 21136 种,约占物种总数的 50.7%;有彩色照片记录的物种占 49.3%,其中照片数量在2000张以下的物种有 21601 种,照片数超过 2000 张的物种有 224 种 (图 7)。

图5 国家标本资源共享平台数字化植物标本照片数量范围统计Fig.5 The range of photos of digital plant specimens in NSII

图6 国家标本资源共享平台无标本照片的数字化标本省际数量分布Fig.6 Inter provincial quantitative distribution of digital specimens without photos in NSII

图7 国家标本资源共享平台植物彩色照片数量统计Fig.7 The number of chromo photographs of plant specimens in NSII

1.5.1 植物标本照片数量统计

在 CFH 网站上,仍有 35% 的植物物种没有彩色照片。照片数量在 0-100 的物种有 14809 种;照片数量在 100-500 的物种有 4759 种;照片数量在 500-1000 的物种有 1291 种;照片数量在 1000-2000、2000-3000、3000-8000 的物种数分别是 742 种、167 种、55 种。莲 Nelumbo nucifera (8476 种) 和菊 Chrysanthemum morifolium (8222 种) 的照片数量都超过 8000 张 (图 8)。

1.5.2 无标本照片植物的科属统计

无标本照片的植物物种涉及 394 科 (图 9)。其中缺少彩色照片最多的科依次是禾本科 (1333 种)、豆科 (1298 种)、菊科 (1149 种)、蔷薇科 (884 种)、毛茛科 (751) 种。在智能化如此普及的现代,仍然有 2 万多种植物彩色照片需要拍摄与整合。只有将分散的资源集合在一个平台上,才能更好地服务科研和科普。

杜鹃花属 (362 种)、马先蒿属 (321 种)、楼梯草属 (294 种) 是缺失照片最多的 5 个属。在后期的建设中,应该加大拍摄力度。

1.5.3 植物彩色照片省份统计

植物彩色照片种类和数量在各个省份表现出较大的差异。彩色照片数量最多的三个省份依次是云南 (5970),四川 (4234),福建 (3397)(图 11)。彩色照片收集量在地理上处于不均衡状态。西南地区的云南、四川因为山脉较多,物种相对比较丰富,科研人员的访问量大,进而带动积攒的照片较多。同时与当地人对于本地资源的电子采集能力与宣传力度有关。

图8 国家标本资源共享平台数字化植物彩色照片数量范围统计Fig.8 The range of color photographs of digital plant specimens in NSII

图9 CFH 网站无彩色照片的物种科的统计 (由多到少,排名前 20 个科)Fig.9 Statistics of species families without color photographs from CFH (from top to bottom, top 20 families)

图10 CFH 网站无彩色照片的物种属的统计 (由多到少,排名前 20 个科)Fig.10 Statistics of species without color photographs from CFH (from top to bottom, top 20 families)

图11 国家标本资源共享平台数字化的植物彩色照片省际数量分布Fig.11 Inter provincial quantitative distribution of the color photographs of digital specimens in NSII

1.6 植物志书的现状

植物志书数字化为科研人员提供诸多便利。志书数字化也是 NSII 过去十几年一项重要的工作。NSII 数字化的志书都是正式出版物,有900多本志书,包括植物志、物种名录、科考报告、植物图谱等 (图 12)。在已出版的志书中,植物志和植物图谱的数量较多,并且近几年植物图谱的数量呈现不断上升的趋势。植物图谱数量的增多与社会发展紧密相关。随着科学技术的发展,相机的普及及像素的提高,植物图片质量越来越高,植物学家和爱好者更加倾向用图片的形式记录植物的形态和特征。同时人们在学习了解的过程中已经不满足于单纯的文字描述,更愿意以直观的图片感受,配以适当简洁的文字去认识一种植物,这样的效果更加有效、有趣。所以需求的改变推动了志书类型的转变,让植物图谱得到了更大的发展动力。

图12 国家标本资源共享平台已出版植物志书类型统计Fig.12 The types of the published f loras in NSII

2 NSII 正在推进的项目

NSII 坚持以数据建设为核心,以多方式、多角度、多单位联合完善和建设数据。包括数据清理计划、数据的查缺补漏、校园网、省级植物数字标本馆等,从不同的角度完善 NSII 数据网。

2.1 数据质量建设 (以植物数据为例)

2.1.1 数据清理计划 (http://www.nsii.org.cn/2017/wikilet.php?w=@DBReview)

鼓励具有专业能力的单位或专家积极参与已有数字化标本的审核清理,可以审核类群标本数据集、区域标本数据集,重点审核标本名称、采集信息和标本图片等信息,形成新的数据集,供用户使用。

2.1.2 数据的查缺补漏

数据是 NSII 的血液,在加强数字化增量建设的同时,NSII 注重采用多手段、多角度、多渠道完善已有数据。以植物数据为例,NSII 以已经出版的《中国生物物种名录》为标准,建立《NSII 植物名录标准库》,逐一审查每个物种的描述信息,标本记录,标本照片,彩色照片等信息。确保 42957 种植物的数据完整性。

表1 硕博论文中提取的词表数据Table 1 Vocabulary data extracted from professional papers

表2 1000 篇硕博论文组成的基础数据库Table 2 Basic databases composed of 1000 professional papers

物种描述字段采用 NSII 数据与《中国植物志》、FOC 进行匹配,配完后仍然没有描述的字段,再从地方植物志、物种发表的原始文献等渠道搜索描述;NSII 的标本照片、彩色照片等以公开认领的方式,大量宣传,鼓励更多有资源的用户在 NSII 平台共享数据。

2.2 数据类型建设

NSII 的数据类型包括植物、动物、化石、岩石、矿石、矿物、陨石、沉积物、冰雪样品和真菌等标本记录,标本照片,彩色照片等。动植物模式标本、保护区物种名录、保护区数字标本 (彩色照片)、保护区边界、植物的精细解剖等数据类型也逐渐纳入 NSII 数据建设行列。

2.3 NSII 项目网建设

NSII 由中国科学院植物研究所牵头,下设植物标本、动物标本、教学标本、保护区标本、岩矿化石标本和极地标本 6 个子平台,共有 196 家参建单位。目前 NSII 的体系是参建单位-子平台-总平台的模式运行。为了建设 NSII 大网络,多渠道聚焦 NSII。NSII 以明星专题的形式推动NSII大网络建设。

2.3.1 省级数字标本馆 (PVH)

省级数字标本馆 Province Virtual Herbarium (简称PVH) 是 NSII 创建,基于 NSII 已有的标本数据,以各省植物分类学专家团队维护的省级最新植物名录为基础,集成 NSII 历史标本,省内各项目的新增标本、野外考察图片、文献与专著、在线植物志、植物科普知识等信息为一体的在线标本馆。

PVH 的建设方案如下:以省份为节点,在 NSII 已有数据基础上,以各省植物志为基础,通过照片、文献、志书等资料,形成各省植物名录[3]。以比较完善的名录为标准,完成名录中每个物种的标本照片、凭证标本号与保存的标本馆、彩色照片、县级分布点、形态描述、文献记载记录 (研究历史评述)、模式标本标注、保护利用分析等信息,进而完成对应的《省维管植物名录》、《省维管植物县级分布数据库》,最终汇集成省级数字植物标本馆 (包括整合后的名录信息、省级标本分布凭证信息、县级分布信息、彩色照片信息、文献信息、新物种、物种记录信息) 。PVH 是各省纸质植物志的一个补充,是推动我国市县级植物志产生的数据基础,为生物多样性保护和利用提供了丰富可靠的信息。上海、天津、福建、江西、江苏已经加入 PVH。NSII 网站已经初步搭建了 PVH 的示范平台 (上海数字植物标本馆) 。

2.3.2 校园网

大学校园作为城市生态系统的重要组成部分,校园网旨在通过补充和完善全国不同地区大学校园的植物物种信息和分布点,丰富 NSII 的数据内容,形成规范化、可持续地汇聚以校园植物物种多样性数据为起点的全国性标本资源校园网体系[4-5]。校园网从校园植物名录、物种彩色照片、物种标本照片、物种在校园中分布可视化定位展示、物种科普和科研推文等方面入手,紧紧围绕物种数据这条主线,在数据建设方面开展工作。2017年有 10 个高校参与校园网建设,2018-2019年有 21 个高校进入校园网网络。

2.3.3 NSII 保护地网络

此网络旨在以单个保护地为节点,建立保护地的建设规范,重点实现单个保护地天-空-地一体化监测多源数据集的整合和展示发布,形成单个保护地节点的建设示范,逐步推进形成 NSII 保护地数据网络。

天-空-地一体化监测多源数据集包括:卫星遥感数据、土地利用数据、高精度无人机低空遥感正射影像、地面调查监测数据 (植被类型、环境监测数据、样方调查数据、动植物名录、物种彩色照片、红外相机数据、标本数据) 等,多数据源在 NSII 实现集成整合并展示。保护地网络现在处于示范的建设阶段 (贵州赤水桫椤保护区示范)。

2.3.4 数据建设示范探索:从硕博论文中挖掘数据

当今主流生物多样性数据库中,无论是 GBIF (the Global Biodiversity Information Facility) 的数据库,还是在 MOL (Map of Life) 项目,文献数据一直是一个重要的数据源。文献因为经过专业出版,认可度很高。但在中国,文献的作用还远远没有发挥出来,主要原因在于文献中的数据没有很好的数字化和结构化,无法直接调用[3]。NSII 为了从文献中挖掘数据,以 1000 篇硕博论文为材料,探索文献资源对 NSII 数据的贡献。经过初步探索,从 1000 篇生物多样性相关的硕博论文中提取 352645 条名录-页码数据记录。此探索为 NSII 从文献志书中提取物种分布数据奠定基础[1]。

3 关于平台调整后 NSII 发展的几点思考

为了更好的发展标本对科学的作用,国家的政策倾向于实体标本馆,而标本数字化和数据积攒了 15年的 NSII 仍然需要坚定目标,继续标本数字化事业,只有高度融合和精准无误的数据才能更好服务科研。

3.1 进一步整合数字化标本资源

在已有 1400 万份标本资源数字化信息的基础上,进一步整合信息资源。主要通过:1) 与国家动物标本馆、国家植物标本馆等实体库馆实现信息及时共享,扩大数字化标本资源;2) 通过整合在线的国内外数字化标本资源,如全球生物多样性信息学网络 (GBIF)、法国自然理事博物馆等可以在线共享的资源,目标是逐步建立亚洲数字植物标本馆 (Asia Virtual Herbarium)[5]。

3.2 深入清理数据,有效推动数据服务

在过去的 15年中,NSII 联合 200 多家单位数字化标本 1400 多万份,急需深入清理。特别是对于历史年代,数据不全,或存在错误的数据,通过专家审核,专人负责,逐条核对,批量审查等多种方式进行清理和校对,保证数据库的准确度,进而使数据库能够更有效地服务科研,科普教育和国家决策。首先清理的重点是物种名和分布信息。

3.3 盘活存量,打造更多的数据产品

优先建设:1) 植物物种信息库,以物种名为关键字段,整合已有的描述信息、标本信息、彩色照片、文献资料,形成物种信息库;2) 建设省级数字植物标本馆网络,首先整理完善省级植物名录,然后从 NSII 平台提取标本、彩色照片、志书和分布信息,建立省级植物标本馆。2018年有江西等 5 省在试点,逐年拓展,最后形成覆盖全国的省级植物标本馆网络;3) 全国大学校园植物信息网,以高校的生物学教师和学生为主,梳理和建设各个高校及所在地区的校园和实习基地植物信息库。2018年有 10 所高校参加试点,以后逐年拓展,形成覆盖全国的网络体系;4) 生物多样性文献数据库[7-8],数字化植物志、动物志等文献信息,从文献资料中挖掘植物物种信息。目前已经数字化2万册图书,正在逐年拓展[6]。

3.4 提升可视化水平,加强数据深度挖掘

优化网络展示,提高用户体验。开发一批面向科研和公众的工具和应用软件包,实现数字化标本数据的在线挖掘与分析共享[4]:通过地理信息系统等空间环境图层的整合和展示,为生物资源的保护与利用提供科学支持,为科普教育提供平台和工具,不断提高用户体验和服务水平。

附录 我国主要的标本馆馆藏量及数字化标本量统计Appendix China's main library collection and digital specimer volume statistics

续表

续表

续表

续表

续表

续表

续表

续表

续表

猜你喜欢
彩色照片名录物种
2022.3上榜派出所名录
遗憾的大熊猫
遗憾的大熊猫
回首2018,这些新物种值得关注
为什么彩色照片时间久了会褪色?
同贺名录
电咖再造新物种
作者名录
黑白摄影之独特的无色之美
生产商名录