植物标本资源共享平台与标本数字化能力建设

2017-03-07 00:12刘慧圆覃海宁李敏
数据与计算发展前沿 2017年4期
关键词:标本数据库数字化

刘慧圆,覃海宁,李敏

1. 中国科学院植物研究所系统与进化植物学国家重点实验室,北京 100093 2. 北京师范大学生命科学学院,北京 100085

引言

植物标本承载着大量的植物信息以及生境信息,记录生物多样性的档案,人类分类调查资源研究活动的百科全书,是植物学等专业研究工作非常重要的科研基础,也是许多决策部门制定规章制度的凭证依据。植物标本的采集和存放具有很大的分散性。在过去,相关人员如果想查看标本就需要亲自到各个存放的标本馆去借阅,不仅需要奔波多处还要花费较久的时间和大量的经费。随着生物多样性信息学的崛起,植物标本信息也加入到数字化信息化的行列中,使得许多植物学家、植物爱好者以及学生们可以免去长途跋涉的辛劳,也减缓了植物标本的损耗。同时以电子数据形式存储植物标本资料,使标本资料与标本实体分离,加上相应的查询系统,是使植物标本得到充分有效利用的途径[1]。

植物标本资源共享平台是“国家标本资源共享平台,简称 NSII”主要子平台之一,始建于 2004年,2006 年后由科技部设立的“国家科技基础条件平台”项目资助而正式建立网站上线。其宗旨是组织中科院系统及其他科研院所、博物馆和植物园 (近年来也吸收部分大专院校) 承担国家植物标本数字化任务,并通过“中国数字植物标本馆” (Chinese Virtual Herbarium,简称 CVH,网址:www.cvh.ac.cn) 网站提供数据查询和数据共享服务。为方便用户使用标本信息,“中国数字植物标本馆”网站还提供其他大量相关的 (植物学) 数据库,如标本采集地名与标本馆数据、分类研究人员及其研究论文题录等。这些数据库或源自实际工作经验的总结、或直接转自权威工具书并经过专家审核。植物子平台在 10 年来的稳步发展中,集中了我国最优质的标本资源和分类学人力资源,是我国资源量最大的植物标本信息共享平台。

1 平台发展情况

1.1 平台的系统建设情况

CVH 自 2006 年建立以来,主要经历四个大的发展阶段,如表 1 所示。经过十年来的发展建设,CVH逐渐从最初的简单的数据汇总、对数据的标准和规范,过渡到了现今的建立在 e-Science 平台基础上的标本信息整合服务阶段。目前,CVH 定位于以植物标本资源共享服务为核心,注重打造以标本数据为核心,通过名录、图片、文献、地标等模块建设,提供植物标本 (物种) 信息的整合服务。

1.2 平台网站的访问情况

CVH 自 2006 年正式上线以来 (见图 1),数次进行升级改版,在增加数据量的同时,着重提高用户体验及数据的深度使用,包括提供多通道查询浏览各个主体数据库,以及对主体库之间的交叉检索功能和对标本信息提供精准的高级查询等。

从 2010 年以来,CVH 总用户数达到 161 万,日均访问 IP 稳定在 2 万以上。2016 年度总访问量达141 万次,访问人数达 28 万人,访问页面数达1.5亿次,数据传输量达 1.23T,网站注册用户数达 1700人。CVH 已经成为国内外同行认知度越来越高的专业网站,成为国内生物多样性信息共享的一面旗帜。我国学者杨亲二教授认为“ (CVH) 这一项目的完成对我国植物分类学及其相关领域如生物多样性保护和利用的贡献完全堪与《中国植物志》和“青藏高原横断山区综合科学考察”等项目媲美,价值不可估量”。“生物多样性公约 (CBD)”和中国政府把“中国数字植物标本馆 (CVH)”列为践行“全球植物保护战略 (GSPC)”目标的重要举措之一。表 2 和图 2-3为 CVH 近 5 年来的访问量情况及趋势 (其中 2012、2014 和 2016 各经过一次网站改版) 。

表1 CVH 主要发展阶段Table 1 Major stage of development of CVH

1.3 平台资源

根据科技部平台中心要求和“国家标本资源共享平台”部署,结合我国植物标本馆藏特点,CVH 积极有序地组织推进各个单位、各类标本的数字化进程。截止到 2016 年底,CVH 资源总量达 11.5TB,共完成 680 万份植物标本 (包括 476 万幅照片) 标准化整理与数字化表达,共享了超过三分之一的全国植物标本量;组织专业人员创制或数字化了全国及省市志书、野外生境照片、植物名词术语、电子检索表、标本馆索引、专家人名录以及各类植物名录等 30 余个专题数据库,有力地辅助用户对标本信息源的使用。CVH是目前全国植物标本数据共享的权威网络平台。

图1 中国数字植物标本馆网站首页Fig. 1 Homepage of CVH

表2 CVH 近 5 年的访问量情况 (数据来源:科技部条件平台中心)Table 2 Visits of CVH in recent 5 years(Data source: National Science & technology infrastructure)

图2 CVH 近五年访问量趋势Fig. 2 Visiting trends of CVH in recent 5 years

图3 CVH 近五年年数据量增长趋势Fig. 3 Growth trends of data amount of CVH in recent 5 years

1.3.1 普通标本

在进行植物标本数字化的过程中,CVH 要求每份标本要采集的信息包括标签信息及图像信息,前者包括标本采集人、采集日期、地点、生境与海拔以及鉴定信息和标本存放地点 (标本馆) 等。后者要求每份标本至少拍摄一张数码相片,相片的质量要求清晰(包括所照的植物体和标本上的标签),大小要求覆盖整份标本 (图 4)。

图4 CVH 数字化标本 (标本来自 KUN)Fig. 4 Digital spcimen in CVH (form KUN)

截止 2016 年底,CVH 共完成 670 万份普通植物标本 (包括 473 万幅照片) 的标准化整理与数字化表达(表 3)。

1.3.2 模式标本

模式标本是一种植物学名的凭证,对名称的稳定意义重大,在分类学研究中有着不可替代的价值[2]。CVH 目前共有数字化的中国植物模式标本37635 份 (图 5)。其中提供模式标本的国内单位全部来自中科院系统,共获取 27635 份,239 科 1497 属10793 种。并通过共享方式,获得海外中国植物模式标本 10000 余份,包括台湾大学 (TAI) 馆藏模式标本

991 份和美国哈佛大学 (HUH) 馆藏中国植物模式标本9595 份 (图 6)。

表3 2016 年 CVH 各馆标本数量Table 3 Number of specimen in CVH sorted by herbaria in 2016

续表

图5 数字化的模式标本照片 (标本来自 PE)Fig. 5 Digital type specimen in CVH (from PE)

图6 CVH 已数字化的模式标本馆藏分布Fig. 6 Digital type specimen in CVH sorted by herbaria

1.3.3 中国 (地方) 植物志数据库

1.3.3.1 《中国植物志》数据库

包括全套《中国植物志》79 卷 (除第一卷外) 125册图书的 PDF 文件,可通过科名和植物名称 (学名、中名) 查询到志书文字及图版。最近完成的检索文件复核补充工作使数据库更全面准确地反映植物志的内容,除正名 (accepted name) 外,讨论部分的学名也可查到。数据库记录数:45000 余条。

1.3.3.2 地方植物志及其统一查询

提供 17 套地方志的数字化文挡 (PDF 文件),可通过统一关联查询任何植物志信息,包括西藏、秦岭、辽宁、贵州、浙江、海南等省 (区/市) 及地区植物志。下阶段计划实现《中国植物志》与地方植物志的关联查询。数据库记录数:47112 条。

1.3.4 相关数据资源

为方便用户使用标本信息,“中国数字植物标本馆”网站除了开辟特色专题外,还提供其他大量相关的 (植物学) 数据库,如标本采集地名与标本馆数据、分类研究人员及其研究论文题录等。这些专题及数据库或源自实际工作经验的总结、或直接转自权威工具书并经过专家审核。

1.3.4.1 特色专题

CVH 设有特色专题 4 个,分别是苔藓植物专题、蕨类植物专题和珍稀濒危植物专题和电子检索表。

苔藓植物专题:提供中国苔藓植物志、中国苔藓植物名录、名词解释、苔藓植物照片及苔藓标本照片、专家介绍等相关资料,利于专门用户查访。

蕨类植物专题:提供中国蕨类植物名录、植物志、名词解释、植物照片、专家介绍及学科通讯等相关资料,利于专门用户查访。

珍稀濒危植物专题:提供中国珍稀濒危植物名录及每个物种的濒危等级、形态特征、地理分布、功能用途,与标本数据和彩色照片相关联,并提供地理分布图。

电子检索表:通过在线多通道检索来进行植物的鉴定工作。它是系统植物学、生物编目与保护的一种非常好的鉴定工具。本检索表提供检索中国种子植物200 个大属约一万种的电子路径。

1.3.4.2 其他植物学数据库

同时在 CVH 上还可以查询到其他相关的植物学数据库,包括:《中国高等植物图鉴》数据库 ;“三种主要志书属名数据库” ;植物名称及分布数据库;植物名称作者 (命名人);中国植物分类学文献要览 (1949-1990);标本采集地新旧地名对照数据库;中国植物标本馆数据库;秦仁昌拍摄模式标本照片集等十余个重要的数据库资源。

1.4 平台参建单位

平台的规模逐渐壮大之后,CVH 在运行管理方面也组织各参建单位经过多次研讨,并拟定了《中国数字植物标本馆 (CVH) 数据共享管理暂行条例》,不仅对数据的管理和共享有了明确的规定,还明确了各成员馆负责人的权利和义务。同时 CVH 为了更好的向用户提供服务,还形成了包含决策、咨询、监督、运行等机构的一整套运行管理服务模式。

CVH 截至 2016 年,共有参建单位 75 家,76 个植物标本馆,遍布全国 27 个省市自治区。这些标本馆总馆藏量约 1440 万份,模式标本 5.8 万份,分别占全国总量的 67% 和 80%。其中来自中科院系统的标本馆有 16 家,来自地方院所园馆的标本馆有 19家,来自大专院校的标本馆有 41 家 (见图 7)。成员馆中不仅包含了 1905 年建馆的中国第一家植物标本馆——北京大学生科院植物标本馆 (PEY,原北京大学植物标本室),还有其他老标本馆如北京师范大学生命科学学院植物标本室 (BNU,原京师大学堂师范馆,1916 年建馆),中山大学植物标本馆 (SYS,原私立岭南大学自然历史博物馆的植物标本室于 1916年归并入岭南大学标本室 (LU)) 和重庆自然博物馆(CQNM,原西部科学院,1936 年建馆) 等 20 世纪初建立的近 30 家老标本馆。从馆藏的标本类型来看,保存木本植物标本馆 9 家,药用植物标本馆 11 家。其中 2016 年新参加标本数字化的药用标本大都是参加第四次全国中草药普查的新采的标本。

图7 植物子平台参建单位组成Fig. 7 Component of Participating Herbarium in CVH

1.5 平台科研支撑

自 2006-2016 年间,随着专业数据的积累和用户的反馈,使用 CVH 数据的相关科研项目包括国家自然科学基金国家科技基础条件平台项目、国家环保公益性行业科研专项、美国自然科学基金项目等多项基金项目。标本资源信息支撑了 17 部专著,近 600篇科研论文的发表。支持线下数据申请,仅 2014-2016 年间共发出 50 笔约 100 万条数据,支撑了 4 个973 项目,累计 129 个科技计划项目。

科研成果主要应用于三峡水淹区多样性调查、濒危物种评估、保护区的有效性、环境评估、入侵种预测、气候变化、国家重点野生植物分布、中医药植物分析等多领域,这里仅列举其中的一部分成果:陈立立 (2008)[4]等人则利用 CVH 及教学标本平台上的数据,分析了喜旱莲子草 (Alternanthera philoxeroides) 在中国的入侵和扩散动态及其潜在分布区预测。Ting-Ting Meng (2009) 等人利用 CVH上植物志上的物种形态特征数据,结合其他相关信息对中国北方地区的植物形态特征和气候过渡性进行了分析。黄林芳 (2010)[7]等人利用 CVH 及其他相关平台上的锁阳(Cynomorium songaricum) 标本数据,运用 ArcGIS 技术平台,从气候、土壤、地形数据库中提取了各采样点的生态因子,得出锁阳适宜生态因子范围,利用中药材产地适宜性分析系统 (TCMGIS) 对锁阳在中国的产地适宜性进行多因子的空间分析。王利松 (2012)[3]等人利用标本馆及CVH 的标本信息,根据物种分布区、占有面积、亚居群数及分布点数目等量化参数,按照 IUCN 濒危等级和标准,对囊瓣芹属(Pternopetalum) 6 个种的受威胁程度进行了评估。阳文静 (2013)[5]等人利用CVH 及教学和保护区标本平台的数据,分析了中国植物采集的地理偏差及其对生物多样性格局分析的影响。张银波 (2014)[9]等基于 CVH 标本数据结合气候土壤等因子,基于物种分布模型,对气候变化对中国受保护植物的影响进行了评估;赵莉娜 (2015)[10]等人基于 CVH 标本信息及中国高等植物红色名录,运用 GIS 技术分析对中国高等植物濒危现状及生物多样性一致性和热点进行了分析。张明刚 (2016)[11]等人利用 CVH 标本数据,利用物种分布模型勾画了中国植物丰富度模型和中国植物地理格局。

2 平台标本数字化能力建设

平台在标本数字化工作中经过多年的积累,无论是针对标本信息的录入还是拍摄都形成了一套完整的标本数字化工作的标准流程,对全国的植物标本数字化工作起着重要的指导和规范作用。平台不仅在技术规范方面集合参建单位的新生力量,制作并发布了一系列的指南文件,还不定期的举办全国范围的标本数字化技术培训班,向全国的标本馆技术人员以及植物学爱好者提供技术支持和指导规范。同时,平台还自主研发设计了标本数据的录入软件、标本照片采集的扫描仪支架,以及苔藓标本影像采集系统 (图 8)。

2.1 技术规范及工具软件

由于参建单位的各个标本馆的技术人员的水平参差不齐,负责数字化工作的人员流动性也较大,平台为了规范标本数字化工作,同时减少沟通的环节和成本,特联合中国科学院昆明植物研究所、北京大学以及贵州大学的工作人员和博士生来进行项目拍摄指南的撰写。 《植物标本子平台暨中国数字植物标本馆标本数字化流程及技术指南》包括4个部分,分别为“总论”——介绍标本数字化的工作流程、标本影像验收标准、标本影像制作指南;“标本扫描技术指南”——介绍硬件设备和软件清单、设备安装步骤、扫描参数设置、扫描及注意事项;“标本摄影技术指南”——介绍摄影硬件设备、软件环境清单、设备安装、设备调试及参数设置、设备推荐和常见标本照片质量问题解答;“录入软件及使用手册”——介绍标本数据录入软件的使用方法。还拍摄了腊叶标本数字化技术指南的视频,方便用户在线观看学习。

图8 标本数据录入软件 GINKGO-SFig. 8 Specimen data entry software GINKGO-S

2.2 技术培训

为了规范标本数字化流程以及解决各参建单位标本数字化人员工作中遇到的诸多问题,应广大参建单位标本馆工作人员的要求,平台于 2013、2014、2015 共举办了三次全国范围的植物标本数字化技术培训班。共有来自全国中科院系统、大专院校及其他各类研究所及博物馆共 60 家单位,118 位人员参加培训 (图 9)。参加人员多为单位骨干或在一线从事标本数字化工作的人员。通过技术培训让大家对植物标本数字化的意义有了更深的了解,解决了各自在标本数字化过程中遇到的很多难题,规范了标本数字化的相关方法和技术,推进了我国植物信息数字化及其共享事业。

2.3 技术研发

经过多年的积累,平台在标本数字化的技术方法上形成了一套标本数字化工作的标准流程,除了研发了标本数据录入的软件 (GINKGO-S),还设计研发了标本照片采集的扫描仪进行了拍摄技术的 2 项创新:(1) 腊叶标本扫描系统。由于腊叶标本主要是植物的全株或枝条风干后装订而成,比较脆弱易碎,在查阅和数字化过程中,不能翻动反扣。为了获取腊叶标本高质量影像,我们自行设计制作了一批腊叶标本扫描仪支架,并对扫描仪悬挂部件进行了调整,使得扫描仪可以倒置工作,向下扫描。腊叶标本不用翻扣,在获取高质量影像的同时,保护了标本。该扫描仪系统自 2006 年开发以来,先后 3 次升级更新迭代,已在全国近 10 家标本馆中推广使用。大大促进了标本数字化的影像质量。(2) 苔藓标本影像采集。苔藓植物是最简单的高等植物,结构简单,仅包含茎和叶两部分,有时只有扁平的叶状体,没有真正的根和维管束。植株一般比较矮小,采用微距拍摄效果也不是很理想。我们采用平板扫描仪配合背光灯板进行高质量扫描,取得了很好的影像,解析度可以达到 2400 dpi,能满足科学展示、印刷出版的质量需求 (图 10)。

2.4 现场技术指导

图9 标本数字化技术培训班合影和学习场景Fig. 9 Group photos and learning scenes in technology of digital specimen training course

图10 进行标本照片采集的扫描仪Fig. 10 Scanner for digitizing specimen

图11 CVH 团队现场技术指导Fig. 11 On-site technical support from CVH team

为了掌握各地方标本馆的馆藏标本及数字化现状,CVH 课题团队从 2015 年起,陆续到各地方标本馆考察和进行现场技术指导。2015 年实地调研云南昆明、广东广州、重庆四川成都、山西太原、广西南宁、北京 7 省市的主要和特色标本馆 21 家, 2016 年实地调研江西省南昌市和九江市、江苏省南京市、福建省福州市以及云南省西双版纳等地的主要和特色标本馆 10 家;2017 年实地考察了贵州贵阳的 7 个植物标本馆。

这些调研活动,一方面让 CVH 课题组对目前我国一些地区的标本馆馆藏标本情况有了较为清晰的了解,另一方面也有利于根据掌握的这些第一手资料进行后续标本数字化统筹安排。对于所调研的标本馆来说,不仅通过 CVH 团队的现场交流和指导,使一些标本馆理清了标本整理的思路,还使大家对标本数字化的意义有了更深的认识。同时对一些基础较薄弱的标本馆,CVH 团队还有针对性的提出了他们标本数字化的解决方案。除了我们定期举办标本数字化技术培训班之外,还包括 CVH 派技术人员亲自到地方标本馆指导标本馆技术人员进行标本数字化,或者请这些标本馆派人到我们单位进行学习 (图 11)。

3 存在问题与挑战

CVH 每年都不断吸收新的标本馆来进行标本数字化工作,标本数字化的数量也在与日俱增,然而CVH 课题组从近年来在数字化项目的实施过程以及到各地走访标本馆所了解的情况来看,一些标本馆还是存在很多问题,标本数字化的难度也在逐渐增加,为我们以后开展工作提出了诸多难题。

标本数字化难度的增加主要包括:首先,合格标本越来越少。CVH 从 2004 年建立项目之初,吸收了中科院系统的全部植物标本馆的参与,集中了最优秀的力量来对最优质的标本进行数字化。十几年来,这些大的标本馆基本已经把合格的标本全部进行数字化了,还剩下的主要是或者缺少采集或鉴定信息或者是副份标本等一些不适合进行标本数字化的标本。转而,CVH 开始寻找新的合作的标本馆,来吸收新鲜的血液进来。

其次,小标本馆的基础薄弱。在我们与一些规模较小,但是有地域特点或历史特点的标本馆合作的过程中,我们发现有些标本馆的管理人员的都是兼职,因此在进行标本数字化的过程中,很多基本的植物标本信息都需要 CVH 课题组进行讲解和规范。同时这些标本馆的标本本身也有很多的质量问题,比如采集标签和鉴定标签都不全。

最后,管理层面缺乏重视。我们还发现,一些标本馆无论是从领导层面还是从标本馆管理人员层面都不是很重视标本数字化工作。这其中原因不乏领导对业绩、员工对晋升晋级的实际考量,没有考虑标本数字化工作的重要意义,但是也可以看出我们推动标本数字化工作的难度很大。很多单位对植物标本馆的不重视也源自对植物分类学科的发展前景并不看好。很多标本馆的设备和管理都非常的落后,封闭的环境和不公平的评估体系,缺乏足够的待遇吸引人才来进行该学科的研究,也间接的导致了标本馆管理的落后。

面对标本数字化现今面临的压力和挑战,CVH必须致力于提供标本馆标本数字化一站式服务,一方面加强平台技术支撑能力,包括完善在线技术指南、定期举办标本数字化技术培训班,减轻标本馆工作人员的压力,做好指导和服务工作;另一方面还要加大宣传力度,使更多的人认识到标本数字化的重要意义,提升植物标本馆的重要地位。同时更新 CVH 网站,使其更便于浏览查询;通过微信公众号以及 QQ工作群与参建单位互动;增加数据整合度和关联度,促进信息共享,提高用户体验及参与程度;加强对数据质量及深度挖掘,盘活现有资源,提高资源服务社会能力,为植物标本数字化工作提供强有力的支撑。

[1]李鸣光, 缪汝槐, XUZHAORAN.1998.植物标本数据库与生物多样性研究//面向 21世纪的中国生物多样性保护: 第三届全国生物多样性保护与持续利用研讨会论文集.北京: 450-454.

[2]朱宗元; 梁存柱 .钟观光先生的植物采集工作——兼记我国第一个植物标本室的建立.北京大学学报:自然科学版.2005: 825-832.

[3]王利松, 赵莉娜, 覃海宁. 基于标本信息初评囊瓣芹属六个种的绝灭风险. 生物多样性, 2012, 20(6): 761-768.

[4]陈立立, 余岩, 何兴金. 喜旱莲子草在中国的入侵和扩散动态及其潜在分布区预测.生物多样性,2008,16(6):578-585.

[5]Yang W.J., Ma K.P., Kreft, H. Geographical sampling bias in a large distributional database and its effects on species richness–environment models. Journal of Biogeography,2013,40: 1415-1426.

[6]张大才, 孙航. 横断山区树线以上区域种子植物的标本分布与物种丰富度. 生物多样性, 2008, 16(4): 381-388.

[7]黄林芳, 谢彩香, 陈士林, 段宝忠, 孙成忠, 凯撒·苏来曼, 王丽芝. 沙生药用植物锁阳产地适宜性的定量评价.植物学报, 2010, 4(2): 205-211.

[8]许哲平, 赵莉娜. 中国数字植物标本馆平台 (CVH). 科学数据通讯, 2010, 3: 33-36.

[9]Yinbo Zhang, Yuzhuo Wang, Minggang Zhang, Keping Ma. Climate change threats to protected plants of China:an evaluation based on species distribution modeling.Chinese Science Bulletin,2014,(34):4652-4659.

[10]Zhao L, Li J, Liu H, et al. Distribution, congruence, and hotspots of higher plants in China[J]. Scientific Reports,2016, 6:19080.

[11]Zhang M G, Slik J W F, Ma K P. Using species distribution modeling to delineate the botanical richness patterns and phytogeographical regions of China[J].Scienti fi c Reports, 2016, 6:22400.

[12]杨永. 我国植物模式标本的馆藏量. 生物多样性, 2012,20: 512–516.

猜你喜欢
标本数据库数字化
3D打印技术在动物标本中的应用
巩义丁香花园唐墓出土器物介绍
家纺业亟待数字化赋能
COVID-19大便标本采集器的设计及应用
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
教你制作昆虫标本
数据库
数字化制胜
数据库