李拓径,李洪涛,李德铢*
1.中国科学院昆明植物研究所,昆明 650201
数据库(集)基本信息简介
数据库(集)名称 中国西南野生生物种质资源数据库数据作者 中国西南野生生物种质资源库数据通信作者 李德铢(dzl@mail.kib.ac.cn)数据时间范围 2005~2017年地理区域 中国境内数据格式 SqlServer数据服务系统网址 http://www.genobank.org/http://www.sciencedb.cn/dataSet/handle/490基金项目 中国西南野生生物种质资源库国家大科学工程数据库(集)组成 本数据库由野生植物种子数据71 200多条,植物离体材料数据2 000多条,植物DNA样品数据43 300多条等组成。
中国西南野生生物种质资源库(简称种质库)是国家大科学工程。其总体科学目标是:立足西南,面向全国,建成具有国际影响力、亚洲一流的野生生物种质资源保护设施和科学体系[1]。其保藏的野生种质资源是国家重要的战略生物资源,具有重要的科学和经济价值,对社会经济可持续发展和生态文明建设具有重要意义[2]。在参考英国皇家植物园邱园“千年种子库”保藏模式的基础上,基于种质库的资源保藏目标和科研工作流程,按照“科学规划、逐步推进”的原则,以工作业务流程为基础,设计数据库模型,采用模块化技术将种质资源采集、处理、保藏、功能基因挖掘等科研活动数据的存储、管理、集成、检索、维护和分析统计融为一体,建成基于B/S架构(Browser/Server架构,即浏览器和服务器架构)的种质库信息管理系统(Germplasm Bank Information System,简称GBIS系统),从而构建种质资源采集保藏研究的国家战略种质资源保藏信息系统[3]。在信息系统管理的基础上,通过各个业务模块数据的合成、关联,有效形成野生种质资源数据库。
中国西南野生生物种质资源数据库收录了野生植物种子、植物DNA样品、植物离体材料以及动物材料和微生物资源等的各类保藏相关信息,包括登记管理信息、监测信息、库存信息、实验及使用信息等。其中野生植物材料数据超过11.6万条,全部对外公开查询,是本文阐述的主体;另有动物材料数据53 800余条和微生物资源数据2 200余条暂未对外公开展示,因而在本文中未详细描述。各类信息以关系型数据库的方式进行存储,并且可通过数据库实现自动备份、恢复。
除此之外,为了进一步规范种质资源的分类信息管理,其基础数据库建立了以Flora of China[4](以下简称FOC)为主、The Plant list[5](以下简称TPL)为辅的植物分类学名称体系,以实现植物分类学名称数据库系统内的统一审核、规范等功能。并且系统整理FOC相关性状描述信息和图片信息,形成种质资源分类学基础名录数据库。基础名录数据库成功地与GBIS系统结合,为采集策划、物种鉴定和分析统计等提供数据依据,确保野生种质资源采集、保藏、研究过程中数据的合理性、规范性。目前,本数据库已经开放共享,并支持申领可分发实物资源。
作为国家的重大科技基础设施,种质资源的保藏与创新有着一套严格、标准的工作流程,基本分成4个关键环节和9个组成部分[3]。4个关键环节为:采集计划、监测评价、实验分析和研究创新。这4个环节可分解为9个有序的部分:采集计划、野外采集、种子清理、质量检测、入库保存、活力检测实验(TZ实验,TZ即氯化三苯基四氮唑triphenyltetrazolium chloride)染色法、创新研究、再生扩繁、开发利用[3]。这些工作分别由不同的部门承担,在每一个活动部门都有严格的操作流程和标准规范,在每一个关键环节都需要依赖原有的科学积累和分析实验设备,并产生大量的数据。因此,这 4个环节之间如何有效、科学地协作,并达到数据积累和分析的目的,是种质资源保藏与创新成功的关键。
种质资源数据主要来源于自2005年11月组建种质保藏团队至今的野生种质资源野外调查及保藏管理、研究等各项数据。数据采集建立了严格规范的标准流程(图 1),本数据库首先由管理人员根据采集材料递交情况进行GBIS系统登记,然后采集人员通过离线或在线的方式补充野外采集信息,标本鉴定人员通过在线方式审核完善鉴定信息,管理人员通过实验检测生成检测数据信息,实验人员通过信息系统在线管理和完成实验信息的录入。由此产生以种质资源实物登记为中心的中国西南野生生物种质资源数据库。数据库通过关系数据库关联的模式,实现各个模块分块工作、有效关联等功能,实现数据的标准化,系统有效地形成数据关联,为种质资源统计分析和应用奠定基础。
图1 野生植物种子采集保藏流程图
GBIS系统根据野生种质资源采集保藏的特点建立了标准化工作模式(图2),数据信息主要通过GBIS系统进行标准化录入。在借鉴英国“千年种子库”工作经验的基础上,种质库的种质采集保藏工作主要由种质资源的采集、登记、处理、保藏等前期工作,以及萌发、TZ染色实验、水分测试等后期工作组成。为了能够全面准确地信息化种质资源的保藏活动,GBIS系统以模块化设计和开发的形式完全融合了保藏种质资源的全部工作流程。每个模块的数据录入、校验、存储均由系统统一控制,规范数据的格式和内容,确保数据录入的准确性。在关键数据部分,采用二次鉴定和方差分析的方式实现人工或者自动化加工处理,确保数据的准确性。
图2 GBIS系统工作模式
本数据库目前收录了超过11.6万条对外公开查询的信息数据,分别记录了:野生植物种子数据71 200余条,涉及220科1940属9 484种;植物离体材料数据2 000余条,涉及104科377属1 850种;植物DNA样品数据43 300余条,涉及189科1 462属4 864种。
数据样本以野生植物种子数据为例。其记录的信息包括序列号、采集编号、采集单位、负责人、采集年份、国家、省、市、区县、科中文名、科拉丁名、属中文名、属拉丁名、种中文名、种拉丁名、鉴定人、鉴定日期、图像、千粒重(克)、剩余种子数(表1)。
表1 毛柄杜鹃采集保藏数据展示
本数据库的数据主要来源于种质库采集保藏工作的各个环节。首先制定了针对种质资源采集保藏的标准规范,如由采集部门制定的种子采集技术规范,系统地规范了采集过程中产生的各个资源项,如采集号编写、采集地点、经纬度、生境等诸多信息[6]。其次,在标准规范的基础上,依赖GBIS系统构建的关系型数据库,数据质量得到有效的控制。在应用数据库设计的同时,对常用项进行数据字典规范化,有效把控录入数据的质量。数据字典是GBIS系统中各类数据描述的集合,是详细描述各项种质资源数据收集和统计分析所获得的主要成果。例如在物种名称字典中,我们将FOC和TPL进行结合,得到标准的植物名称字典数据。在实际应用中,用户在录入时候通过选择标准植物名称,以达到规范植物名称规范输入的目的。
通过GBIS系统的有效录入和严格审核,实现了数据的有效管理,数据质量得到较大的提升,有效支持了中国西南野生生物种质资源库的各项研究工作。以野生植物种子保存为例,数据经历登记、质量检测、计数审核、标本鉴定和采集校验等多个环节。每个环节的数据均通过人工审定确认,以将错误率控制在1%以下。
本数据库系统反映中国西南野生生物种质资源库的运行状态,并且涵盖了种质库的各项种质资源的保藏研究工作。例如数据库能够系统统计出保藏的科、属、种情况以及资源的利用状况。通过数据库集中数据,可以挖掘、评估种质资源的潜在价值,为进一步利用种质资源提供依据。本数据库收集了2005年至今10余年的野生种质资源保藏状况,并建立了方便的查询平台,对植物分类学、系统学、种子生物学、植物基因组学研究乃至整个植物学研究提供了有效的支撑。
本数据库主要通过http://www.genobank.org/提供web数据服务,在Science Data Bank http://www.sciencedb.cn/dataSet/handle/490也有访问入口。用户可以在输入框中输入物种名或者编号进行检索,或输入物种性状进行全文搜索。同时,注册用户经过电子邮箱验证后,可以进行种名和区域名称的精确查询。如果用户需要对某一类群资源或者定制某些特定字段数据进行批量数据获取,可以通过联系本数据库相关管理人员获取。