中国地质大学 (北京),北京 100083
岩矿化石标本资源是指地质工作者从事区域地质调查和地球科学研究过程中,采集、收集、整理、研究测试和收藏的矿物、岩石、矿石和化石标本以及与之相关的数据和研究资料[1,2]。岩矿化石标本资源为人们研究和复原地球演化历史提供了最为直观、科学的证据,是地球科学研究的重要支撑材料,是人类社会生存发展和社会经济长远发展重要的战略资源。
随着我国地学领域的进步与创新,二十世纪九十年代,在全国各高校及地学类研究院的地学先驱们的倡导下,国土资源部提出了“北方化石库”建设项目,首次打破了标本资源的分散、部门和单位机构封闭的格局,从国家层面上开展了跨部门的岩矿化石标本资源整合与数据库建设工作。“十一五”期间,为提高国家的科技竞争力,科技部与发改委、财政部、教育部等有关部门在 2003 年联合启动了“科技基础条件平台”计划,以整合为主线、共享为核心、制度为保障,建立了包括研究实验基地、大型科学仪器设备、科学数据信息、自然科技资源等在内的,跨部门、跨领域、多层次的资源整合与共享网络体系[3]。
通过标本资源共享平台建设实践,有效解决了标本资源的学科技术问题,制定完善了描述标准和整理规范体系;设计开发了数据库及网络系统,研究探索了组织机构与管理保障体系等机制问题。通过标本资源数据库和地学专题库的建设,构建了主要由实物层、标准规范层、数据层、业务层和用户层组成的国家岩矿化石标本资源共享平台,为科技创新、专业教学、人才培养及科学普及等提供重要支撑。
“资源整合,标准先行”,岩矿化石标本资源具有多样性、异构性和复杂性等特点,因此,建立统一的描述标准和数据标准,是标本信息集成、互通和共享的基础。按照充分考虑标本资源现有基础及长远发展,以及数据库建设及资源共享的需要,注重科学性、实效性、可操作性的原则,组织全国范围本领域权威专家,研究制定了岩矿化石标本共性描述规范和53 项个性描述标准,以及 39 个岩矿化石标本资源收集、整理、保存技术规程,并动用一百位以上全国本领域各个专业的专家进行评审修改完善,通过十余年的实施和完善,已形成科学规范和实用性较强的岩矿化石标本资源描述标准和整理规范体系,指导全国开展标本数字化工作。
共性描述规范规定了岩矿化石标本共性信息应具有护照信息、标记信息、特征信息、保存信息及共享信息,包含 28 个数据项[4],以此制定了岩矿化石标本共性信息表,作为平台标本数据的录入标准。
共性信息所包含的数据项如下:
护照信息:平台资源号,中文名称,外文名称,产地,省,国家。
标记信息:资源归类编码,主要用途,资源形成时代,地质产状或层位。
基本特征特性描述信息:简要特征描述,具体用途,资源提供者,资源提供时间,经度,纬度,高程。
图像信息:标本图片。
保存信息:保存单位,样品编号,库存位置号,采集号,保存资源数量,保存资源类型。
共享信息:共享方式,资源状态,获取途径,联系方式。
岩矿化石标本个性描述标准 53 个,包含了鸟类、鱼类、昆虫、三叶虫、珊瑚、被子植物、蕨类植物、孢粉等有代表性的古生物门类描述标准 40 个;矿物描述标准、矿物名称标准 2 个;火山岩、沉积岩、区域变质岩等岩石描述标准 7 个;金属、非金属、能源矿石描述标准 3 个;矿床描述标准 1 个。个性描述标准规定了岩矿化石标本个性特征描述内容、描述方法及术语解释,并举例说明[1,2]。
岩矿化石标本资源收集整理保存技术规程包含了矿物、岩石、金属矿石、硫化物及其类似化合物、可溶性盐类矿石矿物、珠宝玉石、无脊椎动物化石、脊椎动物化石、植物化石、微体古生物化石、孢粉化石、石器、古人类化石标本资源收集、整理和保存技术规程 39 个,规定了上述 13 类岩矿化石标本收集、整理和保存技术程序、操作标准和指标参数等[5]。
标本描述标准和技术规程由本领域 50 余名权威专家编写,经过多次评审论证,并在国内地学领域重点标本资源保存单位试点应用十余年,不断修改完善,最终出版了《矿物、岩石、矿石标本资源及矿床描述标准》,《无脊椎动物化石标本资源描述标准》,《脊椎动物、植物、牙形类化石及旧石器标本资源描述标准》,《岩矿化石标本资源收集整理保存技术规程》。
标本资源的标准和规范体系的建立,为我国地学标本资源保存单位开展标本资源的规范化整理,标准化、数字化表达以及科学化管理提供了示范和指导,为建立国家级岩矿化石标本资源大数据库奠定了基石。
国家岩矿化石标本资源共享平台主要由实物层、标准规范层、数据层、业务层和用户层组成 (图 1)。
实物层由分散在全国各地的实物标本库构成,保存在库中的岩矿化石标本是平台资源整合的对象即平台的物质基础。
标准规范层包含标本资源描述标准、标本分级分类编码、标本数据标准及标本收集整理保存技术规程,构成了平台的标准规范体系。
数据层是包含化石、矿物、岩石、矿石标本数据库,系统矿物学数据库,专题数据库,是构成平台核心价值部分,系统矿物学数据库和专题数据库分别于标本数据库存在多种关联关系。
业务层由 Web 服务器 Apache、应用服务器 Tomcat Rac 集群、平台门户网站、平台管理系统组成[6],是实现平台核心价值的部分,平台管理系统采用SpringMVC+Hibernate+Spring 技术架构开发。
用户层能够让平台的各类用户通过浏览器、App或微信公众号获取所需的数据,如查询标本信息、专题信息及实物标本共享的方式和获取途径,是实现平台资源共享功能的部分。
“国家岩矿化石标本资源共享平台”是国家科技基础条件平台重要组成部分及成果之一,是国内规模最大的岩矿化石标本资源数据平台。由中国地质大学(北京) 牵头,先后有国内重要的 16 家单位参建,包括:中国地质博物馆、中国科学院古脊椎动物与古人类研究所、中国科学院南京地质古生物研究所、中国地质科学院矿产资源研究所、中国地质大学 (武汉)、吉林大学、北京大学、河南省地质博物馆、自贡恐龙博物馆、成都理工大学、昆明理工大学、重庆自然博物馆、桂林理工大学、新疆地质矿产博物馆、天津市蓟县中上元古界国家自然保护区。
国家岩矿化石标本资源共享平台在科技部国家科技基础条件平台中心统一领导下,在“国家标本资源共享平台”的部署下,设立了平台管理委员会和平台管理办公室,各参建单位成立了专项工作组,逐渐形成了一只由管理人员、研究人员、技术人员、服务人员共 120 余人组成的稳定的专业人才队伍,为平台建设与运行服务提供可靠的组织与管理保障 (图 2)。
图1 国家岩矿化石标本资源共享平台架构图Fig. 1 National mineral rock and fossil specimen resources sharing infrastructurestrcture
图2 平台组织机构图Fig. 2 Infrastructure organization
自 1999 年开始的标本资源共享平台建设至今,主要经历三个大的阶段:
(1) 初建阶段 (1999-2002 年):建立了实物库及数据库基本框架,整合了中国地质大学 (北京)、中国地质博物馆、中国科学院古脊椎动物与古人类研究所、中国科学院南京地质古生物研究所保存的一批极具科学价值的模式化石标本。
(2) 规范化、标准化及标本平台建设阶段 (2003-2010 年):研究制定了标本资源描述标准、标本分级分类代码、数据标准及标本资源收集、整理、保存技术规程 39 项,建成具一定数量和规模的实物库及信息库,实现信息网络共享。
(3) 资源规模化及共享阶段 (2010-至今):建成较大规模的实物库、信息库以及具有多道、快速查询的全面的服务共享平台。
经过十八年的建设,整合我国地学领域重点高校、科研院所、博物馆 16 家保存的岩矿化石标本优质资源和特色资源,按照上述标准规范体系,对标本资源进行标准化整理和数字化表达。按照标本资源产权归属不变的原则,实物标本资源分布式保存在全国各资源单位实体库房,标本数据由平台统一管理。
标本数据库的功能是存储岩矿化石标本数据,是平台的核心数据库,依据岩矿化石标本资源描述标准和数据标准设计,包括 4 个子数据库:标本共性信息数据库、图片库、个性数据库和元数据库。其中标本共性信息数据库是最主要的子数据库,含化石、矿物、岩石、矿石标本数据库,至 2017 年 7 月,平台整合岩矿化石标本资源 14.1 万号,图片库含标本图片 14.7 万张,与标本共性信息数据呈现一对一或多对一关系。标本资源的产地覆盖全国 28 个省、4 个直辖市、港澳台地区以及全球 91 个国家。
整合了具有重要科学价值的模式化石及典型化石群标本 6.66 万号,其中模式化石标本 1.1 万号,典型化石标本 5.55 万号。典型化石标本主要有:我国境内古人类化石、云南澄江动物群、辽西热河生物群、山东山旺生物群、豫西华夏植物群、自贡恐龙动物群、河南栾川恐龙动物群、黑龙江嘉荫恐龙动物群等20 多个国内重要化石群及重点地区地层古生物化石标本,国外典型地层古生物标本,以及北京周口店、河北阳原、河南三门峡、内蒙伊盟、山西运城、贵州西部发现的旧石器标本。
整合了中国新矿物标本、稀有的矿物晶体晶簇标本、典型矿物标本及部分国外典型矿物标本 1.34 万号,含 1200 余种矿物。其中,国外产出的矿物标本占 36.57%。
整合了国内外典型岩石标本 4.56 万号。主要有:青藏高原及其邻区的岩石,中国高压、超高压岩石分布带的榴辉岩,中国东部中新生代玄武岩及其地幔岩包体,峨眉山大火成岩省超基性岩等标本资源,天津蓟县中上元古界地层剖面,浙江长兴二叠—三叠系界线层型灰岩剖面等典型剖面的岩石标本,以及国外典型岩石标本。
图3 平台典型标本Fig. 3 Typical specimen of the infrastructure
整合了 80 个中国濒危矿床和大型、超大型、特色矿床和 300 多个典型矿床的金属、非金属和能源矿石标本 1.58 万号。
国家岩矿化石标本资源共享平台开发的专题数据库主要包括:系统矿物学数据库,地学研究专题数据库 (古生物化石群专题、典型矿床专题、地质剖面专题),地学教学与科普专题数据库 (岩矿化石精品图片及观赏石专题讲座视频库、原创科普视频、3D 矿物精品、珠宝玉石专题)。将海量分散的地学类标本资源数据,按照某一个或多个相同要素,汇集整合为专题数据集,扩展相关专题信息进行融合加工,并在专题数据库与标本数据库之间建立数据关联,形成了以标本为核心的知识化链条。
系统矿物学数据是关于矿物的分类、化学成分、晶体结构、结晶形态、物理性质、化学性质以及矿物的成因和产状等基本数据和研究成果数据[7]。系统矿物学数据库包括 2996 种矿物数据及部分矿物种的晶体形态图、晶体结构图、矿物图片。晶体形态图和晶体结构图分别采用 Java 和 VRML 技术制作,以三维动态形式展示了晶体形态和结构。用户可在门户网站通过矿物中英文名称、晶系晶类、化学成分、颜色等16 个查询条件快速检索矿物学数据。
系统矿物学数据库与标本数据库之间建立了数据关联,在每一条系统矿物学数据中,镶入了包含该矿物种名称的全部标本资源数据。如金刚石系统矿物学数据中,包含了 32 件平台整合的金刚石标本数据链接,点击可浏览对应标本信息。
(1) 古生物化石群专题:国际国内重点关注的古生物化石群专题 16 个,包括:云南澄江动物群、北京周口店及山顶洞古人类遗址、泥河湾盆地古人类遗址专题、豫西华夏植物群、自贡恐龙动物群、贵州关岭生物群、河南汝阳盆地恐龙动物群等。
(2) 典型矿床专题:中国大型、超大型、濒危矿床专题数据 55 个。包括:内蒙古包头市白云鄂博铁铌稀土矿床、江西省德兴斑岩铜矿床、甘肃省金川铜镍硫化物矿床、福建上杭紫金山铜金矿床湖南省郴州市柿竹园钨锡多金属矿床、河南省栾川县南泥湖斑岩型钼矿床、河北省承德市黑山铁矿床等。
(3) 地质剖面专题:天津蓟县中、上元古界地质剖面专题和大别山国家地质公园专题数据。
(1) 岩矿化石精品图片及观赏石专题讲座视频库:在标本数据库中,精选全球各国家和地区的精品岩矿化石标本高分辨率精美图片,分别建立矿物、岩石、矿石、化石精品图片库,含精美照片 1500 张。此外,还录制的矿物晶体类观赏石系列专题讲座视频4 个。
(2) 原创科普视频:平台原创的视频作品《尊贵与美丽——红蓝宝石》、《化石复原生命奇迹——中国侏罗纪恐龙动物群》、《温润而泽,缜密以栗——中国和田玉》、《国家岩矿化石标本资源共享平台》、《探索早期生命诞生的奥秘》、《江西冷水坑银铅锌矿床》。(3) 3D 矿物晶体:平台选取具有典型晶形的国内外珍稀矿物晶体标本 24 件,采用环物摄影系统进行 360 度图像采集,并利用 QTVR 软件合成矿物晶体的三维数字模型,实现高清 3D 矿物晶体网络展示。
(4) 珠宝玉石专题:珠宝玉石特色专题数据 39个,其中钻石、红蓝宝石等天然宝石专题 19 个,翡翠、和田玉等天然玉石专题 16 个,珍珠、珊瑚等天然有机宝石专题 4 个,以及录制的翡翠、和田玉系列专题讲座视频 8 个。
图4 “国家岩矿化石标本资源共享平台”主页Fig. 4 Home page of “National Mineral Rock and Fossil Specimen Resource Sharing Infrastructure”
将完成建立的岩矿化石标本资源实物及数据库和专题数据库及数据产品通过在“国家岩矿化石标本资源共享平台”网站 (图 4) (http://www.nimrf.net.cn) 发布共享,并将元数据发布在国家平台——国家科技基础条件平台 (中国科技资源信息网),及上级平台——国家标本平台 (NSII),用户可在门户网站通过资源中英文名称、产地、样品编号、资源形成时代、保存单位、库存位置号等 11 个查询条件快速查询检索标本资源共性描述及图片信息,提供标本资源信息及实物共享,同时提供地学特色专题展示、学术交流与科普教育等服务。为加强国内外交流和共享,共享平台还设立了全球岩矿化石标本资源保存机构名录,含国外335 家、中国 37 家标本保存机构的网络平台链接。实现了岩矿化石标本资源的有效整合、合理保护、充分共享和高效利用,为科技创新、专业教学、人才培养及科学普及等提供重要支撑。
本文研究了岩矿化石标本资源描述标准和整理规范体系,标本资源数据库与共享平台架构设计、平台组织机构与建设步骤等技术与机制。按照这一系列理论方法建立的由实物层、标准规范层、数据层、业务层和用户层五级架构组成的国家岩矿化石标本资源共享平台,取得显著成效,整合的资源资源保存单位和标本资源量持续增长,网络平台数据量迅速攀升,专题数据产品丰富,实现了标本资源实物和信息共享,为科技创新、专业教学、人才培养及科学普及等提供有效支撑。
在新时代下,平台的发展方针须深入落实《“十三五”国家科技创新规划》和《促进大数据发展行动纲要》重大决策部署,紧跟国家目标,厚积薄发,积极支持国家创新驱动发展和大数据战略实施。面对平台发展新形势、新要求,岩矿化石标本资源共享平台建设需要着重从以下三个方面开展。
(1) 扩大资源整合范围
在资源整合方面,应加快岩矿化石标本增量资源建设,扩大资源整合的范围,将省级地质博物馆、市/县级化石产地博物馆以及我国各类科技计划项目产生的标本资源及数据纳入平台体系,提高国家财政投入的效益,促进资源的开放共享。
(2) 提升共享服务水平
积极开展标本数字化及共享服务专业技术培训,进一步提高平台人才队伍专业素质的服务水平。充分利用平台优质资源,针对国家各类科技计划,尤其是重大科研项目需求提供专题服务,积极开展国际合作与交流、专题展览展示、科普知识讲座等活动。加强专题数据数据库建设,扩展现有专题数据库内容,开发更多形式的专题数据产品。加强数据推送方法技术研究,通过核心元数据、关键字段的聚类分析,跨领域、跨学科、跨平台建立数据关联,如:岩矿化石标本与地球科学数据库、志书库、文献库的关联,与生物学标本数据库的关联等,主动提供信息服务。
(3) 挖掘数据的潜在价值
数据挖掘是指依靠计算机技术,对海量的数据信息进行有目的性的提取、分拣、归类,发现数据的内在联系,以获取成更有价值的信息和知识[8]。在平台数据的基础上,通过建立数学模型和优化算法,开发数据分析工具软件,能够更为准确地分析挖掘标本数据的潜在价值。例如利用化石标本数据开展古生物的时空演化分析。
[1]何明跃, 吴淦国. 矿物、岩石、矿石标本资源及矿床描述标准 [M]. 北京: 地质出版社, 2013.
[2]吴淦国, 何明跃. 无脊椎动物化石标本资源描述标准[M]. 北京: 地质出版社, 2016.
[3]国家科技基础条件平台中心. 国家科技基础条件平台发展报告 (2011-2012) [M]. 北京: 科学技术文献出版社, 2013.
[4]曹一化, 刘旭, 等. 自然科技资源共性描述规范 [M]. 北京: 中国科学技术出版社, 2006.
[5]何明跃, 吴淦国. 岩矿化石标本资源收集整理保存技术规程 [M]. 北京: 地质出版社, 2015.
[6]吴志远. 国家岩矿化石标本资源共享平台研究及应用[D]. 中国地质大学 (北京), 2015.
[7]王濮, 潘兆橹, 翁玲宝, 等. 系统矿物学 (上、中、下册)[M]. 北京: 地质出版社, 1982, 1984, 1987.
[8]吕成哲, 赵晓明, 王起伟. 浅谈数据挖掘理论 [J]. 中国西部科技, 2007 (02): 39-42.
[9]国家岩矿化石标本资源共享平台 [DB/OL]. http://nimrf.net.cn,2017.