王宏智 杨雅萍
(中国科学院地理科学与资源研究所,北京 100101)
资源是指在一定地区内拥有的物力、财力、人力等各种物质要素的总称。环境既包括以大气、水、土壤、植物、动物、微生物等为内容的物质因素,也包括以观念、制度、行为准则等为内容的非物质因素。从学科角度来讲,资源环境科学是一门从生态观点出发,将资源的合理利用和环境保护运用到生产和环境建设领域的综合性学科。资源环境数据是一种具有时空特性的科学数据[1]。资源环境科学内容十分丰富,涵盖了资源、环境、大气、土壤以及社会文化资源等方面,鉴于资源环境科学数据的复杂性,只有利用科学的方式对其进行管理,才能有利于数据的集成和利用。
近年来,国家为加快科技发展,提高自主创新能力,资助开展了许多科技计划、专项,例如973计划、863计划、国家科技重大专项、科技基础性专项等。这些专项的开展提高了我国的科研实力以及自主创新能力,带动了我国高科技的技术以及产业的发展,取得了丰硕的成果。其中,科技基础性工作专项是通过科学考察、调查、资料制备、整编等过程,对基础科学数据、资料进行系统采集、收集和综合分析工作,同时也产生了丰富的数据资源。目前,该专项对产生的数据资源以项目名称方式进行管理,以元数据方式对数据进行共享,但尚未形成系统的分类体系。
数据分类是数据管理中非常重要的一个环节。由于基础性专项所产生的数据资源的复杂性及用户需求的多样性,一直以来缺乏有效的数据资源分类体系,难以满足用户多维度数据查找的需求。所以,有必要建立一个科学完整的资源环境科学数据分类体系。
自1999年科技部启动科技基础性工作专项以来,设置了500多个项目,投资总经费约10多亿元,囊括了地球科学、生物学、气象、农业、林业、环境、材料、医学等学科领域,产生了一批重要的科学数据、自然科技资源、文献资料、图集典籍、标准规范等。科技基础性工作是科技发展的重要基础,是体现国家整体科技水平的重要方面,对于科技进步、经济与社会发展和国家安全具有不可替代的作用[2]。专项开展以来产生的数据大部分都是通过实地考察、监测而来,具有开展时间长、数据量大的特点。丰富的资源环境领域数据有助于资源环境科学数据分类体系的研究。
目前,科技基础性工作专项项目所产出的科学数据分类体系参考的是学科分类《GB/T13745-2009》。在该学科分类体系中,地球科学、环境科学技术及资源科学技术类别的分类不够细致,缺少三级分类,从而限制了资源环境领域科学数据的有效管理与便捷共享。因此,本文拟在科技基础性工作专项中资源环境领域丰富的数据成果的基础上,遵守国家标准学科分类体系,借鉴该领域各学科中心数据的分类,采用按学科分类体系与数据本身属性相结合的方式以及构建数据关键词表的方式对资源环境科学数据分类体系进行研究,探讨形成一个既能方便数据管理又能满足数据后续集成需要的数据分类体系,以便对资源环领域科技基础性专项工作所产生的数据资源进行更好的规划、建设、管理与共享。
资源环境领域科技基础性工作专项所产生的数据资源具有覆盖面广、类型复杂、学科交叉性与综合性等基本特点,而科学数据分类应遵循科学性、系统性、完整性、层次性、可扩展性、实用性、兼容性及排他性等原则[2]。因此,为了保持学科完整性和系统性,按学科分类便于数据查找,基于数据资源本身的现状从数据资源聚集度的角度分类便于数据资源的查找利用。本文将采用一二级按学科、三级按关键词分类的分类体系。一二级分类遵守国标学科分类体系,三级分类则采用关键词拓展法。同时,本文所拟定的分类体系具有可扩展性,以便整合后续验收项目数据资源时对分类体系进行补充完善。
(1)按学科体系分类与数据本身属性相结合的方式分类。学科分类是一套非常完整全面的分类体系,在适合学科分类的方面值得参考和借鉴,但是不能完全照搬。例如,地球科学史、天文学史等没有相对应的科学数据的学科不会在分类体系中出现。交叉或者综合学科(例如土壤地理学),没有特定的要素对象,一般也不适合作为数据分类项。仅仅依靠学科分类是非常单薄的,也不适合整个分类体系的建设,因此要结合数据本身属性进行分类。本文参考资源环境领域科技基础性工作专项科学数据的二级学科类别以及国家学科分类体系,严格按照科学数据分类原则对资源环境领域科学数据一级类与二级类进行划分。
(2)按数据关键词分类。关键词解析分类法是反映数据资源现状,通过数据资源本身特点进行的一种聚集分类。首先通过学科分类体系,进行自上而下的引导分类;再通过关键词聚类,进行自下而上的聚集分类。这是解决体系完整和反映数据资源真实现状的一种完美结合。而缺乏大量数据基础的分类研究往往是不全面的。本文收集整理了资源环境领域科技基础性工作专项共计108个项目的科学数据,对项目内的科学数据集名称、数据要素进行关键词解析,解析过程主要是对资源环境领域科技基础性工作专项所产出的科学数据的元数据表中的数据集名称、数据要素和数据详细描述进行关键词提取工作,得到1000余项关键词,然后对类别重复的关键词进行筛减,再对未涉及的关键词进行扩展,形成资源环境领域科学数据三级分类。
表1 资源环境领域基础性工作专项科学数据二级学科
本文在国家学科分类的基础上,再根据数据本身属性进行调整,得到资源环境领域科学数据的一、二级分类。科技基础性工作专项中资源环境领域科学数据的二级学科(表1)对资源环境科学数据分类提供参考,可以更为有效地建立数据分类体系[3]。
统计1999一2012年资源环境领域科技基础性工作专项产生科学数据的学科类别,二级学科共计23类,但有些学科并不适合直接应用于资源环境科学数据的分类,应对其进行适当调整,保证分类体系的科学性与兼容性。例如地图学的数据大都以空间数据为主,可以根据其本身数据要素属性,分类到其他学科类别中;经济地理学是交叉学科,不作为要素对象划分依据,所以将其数据属性划归为社会经济数据、基础地理数据或者其他类别中;动物、植物、微生物学作为一级分类过于单一,可作为二级类进行划分;中国民间文学、文化人类学与民族学数据也可结合其他数据合并为文化资源[4-5]。
只是结合资源环境领域科技基础性工作专项科学数据的二级学科来分类并不严谨也不够完善,需要参考国家学科分类与科学数据本身属性进行一级类和二级类的划分。据此可以划分为14个一级类,67个二级类。一级类和二级类的划分便于数据的快速查找以及新数据的快速归类,使数据管理更加科学方便。表2是资源环境科学数据一级及二级分类表。
表2 资源环境领域科学数据一级与二级分类表
表3 资源环境领域基础性工作科学数据三级分类表
资源环境科学数据一级与二级类已可以保证资源环境领域科学数据的科学管理,但对于进一步的数据集成与数据建库来看,显得有些不足。数据的分科分类大多对应的是一个特定领域或学科,这对于数据分类来说粒度还是过大,难以区分领域下不同的数据要素,不便于数据的查找、发现与利用。如:自然地理学,从地理要素和对象的角度来看,其又包括地形地貌、河流湖泊、冰川、冻土等。所以,必须借助关键词,进一步对数据资源进行聚类导航。本文在基于资源环境科学数据一级与二级类的基础上,结合资源环境领域科技基础性工作科学数据,对其进行关键词与数据要素的解析,对同类关键词或者要素进行合并,并对其进行拓展。最终初步建立资源环境科学数据三级分类表[6-10],共划分为435类,具体分类如表3所示。三级分类表具体用途表现为
两个方面:一是用于数据集成过程,数据集成过程中可以直接按照三级分类词进行集成;二是在建立数据库的过程中可以按照三级分类进行层级数据库的建立,便于数据库的关联分析。
续表
基于上文所提到的学科分类与关键词分类的资源环境领域科学数据三级分类体系,特举例说明,如表4所示,9类数据集通过学科分类均属于自然资源中的生物资源,而在进行关键词解析、整合与拓展之后,得到了森林资源、草地资源、微生物资源等17项三级类。因此,尽管这些数据同属于一个学科分类,但通过关键词分类,可以精准地对它们进行进一步分类,以便于数据的查找、定位和使用。
表4 部分关键词解析拓展表
本文立足国家开展的科技基础性工作专项中资源环境领域科学数据管理以及集成等缺少统一的分类体系这一问题,参考国家学科分类体系和我国数据共享各学科的分类体系,基于资源环境领域科技基础性工作专项科学数据的学科类型以及数据本身属性类别,初步建立了资源环境领域科学数据一级和二级分类,继而在一级和二级类的基础上,对资源环境领域基础性科学数据关键词进行解析、整合和拓展,形成资源环境领域科学数据三级类。
通过前文分析可知,目前资源环境领域科技基础性工作专项所产生的科学数据在分类体系上存在不够精准实用的缺陷,限制了数据的便捷共享,不能满足用户的多维度与精准查询的需求。本研究证明,利用分类层级进行数据管理可以使数据管理更为方便,同时也使数据查找更为快捷。分类体系的建立打破了各项目之间的壁垒,三级分类体系可用于科学数据的分类集成,避免形成数据“孤岛”,从而为数据库的建立提供支撑。
本文建立的分类体系是以1999一2012年科技基础性工作专项资源环境领域科学数据为依托进行研究的,可直接用于科技基础性工作专项资源环境领域科学数据中,也可应用于其他科技专项的资源环境领域科学数据。但是每个专项产生的资源环境科学数据范围可能并不一致,所以在应用时可根据数据情况对分类体系进行适当调整,避免出现有类别无数据的情况。
由于目前资源环境领域科学数据的复杂性及有限性,本文制定的分类体系可能没有涵盖资源环境领域科学数据的所有方面,但随着资源环境领域项目的不断开展、数据资源的不断增加,科学数据分类体系也将不断被修改与完善。
[1]中华人民共和国科技部.国家”十五”科技基础性工作专项实施意见[J].中国基础科学, 2001(8): 31-34.
[2]孙九林, 孙晓华.自然资源信息分类体系[J].资源科学, 1989(2): 62-69.
[3]廖顺宝, 蒋林.地球系统科学数据分类体系研究[J].地理科学进展, 2005, 24(6): 93-98.
[4]王卷乐, 林海, 冉盈盈, 等.面向数据共享的地球系统科学数据分类探讨[J].地球科学进展, 2014, 29(2):265-274.
[5]国家标准化管理委员会.GB/T 13745-92 学科分类与代码[S].2009.
[6]国家地球系统科学数据共享服务平台[DB/OL].[2016-12-11].http: //www.geodata.cn/index.html.
[7]海洋科学数据中心.海洋学科分类[DB/OL].[2017-01-22].http: //msdc.qdio.ac.cn/.
[8]中国科技资源共享网[DB/OL].[2017-02-06].http: //www.escience.gov.cn/.
[9]中国南北极数据中心[DB/OL].[2017-03-25].http: //www.chinare.org.cn/index/.
[10]中国气象数据网[DB/OL].[2017-04-24].http: //data.cma.cn/site/index.html.