顾云娟,张 东,陶 旭,谢伟军,朱 瑞
(1.江苏省海洋与渔业信息中心 南京 210003;2.南京师范大学地理科学学院 南京 210046)
江苏海洋多源异构数据的整理与入库方法*
顾云娟1,张 东2,陶 旭2,谢伟军1,朱 瑞1
(1.江苏省海洋与渔业信息中心 南京 210003;2.南京师范大学地理科学学院 南京 210046)
建立江苏海洋基础数据库群,实现海洋复杂多源异构数据的集成管理,是保证江苏省海洋数据具有可操作性、可维护性和可利用性的基础,同时也为海洋综合管理信息系统和“数字海洋”框架系统的业务化运行提供了重要的数据支撑。围绕这一目标,文章对江苏海洋多源数据的整理与入库方法进行了深入探讨:首先通过数据调研,分析海洋数据的现状和应用需求,形成符合“数字海洋”规范要求的数据格式标准及数据模型;在此基础上,通过数据规整、数据格式转换和数据质量控制,获取符合海洋业务需要的标准数据集;最终利用数据建库和入库工具,完成江苏海洋基础数据的规范化入库。该工作可为海洋多源数据的整理与入库、丰富和完善我国“数字海洋”数据体系提供参考。
数字海洋;数据库;数据体系;多源;异构
“数字海洋”是“数字地球”理论和技术在海洋工作领域的体现和再创新,其目标是通过数字化手段统一处理和表现海洋问题,使人类最大限度地理解并有效利用海洋信息资源。利用“908专项”工作,我国提出“数字海洋”信息基础框架,构建了以球体模型为基础的“数字海洋”原型系统,系统运行的基础是海洋基础数据库群,数据库群中海洋多源数据的质量、规范化程度、满足海洋业务应用需求程度等,决定了原型系统的运行效率以及海洋信息管理和应用的能力[1-3]。长期以来,我国学者对海洋数据的组织、管理、应用及数据库构建方面进行了一系列的研究,取得了大量研究成果,主要集中在两大方面:①针对海洋数据多样复杂的特性,研究“数字海洋”的数据体系结构,实现“数字海洋”中分布、异构、海量数据的有效集成[4-5];②结合各类计算机和信息系统技术,面向特定应用,构建海洋专题数据库,实现海洋空间信息和属性信息的一体化管理[6-8]。在这些过程中,海洋多源数据的调查、分析和整理是非常重要的基础工作,其组织的好坏直接影响到数据的建库、入库以及后续的数据库管理、应用和维护。
围绕国家“数字海洋”数据体系构建目标,江苏省结合本省海洋工作实际,开展了江苏“数字海洋”信息基础框架节点数据库建设。通过对江苏海洋历史调查数据、“908专项”五大调查专题和七大评价专题中所提交的成果数据进行整理、归纳和分析,完成了江苏海洋多源数据的整理与入库工作。文章就江苏海洋多源数据的整理与入库方法进行了深入阐述和探讨,以期为我国“数字海洋”数据体系的丰富和完善提供参考与借鉴。
江苏海洋多源数据分析包括数据调研和数据分析两个阶段,具体流程如图1所示。通过数据调研,可以全面掌握海洋数据情况,明确数据工作边界和内容,理清数据需求,找出数据工作的重点和难点;通过数据分析,结合“908专项”相关技术标准和规范,可以对海洋数据现状、数据应用需求、数据建库需求有清晰的认识,达到指导项目数据模型、数据标准以及数据建库方案制订的目的。
图1 江苏省海洋多源数据分析流程
海洋综合管理信息系统建设的出发点和归宿是解决实际的业务管理问题,数据是业务管理过程所需要和产生的信息。经过数据调研发现,江苏“数字海洋”基础海洋数据整理存在两大难点:①数据内容多且分散。江苏“数字海洋”信息基础框架数据库的数据,既包括海洋历史调查基础数据,又包括江苏“908专项”综合调查与评价数据,历史调查基础数据分散于各业务部门及沿海的南通、盐城和连云港3个市,“908专项”综合调查数据分散于“908专项”调查各承担单位。②数据格式多种多样。因数据由不同承担单位提供,数据格式特别是历史调查基础数据格式不符合“908专项”数字海洋项目中的相关技术标准和规范要求,需要进行整合处理,才能入库。
数据分析工作是数据整理阶段中极为重要的部分,因此,需针对数据现状和数据应用需求进行分析。在此基础上,通过对调研成果的分析研究、数据详细分析和分析成果整理,得到最终的数据分析成果,作为数据建库方案的参考。
1.2.1 数据现状分析
江苏省海洋资料与成果分为3个层面:一是数据内容层面;二是数据类型层面;三是数据存储层面。数据内容层面规定了海洋资料与成果所涵盖的数据范围;数据类型层面对数据内容进行有目的的归类,为确定合适的数据建库方案提供数据基础;数据存储层面则对海洋数据的存储方式进行分析。
从数据内容层面来看,江苏省海洋多源数据有3类来源:①江苏省海洋历史调查数据资料,包括海洋基础地理信息、海洋环境监测信息、海洋社会经济信息以及海洋管理工作信息等。②江苏“908专项”近海海洋综合调查与评价资料,包括近岸海域基础调查、海岸带与海岛调查、海域使用现状调查、沿海地区社会经济基本情况、南黄海辐射沙脊群调查等5个专题调查数据,综合评价资料成果包括江苏近岸重点海域环境质量评价、辐射状沙脊群环境变化与开发利用评价、近岸重点海域渔业资源保护与开发利用评价、潜在海水增养殖区评价与选划、海滨湿地保护与土地利用潜力评价、潜在滨海旅游区评价与选划、海洋经济可持续发展综合评价等7个专题评价数据。③“数字海洋”综合业务系统运行数据,包含江苏省自建海洋特色系统的运行数据和国家系统整合的海洋环境基础数据库、海岛专题库、海洋经济专题数据库、海洋科技专题库、海洋执法监察专题库、海域使用专题库数据。上述3类来源基本覆盖了江苏省海洋资料的历史和最新数据成果,在空间上包含了多站位、多剖面、水深分层的三维立体调查数据,在时间上包含静态的站位、航次观测和动态的时间序列观测类型,在内容上包含海洋环境、海洋资源评价等不同专题,因此江苏省海洋数据是一种多时空尺度、多专题的复杂数据集,具备海洋数据的多源性、多态性和多样性特征[8-9]。
从数据类型层面来看,通过对江苏省海洋多源数据归类可看出数据有3种类型:①矢量数据。包括点(站位等)、线(调查剖面线等)、面(海洋要素空间分布剖面等)、体(空间分层数据等)等数据,分别以图层的方式存储[9]。②栅格数据。包括数字栅格数据、数字正射影像、数字高程模型、遥感影像数据等。③文件数据。包括政策法规、档案等。经综合,数据类型总体分为空间数据和属性数据两大类型。
从数据存储层面来看,目前江苏海洋数据主要有两类存储:①电子数据存储。包括存储在已有的数据管理系统中、集中存储在某服务器中以及分散存储在个人计算机中3种方式。②纸质数据存储。包括集中存储在资料柜中和分散存储两种方式。
1.2.2 数据应用需求分析
数据使用现状分析主要关注数据在海洋业务部门和科研服务中使用的“输入-处理-输出”过程,因为不同的数据使用需求有不同的数据使用方式,而数据使用方式的不同又决定了数据建库时所选策略的差异,所以通过海洋数据类型分析、数据实用方式分析、数据在业务过程中的作用分析以及数据在业务中的流转过程分析4个步骤,可解决数据使用者对数据的实际应用需求,得出数据需求分析报告[10]。
1.2.3 数据分析成果
为确保所整理的数据既能满足“数字海洋”国家整体要求,又能体现江苏本省特色,反映江苏近海海洋有关的自然条件、资源状况和社会要素,在应用需求分析工作的基础上,首先完成数据需求分析报告,然后以江苏“908专项”综合调查与评价内容为主线,综合考虑历史调查数据的增加项和变化项,全面反映江苏近海海洋综合调查与评价成果,进行了数据总体设计和详细分类,融合、同化所有数据资料,形成符合“数字海洋”规范要求的数据格式标准及数据模型,最后对数据建库工艺和工作量进行分析,形成数据建库工艺方案和数据建库工作量评估报告。
江苏省海洋数据具有类型繁多、形式各异、海量的特点,给数据的管理和使用带来很大的不便。因此,通过数据整理,实现数据资源的重新规范并使之标准化,是数据建库工作的意义所在[11]。
数据整理包括数据规整、数据格式转换和数据质量检查。数据规整是通过对原始数据资料的整理,使之满足系统对数据的使用需要,为数据库建设提供符合标准要求的数据源,具体包括对需要建库的各类数据资源进行相应的规整、数据资源分类、规范化存储目录的建立、文件名称规范化整理、文件格式规范化整理、数据要素的图形规范化整理、数据要素的属性规范化结构整理等[12]。数据格式转换是将需要转换的成果文件通过相关转换规则转换为满足ArcGIS平台应用的、标准结构的Personal Geodatabase格式数据。包括:数据格式类型转换、坐标转换、代码转换、单位转换等。数据质量检查以数据的规范性、完整性、正确性为检查原则,对数据的定义和组织、数据精度、图形空间关系、属性逻辑关系、图属一致性、图幅接边等方面进行全面检查。为控制数据质量,有些过程需要不断进行迭代,进行转换后检查,检查如果有问题,则进行处理,如果不能处理的,则将问题提交专题调查单位进行修改;然后再转换、检查、处理,直到数据符合海洋业务需要,满足入库的要求为止。
为保证江苏省海洋数据的有效整合以及各类数据顺利汇交,在技术上采取一系列的数据质量控制方法和措施,具体包括以下几方面。
(1)按“908专项”质量保证体系的要求和《“908”专项资料及成果管理办法》制定的资料汇交、质量控制的原则和规定,设计各类专业数据汇交的工程管理框架和流程,每个操作步骤形成文档记录,最终形成资料汇交反馈意见。
(2)对汇交资料中采用非电子载体部分数据化处理,并按一定的格式存储在电子载体上。
(3)按《海洋信息标准体系表》《海洋信息分类与编码》和《海洋信息文件命名规则》等制定的基础标准规范要求,设计数据输入模块、数据结构和文件类别。
(4)根据各专业规程要求的数据资料格式,按步骤对原始资料整理和成果资料整编后的汇交数据种类、格式进行检验。
(5)按照《海洋基础地理数据库》《海洋基础资料数据库》和《海洋信息元数据标准》等相关标准,实现资料汇交数据格式标准化转换、属性关联和标准数据集制作。
整理后数据更加规范化,并符合“908专项”技术标准。根据数据现状分析得到的数据类型信息可知,数据库包括空间数据库和属性数据库两大类,在梳理后的、规范的数据模型基础上,完成数据建库工作[13]。
空间数据库利用ESRI的桌面建库工具Arc-Catalog进行构建,具体步骤如图2所示。
图2 空间数据库建库流程
需要注意的是,在构建空间数据库时,要求空间对象数据集FD和空间对象图层FC中采用的名称与数据库标准设计相一致,以保证后续空间数据的顺利导入。
专题属性数据库采用图形化数据库建模工具PowerDesigner进行设计与生成[14],具体步骤如下。①设计不同专题的多源海洋数据概念模型(conceptual data model,CDM)。把多源海洋数据信息抽象成实体和联系,产生实体联系图(E-R模型),通过实体与属性以及实体与实体之间的关系,抽象出系统内部的数据结构,设计出概念模型CDM。②生成物理模型(physical data model,PDM)。PDM包括软件和数据存储结构,生成的对象主要有:表、表中的列、主键和外键、参照、索引和视图等。PDM以图形的形式表示数据的物理组织,并生成用于数据库创建和修改的脚本,定义完整性触发器和约束,生成扩展属性,使得数据在数据库中能够保持完整性和一致性。③将多源海洋数据概念模型CDM转换为PDM。将CDM中的实体转换为PDM中的表,实体属性转换为表的列,主标示符转换为关键字或外键,规则转换为数据库约束或触发器。具体包括一对一、一对多和多对多关系的转换、递归关系的转换和继承关系的转换。④将PDM转换为数据库。运用PowerDesigner生成的SQL语句,直接在数据库中建立数据表、触发器和规则,将建好的数据结构导入到Oracle数据库中,生成所需的属性数据库。
空间数据入库利用ArcCatalog的数据加载功能直接进行数据的装载导入。在加载对应的原始数据时,需要将原始数据的属性字段与数据库中对应空间图层的目标字段进行配对,然后完成图形对象及其携带的属性信息的导入。如果因数据字段类型不匹配造成入库失败,可以采用在数据库空间图层中添加新字段,使原数据和目标数据字段一致后再导入的方法解决。
属性数据入库采用两种方式实现:①针对按照标准数据集格式规整好的专题属性数据,采用“908专项”数据加载工具将其加载到数据库中。数据加载工具采用模板定义的方式,需先定义模板、行规则、列规则、块规则和组规则,然后再进行加载。②针对特殊的数据,首先把属性数据调整为符合二维范式的关系型数据行列结构,然后采用自己定制程序的方式,将数据导入数据库中,完成属性数据的入库工作。
数据的维护、持续更新工作牵涉到“数字海洋”系统的使用生命力,是确保系统能提供持续支持和应用的基础性工作。根据江苏海洋基础数据的特点,对于空间数据的更新,采用ArcMap软件提供的Editor工具进行管理和维护;对于普通属性表数据,利用PLSQL Developer工具进行日常维护工作。
通过数据调研、分析、整理、建库和入库处理,完成了“数字海洋”信息基础框架下的江苏海洋多源数据整理和入库,取得以下成果。
(1)利用GIS技术和大型数据库技术,建成了江苏省级海洋数据中心和海洋基础数据库群,通过对数据资源的规范化与标准化处理,实现了海洋复杂多源异构数据的集成。在数据整理、分析、建库、入库过程中,提出了完善的数据调研流程、数据分析流程和面向对象的数据建库方法,将海洋数据按系统建设目标和数据标准规范要求重新整理成符合海洋业务需要、支撑系统有效使用的规范化数据,完成了江苏基础地理数据库、江苏基础资料数据库、海域使用管理数据库、海洋经济数据库、海洋资源与环境数据库的建设,为政府管理部门开发和利用海洋资源提供了科学合理的数据支持。
(2)采用“统一存储、统一服务”的数据库服务技术,提供标准化的数据接口和灵活的系统接口,完成了江苏省海洋资料与成果的整合处理与统一管理。统一存储是指所有的基础数据、业务数据、专题数据全部集中在信息中心的服务器上存储,统一服务是指所有的服务包括数据查询服务、业务办公服务等都由信息中心的应用服务器提供,各业务部门能够通过“908专项”专网使用相关的服务。这种模式使数据能够按照标准统一存储,利于数据的整合,为江苏省海洋信息的宏观管理提供了有利的条件。
(3)构建了江苏省级海洋数据中心,利用集中式与分布式相结合的模式,结合四级网络传输平台体系,实现了各级海洋行政主管部门间的信息连接与信息交换。省级海洋数据中心配置了大容量数据存储与交换设备和安全系统,作为海洋信息主干网络的枢纽,调度、指挥、协调海洋信息的传输、存储,实现集中式与分布式相结合的国家级海洋数据仓库和省市数据库间、各级综合管理信息系统间的有效连接和信息交换,涉海海洋数据交换,保证数据处理、管理、交换、产品制作,及在线分析、共享与服务满足运行的需要。省内三级数据交换采用集中交换存储方式,省级与国家间数据交换采用分布式方式。通过国家、省、市、县四级网络传输平台,实现了海洋信息的互联互通。
[1] 李四海,姜晓轶,张峰.我国数字海洋建设进展与展望[J].海洋开发与管理,2010,27(6):39-43.
[2] 刘金,朱吉才,姜晓轶,等.海洋信息组织与存储模型研究及其在“数字海洋”中的应用[J].海洋通报,2011,30(1):73-80.
[3] 刘贤三,池天河,王晓明,等.“数字海洋”原型系统设计与初步实现[J].微计算机信息,2010,26(3):9-11.
[4] 王伟,程文芳,李四海,等.SOA理念在“数字海洋”数据体系构建中的应用[J].海洋通报,2009,28(4):121-125.
[5] 黄博,赵广涛,孟恩,等.“数字海洋”中多格式、多来源通用文档数据管理模式探讨[J].海洋湖沼通报,2009(3):105-111.
[6] 张彦彦,杨晖.海域管理空间基础数据库系统建设研究[J].海洋开发与管理,2009,26(11):13-15.
[7] 赵丽宁,李一凡,赵德鹏.数字海洋空间数据库的构建[J].大连海事大学学报,2002,28(1):34-37.
[8] 夏登文,石绥祥,于戈,等.海洋数据仓库及数据挖掘技术方法研究[J].海洋通报,2005,24(3):60-65.
[9] 谢伟军,张东,张鹰,等.南黄海辐射沙脊群水下地形遥感反演及三维可视化[J].海洋通报,2009,28(4):164-167.
[10]王晓民,张新,池天河.“数字海洋”的数据处理与应用模式研究[J].计算机应用,2008,28:358-359.
[11]张峰,石绥祥,殷汝广,等.数字海洋中数据体系结构研究[J].海洋通报,2009,28(4):1-8.
[12]吴克勤.数字海洋与海洋数据立法[J].海洋科学,1999(9):23-24.
[13]何广顺,李四海.构建“数字海洋”空间信息数据库[J].海洋信息,2004(1):1-11.
[14]刘红玉,杜清运,蔡忠亮.基于PowerDesigner的空间数据库建库技术[J].测绘信息与工程,2007,32(3):24-26.
中国近海海洋综合调查与评价专项(JS-908-03-12),江苏高校优势学科建设工程项目.