海洋领域信息数据库平台构建研究——以浙江海洋学院图书馆建库为例

2011-12-23 05:56董民辉
海洋信息技术与应用 2011年4期
关键词:海洋数据库模块

董民辉

(浙江海洋学院舟山市 316000)

海洋领域信息数据库平台构建研究
——以浙江海洋学院图书馆建库为例

董民辉

(浙江海洋学院舟山市 316000)

从数据、应用逻辑到语义3 个层次建立规范的海洋信息管理系统,实现相关海洋信息的采集、存贮、检索、分析、交换和集成等,提出通过 TPI 系统解决海洋领域信息资源的集成和共享问题。

海洋领域 海洋信息数据库 数据库建设

1 海洋资源是数据库建设的基础

随着经济的高速增长,陆域资源、能源、空间的压力日益加剧,人类已将经济发展的重心逐渐移向海洋。联合国《21世纪议程》指出:海洋是全球生命支持系统的一个基本组成部分,也是有助于实现可持续发展的宝贵财富。世界海洋经济增长迅速,海洋产值每十年就翻一番,增长速度远高于同期 GDP 的增长。海洋经济在世界经济中的比重已达 10% 左右,预计到2050年,将上升到 20% 。海洋经济已成为沿海各国(地区)国民经济的重要组成部分[1]。

20世纪90年代以来,信息化浪潮席卷全球,世界各国都纷纷以信息技术作为新科技的先锋。特别是发达国家,以信息化带动工业化,带动管理领域和经济领域,取得显著效果。海洋是蓝色国土,利用信息化促进海洋管理、海洋科研和海洋开发的快速发展,可实现海洋强国战略。

涉海类高等院校目前把海洋特色专业建设成省级甚至国家级的重要学科,各高校图书馆也都根据自身特点和资源收藏,形成丰富的文献馆藏。怎样更好地发挥馆藏优势,为读者、教学和科研提供更好的服务;怎样整合现有资源,开发新资源,提高资源利用率;怎样将具有特色的海洋信息资源数字化和共享,是目前面临的最迫切的问题。其可行办法是走特色化办馆之路,在现有资源的前提下,充分挖掘自身优势,融合学院、教学及科研。海洋信息化管理工作主要由 3个部分组成:基础数据库、专题数据库、运行实现信息管理共享平台。通过这些技术,最大限度地开发和利用共享信息资源,从而提高管理效率和经济效益。

2 海洋领域数据库内容[2]

数据由空间数据和非空间数据两部分组成,前者包括各种地理电子图件,后者即属性数据和文档资料。空间型数据分矢量数据和栅格数据。

2.1 基础数据库分类

海洋地理空间数据库主要包括海域地理数据、海岸带地理数据、海岸带地形数据、海岸带地貌数据、海洋地质数据、海底地貌数据等基础地理信息数据。

海洋资源数据库主要包括海岛资源数据、渔场资源数据、渔港空间分布数据、港口码头资源数据、盐场资源数据、海产品资源数据、旅游资源数据等数据。

海洋环境数据库主要包括物理海洋数据、海洋气象数据、海洋化学数据、海洋生物数据等。

海况及海洋灾害数据库包括气象、海况信息、历史海洋灾害信息以及各种海洋灾害的应对预案信息。

港口航运发布信息数据库主要包括港客运和货运以及其他有关港口航运所发布的相关信息。

海洋科技及产业信息数据库包括政府对外招商、经济合作交流信息,通过各种渠道发布的各类海洋科技及产业信息及海洋科研院所的信息。

海洋旅游发布信息数据库包括旅游局发布的有关海洋旅游的各类信息。

2.2 专题数据库分类

海域使用信息数据库主要包括海域使用登记信息、年检信息等。

海岸带管理数据库主要包括海岸带工程,海岸带功能区划,海岸带利用状况,浅海、滩涂利用等信息。

渔业管理信息数据库包括海洋农牧化建设信息、渔业示范基地、鱼苗及其审核信息、渔业经济、鱼情预报、渔业法规、水产品生产等信息。

渔业产业数据库主要包括水产养殖、捕捞、水产品加工等企业的各方面信息;渔业产品信息、渔业生产信息、渔业招商引资信息等。

海洋法规数据库主要包括海洋执法、海洋环境保护、海洋生产等方面的相关法律法规。

渔业电台数据库主要包括电台设备,船舶电台的数量、频段、内容等管理信息。

渔业船舶数据库主要包括用于水产养殖、远洋捕捞、近海捕捞等所有渔船的信息。

渔港数据库主要包括渔业港口的所有信息,规模、水深、设施等。

渔业资源数据库主要包括远洋及近海的渔业资源、水产品养殖信息、鱼群洄游信息等。

水生野生动植物数据库主要包括列入保护范围的水生野生动植物的信息,种群、数量、聚集地等。

安全生产数据库主要包括渔业企业、水产养殖企业、水产品加工企业的安全生产信息。

海洋污染事故数据库主要包括海洋污染历史数据、海洋污染分类、海洋污染应急预案等信息。

海洋工程数据库主要包括待建、在建、已建的各类海洋工程的详细信息以及工程场地周边敏感水域的信息。

海洋保护区数据库主要包括各类海洋保护区的信息。

渔业病虫害数据库主要包括渔业病虫害的信息、防治办法信息,以及国际各种渔业病虫害的最新信息。

水产品防疫检测数据库主要包括水产品检验检疫的信息。

3 海洋信息数据库管理平台的现状和问题

海洋基础信息积累与数据库建设,是海洋信息资源开发利用的重要环节。只有具备了丰富、有效、及时的信息,海洋信息化工作才有基础。海洋基础数据的积累和数据库的建设应立足于全面、系统的原则,广泛收集各种有关信息,以满足海洋管理、科研、教学、推广及基层渔民等各层次、各部门的需要。浙江海洋学院图书馆数据库平台将广泛收集该校建校以来承担的各类项目的成果、论文、专利等相关文档、原始数据、图件等,建设科学研究基础信息数据库;设计科研基础信息元数据结构,建立元数据库;开发 B/S模式元数据导航查询系统,实现科学研究基础信息的浏览、查询及下载功能。

近年来,该馆十分重视数据库平台的建设,图书资料的数字化正在加紧进行中。如馆内各种文献数据库的建库、更新、维护与服务;图书馆书目数据库的自动化建设;图书馆信息检索,图书资料的回溯建库;外文原版图书的全文数字化加工处理等工作正在积极运作中。目前已经建立了 3 000 多种海洋以及淡水鱼类、虾类、贝类、藻类等海洋生物的基本资料数据库。同时,建立了水产养殖新品种的引进资料数据库;水产濒危动物资料数据库;水产名贵、珍稀水生动物数据库;种质资源数据库;养殖技术数据库,水产质量官方评价数据库等。

过去的十余年中,我国先后开发了一系列海洋相关应用软件,大大提高了海洋观测、预报的效率和精确度。在海洋信息化系统应用过程中,也暴露出一些问题,体现在:(1)数据资源共享程度低,海洋观测数据来源广泛、形式异构,难以实现共享;(2)系统整合程度低,各部门系统独立开发,彼此间服务和功能相关性差,难以发挥整体效益;(3)功能复用程度低,相同功能的系统模块重复开发现象普遍;(4)跨领域协同困难,部门间数据表达和服务流程存在较大差异,导致领域内协同业务体系建设难以推进。[3]

目前,我国海洋信息数据库种类繁多,如海洋水产数据库、海洋运输数据库、海洋油气业数据库、国内海洋综合经济数据库等。但由于没有总体平台,缺乏统一的数据存贮、交换格式。在进行海洋信息的综合查询或统计中会出现问题。因此,迫切需要建立一个规范的海洋信息系统平台,通过实现海洋信息化管理,制定一系列标准和技术规范来统一各种技术流程和系统中以数字形式存在的各种信息,达到海洋信息的资源共享及信息服务的社会化,为海洋生产单位对海洋开发和科研活动提供准确、权威的数据资料。

4 海洋类信息数据库平台的构建研究

4.1 TPI 系统介绍

TPI 系统即清华同方专业数据库制作管理系统,是清华同方光盘股份有限公司在积累了信息资源建设领域的大量宝贵经验的基础上,为大中小型信息服务机构开发的一个以内容管理为核心的数字图书馆解决方案。TPI 是基于非结构化文档管理而开发的大型智能内容管理系统。该系统以 FTS 全文检索数据库为核心,集成了字典管理(FDT)、内容发布系统(CPS)、元数据标引(ME)、类工具(CF)、检查工具(CKT)、光盘出版工具(CDPT)等模块。采用流行的 B/S 浏览器的检索方式和先进的 3 层 C/S 架构,能够同时管理文字、图片、多媒体等信息并提供全文检索服务,支持网页的动态发布,是一个面向内容管理的数字图书开发平台。TPI 系统针对数字图书建设提供了一条捷径,特别是其高性能的全文数据库系统,先进的信息发布系统,支持标准的检索协议,完全兼容普遍使用的 CNMARC 标准,支持Z39.50协议,动态实时信息处理,可利用COM 实现二次开发以及高性能的全文检索引擎,是解决目前数字图书馆资源建设的专业化软件。

4.2 TPI的功能

利用TPI系统在资源存储方面支持各种格式的文本和图片、视音频文件处理技术,完成数据存储。在资源管理方面,将数据库同时建立多种导航树以支持多种分类体系。导航树直接和分类结果一一对应,用户可以在 Web 上直接按照导航树检索。支持角色管理和用户管理,方便定义不同用户的权限,使数据库操作同时具备方便性和安全性等特性。分布式检索系统把分布在不同地理位置的独立自主的多个 TPI 数据库服务器联结为一个集群系统。各自独立的 TPI 系统可以建立特色数据库,可控制其他用户访问资源。分布式检索系统提供跨服务器、跨平台的分布式检索,用户通过该系统可以极大地共享整个集群数据库中的信息,实现分布式、多层次、多类型、特色型的资源共享。

TPI 内容发布系统将加工的数据发布到互联网上,使之可被用户浏览和检索。发布提供多种发布模板:CNKI 期刊风格、GOOGLE 风格、EI 风格、OCLC 风格、图片风格等。支持用户基于数据库字段的个性化发布定制;支持多种数据库间数据记录之间的关联、跳转、校验、下拉选择;为数据库同时建立多种导航树,支持多种分类体系并存;支持为一条记录关联多个全文数据或多种媒体数据的连接功能,该功能为发布多图片新闻、多附件通知等应用提供技术保障。

4.3 利用 TPI 建设海洋领域信息数据库方案

方案主要包括5 方面建设内容:数据采集模块、数据迁移模块、资源管理模块、资源发布模块、信息检索模块。各模块协调工作,实现软件系统的所有功能。其中资源管理模块包括全文检索管理系统和内容管理系统。

4.3.1 数据采集模块

数据采集模块的主要功能是实时采集、监控网站内容,对采集的海洋类信息进行过滤和自动分类,将需要的内容及时发布,实现信息检索。比如定向抓取某些网站的数据,用户只需设定要抓取站点的首页地址,程序就会按设定的站点下载相应的网页并传给后台处理程序做进一步的处理。根据设定的更新周期定期对各站点上新发布的网页或者更新的网页进行及时抓取。

图1 应用系统的功能模块图

对于馆内长期积累的海洋文献纸质文档,如技术文档和政府报告,通过扫描、OCR 识别、编改、标引、分类、检查、入库进行加工,提供全文检索;对于大量电子文档,如 Word、PDF 等文档,通过整编、标引、分类、检查、入库进行加工,即可提供全文检索。

4.3.2 数据迁移模块

通过数据迁移模块将数据转换成KBASE 数据源。数据来源主要是:(1)关系数据库(SQLServer、Oracle、IBM DB2 等);(2)专用数据库,如国内某些厂商提供的数据库;(3)文件系统:可能是文本、XML、Word 文档、PDF 及PPT 文件等。这些信息有不同的安全访问级别、对不同的用户需控制其访问内容,要求做到文档级别的安全性管理;(4)数据采集模块采集的页面信息;(5)非结构化数据:Lotus Domino、Microsoft Exchange。

4.3.3 资源管理模块

资源管理模块包括全文检索管理系统和内容管理系统。全文检索管理系统为用户提供全文数据存储和全文检索管理功能。它是以管理非结构化数据对象为主,具备智能信息处理能力,以中文信息处理为特色的专用数据库管理系统,该系统需要对异构数据源提供统一访问和统一管理手段,直接支持 Z35.90 协议、OpenURL 协议、OAI协议,提供通用数据访问网关,可统一访问所有Web 数据源。内容管理系统是建立在全文检索管理系统之上的实际应用系统,为用户提供对数据库的信息管理、用户管理、权限管理、分类导航、记录管理、数字对象 DOI 管理等功能。

4.3.4 信息检索模块

该模块是用户有效利用平台的重要环节,各种不同种类的数据库可以有自己的检索风格,也可以与其他数据库形成统一的跨库检索。

4.3.5 资源发布模块

资源发布模块是系统对外服务的窗口,其内容应包含:统一异构检索、支持标准的 OpenURL、Z39.50、Portlet、SAML、Web Services、ILL协议,含多种发布风格,支持多种导航等功能。

系统的业务流程包括数据采集、数据迁移、资源管理、资源发布、信息检索等。

图2 基本业务流程图

互联网上的页面信息通过数据采集模块得到数据并存放到 KBase 数据库中;专用数据库、关系数据库和文件等其他数据通过数据迁移模块转换为该数据库的资源。通过统一认证管理模块对数据设置分级权限,资源管理模块进行统一管理,应用资源发布模块将信息发布到 Web 上,配合信息检索模块实现资源的检索功能。

该方案的特点:自主研发的大型国产文档数据库性能优异。安全与标准共存,自主研发数据库拥有良好的安全性,同时也支持众多国际标准协议,并提供完善的二次开发的标准接口 SDK,指挥调度、图像监控等第三方程序可轻松利用接口 SDK 与服务器端进行数据的交互;统一管理与统一维护,无须第三方数据库系统,在降低成本的同时,更便于统一培训、统一管理、统一维护;专业性能优越,数据库单库容量可达 8T,记录条数可达 40亿×40 亿条;数据检索查询速度业界领先,可达 500 G/秒;拥有众多特有功能,如复合字段,支持自定义。

B/S 与 C/S 架构相结合。提供门户网站,通过 TPI 的建库发布,即可提供政务、办公、信息采集处理等一体化的综合性门户网站;强大功能与易用性并重;支持灵活的C/S架构;TPI 系统的客户端可使用桌面程序与服务器建立 C/S 连接,进行数据的交互和处理。

细节功能齐全强大。Web 在线提交可提交附件,支持任何格式的文件;支持自动发布数据库,随时更改发布样式,可动态发布网站,体现特色支持;对已有纸质文档进行扫描加工,通过OCR 进行图形文字识别并入库;覆盖文本、图片、音频、视频等各种媒体类型。

海洋信息是海洋科研、教学、工程设计、规划管理、环境测报及评价、海洋经济可持续发展和军事海洋环境条件保证等的主要依据,海洋科学数据的收集、处理和数据库建设对于以海洋经济为支柱产业的社会具有科学意义和紧迫需求。因此 TPI 完全符合海洋信息综合管理平台的各项功能和支持各类海洋数据标准、规范的处理。

[1]徐长乐,朱元秀.上海市进一步推进海洋经济发展的若干战略思考[J]. 科学,2011(1):21-25.

[2]高惠瑛,陈天恩,莫善军.海洋资源信息化工程中的数据库构建模式[J]. 海洋科学,2004(7):31-35.

[3]杨鹏,王文俊,董存祥. 海洋领域信息集成与共享研究[J].计算机工程与应用,2010(26):194-197.

2011年6月23日

猜你喜欢
海洋数据库模块
28通道收发处理模块设计
“选修3—3”模块的复习备考
爱的海洋
第一章 向海洋出发
数据库
数据库
数据库
数据库
集成水空中冷器的进气模块