水利水电科技文献数字化查询平台的研究

2013-08-29 09:19张伟兵王冠华
关键词:水利水电水利分类

缪 纶,张伟兵,叶 茂,王冠华

(中国水利水电科学研究院,北京 100038)

1 研究背景

随着信息技术的飞速发展和文献资源数字化技术的日趋成熟,实现文献资源的数字化检索与共享成为必然趋势。水利行业拥有丰富的信息资源,并且每年都在源源不断地新增大量科技文献,绝大部分是非书刊文献。相对专著和论文而言,这些科技文献不仅具有较强的时效性,而且在内容上具有前沿性和实用性,对于科研、设计和管理以及决策人员具有很高的研究参考价值,一直以来备受重视和青睐。但是这些海量信息资源有些仍长期沉睡在纸堆中,有些即使制作成电子数据文件,但也并未对其进行统一的分类化管理。因此,这些科技文献资源并没有得到充分开发和利用,以文献信息数字化和数据仓库为中心的资源建设也严重滞后,很多资源无法进行信息共享。水利系统科技文献资源的开发利用、总体管理状况远远不能满足水利信息化发展和新时期水利工作的需要。因此,构建水利水电科技文献资料数据的数字化存储管理,是当前水利行业信息化发展的紧迫任务之一。

中国水利水电科学研究院(以下简称“中国水科院”)资料室收藏的科技文献资源,不仅数量多,而且涉及水利学科范围广、层次高、内容新,在同行业中,其完整性和权威性也是最高的。本文以中国水科院资料室收藏的科技文献资源为研究对象,阐述了水利水电科技文献数字化查询体系构建过程中学科分类和元数据结构的解决方案,并在此基础上介绍了水利水电科技文献数字化查询平台的整体架构。

2 水利水电科技文献学科分类体系

水利水电科技文献从技术角度分为技术报告、技术论文、技术译文等;从内容上分为成果报告、生产报告、评估报告等。科技文献数字化建设的一个重要任务,就是找到适合系统应用和用户检索的文献资源分类方法。

学科分类一般遵循以下基本原则[1-2]:①科学性:分类必须以科学的知识分类为基础,选择事物或概念(即分类对象)的最稳定的本质属性或特征作为分类的基础和依据。②系统性:将选定的事物、概念的属性或特征按一定排列顺序加以系统化,从而形成一个合理的科学分类体系。③可扩延性:分类的编码结构必须能适应同类编码对象不断扩充的需要,以便保证增加新的事物或概念时,不至于打乱已建立的分类体系。④兼容性:与有关标准(包括国际标准、国家标准、行业标准等)协调一致。⑤唯一性:指任何专业名词、术语的定义必须严格保持概念的一致,对同一专业名称、术语必须是唯一的,且不能重复。⑥合理性:分类编码体系结构与数据分类体系相适应,能反映分类体系的层级、机理及相关联系的特性。⑦规范性:编码的结构、类型及编写的格式统一,以便于数据的检索和共享。

我国现有与水利信息相关的分类编码标准有:《水利工程基础信息代码编制规则》(SL213-1998)、《水利系统政务信息编码规则与代码》(SL/T200-97)、《中国河流名称代码》(SL249-99)、《中国湖泊名称代码》(SL261-98)、《中国水库名称代码》(SL259-2000)、《中国水闸名称代码》(SL262-2000)、《中国蓄滞洪区代码》(SL263-2000)、《土壤侵蚀分类分级标准》(SL190-96)、《水情信息编码标准》(SL330-2005)、《水文数据GIS分类编码标准》(SL385-2007)等,这些标准的制定解决了许多基础信息重复整编、互不统一的局面。但是,由于这些标准大多仅仅针对的是某一项专题或调查制定的,并没有进行全局性考虑。因此,水利部为建立一个完善的水利信息分类体系,组织专家编制了《水利信息分类》标准,该标准对水利水电科技文献分类研究也具有一定的借鉴作用。

2001年,水利部颁布了《水利技术标准体系表》,2008年进行了修订,其中将水利信息按专业划分为综合、水资源、水文水环境、大中型水利水电工程、防洪抗旱、农村水利、水土保持、农村水电、移民、水利信息化等,该分类方便了水利行业技术标准的管理和使用,具有非常高的理论性和非常强的实践价值。然而,该分类仅是针对我国水利技术标准成果的管理这一特殊用途的一种分类体系,随着水利信息化发展,其分类层次和内容体系还有待进一步完善。

在国家层面上,我国于2008年颁布的国家标准《学科分类与代码》(GB/T 13745-2008),其中设有“水利工程”分类与代码[3],并把水利工程分为水利工程基础学科、水利工程测量、水工材料、水工结构、水力机械、水利工程施工、水处理、河流泥沙工程学、海洋工程、环境水利、水利管理、防洪工程、水利经济学等。但是,该分类方法过粗,未能充分体现水利行业有关的学科,因此也无法完全满足水利行业的数据管理的需要。

关于水利水电科技文献的分类,原水利部信息研究所(现水利部发展研究中心)编制有《水利水电科技文献分类》,该分类包括四级:基本类目24个,二级类目301个,三级类目1 514个,四级类目1 079个,长期以来为水利系统各级科技文献收藏个管理部门沿用。但由于该分类编制年代较早,随着水利形势的发展以及水利科技的进步,越来越难以适应水利科技文献的分类需要。较为突出的如该分类法中一级类目中,缺少防洪抗旱、环境水利、城乡水利、水利信息化等内容,而近年来相关方面取得了相当多的科研成果。

本文在调研以上分类标准的基础上,并在参考了《中国图书馆分类法》(第四版)(简称《中图法》)、《中国科学院图书分类法》(第三版)(简称《科图法》)、《中国水利百科全书》(第二版)(简称《水百》)基础上,经过综合对比分析认为,《水百》编纂过程中,集中了包括中国科学院和中国工程院院士在内的众多水利系统的专家学者,是水利学科现状的权威体现。相对其他的分类体系,《水百》可以说基本做到了取长补短,既包括有水利水电建设所涉及的基础领域,如力学、化学、地质学等一般自然科学,涉及面较广,而且基本上较为全面反映了水利水电建设的最新形势和进展,如水利管理、水利经济、环境水利等均有单独的类项。本项目学科分类以《水百》为基础进行,将基本类目缩减为21类,二级类目211类,三级类目1 508类[4],基本涵盖了水利水电学科的所有领域,见表1。

因此,在目前水利信息资源管理领域尚无现成可参考的学科门类条件下,以《水百》的条目分类为基础,适当进行调整,不失为一种实用的方法。

3 水利水电科技文献元数据结构

元数据是定义和描述数据的数据,是一种用来描述数字化信息资源,确保数字化信息资源能够被计算机及网络系统自动识别、分析、提取和分析归纳的一整套编码体系[5]。水利水电科技文献元数据,用来描述水利水电科技文献信息资源,其目的在于方便用户发现资源、识别资源、评价资源,而且对相关的信息资源进行选择和定位,并追踪资源在使用过程中的变化,实现文献资源的有效整合、管理使用和长期保存。

表1 《水百》学科分类

水利水电科技文献元数据建立在传统技术和现代技术两个基础之上,不仅用来描述数字化信息的内容特征,而且更要描述数字化信息的基本属性,使得数字化信息得以被有效传播、交流和利用。同时水利水电科技文献元数据为文献数字化信息资源建立一种机器可理解的框架,帮助计算机系统以及其它网络通信设备获得并理解文献数字资源的基本特征,包括系统特征、内容特征、权利特征等方面。

迄今为止,世界上已开发并付诸使用的元数据主要有以下几种:一是最早普遍使用的元数据MARC机读目录;二是描述博物馆藏品与档案特藏的元数据EAD编码文档;三是描述和管理大量网络信息资源的元数据(包括都柏林考DC、因特网内容挑选平台PICS、因特网馆藏WC等元数据);四是其他形式的元数据(包括频道定义格式CDF、教育管理系统IMS、全球信息定位服务GILS等元数据)。

水利水电科技文献信息与其他类信息相比,在其载体和类型上没有太大差别,只在具体内容上差别较大。因此,水利水电科技文献元数据体系的建立应遵循通用、易兼容、可扩展的原则。在对国内外数字图书馆元数据标准进行调研和分析的基础上,笔者认为:DC元数据标准简单易懂,既便于专业用户的扩展,又适合普通用户使用,它是由世界各国专家共同参与制定的,并经过图书馆界、档案界、计算机界的专家以及Z39.50和通用标记语言标准(SGM)等方面的专家学者不断地修正。我国和其他许多国家的数字图书馆工程都是以DC元数据为基础进行信息化建设。因此,水利水电科技文献选用DC标准作为基本元数据标准,并根据实际需要进行必要的扩展和裁剪,确定了每一个元素的描述方式、基本定义和填充规范,对每个元素都给予了相应的解释。水利水电科技文献元数据体系包括20个类别,60多个元素,主要元素如表2所示。

通过表2描述的元数据,管理人员和用户可以有效地管理、鉴别、了解和使用其中的信息资源。这些元数据可以实现以下功能:一是描述水利水电科技文献资源对象的内容;二是识别资源日期、类型、格式等数据元素;三是定位资源的位置,以利于网络环境中水利信息对象的发现和检索;四是检索,成为用户查找电子资源的重要依据。

表2 主要元数据元素

为方便水利水电科技文献元数据的共享,参考当前异构系统数据交换技术,我们采用可扩展标记语言XML[6-8](Extensible Markup Language)来对元数据进行描述。XML是继HTML之后的又一种Web标记语言,专用于基于Internet的数据共享和交换设计,它已成为互联网上数据共享和数据交换的关键技术和标准[9]。用XML来描述元数据,具有清晰的结构、语法和内容,并能被计算机更高效地处理。XML还具有易于编辑、便于管理、适于存档、容易查询等诸多优点[10],这些特点,使得它成为了描述元数据的最佳选择。

4 数字化查询平台架构

水利水电科技文献数字化技术研究的一个重要任务,就是在完成分类体系的基础上,以元数据为数据资源的描述方式,构建水利水电科技文献数字化查询平台。

水利水电科技文献数字化查询平台具有以下功能:①科技文献的数字化保存、分类管理;②科技文献资料的查询、浏览;③科技文献的汇交、查重;④科技文献的统计结果输出功能;⑤用户和系统管理人员相关的权限管理、使用管理、统计管理和故障处理等。

图1 水利水电科技文献数字化平台架构

水利水电科技文献数字化查询平台根据水利水电科技文献数据的特点,数据进行加工保存入数据库中后,系统对数据进行分级分类存储,并定义数据的词汇表,方便用户查询检索。最终,系统通过web的方式,将文献数据资源发布在Internet上,并提供数据检索、文献下载以及数据统计等功能,其整体架构如图1所示。

5 结语

本文以水利水电科技文献资源为基础,选择中国水科院资料室收藏的科技文献资料,开展水利水电科技文献数字化技术研究,初步制定了适合于水利水电科技文献的学科分类方法和元数据结构,搭建了水利水电科技文献数字化查询平台,为水利水电科技文献资料的管理提供了网络化管理平台。该研究充分利用行业文献资源,更好地为水利水电科研生产提供服务,为广大水利水电科研人员提供了快速、便捷的科技文献查询途径,促进了水利水电文献信息化建设步伐,丰富了水利水电信息化的建设内容。

[1]马建华,孙九林.WDC-D地球化学数据分类与编码的初步研究[J].河海大学学报(自然科学版),2006,36(1):50-54.

[2]赵艳华.我国信息分类编码标准化的实践[J].中国标准化,2001(10):7-8.

[3]GB/T 13745-2008,学科分类与代码[S].

[4]崔宗培.中国水利百科全书(第二版)[M].北京:中国水利水电出版社,2006.

[5]李晶,姜斌,刘倩,等.水利数字图书馆[M].北京:知识产权出版社,2006.

[6]Steven Holzner.XML Complete[M].The McGraw-Hill Companies,Inc,1998.

[7]张哲.基于XML的元数据体系的数据交换[J].计算机工程与应用,2003(10):180-184.

[8]Steven Holzner.XML black book 2nd[M].Publishing House of Mechanics Industry,2002.

[9]李宁.XML与信息共享[J].计算机应用与软件,2004,21(10):20-21,55.

[10]王津涛,白乃侠.基于XML元数据的研究与开发[J].计算机工程与设计,2004,25(7):1086-1088,1103.

猜你喜欢
水利水电水利分类
《湖南水利水电》2021年总目次
分类算一算
为夺取双胜利提供坚实水利保障(Ⅱ)
为夺取双胜利提供坚实水利保障(Ⅰ)
河南省水利水电学校
水利水电工程建设质量监测
水利工会
农村水利水电
水利监督
分类讨论求坐标