分布式高校艺术数字图书馆之构建

2011-05-08 09:39
图书馆学刊 2011年4期
关键词:标引检索数据库

吴 涛

(洛阳师范学院图书馆,河南 洛阳 471022)

1 数字化资源建设现状

在网络化、数字化环境下,数字资源日益成为教育活动和创新研究的主要信息源。我国“九五”至“十一五”期间,“中国高等教育文献保障系统(CALIS)”、“大学数字图书馆国际合作计划(CADAL)”、“中国高校人文社会科学文献中心(CASHL)”、“国家科学数字图书馆”和“中国数字图书馆”等一批数字化项目的相继确立或完成,促进了高校数字图书馆建设的全面提升和有效共享。然而,在众多数字化项目中,艺术院校图书馆数字化建设项目相对较少,艺术资源网络利用明显滞后。笔者于2010年7月选择我国艺术教育排名靠前的9所美术学院、8所音乐学院图书馆为对象,对其自建数据库情况进行了网络调研(见表1、表2)。无独有偶,2008、2009连续两年,张丽霞等人分别以《中国一流大学图书馆特色资源探微》[1]和《中国一流大学图书馆“特色资源”跟踪调查与研究》[2]介绍了我国一流大学图书馆的数字资源库建设情况,综合对比调查结果,艺术院校图书馆数字化建设无论在规模上还是在数量上均较落后,存在以下问题:

●艺术数字图书馆数据库总量偏少。主要依靠引进或购买,且多为中文综合性数据库,如书生、超星、CNKI、维普等;艺术专业特点不够突出;重复建设、资源浪费现象严重。

●自建数据库以馆藏资源为主,具有一定的专业特色,近年来虽然增长较快,但品种类目杂乱、规模小。

●自建数据库“各自为政”,建库软件、技术标准不统一;建设质量良莠不齐;开放性、互动性差。

●国内艺术专业商业数据库缺失导致各馆拥有的艺术类商业数据库品种匮乏。经费紧张又使得外文艺术数据库的引进受到阻碍。

表1 艺术院校图书馆数据库统计

表2 艺术院校图书馆自建数据库列表

2 数字化建设的发展思路

2.1 制定国家层面的艺术院校数字图书馆发展规划

艺术院校图书馆不仅担负艺术教育的重要使命,也是国家创新体系信息基础设施的重要组成部分。针对我国艺术院校图书馆数字化建设的现状,应从国家数字化信息整体发展的战略高度尽快制定发展规划。制定和完善从资源采集、组织、管理、安全、永久保存到服务利用一系列艺术数字图书馆标准规范,进一步扩大艺术数字资源建设的范围和数量。建议国家职能部门,有组织有计划地重点整合、挖掘国内外各类信息服务机构、教学科研机构、商业服务机构和高校成员馆的可利用艺术信息资源以及各类信息网站丰富的艺术信息,逐步构建拥有海量数字资源的、具有高技术水平的国家艺术资源中心,以中心集成系统与云计算平台等技术手段建设功能完善、资源丰富、技术先进的分布式艺术数字图书馆网络;深化技术支撑环境建设,为艺术数字网络图书馆建设提供有力的技术保障。同时,不断强化艺术数字资源服务体系建设,依据相关知识产权的法律法规,为全国艺术院校和社会文化艺术部门提供数字资源服务,以充分发挥教育资源的社会效益;不断加强艺术数字图书馆领域的对外合作与交流,以开放的姿态在全球范围开展包括资源、技术、人才、服务等多方面的交流与合作,提高我国艺术数字图书馆在国际上的影响力,促使我国在大规模艺术数字图书馆建设和信息服务领域向世界先进水平迈进。

2.2 借鉴数字图书馆建设的成功模式和经验

数字化图书馆本质上是一种现代技术条件下的图书馆网络,是图书馆网络的扩展。国外最著名的例子莫过于美国的OCLC(联机计算机图书馆中心)。1967年美国俄亥俄州12所大学图书馆合作建立俄亥俄州大学图书馆中心时,其目的在于缓解各馆经费紧张的局面并实现资源共享。但伴随与美国国会图书馆合作实现联机编目和书目数据的数字化,其网络规模随之扩大。特别是20世纪90年代初,OCLC在实现了图书馆业务信息数字化的基础上,发展了数字化多媒体的全文检索系统SiteSearch和SiteSearchWebZ,使其连接和检索的网络数字图书馆规模快速增加。据最新统计,通过该系统可检索覆盖各领域和学科的数据库多达70个,用户来自109个国家和地区的55000多个图书馆,收集馆藏信息10亿多条,并和用户馆的馆藏资源进行整合,OCLC现已成为世界规模最大的图书馆网络[3]。值得关注的是OCLC和美国国会图书馆在书目控制和数字化方面的密切合作,使其逐步成为美国国家数字化图书馆网络,为其发展奠定了组织基础;网络技术和SiteSearch系统的研发为其发展提供了技术支撑。

目前,我国数字化图书馆建设虽然还处于初期阶段,但也不乏成功案例。“国家科学数字图书馆”和“中国数字图书馆”、CADAL、CASHL等一批数字化项目的建设,从“组织”模式到“技术”支撑,有着符合中国国情且值得研究和借鉴的经验。数字图书馆标准与规范建设项目(CDLS)[4]针对数字图书馆资源加工、描述、组织、服务和长期保存制定的我国数字图书馆发展战略与框架、数字图书馆核心标准规范体系及其开放建设与开放应用机制,为艺术数字图书馆的建设提供了从构建策略到技术标准的一系列参照体系。CALIS“全国高校专题特色数据库项目”[5]的成功实践,也为建设“国家艺术资源中心”积累了经验。

3 图书馆数字化的方式与系统模型

国家艺术资源中心的建设遵循“分散建设、统一检索、资源共享”的原则,在“组织”层面上,由国家艺术资源中心门户(管理机构)系统和分布式的艺术数字图书馆(骨干馆和基层馆)系统两部分组成。“国家艺术资源中心”由国家性的、能够协调三大系列图书馆(公共图书馆、高校图书馆和科学院图书馆)的管理机构担任;“骨干馆”由馆藏艺术资源丰富、现代化程度高的大型图书馆(重点艺术院校图书馆、国家大型艺术馆和博物馆)担任;“基层馆”为遍布全国的中小型图书馆。骨干馆和基层馆在一个平行的网络结构上,其为中心门户提供资源信息的功能与权限是一样的,它们根据各自的馆藏特色和网络建设需求,分工协作。骨干馆以其丰富的馆藏资源和技术、人才实力,成为网上数字信息的主要提供者;基层馆通过网络连接,一方面享受“中心”和骨干馆的信息业务服务,一方面凭借馆藏特色参与建设。在“技术”层面上,各艺术院校统一建库标准、统一元数据集和服务功能要求。艺术资源中心门户系统采用OAI协议收割参建单位的元数据,建立艺术特色元数据库,以中心集成系统与云计算平台等技术手段在统一系统框架下形成系统之间的信息共享和信息交换机制,实现全国艺术数字图书馆的资源整合并与国际互联网对接(其建设模型见图1)。

各艺术院校数字图书馆既是艺术数字图书馆网络的组成部分,又是独立的、服务功能完备的集数字化馆藏资源、网络虚拟资源、商业数据库、联机目录为一体的数据库网络平台。如美术数字图书馆由美术作品检索系统、美术家信息检索系统、美术文献检索系统、美术作品展示与欣赏系统、数字图书、期刊、虚拟资源等组成。其中,美术作品检索系统、美术文献检索系统和美术家信息检索系统是自建数据库最具馆藏特色的核心组成部分(见图2)。

4 数字图书馆的技术支撑

4.1 建设平台

为确保建库质量与实现资源共享,建库系统应采用先进、成熟的技术平台。该平台与“国家艺术资源中心服务系统”一起形成统一元数据集和分散对象数据的二级系统构架,与中心服务系统遵循相同的标准和规范。建库平台应具备的基本功能:①对象数据加工和各类电子资源的导入与格式转换功能。②原数据标引功能:系统能够预置原数据模板;用户可根据特色库规范注册新的原数据格式,并自定义模板;提供多种原数据格式的转换工具;编辑器模板的功能菜单应齐全并有较强的适用性;具有对著录内容进行全域修改等功能。③保存和输出功能:系统应有审校功能,可按文献类型分库保存原数据。可选择导入导出格式,具有单个和批量导出功能。④统计与检索功能:可对用户著录进行统计;提供基本检索、高级检索、二次检索等检索方式。⑤信息发布功能:提供多种发布模板,也可自建发布模板。⑥系统管理及维护功能等。目前国内数据库加工系统有TPI、TRS、麦达、方正、快威、义华等10余种。建库系统的选择应以遵循“先进性、标准化、开放性、安全性、易用性和可扩展性”为原则[6]。

4.2 基础数据的整合

艺术数字图书馆数字资源来源主要包括3部分:一是馆藏艺术品实物,如文物、雕塑、书法、绘画作品等;二是纸质文献,如图书、期刊、绘画、书法、古籍、拓片、画册等。三是原生数字文献,如选购的商业电子文献或数据库、搜集的网络文献等。所谓基础数据的整合就是依照“我国数字图书馆标准规范建设”的标准,通过扫描或数码照相、图像处理、OCR识别、数据库平台转换、压缩等方式将上述各类文献加工、合成为具有完整信息的适应数字图书馆需求格式的图像数据,经过分类、标引、建立导航,归类到数据库各子库中的过程。其中,数字图像的加工、标引与检索是有别于一般文献数字化的焦点和难点,是数字资源建设的基础。《数字资源加工标准与操作指南》[7]是我国数字化工作的权威指导体系,所有参建单位必须遵循该标准,对同一资源类型数据的编码、格式、标识、主要参数(分辨率、色彩位深、文件格式、压缩率等)、应用级别(档案典藏级、复制加工级、浏览级等)、安全保护(数字水印、加密方案)等属性内容统一加工标准与操作规范,才能有效保障加工生产的数字对象具有可靠的质量和通用性。

4.3 数字图像的标引与检索及其元数据解决方案

4.3.1 静态图像标引与元数据设计

图像检索技术发展到现在大致经历了两个阶段:基于文本的检索和基于内容的检索。因此,数字化图像的标引也因循两种方案:一是对数字图像源采用基于传统的、按其学科分类的、文本方式的方法对其进行加工、标引与存储;二是对数字图像源采用基于图像内容的标引方法进行加工、标引与存储。

●基于文本方式的图像标引与元数据设计

基于文本的图像标引是在对图像进行分析的基础上,先对图像文件建立相应的关键词或描述字段,按照元数据方案和规范著录与标引,将图像的存储路径与关键字段对应起来,以结构化查询语言(SQL)或超链接方式进行检索,其实质是把图像检索转化为与图像对应的技术成熟的文本检索。该方法关键在于关键字段的选取和描述性元数据的建立。

关键字段的选取是从目录学的角度,对图片内容的诸多著录项目依照一定的著录法则选取关键词进行著录标引,同时兼顾到图片数据库元数据制订时图片元素名称与著录项目的对应关系。关键字段选取的数量和揭示文献的准确度决定了标引的深度和质量。

元数据是关于数据的数据。元数据包括结构型元数据、管理型元数据和描述性元数据。其中,描述性元数据是用来描述或识别信息资源的元数据。都柏林核心元数据集(简称DC)因其简洁性、易于理解性和可扩展性,成为国际通用标准。我国CALIS中心发布的11种元数据规范及其著录规则,即是参考DC制定的元数据标准。它基本涵盖了各种文献资源类型元数据的参照需求。但由于它对著录对象的描述深度不够,不能胜任专指度较高的检索。国外的CDWA、VRA和REACH是3种专门针对艺术类可视资料的元数据标准[8]。目前,在国家没有制定和出台艺术类可视资源元数据标准的情况下,可以根据不同资源对象的特点选用已发布的元数据规范与规则,制定所需的元素和修饰词,或者从其他元数据标准中复用扩展元素或修饰词,建立元数据方案,报请国家艺术资源中心门户核查、批准和统一收集。以便在“中心”的统一管理下,形成相对统一的元数据标准,以有利于将来整合到国家制定的统一元数据标准体系中。

数字图像资源库元数据方案设计和标引的操作过程大致是:首先根据元数据规范制定适合建库需要的图像资源对象元数据著录工作单,依据工作单在建库系统中分别建立不同的数据库子库,并在不同的子库中建立相应的元数据模板。然后,将分门别类的图像数据在其归属的子库元数据模板中,进行标引和著录,继而建立关键词和图像文件的链接与对应关系;用户通过数据库平台的导航索引或关键词索引及其他检索功能实现所需图像文件的获取。

●基于图像内容的图像标引与检索技术

基于内容的图像标引是直接根据图像内容的各种特征来提取特征向量,并在图像存入图像数据库的同时,将其相应的特征向量经过编码后也存入与图像数据库相连的特征库。在图像检索时,对查询图像进行分析并提取该图像的特征向量,与其特征库中的特征向量匹配,进而获取图像。具体来讲,在建立图像数据库端,系统直接对输入图像的内容进行分析,根据系统所支持的各种图像数据描述模型提取图像的视觉特征(图像的颜色、轮廓、形状、纹理和空间特征)保存在特征库中,并对特征库建立索引(采用特征索引结构技术,诸如直方图、颜色矩、颜色集等多种表征图像特征的方法)以提高检索效率。在用户查询端,用户通过查询接口(采用图像的用户查询技术)表达其查询后,系统将查询要求用系统所支持的视觉特征中的一种或几种的组合来表示。图像匹配模块根据系统相似性度量的算法计算查询特征与特征库中对应的每组特征的相似程度,把所得结果由大到小排序后得到一个匹配图像序列返回给用户。在检索过程中,可以通过人机交互,对检索的结果逐步求精,不断缩小匹配集合的范围,从而定位到目标。

4.3.2 动态视频图像的标引与检索原理

动态视频图像的标引过程包括片断截取、建立描述框体和运动对象分层描述等几个步骤。首先对一段视频图像分段抽样,抽取有代表性的特征,然后通过框体把动态片断同已有的静态图像一样对待,将视频图像运动变化的部分从背景中分离出来单独描述。视频图像被典型地分割为一帧帧的系列图片。视频图像中的镜头分割是视频分析中的最基本内容,主要目的是识别镜头的切换。镜头切换有突变和渐变,突变是指一个镜头与另一个镜头之间没有过渡,渐变是指一个镜头到另一个镜头的过渡过程没有明显的镜头跳跃。视频分割成镜头后要从每个镜头中抽取代表帧,代表帧是描述镜头的关键因素,它反映了镜头的主要内容。两个邻近的帧在视频分割突变的时候,在像素模式上有很大的不同,因此,选取代表帧是视频图像处理的重要环节,这一环节做好了,就可以像处理静态图像一样,对视频图像进行检索。

4.4 数字图像的发布

信息发布是利用平台系统的“数据库发布向导”的发布模板进行设计和发布的。

①首先选择要发布的数据库,配置数据库版权信息,选择“数据库发布”菜单命令和适合内容发布的模板。

②定制发布字段。在发布模板中设置图像检索的概览字段和细览字段。可将数字图像元数据的全部字段引入库字段表中,根据要求,在编辑字段工具栏中设置必备字段和可选字段。

③配置检索选项。分为分类检索和字段检索两种,分类检索是根据字段分类信息,从分类导航树上检索出符合某一分类的文献。导航类目为读者提供了多种检索途径。系统自带中图法分类导航树,也可根据需要自建其他分类导航树。在选定分类体系的基础上,系统自动生成导航树,只要将记录拖动到相应的结点,系统就可记录下对应的分类号,建立导航检索。字段检索则是按字段信息进行的检索,分专项检索和组合检索。专项检索对某一特定的字段检索,组合检索可使用户利用多种运算符构造的检索式(比较运算符、逻辑运算符、属性运算符、限定运算符和加权运算符等)进行检索。

④选择和设计发布页面。一般而言,系统自带多种发布页面模板,也提供自行设计功能。数据库界面是数据库内容信息展示的平台和窗口,其信息检索途径是否清晰方便、结果显示是否快捷明了、“简介”和“使用说明”是否清楚明白、背景字段颜色设计的好坏,将直接影响数据库的使用效果。

5 结语

分布式高校艺术数字网络图书馆的建设是一项系统工程,需要系统化的支撑机制。硬件设施和技术保障只是其支撑机制的基础。此外,还涉及明确的建设目标、任务和责任、强有力的资助政策、相适应的知识产权保护政策,保障建设顺利进行的组织机构和运行机制、科学有效的评价机制和完善的监督管理机制、人才培养机制及其开放的对外合作交流机制等。艺术数字图书馆建设是艺术院校图书馆发展的必经之路。“国家艺术资源中心”的建设不仅能够满足我国艺术教育、艺术创新和社会主义精神文明建设对艺术信息的需求,而且对于弘扬中国文化有着深刻的战略意义。

[1] 张丽霞,李明珍,刘旭.中国一流大学图书馆特色资源探微——以清华、北大等16所大学图书馆为例[J].情报杂志,2008(9):66-68.

[2] 张丽霞.中国一流大学图书馆“特色资源”跟踪调查与研究[J].图书情报工作,2009(10):77-80.

[3] 清华大学OCLC服务中心.OCLC简介.[2010-08-05].http:∥www.lib.tsinghua.edu.cn/service/OCLC.htm l.

[4] 中国数字图书馆标准规范建设.[2010-08-10].http:∥cdls.nstl.gov.cn/cdls2/w3c/.

[5] 中国高等教育文献保障系统.[2010-08-10].http:∥www.calis.edu.cn/calisnew/calis_index.asp?fid=3&class=5.

[6] 索传军.论数字馆藏的质量评价[J].中国图书馆学报,2004(4):43-44.

[7]《我国数字图书馆标准规范建设》课题组.《数字资源加工标准与操作指南》研究报告.[2010-08-20].http:∥cdls.nstl.gov.cn/2003/Whole/TecReports.htm l.

[8] 肖珑.元数据格式在数字图书馆中的应用[J].大学图书馆学报,1999(4):18-24.

猜你喜欢
标引检索数据库
档案主题标引与分类标引的比较分析
本刊对来稿中关键词标引的要求
数据库
数据库
专利检索中“语义”的表现
本刊对来稿中关键词标引的要求
数据库
数据库
关于关键词标引的要求
国际标准检索