基于方正DESI系统的回族历史文化特色数据库建设研究

2015-12-05 12:13杨娅娟
大学图书情报学刊 2015年2期
关键词:标引回族规范

杨娅娟

(宁夏大学,银川750021)

1 引言

随着信息技术的不断发展,用户获取信息的渠道更加便捷和多元化,搜索引擎、虚拟社区、门户网站等不断分流着高校图书馆的用户。在这种泛在知识环境下,高校图书馆应充分发挥自身资源优势、专业优势、人才优势,变被动服务为主动服务,突出自身特色,只有这样才能增强用户粘性,促进图书馆不断发展。建立特色数据库便是高校图书馆提供主动知识增值服务的一种体现。

特色数据库是指针对用户的信息需求 ,对某一学科或某一专题信息进行收集、分析、评价、处理、储存,并按照一定标准和规范将特色资源数字化,以满足用户个性化需求的信息资源库[1]。特色数据库应根据本馆馆藏特色、地方特色或本校的重点专业,集中各类文献而建立,能充分反映文献馆藏信息资源和数据资源特色的总汇。宁夏大学图书馆依托地域特色和学科特色,利用先进的数字化技术和网络化手段,对现有的回族文献信息资源进行有序的整合,构建回族历史文化特色数据库,无疑具有重要的现实意义。回族历史文化数据库的建设,一方面能够最大限度地发挥特色资源的利用价值,为读者提供系统、全面的回族文献信息服务;另一方面,能够借此集中各方力量搜集整理与回族历史文化相关文献,将形式各异、观点鲜明的资源集中于一个平台,形成百家争鸣的格局,促进回族历史研究的不断进步。

2 回族历史文化特色数据库总体规划

根据回族历史文化特色数据库的建设目标,我们应全面搜集各种载体相关信息,将这些相关信息整合规范到一个系统中。建设回族历史文化特色数据库的总体规划是:一方面对本馆、本校和兄弟院校的回族历史文化纸本资源进行搜集、开发与整合;另一方面对有关回族历史文化的各种格式的网络文献资源进行挖掘与整合。最终将这些文献资源进行数字化加工处理,划分成若干个子库,统一在同一检索平台,在WEB服务器上发布。可以进行目录检索、分类检索、主题检索和全文检索,实现读者网上轻松阅读和下载。

3 回族历史文化数据库建设前期准备工作

3.1 成立专门建设团队

由馆领导牵头组织,成立由回族研究学者、图书情报人员、计算机技术专业人员共同组成的特色库建设团队。总结和借鉴已有建库经验,确定数据库建设内容、软件平台、相关数据规范标准、数据收集范围,对资源采集、资源整理、资源加工、资源入库等工作进行合理分工。

3.2 确定信息源与数据收集范围

数据是数据库的核心,数据收集是数据库建设的基础。回族历史文化特色数据库收集所有载体的回族文献。关于回族文献,我们秉承以下定义:凡记录、存贮和传播有关回民族知识的一切载体,统称为回族文献,它不仅包括内容具有回族属性的文献,而且涵盖文献作者(主要指著、画、写、刻、译等)具有回族属性的作品,如萨都剌的诗、张承志的小说 。此外,回族文献不等同于伊斯兰文献,如《古兰经》的译本,回族学者的汉译本为回族文献,而维吾尔语译本则不为回族文献;同为记述清真寺的文献,广州的怀圣寺属于回族文献,而记载新疆的艾提尕大清真寺就不能称作回族文献[2]。

在此数据收集范围的界定基础上确定建库信息源的种类,包括图书、期刊、图片、会议论文、学位论文和视频等载体类型;然后对收集到的文献进行筛选、整理和组织,以确保数据库中文献的含金量。筛选、整理和组织文献的过程是知识管理的过程,这一过程关系到整个数据库的质量,需要在学科专家的建议和指导下,由专业人员和图书馆建库人员共同来完成。

3.3 确定数据规范标准

高校特色数据库具有为用户提供个性化信息服务,按照一定标准和规范建设而形成并可供共享等特征。因此,我们在建库过程中应注重标准和规范的制定,从而建立兼容性强、标准化高的特色数据库。参照CALIS特色数据库建设相关标准,将是一个捷径,如《CALIS资源数字加工与发布标准》《信息资源名称规范》和《CALIS数字对象唯一标识符命名规范》。CALIS针对数据制作标准制定了相关规则或规范,包括《CALIS描述型元数据规范及其著录规则》《CALIS管理型元数据规范》[3]等,用来统一规范特色库的建库标准和服务功能。其中《CALIS描述型元数据规范及其著录规则》选定了11种规范格式及其著录规则,作为元数据规范格式,包括古籍、舆图、家谱、拓片、地方志、学位论文、会议论文、电子图书、音频资料、网络资源的描述元数据规范及其著录规则。本馆根据实际情况,据此规范制定了图书、学位论文、期刊论文、会议论文、图片、视频六种元数据格式,以图片元数据格式为示例一,见表1。

3.4 确定特色库建库软件平台

本馆在建设和发布中采用通过CALIS二期认证的方正DESI系统作为资源建设和发布的平台。DESI系统是北京方正阿帕比技术有限公司所开发的一套数字图书馆制作软件。分为采用C/S模式的信息制作系统、信息资源系统和采用B/S模式的信息发布系统,此系统可以将各种纸质资源数字化,统一成符合国际标准格式的电子资源,能同时管理文字、图片、多媒体等信息并提供全文检索服务,支持网页的动态发布,一个程序界面便完全实现了数据加工、审核、发布,是一个面向内容管理的应用和信息发布软件。

表1 图片元数据格式

DESI系统具有以下基本功能:(1)纸质文献数字化,并进行图像处理和文字识别;(2)文档格式转换,支持 DOC、PDF、PS、JPG、TIF、TXT 等格式转换;(3)支持文档的拆分、合并功能;(4)进行元数据标引、分类、目录制作、多媒体链接等深度数据加工;(5)内容加密使之无法随意拷贝、打印、散发;(6)支持电子资源的字段检索、全文检索、全面检索和关联检索;(7)支持网络发布、光盘发布,并可进行各种统计;(8)加密入库及安全管理引擎,授权限定范围内的用户下载阅读;(9)提供FAQ、新闻、公告栏论坛等辅助功能;(10)对加工的电子资源添加水印。基于以上功能,DESI系统能够很好地满足我们的建库需求。

4 用方正DESI系统建设回族历史文化特色数据库

4.1 创建数据库

DESI中启动方正DESI客户端,新建资源库。DESI系统内置了 27种资源库模板,其中包含《CALIS描述型元数据规范及其著录规则》中规定的11种格式的特色库模板。根据回族历史文化特色数据库的需要选择特色库图书、期刊论文、学位论文、会议论文、图片和网络资源等六个模板。每个模板具有不同的字段,可以根据需要添加或修改字段信息。对于建好的各个子库还需要进行相关设置,主要包括子库是否需要完成除元数据标引外的数据分类、目录制作和多媒体链接可选工作;是否分配不同人员来完成不同工作;是否数据审核后才能够发布。数据库框架如图1示:

4.2 数据采集

对于本馆收藏的有关回族历史文化的纸质文献资源通过扫描、图像处理、OCR文字识别等手段形成数字化文档,文本以pdf格式保存,图片以tiff格式保存。利用文件上传功能将数字对象转入DESI系统相对应的子库中,最终文本数据转换成方正DESI使用的CEB格式。CEB作为DESI系统的特有格式,是完全高保真的中文电子书格式,其将不同的源文件格式转换成统一格式,并保留了源文件中的字符、字体、版式和色彩的所有信息,该格式对文字图像等进行了压缩,节省了数据存储空间。

对于本馆收藏的电子资源和搜集的网络资源,需要进行预处理,使之符合《CALIS文献资源数字加工与发布标准》:文本格式的数字对象为pdf格式;图像格式的数字对象为jpg格式或者tiff格式;视频资源建议采用Mpeg或AVI(MPEG4)保存。在收集这类资源的过程中,利用Excel或access等软件将各类型资源的元数据根据定义好的规范收集整理,利用DESI系统的资源导入导出功能批量将元数据和数字对象导入系统相对应的子库中。

4.3 资源加工

入库的记录要经过数据加工,才能最终发布到网上。回族历史文化特色数据库的数据加工过程主要包括元数据标引、数据分类和数据审核3个方面的内容。

4.3.1 元数据标引

元数据标引是对文档元数据进行标引的工作。元数据标引是数据加工阶段中必不可少的环节,标引的准确、详细程度也直接决定数据库的质量。在此环节中,直接从原文中拖选需要的内容,操作简单,对于无法拖选内容的资源也可以直接输入。如果利用系统资源导入导出功能入库的资源,元数据信息只要保证在入库时已经完整准确,就不再需要手工标引程序。

在特色数据库建设中,数字化对象的标引和分类工作量通常很大,可将这些标引工作分配给不同的工作人员,多人并行工作。

4.3.2 数据分类

数据分类是将相关资料分到某种分类法的某一种类目之中。DESI系统在分类模块中预制了标准的中图法分类体系,同时也允许用户自定义分类体系。用户可根据自身需要创建相应的导航树结构,将库中的记录进行分类,以方便数据的管理和访问。回族历史文化特色数据库采用学科导航分类法来进行数据的分类管理。

4.3.3 数据审核

在具体的建库过程中,我们设定数据审核,检查元数据标引和文件是否准确无误,分类是否合理。对于元数据标引、分类信息准确无误的任务标记为“任务正确”,只有“任务正确”后才能审核通过,对于有错误的信息可以通过不同的错误类型进行分类标记,如元数据标引错误、文件错误、分类错误。对于审核有错误的任务,在弹出的“错误信息”对话框中输入错误原因,以待进一步的修改。数据审核是数据库管理中的重要一环,对建立数据库起到了质量保障作用。

4.4 资源发布

数据处理完毕后就可以发布到数字资源平台上,供广大读者查询、检索、借阅、下载;供管理员进行推荐、上架下架等操作。在DESI系统中发布时有三个选项可供选择:一是仅发布元数据,只发布一个任务的元数据,而不会发布其他相关的数字对象文件;二是覆盖,遇到重复发布的资源,自由选择是否需要覆盖已经发布的资源的元数据和相关文件;三是发布时资源文件加密,对要发布资源的数字对象ceb文件进行加密,加密后的ceb文件在读者下载到本地后不能拷贝到其他电脑。为使发布后的资源文件更加安全,我们选择“发布时加密资源文件”,遇到重复发布的资源,选择更新资源的元数据和相关文件。

在发布过程中会有进度条显示发布情况,在发布结束后会生成日志文件,以txt格式保存。txt文档中展示了发布过程中是否有发布失败的情况,若发布任务都成功就代表完成了资源发布。若有发布失败的任务则根据文档中提示查找失败原因,方便修改后再次发布。

资源发布成功后,用户便可以根据权限在数字资源平台访问回族历史文化资源库。目前根据本校的实际情况,我们采用的是IP限制的方式来控制用户权限,只有校内用户才可以访问本资源库,全面开放共享将是我们下一步的工作。

5 结语

方正DESI系统提供了一种简单、灵便、系统的建库模式,提供了一个将回族历史文化特色资源有机地组织整合起来的平台,有利于全方位、高效率地为读者提供方便、快捷的电子文献资源,进一步宣传和保存回族历史文化。因此,我们要做好相关文献的搜集、整理工作,做好数据录入工作,努力实现信息资源的共享,为回族历史文化资源的保护、研究开辟一条新的道路。

[1]喻志娟.关于高校图书馆特色数据库建设与服务的思考[J].图书馆,2012,(4):112-114.

[2]海杰.回族文献界定刍议[J].图书馆理论与实践,1989,(4):14-15.

[3]CALIS 三期特色库标准规范[EB/OL].http://202.114.65.58/portal/portal/media-type/html/group/whuguest/page/area_spec_change5_3.psml,2004.

猜你喜欢
标引回族规范
来稿规范
来稿规范
PDCA法在除颤仪规范操作中的应用
来稿规范
档案主题标引与分类标引的比较分析
本刊对来稿中关键词标引的要求
本刊对来稿中关键词标引的要求
回族文献目录工作述评
回族族称起源新辨
本刊对来稿中关键词标引的要求