纪元霞
[摘要] 介绍当前国际国内机构库建设概况以及机构库软件平台的选用情况。在调研的基础上重点介绍国际流
行的机构库建设软件平台Dspace和Eprints以及国内建设较完善的机构库所使用的软件平台,并简单分析各种
机构库软件平台。
[关键词] 机构库机构库软件平台DspaceEprints国内机构库软件平台
1 机构库建设概况
随着开放存取运动的开展,机构库应运而生,并在信息社会到来的促进下蓬勃发展。2002年Dspace的诞生预示着机构库的大规模建设的开始。截止到2011年4月,ROAR(Registry of Open Access Repositories,开放获取性知识库注册)共收录机构知识库2 076个[1]。机构库在学术以及科研的发展中占有越来越重要的地位。ROAR收录的机构库分布在80多个国家和地区,说明机构库的建设在世界范围内已经较为普遍而且日益广泛。但机构库在世界范围内的分布是很不均衡的,目前拥有机构库数量最多的是美国(335个),美国、澳大利亚、德国和日本等科技和经济最为发达的国家所拥有的机构知识库资源占全世界的大部分,其他国家拥有的机构库只是很少一部分。我国发展的比较完善的机构库的分布情况是:香港地区4个,台湾地区40个,大陆地区15个。
2 机构库建设使用软件平台概况
2.1全球机构库建设使用软件平台概况
机构库的创建软件多种多样,ROAR的统计比较全面地反映了当前机构库软件的应用情况。具体注册情况为:有6个机构库使用ARNO,有96个机构库使用该软件,有15个机构库使用CDS lnvenio,有3个机构库使用ContentDM by OCLC,有8个机构库使用DigiTool,有25个机构库使用DiVA,有5个机构库使用DoKS,有572个机构库使用Dspace,有2个机构库使用EDOC,有327个机构库使用Eprints,有2个机构库使用Equella,有29个机构库使用ETD_db,有27个机构库使用Fedora,有9个机构库使用Fez,有11个机构库使用Greenstone,有11个机构库使用HAL,有1个机构库使用i_Tor,有1个机构库使用intraLibrary,有4个机构库使用MiTOS,有5个机构库使用MyCoRe,有7个机构库使用Open Journal System,有15个机构库使用Open Repository,有40个机构库使用OPUS(Open Publications System),有1个机构库使用SBCAT,有3个机构库使用Scix,其他软件有436个机构库使用,如图1所示:
2.2 国内(大陆地区)机构库建设使用软件平台概况
3 机构库软件平台初探
通过对机构库的调研可见全球范围内机构库构建使用最多的平台是Dspace,其次是Eprint。就我国大陆地区的情况看,使用Dspace的机构库有3个,使用Ojs的机构库有一个,使用其他软件平台的机构库有11个。
机构知识库系统的发展始于2000年英国的南安普敦大学开发的Eprints软件,同年, 惠普公司斥资1 800万美元与麻省理工学院合作开发Dspace,2002年11月Dspace正式面世。目前,机构库的软件平台主要有4类:①专用系统,如eScholarship、JISC IE 、Knowledge Bank等;②开放源代码软件,如Dspace、Fedora、Eprints、Archimede、CDSware等;③商业资料库软件,如Documentum、Bepress、UMI/ProQuest研制的DigitalCommons、DiMeMa公司研制的CONTENT;④混合型系统,如VTLS公司的Vital等。
3.1 Dspace
在我国大陆地区使用Dspace的机构库有:福建师范大学图书馆学系机构库、图书馆情报学开放文库、厦门大学学术典藏库、浙江大学DSPACE知识库。其中浙江大学的Dspace知识库一直都没有很好运行,所以本文未将其计入其中。
Dspace是一个专门的数字资产(digital assets)管理系统,它管理和发布由数字文件或“数字流”(bitstreams)组成的数字条目(item),并且允许创建、索引和搜索相关的元数据以便定位和存取该条目。它是一个免费的开放源码软件,基于伯克利源代码发布许可协议(BSD)。作为开放源代码,它允许被下载、修改,而且其所使用的第三方软件也都是开放源代码系统,如PostgreSQL(开放源码关系数据库系统)Jakarta Tomcat,Java服务器组件,Apache HTTP服务器发布系统等。Dspace支持基于团体的内容政策和提交过程,提供支持对提交数据长期保存的工具。它把各用户群体整合为系统结构,这种设计促进了各学院、系所、研究中心和其它单位尤其是大型研究机构的广泛参与。由于社区需求各有不同,Dspace允许各社区定制不同的工作流程和相关政策以解决资料内容、权利许可及知识产权等问题。Dspace对这种分散内容管理的支持加上支持数字存储计划的整合工具,使它能在一个大的机构环境下很好地管理机构库。此外,Dspace还强调对资料进行长期保存[2]。
3.1.1 Dspace的功能Dspace能够对各种文献进行存储,为不同文献资料建立虚拟馆藏,这些文献资料可以在各个馆藏中传送,各个馆藏联结为有机的整体。对于已有的独立资料库,Dspace可以与之建立链接,实现资源共享。Dspace可以保存所有格式的数字化资料,包括文本、图片、视频以及声音资料等。Dspace系统本身提供一些常见格式数据,用户可以自定义增加Dspace中的数据格式。Dspace会为这些资料进行统一的索引以方便用户检索[3]。
3.1.2 Dspace的特点Dspace是一个数字资产管理系统,本身不是为数字图书馆开发的,但其围绕存储管理,利用分级认证的工作流机制,使它具有构建新一代数字图书馆模型的优势。Dspace主要有三个特征:①基于存储的资产管理。Dspace是基于存储管理的,它提供对所有数字格式的支持,对于印刷型文献Dspace则通过元数据进行存储管理,利用URL和馆藏地点来区分文献服务的方式。Dspace支持“位”存储和功能存储。位存储保证提交的数字材料没有任何改变,即每一位都保持不变。功能存储则是通过随着时间的变化改变存储内容的格式,以保证旧格式淘汰后数字材料还能够被浏览、运行、检索。显然功能存储是一种理想的存储方式,但是它需要更多的资源。Dspace为了尽可能完善地存储资源定义了三个层次的格式,从而确定资源的存储方式。其一,支持格式——支持格式将利用格式迁移技术进行功能存储。其二,知道格式——将不被承诺进行功能存储,它作为一种流格式可以尝试通过第三方提供的转换工具完成格式迁移从而实现功能存储。其三,不支持格式——对于不支持格式的资源,Dspace将没有足够的信息保证功能存储。当然存储问题同时存在于元数据,因此剑桥大学为了完成元数据格式的周期性迁移,也在开发新的提交转换系统,以将用户提交的材料从“知道格式”和“不支持格式”转化为“支持格式”。②利用数字提交的工作流模型来捕获和描述数字化条目。Dspace中有许多的数字空间群,对于每个群通常都设有提交者,审核者。任何一个对系统的请求(检索、浏览、材料提交等)都会触发不同的工作流,从而进入相应的任务池。经过审核、元数据编辑和终审等环节最终进入Dspace。③分级权限认证。Dspace以分级权限控制管理体系。
Dspace的优点:①源代码开放。这是Dspace一个很重要的优点。也正是基于这一特点,任何人、任何组织均可以下载该程序,或是根据需要修改后加以应用。Dspace主要代码都是用Java编写的,可以运行于所有的UNIX系统包括Linux或HP_UX等。由于Java虚拟机是由HTML和部分嵌入的Java代码组成,基本上不需要更改其核心代码就可以方便地修改它。数字图书馆的5个技术环节(资源采集、对象存储管理、搜索技术、信息传递和权限认证)可以根据各个馆的实际情况来修改和扩展其功能。②方便移植。Dspace采用B/S(浏览器/服务器)结构,在此结构下用户工作界面通过浏览器来实现,极少部分事务逻辑在前端(browser)实现,但是主要事务逻辑在服务器端(server)实现。同时Dspace基于Java环境开发和使用,并且统一使用UTF-8编码。这些特点使Dspace具有了较强的移植性。③具有较好的集成度。Dspace具有数字资源采集、数字对象存储与管理、搜索技术、信息传递技术和权限认证等功能。它高度集成了数字图书馆的5个技术环节,是一个高度集成的拥有诸多功能的系统。④提供全球唯一标识符。Dspace使用Handle System提供全球唯一的、稳定的标识[4]。⑤使用小程序接口。Dspace提供了几个支持API接口的内置程序,通过它可以简化和加速数字馆藏的开发,在一定程度上为系统提供了扩展和修改的能力[9]。
3.1.3 Dspace的体系结构[6]Dspace的体系结构分为三层,分别是存储层、业务逻辑层和应用层,每层都
由一系列的组件构成[7](见图2)。每一层只能调用该层之下的组件而不能跨层调用。
·存储层。存储层主要是对资源的存储,包括元数据和内容对象(位流数据)。Dspace通过关系数据库 PostgreSQL(或其他关系数据库,如ORACLE)借助JDBC(Java数据库连接)来存储元数据,同时也保存系统状态、用户信息、权限信息、工作流等内容。在Dspace中,关系数据库还担任着维护内容索引,便于用户网上浏览的任务。另一方面Dspace,使用本地文件系统和SRB实现了位流数据的存储。
·业务逻辑层。业务逻辑层主要负责对存档文件、电子用户、授权及工作流等方面的管理,包括核心工具(配置管理、日志管理等)、搜索引擎、电子用户/群组管理、Handle管理、授权管理等。通过一系列的类文件对Dspace中的各类对象进行抽象,然后用来实现内容检索、浏览、认证管理、内容管理、句柄管理、工作流管理、用户管理和历史信息管理等功能。以下分几个部分来阐述:①资源的标识。Dspace采用句柄来创建URL,故此它可以永久地标识资源。在Dspace中存储在仓储中的资源是通过浏览器用户界面被访问的,由于网页不具有稳定性从而影响了资源的获取。所以Dspace采用句柄来标识数据,从而确保资源长久可靠地被获取。②工作流管理。Dspace将每一次资源的收集发布视为一个工作流。每个工作流可以包含提交、审核、元数据编辑和终审等步骤,每个步骤都需要相应的权限。在完成终审前,未完成的发布任务被加入到相关的用户组的“任务池”中,之后相关任务组从“任务池”中取出任务并完成相应任务,直到完成发布。③授权与认证。Dspace中文献发现、检索不需要权限,但是资料的提交、定制浏览、管理等则需要授权来执行。Dspace采用分组资源控制策略。Dspace可以对用户或用户组授权,在缺省情况下Dspace采用“否定”授权策略,而且权限不能随便扩展。④检索、浏览工具,内容管理。Dspace通过API(Java搜索引擎Lucene)进行索引和检索,允许对新内容索引,重建索引以及在制定范围内检索。在浏览时系统提供一个简单的API来指定一个索引(该索引包括项目题名、项目数据、作者)。浏览范围则可以从数额到馆藏集合。
·应用层。应用层主要负责Dspace与外界的交流、沟通。它包括统计工具、Web用户接口、OAI-PMH数据提供、导入导出工具、媒体过滤、元数据获取标准OAI-PMH的数据收割,批量导入工具等。应用层各个组件的功能都是通过Java编写Dspace的Sverlet和Jsp来调用实现的[8]。①统计工具。Dspace系统自动生成统计数据,每月自动清理一次。统计项目包括:文档的搜集情况、用户登录次数、搜索词出现频率、OAI请求次数等。②用户界面是用Java servlet和JSP技术开发的,所用的体系结构是视图控制模型。③Dspace中的DC元数据存放XML。系统的入口只是一个中间站。输入的文件通过主动文档开放协议转化成一样的格式进入到系统中,与其他的系统共享元数据。导出是METS编码格式的数据。④OAI-PMH。OAI-PMH协议是提高和促进互操作性的标准,有利于有效地传播内容。Dspace实现了OAI-PMH协议,从而可以公开访问DC元数据。通过元数据就可以共享机构仓储里的资源,建立统一的检索平台。⑤OpenURL。Dspace支持SFX的OpenURL协议,所以如果有SFX服务器,就可以通过自动使用DC元数据在每一个项目页面上显示一个OpenURL的链接。一旦有检索条件提交,就会返回基本的链接且SFX服务器解析后会提供更多的扩展资源给用户。
Dspace的数据模型。Dspace的数据空间自顶向下为:社区、集合、条目、数据包、数据流和数据流格式。通过社区之下扩展子社区来增加系统的层数,从而方便地构建分级式应用系统。
3.2 Eprints
Eprints软件是由英国南安普敦大学开发的。它是开源软件,允许任何组织、大学、院系、团体和项目组使用该软件创建遵循OAI协议的知识库。自从Eprints服务成功启动后,它正在提供面向知识库的所有需求的解决方案,其中有免费的也有付费的。目前,此软件的最新版本为3.2.6。有327个机构库使用该软件。Eprints是构建高质量机构库最灵活的平台,是创建机构库最容易、最快、成本最节省的方式,能够适应存储开放获取文献、科学数据、学位论文、报告和多媒体的知识库的未来需求[9]。同时,软件的普遍运用增大了系统的高级检索整合、元数据扩展等的能力。Eprints中一个Eprint软件的注册安装可以运行几个独立的知识库,共享源代码但各自构造不同。
3.2.1 Eprints的特点Eprints的主要特点是:允许通过配置文件定制系统功能,允许增加新的工具和程序段,所以它具有个性化、可扩展性强的特点。可存储任何格式的文件,允许同一文件有不同的格式 可以采用任何元数据标准,可以由管理员选择元数据字段;提供可定制、可扩展的主题词表、主题树 ;提交的数字资源可以是压缩文件也可以是在其他位置存在的文件URL;可自动完成完整性检验,备有缓存区,可以使数字资源在正式进入系统前得到编辑的检验和修改。该过程也可以在用户界面上完成[10]。此外,有基于网络的系统维护。
3.2.2Eprints的软硬件配置包括:Unix操作系统(包括Linux)及计算机平台,Apache服务器,Perl程序语言,Apache的mod_perl模块(可增加Perl源代码的性能),MySQL数据库,Eprints软件。EPrints是一个严格的国际化的软件包,所有的元数据按统一的字符编码标准(Unicode)存贮,设计的编码系统支持世界范围的互换、处理及显示用不同语种书写的文本[11]。Eprints是在GNU一般公共许可(General Public License,GNL)下开发的,凡属于GPL规定范围的都能免费获取。
3.2.3Eprints的系统结构如图3所示:
3.3 国内的机构库软件平台
在国内的机构库中:北京科技大学包括两个机构库,北京科技大学机构库和奇迹文库。其中北京科技大学机构库使用软件平台的是由超星提供的软件平台。中国科学院科学数据库使用的是自主研发的软件平台。中国科技论文在线使用的是PkuSpace(协作式科技论文网络共享)。中国预印本服务系统使用的软件平台是科技信息资源与服务集成揭示系统,数据库使用的是ORACLE。国家图书馆使用的是科技信息资源与服务集成揭示系统。中国农业大学知识库使用的是Drupal配合CDICM系统。中国人民大学教师成果库使用的是CDICM。北京邮电大学机构仓储使用的是由杭州麦达提供的特色库系统。以下分别对中国科学院科学数据库使用的自主研发的软件平台、中国科技论文在线使用的PkuSpace、国家图书馆使用的科技信息资源与服务集成揭示系统以及中国人民大学教师成果库使用的CDICM加以介绍。
3.3.1 中国科学院科学数据库使用的自主研发的软件平台[12]系统主要分为以下几部分来建设:主题数据库建设,专题数据库建设,参考型数据库建设,专业数据库建设,科学数据库核心元数据,元数据访问服务接口,数据服务。该系统分为以下模块:资源与服务注册系统1.0版,可视化关系数据库管理与发布工具VisualDB1.3公测版,可定制移动数据采集系统MobileSDA1.0,日志自动上传工具,科学数据库服务监控与统计系统,基于规则的集成数据系统iRODS2.0,数据访问服务系统2.0版(DAS),科学数据库CA系统用户接口,数据量统计工具包,通用元数据管理工具2.0,CSDB应用服务器1.1版,生态元数据管理工具1.2,证书申请与使用工具,网站访问量统计分析工具1.0,存储服务工具集,图像处理工具包安装和使用说明,访问控制工具包,科学数据库CA系统工具,软件集成测试平台,数据共享声明注录系统,Weblog日志分析和管理系统,科学数据库服务日志统计系统,网络服务监控系统,元数据管理工具。
3.3.2中国科技论文在线使用的PkuSpace[① 王位春2008年1月16日在北京大学所做的报告: PKUSpace中基于概念相似度的个性化推荐服务的设计与实现.]①PkuSpace是国家自然科学基金支持的“网络计算资源服务中间件”,教育部博士点基金支持的“协作式科技论文网络共享平台”,它是一个与惠普中国实验室的合作项目。
PKUSpace致力于建立一个科研服务与交流平台,提供科技文献的存储、共享、检索、导航等基本功能,并融入了Web2.0的因素,提供协同标签、阅读笔记以及个人文献视图等功能。在此基础上,还提供了标签挖掘及文献的个性化推荐等服务。该系统的特色就在于其推荐技术系统把作为Web2.0重要特征的协同标签引用到推荐算法中来,使用协同标签构建语义概念及用户偏好。常用的个性化推荐技术有基于规则的技术、协同过滤技术、基于内容的过滤而PkuSpace系统使用的是基于内容与协同过滤方法相结合的技术。基于规则的技术是通过用户行为的历史数据来进行推荐,其缺点在于当推荐的规则增加时,系统的效率会明显降低。协同过滤技术是通过评级矩阵来进行推荐的。基于内容的过滤则是通过用户对项的喜好或评级以及项的特征通过相似度计算来进行推荐。它的缺点在于不能发现新的用户感兴趣的资源。PkuSpace所使用的基于内容与协同过滤相结合的方法可以提高推荐算法的推荐完全性与准确性,增加用户对系统的信任度。同时,能发现用户感兴趣的新资源,拓展用户的视野。
3.3.3 国家图书馆使用的科技信息资源与服务集成揭示系统集成揭示系统是国家科技基础条件平台建设纲要中提出的“科技图书文献信息保障系统”的重要组成部分,即:“科技图书文献信息保障系统”=“NSTL网络服务系统”+“集成揭示系统”,是国家科技基础条件平台项目支持的科技文献平台重点项目之一,由国家科技图书文献中心(NSTL)负责建设、运行、管理。集成揭示系统采用分布式体系架构、 Web services 技术,可实现对多种分布式信息资源系统的整合与揭示,同时通过规范的注册管理机制,实现了对资源和服务的动态发现、获取和管理,从而形成一个开放式的、可以不断扩充的共享服务平台。 集成揭示系统已集成了中国科学院国家科学图书馆、中国国家图书馆、中国科学院国家科学图书馆兰州分馆、中国高等教育文献保障系统、冶金工业信息标准研究院、浙江省科技信息研究院、高等教育出版社的相关资源与服务。
3.3.4 中国农业大学知识库使用的是Drupal配合下的CDICM(中国人民大学教师成果库也使用CDICM)
中国农业大学机构知识库建设使用的是CDICM内容管理系统。该系统打开一个教师的详细信息页面,不但显示该教师的个人信息,而且公式显示该教师发表的学术论文、著作、培养的研究生和博士硕士学位论文、讲授的课程、承担的科研项目、取得的科研成果、专利等机构知识库中收录的相关资源信息。系统的各个数据库只能由图书馆员维护。教师不能对自己的相关内容进行提交和修改。CDICM是由北京中数创新技术有限公司开发的内容管理软件,可以收集有价值的文本、图片、音频、视频等信息,进行元数据加工,提供高质量内容发布、浏览、检索、保存、管理及在线查询服务,比如支持各种规模多用户的联机事务处理系统,提供可共享的数据格式和元数据标准,采用RDF封装的XML文件数据格式,是集数字资源加工、发布与调度功能于一体的馆藏资源管理与应用软件。它于2002年12月1日推出试用版,2004年11月被选为数字图书馆标准规范著录工具,可以广泛运用于数字资源库的建设和更新,适用于政府机关、科研院所、高等院校、图书馆、博物馆、档案馆、出版社、图书网站、电子商务、金融机构、公司企业等单位进行文献、档案、内部资料的数字化,信息库的建设、管理及网络服务。
4小结
通过调查可以看出,国际上流行的软件平台如Dspace、Eprints、Bpress等在国内并不受欢迎,Dspace在国内只有4个机构库使用,有的原来使用Dspace的机构库也在运行过程中慢慢更换了软件平台比如中国科学院国家科学图书馆(NSL_IR),中国西部环境与生态科学知识积累平台。而Eprints、Bpress等在国内并没有应用。那么是什么原因导致国际流行的软件在国内应用并不广泛?笔者认为,Dspace是一个功能强大的开源软件,但是使用Dspace的机构库界面都很相似,结构也是基本一样的,这样就很难突出各个机构库的特色。至于Eprints、Bpress等软件的应用,很大程度上受到语言、开发能力、人员配置上的限制。而选用一个本土的软件则显得方便得多,尤其在系统的维护上则能得到开发方的大力支持。
参考文献:
[1][EB/OL].[2010-04-01].http://roar.eprints.org/view/software/.访问日期:2010年4月
[2] 姜瑞其.国外机构库发展概况[J].Library and Information Sevice,2005,49(11):145-149.
[3] 李大玲. 学术机构知识库构建模式研究[M].上海:上海交通大学出版社,2009.
[4] 蒋韵,傅俏,袁润. 基于DSpace机构知识库系统的应用研究[J]现代情报.2009,29(5):175-177,196.
[5] 傅俏.浅谈Dspace在高校馆构建机构知识库中的应用[J].图书情报研究,2009,2(1):175-196.
[6] 邱远棋,孙王江,任红平.Dspace体系结构探析[J].情报探索,2009(4):85-87.
[7] DSpaee[EB/OL].[2010-04-01].http://www.dspace.org/index.php?opllon=com content&ta~ =view&id=145.
[8] 马国栋,朱濂.基于Dspace的数字资源管理方案在图书馆建设中的应用[J]. 现代情报,2006(3):116-118
[9] [2010-04-01].http://www.eprints.org/.
[10] 王军.数字仓储[J].数字图书馆论坛,2007(9):1-6.
[11] [EB/OL].[2010-04-01].http://www.unicode.org/standard/standard.html.
[12] [EB/OL].[2010-04-01].http://www1.csdb.cn/prohtml/0.projects.download/list-1.html.