ERMS的概况、实现技术与发展趋势

2010-03-22 15:15齐惠颖2a2b徐树维2a2b北京大学医学部计算机教研室北京100191中国
图书馆理论与实践 2010年4期
关键词:出版商知识库期刊

●齐惠颖 1,2a,2b,徐树维 2a,2b(1.北京大学 医学部计算机教研室,北京 100191;2.中国

科学院 a.国家科学图书馆,北京 100190,b.研究生院,北京 100049)

1 前言

从上世纪90年代末开始,图书馆引进的电子资源数量激增,随着电子资源在品种和数量上的不断增长,电子资源的管理问题日益突出,电子资源的采购过程复杂、授权管理的版权问题以及电子出版市场的多种商业模式都增加了电子资源管理的复杂性。因此,电子资源管理系统(Electronic Resource Management System,简称ERMS) 成为近年来数字图书馆领域的一个重要研究课题。数字图书馆联盟(DLF) 对电子资源管理系统(ERMS) 的定义是“电子资源管理系统应提供电子资源的选择、评估、订购、维护等相关信息和工作流程的管理,并在此基础上根据商业协议和授权规定为读者提供有效的资源获取方式”。[1]MIT大学图书馆的Ellen Duranceau将电子资源管理系统定义为“对于引进电子资源馆藏的许可协议、相关管理信息、内部处理过程进行管理的工具”。[2]

2 ERMS的概况

目前,市场上的ERMS数目比较多,由于开发商不同,系统的功能侧重点也有所不同。按开发商的不同,ERMS分为以下几类:

一类是资源提供商开发的系统,这类系统大都以处理期刊为主,出版商既提供软件,同时也维护数据,所有数据一般都放在出版商处,或者由图书馆上载到OPAC中,出版商提供数据的更新信息。这类系统功能相对简单,对于许可管理、集团引进等方面涉及不多。代表性的系统有Proquest的Serial Solutionss[3]、Harrassowitz的 HERMIS (Harrassowitz Electronic Resource Management and Information solutions)[4]、TDNet开发的TERM(TDNet Electronic Resources Manager)[5]和 EBSCO 的 ERAM(E-Resource Access&Management)[6]等。

一类是ILS开发商开发的系统,虽然不同厂商的产品在功能上有些差异,但是基本上都主要服务于电子期刊管理的整个流程。目前比较成熟的产品有ExLibris公司的Verde,[7]这类产品大都可以独立安装使用,也可以与资源提供商开发的其它产品一起配套使用。

另外一类是图书馆自行开发的ERMS,这类系统在功能上主要是为满足自身的需要,侧重点各不相同,其中比较有代表性的有美国麻省理工学院开发的VERA(Virtual Electronic Resource Access)、宾夕法尼亚州立大学开发的ERLIC(Electronic Resource Licensing and Information Center)、耶鲁大学开发的Social Science Libraries and Information Services[8]等。国内有北京大学图书馆自行开发的ERMS。[9]

还有一类是开源代码,比较有影响的系统有霍普金斯大学图书馆开发的HERMES(Hopkins Electronic Resource Management System),[10]系统的功能基本与管理电子资源生命周期的工作流程相一致,包括认证、选择、采访和编目、报告生成等模块。另外一个是加拿大的西蒙菲沙大学图书馆开发的CUFTS,[11]该系统提供电子资源管理、全文获取、期刊数据库的浏览搜索服务、资源对比、报告输出、MARC记录生成等功能。

3 ERMS的主要实现技术

由于出版商和集成商提供的电子资源无论是选择、评价、获取还是维护过程,都比传统的印刷资源复杂得多,因此ERMS对电子资源的管理也有一套独特的管理模式。对电子资源的管理是建立在知识库之上的,知识库是整个系统的基础,知识库的建设问题也是系统首要考虑的问题。另外,系统之间的互操作以及ERMS的智能统计分析也是系统的关键所在。

3.1 知识库建设

知识库存储的内容是在线出版商、数据库商和代理商的信息,包括数据库收录期刊情况以及收录期刊的详细信息,电子资源的链接内容、覆盖范围、管理和描述性的元数据,数据库和期刊的对应关系等。知识库提供了一系列规则,知识库动态更新各种电子资源的信息,同时知识库向外提供服务,接收用户传来的元数据信息,为用户提供最合适的服务。

知识库的构建通过网络爬虫来实现。由于期刊数据库将收录的期刊信息在其网站上全部列出,而Web页面通过结构化的HTML标记来控制页面的布局和显示,其中有很大一部分的信息表示是通过表格或重复性结构的形式发布的,因此文本中含有大量的超文本标记和超链接。通过分析HTML文档的结构归纳出每个提取域统一的定界符,找到其排列的规律;通过编写网络爬虫解析网页文件,根据需要来提取元数据,实现知识库自动初始化并对知识库进行增量更新。

网络爬虫构建知识库的工作流程:首先由网络爬虫根据初始URL选择,从Web中抓取期刊信息页面,然后对抓取到的页面进行分析,提取相关内容并将提取结果信息送入知识库。

使用网络爬虫对知识库内容进行初始化,首先要分析数据库网址,抽取出期刊列表所在网址和端口号,若无端口号则设为HTTP默认端口80。然后判断该站点的连接方式设置,若设为直接连接,则与该地址和端口建立网络连接;若设为穿越Proxy连接,则与指定的Proxy地址和端口建立网络连接。接着读取页面的内容,分析该页面的html代码,根据分析的规律构造一个抽取器来遍历节点,提取需要的元数据内容,同时需要分析其中的链接,并对链接中的URL进行必要的转换。

HTML的语法分析通过编写代码扩充HTMLEditorKit.ParserCallback类来完成;或利用HtmlParser开源工具,HtmlParser是一个对现有的HTML进行分析的快速实时的解析器,免费提供多个包,每个包中又包含多个类,如各种标记类、过滤类等,可以方便地进行文本、标记等的相关处理。[12]

对期刊元数据信息的提取采用基于正则表达式定义好的提取表达式来进行。对链接的提取首先通过分析页面URL中的文件扩展名来判别页面类型,然后遇到带有链接的标记如 〈A〉,〈AREA〉,〈FRAME〉等,就从标记结构的属性中找出目标URL,并从成对的该标记之间提取出正文,这两个数据就代表了该链接,通过分析链接得到指向所有具体期刊的链接集合。

3.2 系统之间的互操作

ERMS不但要接受出版商、期刊代理商等多个数据源的信息,同时又要向图书馆自动化系统、跨库检索系统、资源门户等服务系统输出数据,因此要实现ERMS与相关系统的数据共享和互操作。由于各个系统采用不同技术架构、不同的数据库和不同的访问接口,目前比较成熟的系统之间互操作的方案有Web Service、LADP、OpenURL等技术实现统一资源访问。下面重点叙述ERMS与OPAC、链接服务器的集成方案。

(1) 与OPAC系统集成

ERMS与OPAC书目信息集成的实现方式是在MARC记录里增加856字段—“电子资源地址与存取”字段,用于记录被著录的数字资源的存取地址和存取方式。若ERMS与不同的异构OPAC数据库的整合,则采用Z39.50协议来完成,通过内嵌Z39.50客户端模块,建立与各个Z39.50服务器的连接,提交检索式,获取检索结果。

(2)与链接服务器集成

通过OpenURL与链接服务器的整合,OpenURL标准允许描述性元数据和标志符从链接源到链接服务器之间传送。根据OpenURL框架,用户执行检索和浏览操作,链接解析器接收传送来的OpenURL,从中析取出元数据;根据这些元数据与知识库中所提供的资源服务等信息的比较分析,得到符合这些元数据信息的可用的扩展服务;然后根据知识库中的构造规则构造这些扩展服务的链接,并将这些链接集中在一个页面提供给用户。OpenURL可以建立起与多种学术信息源的链接,实现全文获取,提供了对不断增长的信息资源无缝互链接。

3.3 智能分析

由于数据库容量庞大,一个大型外文期刊数据库通常收录几千种期刊,同时部分数据库之间的内容存在交叉重复,传统的期刊选择方法显然很难满足数据库评价的需要。此外对电子资源的使用情况和成本的分析,也对电子资源的购买提供了非常重要的依据,因此,提供智能分析工具,自动生成电子资源的分析报告,是ERMS的一项非常重要的功能。

COUNTER(CountingOnline Usage ofNetworked Elec-tronic Resources)[13]方案掌握下载次数、检索次数等标准化数据。OUNTER第2版目前已成为网络电子资源在线使用统计的标准和规范,是电子资源使用统计与测量的工具,目前大多数出版商或服务提供商(例如:EBSCO、ProQuest、Elsevler等) 都提供符合COUNTER规范的统计报告。由于从不同的Web站点收割COUNTER报告是一项非常耗时的工作,ERMS通过在线自动收割的方式获得不同数据库的COUNTER统计分析数据,其实现通过SUSHI协议,[14]该协议是一个标准的客户端/服务器的Web服务SOAP协议。SUSHI采用自动请求ReportRequest和自动响应Report Response方式,通过Web Services下载XML格式的COUNTER使用统计分析数据。

统计报告分析的实现可以基于开放源码软件——JURO[15](Journal Usage Report Online),JURO 是香 港科技大学图书馆开发的用以分析纸本与电子期刊使用状况的统计分析软件。JURO从两方面取得期刊使用状况,一是来自数据库厂商的符合COUNTER规范的使用记录,另一方面是来自图书馆自身的期刊使用记录,将两种期刊使用状况和图书馆自动化系统的书目、登录及采购纪录结合根据使用者喜好产生不同的统计报表。

4 发展趋势

自从2004年“ERMI”[16]标准颁布以来,ERMS得到了快速的发展,随着ERMS产品的逐渐增多和广泛使用,图书馆对ERMS又提出了更高的要求。以下几个方面的内容将是未来ERMS的主要发展方向。

4.1 在标准化方面

ERMI的一系列研究成果为ERMS提供了很多重要的参考标准,为ERMS的发展起到了很好的规范作用,但是ERMS的标准还不全面,ERMI对电子资源生命周期的工作流程标准没有更为详细的规定,由于电子资源在整个生命周期中的各项纪录信息是从不同数据源(如:出版商、期刊代理商)接受来的,只有指定标准的数据格式,才有利于电子资源生命周期工作流的管理。

4.2 在集成方面

在资源集成方面,目前ERMS的功能主要是对数字使用权的电子期刊的管理,但是图书馆的电子资源还包括电子书、图书馆自己加工的电子资源、机构知识库(IR)等,目前图书馆对不同的电子资源分别用各自独立的系统分别管理。ERMS进一步发展要考虑把图书馆所有的电子资源都纳入到ERMS中来,形成一个统一的管理平台。在管理模式集成方面,ERMI对电子资源的管理流程是针对单个机构定义的,对多分馆联盟模式的管理流程没有定义标准,而多馆联盟方式比单一图书馆的ERMS要复杂的多,采购、许可等多个流程都有很大的不同,因为ERMS要区别共享电子资源、电子资源的许可程度以及用户的使用范围,同时还要区别管理每个成员馆独享的电子资源。将联盟管理功能集成进来,使ERMS能够根据图书馆的实际情况灵活选择管理模式。

4.3 在自动化管理方面

随着ERMS基本功能的日趋完善,为提高日常管理的工作效率,需要将一些由手工输入的操作变为自动处理。在许可方面,ERMS下一步的发展目标是通过一个标准的协议在出版商和ERMS之间传递许可数据,使用ONIX[17]定义的XMLschema图书馆和数字出版商之间可以交流数据,ERMS应有一个基于Web-services的请求和响应模块,能够实时请求许可或试用的电子资源的描述格式。在IP登记和激活方面,下一代的ERMS应该有一个IP登记模型,当IP注册后,通过制定一个简单的激活机制,所有的资源提供商都可以通过该机制自动激活IP,这样不仅避免了一些由于资源提供商管理IP不当而产生的错误,同时也全面提高了工作效率。在使用故障报告方面,应该建立电子资源的使用故障的自动发现机制,然后根据电子资源的提供商信息自动发布给资源提供商。

5 结语

ERMS的快速发展表明,ERMS是实现图书馆现代化管理不可缺少的工具。虽然目前国内外的多种ERMS功能侧重点各不相同,在系统的管理模式、系统的集成程度等方面也各有侧重,但是基本都是针对电子资源生命周期的管理。随着各种相关标准的相继出现,下一代的ERMS的解决方案将会更加完善,必将大大提高电子资源的管理效率。

[1]ElectronicResourceManagementReportof theDLFERM Initiative[EB/OL].[2008-01-02].http://www.diglib.org/pubs/dlf102/,

[2]Duranceau,Ellen.Electronic Resource Management Systems,Part II:Offerings from Serial Vendors and SerialDataVendors[EB/OL].[2008-11-02].http://dspace.mit.edu/handle/1721.1/18190,

[3]360 Resource Manager[EB/OL].[2008-11-02].http://www.serialssolutions.com/ss_360_resource_manager.html.

[4]HARRASSOWITZ Electronic Resources Management andInformationSolutions[EB/OL].[2008-11-02].http://www.harrassowitz.de/subscription_services/hermis.html.

[5]TDNete-Resource Manager[EB/OL].[2008-11-02].http://www.tdnet.com/site/upload/files/TDNet_RM(2).doc.

[6]E-Resource Access&Management Services[EB/OL].[2008-11-02].http://www.ebsco.com/home/ejournals/ejsintbro.pdf.

[7]Verde[EB/OL].[2008-11-02].http://www.exlibrisgroup.com/verde.htm.

[8]A Web Hub for Developing Administrative Metadata for Electronic Resource Management[EB/OL].[2008-11-02].http://www.library.cornell.edu/elicensestudy/webhubarchive.html.

[9]马芳珍,等.电子资源管理系统的分析和设计[J].现代图书情报技术 [J],2007(2):82-85.

[10]Hermes[EB/OL].[2008-11-02].http://hermes.mse.jhu.edu:8008/hermesdocs/.

[11]Cufts[EB/OL].[2008-11-02].http://cufts.lib.sfu.ca/.

[12]HTMLParser[EB/OL].[2008-11-26].http://htmlparser.sourceforge.net/.

[13]About Counter[EB/OL].[2008-11-02].http://www.projectcounter.org/about.html.

[14]StandardizedUsageStatisticsHarvestingInitiative (SU SHI)[EB/OL].[2008-11-02].http://www.niso.org/workrooms/sushi.

[15]JURO:Creatingthe Journal Usage Report Online System[EB/OL].[2008-11-02].http://hkiug.ln.edu.hk/meetings/am2005/presentations/9-juro.ppt.

[16]DLF Electronic Resource Management Initiative[S].[2008-11-15].http://www.diglib.org/standards/dlferm02.htm.

[17]ONIX for Serials[J/OL].[2008-11-02].http://www.editeur.org/.

猜你喜欢
出版商知识库期刊
期刊更名启事
期刊简介
期刊问答
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
位置与方向测试题
各行各业
2006年国际消费类杂志调查
期待您的加入