图书馆发现服务平台的评估工作与研究
姜莹莹,李睿华
(南京航空航天大学,210016)
摘要:对Summon、Primo、Find+这三大外文发现系统进行调研、测试,从元数据、架构与功能、检索与界面以及其他因素等方面评估三大发现服务平台,以期对图书馆发现系统的选型提供参考。
关键词:图书馆;发现系统;Summon;Primo;Find+
中图分类号:G250.76
作者简介:姜莹莹,女,馆员。
收稿日期:2014-11-04
Assessment for library resource discovery systems
JIANG Ying-ying, LI Rui-hua
(Nanjing University of Aeronautics and Astronautics, Nanjing210016, China)
Abstract:After making an investigation into and the tested three discovery systems, namely Primo, Summon, and Find+, the paper makes an assessment for these three systems from the following aspects: metadata, structure, functions, retrieval, and user interface, etc.so as to provide necessary principles for the fraternal libraries to select discovery system.
Key words: library; discovery system; assessment; Summon; Primo; Find+
1资源发现系统研究背景与现状
1.1 研究背景
随着信息总量的成倍增长,用户可获取的信息量远远超过了用户的吸收和甄别能力。面对复杂多元的网络信息环境,图书馆与数据库商、系统服务商等都在努力开发可以像Google 一样一站式检索图书馆各种信息资源的工具——整合检索系统。在此情境下,为帮助用户提取解决问题的知识并以直观和符合用户需求的方式显示出来,五大基于元数据预索引的资源发现系统应运而生,它们分别是OCLC 的 World Cat Local,Serials Solutions的Summon,EBSCO 的Discovery Service(EDS),Innovative Interfaces 的Encore,Ex Libris 的Primo。同时,自2012年始,中文资源发现产品北京世纪超星公司的超星发现系统、重庆维普公司的维普智立方、万方数据公司的万方学术搜索、北京方正阿帕比公司的学知搜索等等也相继研发推出。
1.2 研究现状
自发现产品面市以来,多家高校图书馆已经完成资源发现系统的部署,而且很多图书馆正在准备实施。当前,国外进入国内的资源发现产品主要是Summon、Primo、EDS。
很多图书馆通过对Summon、Primo、EDS这三大外文发现系统进行测试、调研,选择适合本馆的发现系统。例如山东大学通过两个阶段的评估,选择了summon作为自己的资源发现平台。他们主要是以咨询部门和技术中心两个部门为核心,协调其他部门进行,咨询部门重点从用户的使用习惯和需求方向两方面考虑,技术中心是对资源架构进行调研。还以该校的重点学科为中心,重点评估资源发现、揭示、获取的核心功能,并把服务对象在功能需求上进行区分[2]。而复旦大学图书馆通过对正式购买和实施资源发现系统兄弟院校图书馆的调研考察,借鉴经验,部署了三轮内部测试和三轮读者测试。通过对元数据、后台功能以及综合评估,确定并购买了Primo作为自己的资源发现平台[3]。上海图书馆作为公共图书馆因其复杂的用户群,通过设计评估的评价指标体系进行系统测试,最后选择EDS作为最适合该馆的发现服务平台[4].
自2011年以来,国内对图书馆资源发现系统的研究也越来越多。第一阶段的研究主要是针对资源发现系统的介绍,元数据来源、架构功能等;第二阶段的研究主要是对发现服务系统的比较研究;第三阶段的研究主要是针对图书馆对发现系统选型的实践以及系统具体应用研究,比如科技查新工作等。
2部署测试与评估
南京航空航天大学图书馆拥有大量的资源,其中电子资源数据库105个,纸质藏书250万册,现刊1761种,还有数个自建资源等,类型有图书、期刊、专利、报纸、学位论文、科技报告等。其中纸质资源分布于两个校区,电子资源来自于不同的提供商,每个数据库商提供不同的入口。发现系统可将这些资源整合,更好地为读者服务。从2013年10月至2014年6月, 南京航空航天大学图书馆主要是通过内部测试的方式对Summon、Primo、Find+这三家资源发现系统的产品进行测试。对Summon和Primo平台因为没有配本馆的资源,主要是使用北京大学的未名学术搜素(Summon)、西安交通大学思源搜索(Summon)、清华大学水木搜索(Primo)、复旦大学望道溯源搜索(Primo)这四个平台进行测试的。Find+是将本馆的资源进行了配置。
2.1 元数据评估
元数据是评估资源发现平台的重点之一。考评元数据的指标主要有元数据的规模、质量、对本馆资源的覆盖度、开放存取资源的覆盖度、其他灰色资源的集成以及元数据的更新频率。所谓厚元数据是指包含题名、作者、来源、主题、摘要等信息的元数据。因每家的元数据规模都达到了六亿条,直接评估难度较大。我们侧重评估三家资源发现系统的元数据数量、质量,以及与本馆资源的覆盖率,特别是对我馆主流数据库期刊、电子书的覆盖程度以及对我校主流学科的支持程度。
2.1.1 主流数据库资源评估
根据我校的专业设置以及对比已购买数据库的资源列表,选择了使用率较高的九个主流期刊数据库进行测试,对比三个外文发现平台的元数据的覆盖程度。这九个数据库分别为AIAA、ASME、SIAM、Taylor、IOP、AIP、Wiley、Turpion和APS。选取了这九个数据库的22种期刊进行测试。
通过对比三大发现系统的检索结果与原数据库的检索结果看出:(1)Find+的检索结果显示的条数与利用翻页功能到最后一页显示的记录条数不一致,并且翻页显示的速度比较慢。(2)检索某一种刊,按照EISSN字段检索,Primo的检索结果为0,但是选择此刊的某一篇文章按照题名检索的话,Primo有收录,说明Primo元数据字段不全。(3)Find+的结果比原库的结果还要多至少一半,因为Find+的内容提供者有两个或两个以上,也就是说数据来源有重复。(4)AIAA、IOP、Turpion 等数据库的某些期刊Find+均未收录。(5)在Summon、Primo和Find+中都有部分期刊的检索结果比原数据库检索到的数据少,数据有遗漏。
2.1.2 电子书数据库资源评估
我馆购买了八个电子书的数据库,因此电子书的元数据的覆盖度也是重要的评估因素。从我馆购买的八个电子书的数据库任意选择24种进行比较。
从测试结果来看,对于我馆已购买的电子书,summon覆盖的较全面,覆盖度达到100%,Primo次之,覆盖度为50%,Find+最少,只有10%。从这些电子书的元数据质量来看,summon提供的电子书的元数据字段较全,包含题名、作者、注释、出版商、语种、页码、版本、主题、ISBN、EISBN等;Primo提供的字段有题名、作者、主题(较少)、描述、出版社、出版日期、语种、识别符(ISBN、EISBN);Find+提供的字段有题名、作者、出版信息、主题、ISBN等。对于没有收录电子书,Find+给出的解决方案是需要电子书的数据库商提供MARC数据,然后导入EDS的服务器上。
2.1.3 专利资源评估
我校属于工科学校,对于专利的需求比较多,因此对专利元数据的收录情况也是发现系统选型的重要方面。选择某一检索词比较这三大发现系统对欧洲专利和美国专利的数据覆盖情况。通过比较发现,summon和Find+均收录了欧洲专利局的元数据,Primo没有专利数据。Summon专利元数据比Find+的多,并且可以链接全文,Find+只标识数据来源没有全文链接。三大发现系统都没有收录美国专利局的专利元数据。
2.1.4 重点学科的资源评估
南航的国家重点学科为航空宇航制造工程和力学。选取电解加工刀具、聚合物以及流体力学这三个热点主题。
在三大发现系统中检索电解加工刀具、聚合物以及流体力学方面的文献,对比三大发现系统在检索结果总数、在线全文数、同行评议论文数、最新文章数、图书/电子书数量以及厚元数据量等六个方面的结果发现,这三个热点主题在summon的检索总数、在线全文数、最新文章数、图书/电子书的数量都是最高的,并且Summon的在线全文数占检索总数的百分比也是最高的。Find+的内容提供商至少两个,因此检索结果会有至少50%的重复数据。说明Summon在元数据总量、元数据更新数量以及图书数量上的发现功能是无可比拟的,Summon没有提供同行评议论文的筛选,只提供期刊论文数,因此同行评议论文数无法具体统计,因同行评议论文均为期刊论文,所以在上述表格中标记的是小于期刊论文总数。Primo的图书/电子书数量上比Find+要多。
2.1.5 查新需求评估
南京航空航天大学科技查新站具有国防科工委部级查新资质和国家教育部认定的查新资质,每年有大约300项的科技查新,因此发现系统的查新需求评估也是重要的评估指标。
利用已做过的两个属于国家重点学科的外文查新课题,使用相同的检索策略,对检索结果的相关度和查准率进行测试,该测试以检测检索结果的查准率和精确性为目的。
选择的两个科技查新是属于不同领域的国家重点学科的国内外查新。考察发现系统对密切相关文献的覆盖度以及检索结果的元数据质量。从检索结果看,summon命中的相关文献最多,其次是Primo,最后是Find+。从测试结果的信息描述看,三大发现系统元数据质量较高,均含有题名、作者、来源,大多含有主题、摘要字段。
在查新中,主题检索是很重要的检索方式。通过对比三大发现系统和SCI的文献主题词发现:summon不仅包含SCI的主题词,还有其他主题词,也就是说summon将多个来源的元数据的主题词进行了合并;Primo只含有SCI的主题词;Find+不含有SCI的主题词,只有自己标引的主题词。
2.2 架构与功能评估
发现系统不同的部署方式会影响硬件和人力的投入。比如云部署就会节省硬件设备和人力维护。北京大学认为Summon 系统架构采用云部署,如果出现问题,容易更换。上海交通大学认为,Primo 比较灵活,可扩展性强,可以做本地化的定制[3]。
三大系统的架构与功能对比如表1所示[5]:
表1 架构与功能评估表
高级检索功能是否按照用户的使用习惯设计影响着用户的使用体验,三个系统的高级检索功能对比见表2。
表2 高级检索功能对比
由表2可以看出,summon的高级检索提供的字段比较多,其次是Find+。Summon和Primo的时间限制条件可以精确到日进行检索。Primo比较特别的是提供标签字段检索。
2.3 检索与界面评估
2.3.1 检索结果的排序机制
Summon的相关性排序有动态排序和静态排序两种排序算法。动态排序与接近度、词频、逆向频率、字段权重、词干提取、智能关键词处理、同义词、语言处理、自由格式标识符等因素相关。静态排序与内容类型、学术/同行评审、发表日期、被引次数、是否本地馆藏、内容规模等因素相关。
ScholarrankTM是primo发现系统的相关性排序技术,由资料与查询的匹配程度、资料学术价值、读者背景信息决定排序位置。读者登录后,设置好自己教育水平和专业背景,检索结果的排序将会与读者背景信息相关度更高的文章放在比较靠前的位置。
Find+同时运用“受控词汇的主题词表”以及出版社原始提供的内容(如作者提供的关键字、文摘、全文等)进行排序。以主题词表优先,其优先顺序如下:命中专业主题的控制词表、命中文章题名、命中作者提供的关键字、命中文摘提供的关键字、命中文章全文中提供的关键字,权重分别为15、10、5、2、1。当多笔数据总积分相同,二次评分机制启动,如出版物发行时间、文章长度、出版物类别(如专家评审期刊的文章,权重会高于书评)。如果输入关键字与某字段完整匹配一致(如篇/刊名),则总积分会额外增加。基于以上所列因素,算出一个最终相关度积分。
2.3.2 检索结果的显示方式
检索结果的显示方式直接影响着用户对检索结果的精确筛选。三大发现系统检索结果的显示方式见表3。
表3 检索结果显示方式
从表3可以看出,Find+中检索结果的分面显示类型是最多的,查看全文需点击的链接次数较少,并且Scopus的引用次数可以显示,但没有推荐功能。Summon对相似的元数据没有进行合并。Primo没有来自WOS的引用标识,并且查看全文需点击的次数是最多的,比较特别的是Bx学术推荐功能。利用检索词检测三大发现系统检索结果的显示方式,选择的检索词为Information Behavior,分面选择有在线全文的,Find+显示检索结果中有不包含全文的元数据,Summon和Primo的检索结果都是含有在线全文的。
2.3.3 检索响应时间
检索响应时间是指从提问到接收再到检索结果平均消耗的时间。检索响应时间越短越好,时间太长就会让用户放弃使用。通过测试发现这三大发现系统的响应速度和响应时间均在2秒之内。
2.3.4 详细信息的查看方式
用户有时需要查看文献的详细信息对检索结果进行筛选。所以详细信息的查看方式是否便捷影响着用户的使用体验。在Summon中要查看详细信息,只需鼠标放在文章标题上即可。在Primo中要查看详细信息,点击详细信息即可在当前页面查看。Find+要查看OPAC的信息,需要调用OPAC系统的功能与界面,要查看文献的详细信息,需要进入EBSCO host界面。从文献详细信息的查看方式上看,Summon最方便。
2.3.5 馆藏信息的显示
馆藏信息的显示方式影响着用户的使用体验。Summon和Primo都是在检索结果的下方直接有馆藏地的显示,Primo还有预约/续借功能的显示。Find+通过资源范围下的馆藏目录才能检索馆藏资源,即馆藏资源并没有和电子资源统一索引。Summon在“更多来源选择”里,馆藏纸本可按照刊名或ISSN号查看纸本资源。Primo在SFX链接中,馆藏纸本通过馆藏目录查询。
3因他因素评估
3.1 用户情况
表4 用户情况对比表
40%的北美研究型图书馆 (ARL)、75%的美国长春藤联盟(Ivy League)大学、50%的澳大利亚八校联盟(Group of) 图书馆、军事/政府图书馆、世界卫生组织(WHO)、全球众多研究型图书馆均采购了Summon。
从表4可以看出Find+的全球用户和国内用户是最多的,其次是Primo,最后是Summon。因为Find+的用户有一些是集团采购的方式购买的,所以在用户数量上有一定的优势。但是国内有10所985高校图书馆发现系统用的是Summon。
3.2 本地支持
购买发现系统之后的售后服务也是考察发现平台的一个重要因素。如果有本地支持的技术团队,发现问题能得到及时解决。EBSCO与南京乐致安公司合作,将EDS本地化,成为Find+;Primo在国内没有技术团队;Summon有多名本地售后技术人员,可提供本地技术支持。
4总结
图书馆用户对资源发现系统的需求日趋强烈,39所985高校中有资源发现系统的数量为27所[6]。图书馆可以结合本馆实际情况制定相应的发展策略,评估发现系统平台。笔者根据近两年的跟踪、测试评估工作总结出一些可供参考的评估要点:(1)评估工作应从特定使用群体的需求出发,以学校的重点学科为中心,以能否满足学校的重点学科资源整合需求为目标。(2)不管是架构与功能还是检索与界面,都要最大限度的方便用户,贴近用户的使用习惯。(3)发现系统的出现也对图书馆员提出了要求,不管是查新需求还是学科评价,都是重要的评估要点。
参考文献:
[1] 窦天芳,等.以Exlibris&Metalib 为例谈整合检索的几个关键技术及应用[J].情报科学,2007,(8):1235-1239.
[2] 廖静.山东大学图书馆资源发现系统评估工作的摸索与实践[J].图书情报工作,2013,(9):52-57.
[3] 殷沈琴,唐武京,邵诚敏,等. 三家资源发现系统的调研、测试和评估[J].图书馆杂志,2013,(12):82-86.
[4] 孙宇,张磊,刘炜. 图书馆资源发现系统选型研究[J].图书馆杂志,2013,(12):63-70.
[5] NISO ODI Survey Report Reflections and Perspectives on Discovery Services [EB/OL]. http://www.niso.org/apps/group_public/download.php/9977/NISO%20ODI%20Survey%20Report%20Final.pdf,2013-07-05.
[6] 陈定权,卢玉红,杨敏. 图书馆资源发现系统的现状与趋势[J].图书情报工作,2012,56(7):44-48.
[7] 胡玮.“985工程”高校图书馆资源发现系统现状分析和思考[J].图书学研究,2013,(16):43-48.
(责任编辑:傅正)