图书馆主流资源发现系统的现状和未来展望

2016-02-13 17:58:12，

中华医学图书情报杂志 2016年5期

，

随着图书馆电子资源的逐渐增加以及图书馆资源类型的多样化发展，揭示日益繁杂的信息资源、提高资源使用率是图书馆资源管理需要重点解决的一个问题。20世纪末，图书馆开始自主研发电子资源管理系统。2004-2008年期间，图书馆集成系统提供商提供电子资源管理系统，2009年以后出现了新一代的发现系统，即将纸本资源与电子资源集成为一体的知识发现系统[1]。此后，随着功能需求的日益复杂和内容覆盖面的增加，发现系统进一步升级。2015年，随着艾利贝斯集团(Ex Libris)加入ProQuest，两家公司目前所拥有的发现系统Primo和Summon已在市场中拥有数千家客户，在资源与系统整合方面对图书馆资源发现系统产生了无法预估的影响[2]。通过引进前的调研比较和引进后的使用发现，现有知识发现系统还有一些不尽如人意的地方，发展空间很大。

1 图书馆发现系统的产生

随着数字资源的剧增，图书馆原有的OPAC系统和联邦搜索无法满足异构资源的统一检索[3]。由此而催生的资源发现系统既弥补了联邦检索速度慢，又完善了结果不完整的缺陷。发现系统开发商与出版商、集成商达成协议，获取学术出版机构的海量文章及文章元数据，进而搭建成元数据庞大的底层知识库，采用抽取、映射、收割、导入等方法，形成功能强大的索引技术，实现资源的海量数据搜索，消除资源之间数据结构不同导致检索不便，避免读者在不同数据库之间查找资料。“Google”式的统一检索界面、多来源资源的高度整合和便捷获取，为图书馆开展一站式信息知识服务奠定了基础[4]。

2 主流图书馆发现系统现状

2.1 图书馆发现系统概况

目前，越来越多的图书馆已使用资源发现系统。影响较大的国外产品有[5]：EBSCO Discovery Service(简称EDS)、Ex Libris Primo Central(简称Prime)、Serials Solution Summon(简称Summon)、OCLC World Cat Local(简称WCL)。与国内产品相比，国外发现系统开发商在元数据质量、功能设计等方面具有明显优势，能覆盖90%以上的外文期刊元数据。

EDS资源发现系统(Find+版本)是美国EBSCO公司出品的EBSCO Discovery Service资源发现系统在中国大陆地区的本地化版本。EDS资源总量已达11亿多条，覆盖的学术期刊超过17.7万种。其中全文资源近7 000万，包含学科期刊、会议报告、学术论文、传记、音视频、评论、电子资源、新闻等几十种类型的学术资源，6 700多种全文期刊；中文资源总量也达到近2亿条，其中期刊论文篇目数据达到8 000万。EDS能对各种资源进行一站式整合检索，帮助读者迅速获取所需的文献。在中文资源覆盖方面，EDS与Apabi达成协议，可利用Apabi大量的电子书元数据，实现对本地资源的集成。

Primo Central 已经收录了超过5亿条索引记录，整合了世界上大部分的外文电子期刊文章、电子书元数据、部分报纸，在中文资料覆盖方面，已与重庆维普公司达成相关数据使用协议，实现对本地资源的集成。

Summon涵盖了7 000多个出版商，80多种资源类型，包含了大约7.5亿条数据记录，其中39个开放获取档案盒257个机构资源库中的4 000万条记录多半都是全文检索；在中文资源覆盖方面，与CALIS达成协议，允许其利用其学术论文的元数据，实现对本地资源的集成。

截至2012年9月，WCL可以一站式搜索超过9.69亿条数据记录，其中期刊92 495篇，电子图书1 390万册，机构资料库记录2 200万册，硕博士论文1 800万册，其中文覆盖率相对较低。

以上几种发现系统的索引内容都很丰富，但是有所偏重，如Summon和EDS 是学术与大众信息并重，而 PrimoCentral则更偏重于学术。在结果的信息显示方面，三种系统都会显示检索结果的标题、作者、页数、出版信息以及图书封面等基本信息。但是相对而言，PrimoCentral较为灵活，允许图书馆对检索结果显示信息进行个性化配置[6]。

2.2 现有图书馆发现系统的优点

一是资源范围覆盖面广。元数据总量均超过在5亿条、期刊均超过6万种，其数据来源通过与出版商、集成商签订协议，实现了外部元数据收割，本地数据采用MARC转换上载、元数据收割、FTP上传的方式。二是检索简单易用。提供了基本检索和高级检索两种方式，对于检索结果可以按照相关度排序，提供分面功能筛选，还可以按学科、文献类型、出版时间等限定。三检索结果获取便捷。检索结果可以提供链接已购买数据库、链接馆藏书目数据，实现了与文献传递服务系统无间隙的融合，方便直接获取全文或进行文献传递。

2.3 现有图书馆发现系统的缺点

一是中文资源的覆盖率不高，本地化不够，中文文献检索结果差强人意。一方面，由于汉语自身语言结构特点，中文单词没有形式上的分界符，导致中文分词要复杂得多，检索时会产生歧义分词，从而影响检索结果；另一方面，检索中文信息时由于元数据库不规范、检索格式不匹配等原因，出现链接不稳定、不能链接到全文、检索结果不全，极大影响了中文文献的检索效果。二是元数据繁杂，来源复杂多样，元数据不规范，影响检索效果。过于强调获取元数据的数量，忽视了元数据的来源，检索结果中大量相关度较低的信息影响了高质量信息的呈现，降低了信息检索的准确性；元数据规范度低，包含字段格式不统一，元数据来源复杂多样，导致结果重复，不利于对数据进行分析、重组和挖掘。三是对资源使用情况的评估不够完善。对资源使用情况的反馈信息是决定资源配置是否合理的一个重要的客观依据，现有发现系统对资源使用情况缺乏系统性的评估。四是发现系统APIs的兼容性和互操作性有待进一步升级。目前发现系统的应用程序接口(APIs)的定义是独立的，缺乏统一规范，使得国内图书馆在引进使用时受到一定程度的限制。

3 图书馆资源发现系统的未来展望

综上所述，现有发现系统功能不足的问题已经开始显现。系统开发商正在根据用户的反馈意见，改善其功能，推出新一代融合图书馆管理系统与发现系统为一体的新一代图书馆服务管理系统，实现资源的统一管理。目前正在研发或近期推出的产品主要有Ex Libris公司的Alma，Serials Solutions公司的Intota，OCLC的World Share Management Services，Innovative Interfaces公司的Sierra，开放图书馆环境项目研发的Kualia OLE，VTLS公司的OPEN Skies[1，7]。从未来资源发现系统的发展来看，应从以下几方面改善其功能。

3.1 增强特殊类型资源的检索性能

一是提高中文资源的覆盖率，尤其是完善产品功能中文本地化，完善中文文献的检索功能；开展与中文三大期刊全文数据库商的广泛合作，提高中文元数据的规范，关注元数据的质量。

二是对元数据进行科学规范。在确保获得一定数量元数据基础上，把关元数据质量，对相关度不高的元数据进行剔除，统一元数据格式，剔除重复元数据，进而提高信息检索的准确性。

三是增强非文本信息资源的检索效果，加强对音频和视频资料的揭示。现有发现系统主要是基于文本发掘技术，搜索资源以文本资源为主，包括期刊、学位论文、图书和其他文本等信息，对于音频和视频资料的揭示主要是通过对其文本描述建立索引和检索。未来的发现系统要提供更多视听资源内容和视听资源质量的搜索工具。除人工创建元数据以外，还要充分利用技术手段如语音文本技术、挖掘技术，自动生成视频描述工具，创建视频索引，从而让图书馆和内容创建者受益。利用模式匹配、面部识别或其他已经存在或正在出现的专业多媒体系统技术，帮助发现系统强化特殊工具，直接揭示数字视频或音频资料。另外，现有发现系统对图像、视频、数字录音和其他媒体的演示和操作方面的支持相对薄弱，浏览这些资料时需要将页面转向特定软件或幻灯片播放，改进这些特殊类型的内容和图像的检索和演示的功能，将会更加完善图书馆对这些资源发现的稳定性。

四是增强图书馆特藏和档案的检索效果。现有发现系统对图书馆自有数据收割不完整，导致不一定能检索图书馆的特藏、某个机构的档案或其他特殊信息。特殊馆藏和档案在管理中遵循不同的概念，依赖一套特殊的元数据标准，特藏遵循多层次方式管理和描述方法。发现系统需在特藏及档案的检索方面进一步研发，以支持对特藏的元数据结构和层次组织概念，提高特藏和档案的检索效果。

3.2 完善分析和评价功能

无论是图书馆还是出版商都需要根据客观数据评估读者对其资源的使用效果，因此未来的发现系统在资源使用评估方面需要关注如下问题：一是完善资源使用分析评价功能。统计图书馆各种资源(纸本和电子)的使用情况，综合评价资源利用效果；二是提供深入开展学科信息分析服务的平台，借助底层海量数据，利用文献计量学的方法和知识发掘技术，统计某个时间范围某一学科客观的数据，分析读者信息使用行为、判断研究热点、预测发展趋势；开展对作者、主题和收录期刊等方面数据挖掘，揭示相关机构、作者之间的隐性关系；三是提供更为可靠的替代计量方法，采用相关性计算方法，帮助读者从大量的原始数据中提炼相关度较高或质量更高的资源。目前一些发现服务开发商已开始在其产品中与某些替代计量研发公司合作。如 Primo目前与Altmetric公司合作，EBSCO信息服务已并购一家专业altmetrics公司Plum，ProQuest在替代计量中研发Prototypes，OCLC也将worldcat数据与plumX合作，期待能够提供更为科学的计量工具支持知识发现。

3.3 提高发现系统APIs的兼容性和互操作性

目前各个发现系统的应用程序接口(APIs)定义都是独立的，缺乏统一规范。为了适应不断变化发展的数字出版以及日益丰富的资源类型，未来发现系统需要提高其拓展性，提供开放规范的APIs，允许外部系统访问其功能程序。图书馆通过与发现系统开发商合作，在发现系统上按照各馆的需求开发程序、增加个性化服务，实施更适合本馆的图书馆管理系统。图书馆管理系统的许多应用开发程序将基于发现系统所提供的APIs，因此APIs的透明度将作为评估、实施、运行发现系统的一个指标。对于未来的发现系统，希望其全部公开预留的APIs及明确访问APIs的访问权限设置(如是否仅限于当前用户访问、是否允许由第三方开发商访问、是否可以允许竞争开发商访问、是否允许普通公众访问等)、规范的APIs访问商业模式(如是否需要额外的费用、还是计量收费)和提供一套可以在任何发现系统均可使用的APIs。

3.4 打造互动合作的社区

随着移动互联技术的普及应用，发现服务系统把社交网站增纳入其应用中，以增加读者在发现系统中互动的机会，而不是局限于数字资源的搜索和检索功能；允许读者从某学科专业切入，增加读者与馆藏信息之间的交互，如图书评论、数据库评价和服务评价等，搭建从资源发现到资源使用流通的桥梁；融合社交网站功能，建立特色鲜明的学术圈、好友圈、主题交流圈等，引导读者进行学术交流、主题研讨、图片上传、知识共享与协助互助，提供知识共享和交流的平台，让虚拟学习环境与图书馆信息服务工作有效融合。社区的介入不仅可以促进对读者的深入了解，而且能加深学科主题服务内涵，提升图书馆信息服务的水平。

3.5 参与研究数据的管理

随着对科研数据的重视，越来越多的图书馆将参与科研数据管理，发现系统应探索如何在未来科研数据管理中发挥作用。提高科研数据的检索便捷性对研究人员至关重要，尤其是将科研数据进行碎片化，让科研人员能够准确查找到科研相关领域感兴趣的数据。

目前，图书馆参加科研数据管理服务属于新生事物，其研究方法在不断改进，发现系统在科研数据方面的运用还处于萌芽探索阶段。一些图书馆帮助研究者在数据管理规划中开发应用程序，如参与执行数据管理规划及提供元数据数据仓储或保存平台等。关于研究数据的描述，标准化元数据结构似乎有很大的发展前景，它可以让研究机构和全球发现系统使用这些数据。对于未来的发现系统，一个关键因素是确保论文的数据到数据仓储的链接，允许其他研究人员能够验证或复制研究结果或开展基于该数据的相关研究。

4 结语

在信息生产和知识传播呈几何级增长的大数据环境下，简洁的知识发现服务可为图书馆资源整合、一站式检索提供新的发展空间，引导读者发现有价值、时效快的信息资源信息服务的发展方向是期待资源发现系统改进现有功能，为用户提供更好的服务环境。