朱玲 崔海媛 聂华
摘要 近年来,网络级发现服务在图书馆业界迅速兴起。方案选定之后如何实施,就成为发现服务从评估走向应用、从产品推向服务的关键。文章以“未名学术搜索”的实践为基础,介绍了网络级发现服务在北大图书馆的实施背景、目标和组织方式及以下实施要点:本地馆藏的映射与同步,商业电子资源的订购与配置,检索机制的优化,界面和检索框架的客制化,系统发布与服务。
关键词 发现服务 实施 未名学术搜索
1 引言
网络级发现服务自问世以来就受到图书馆业界的强烈关注,并在全球迅速得到广泛应用。市场上的几种主流产品分别是:OCLC的WorldCat Lo-cal(2008年正式推出),SerialsSolutions的Sum-mon(2009年7月发布),Exlibris的Primo Cen-tral(2010年6月正式发布),EBSCO的EBSCODiscovery Service(EDS)(2010年1月发布),以及Innovatives的Encore Synergy(2010年4月发布)。近几年来,国内对几种主流发现产品和方案的考察和评估一直是数字图书馆领域的研究热点,但对于其具体实施过程未有专门论述。2011年6月,北大图书馆在引进美国SerialsSolut-ions公司发现服务方案所含产品(Summon,360Link,Knowledgeworks)后随即启动实施工作,主要任务包括:资源的全面整合、检索机制的优化、界面的客制化、上线筹备等。经过实施小组的通力协作和紧张筹备,“未名学术搜索”在同年11月顺利向读者推出,标志着发现服务在北大图书馆率先进入应用阶段。本文以上述实践为基础,详细介绍和探讨了发现服务在北大图书馆的实施细节,包括背景、目标、组织方式和要点。
2 背景与思路
2.1 背景
2011年6月,北大图书馆与美国SerialsSolut-ions公司正式签订了购买该公司发现服务方案所含产品的合同,成为网络级发现服务Summon在中国大陆地区的第一家用户。尽管此前在发现服务的评估和试用中已经积累了一定的经验和团队基础,Summon在北大图书馆正式应用之前依然面临着不少挑战,如:系统首次全面处理CNMARC记录、多种个性化的中文数字特藏;电子资源知识库中首次引入和配置中文数据库;系统首次推出中文检索功能;SaaS模式的产品实施在本馆还未有成熟经验;与厂商支持团队的合作受到语言和远程交流的局限等。
2.2 系统架构特点
发现服务从系统架构上可以分为两种类型:(1)单一型(单纯基于中心索引/元数据仓储技术),(2)混合型(基于中心索引+本地索引,元数据仓储技术+元搜索技术),两种类型的特点对比如图1所示。
Summon在系统架构上属于单一型。从用户体验的角度看:基于标准化的中心索引,用户可以得到更为快速的检索反馈和更加规范清晰的相关度排序;采用SaaS模式,用户可以从系统灵活的功能更新和短至2~3周的版本升级中获益,率先体会发现服务领域新技术在系统中的应用。从后台实施的角度看:单一型架构减少了本地硬件设施投入和后期维护负担,但也造成了对厂商支持力度和网络环境的依赖加强,系统对接的调试难度加大,知识库的配置精度要求提高,在实施计划、人员协作、工作质量和进度控制上都对实施团队提出了更高的要求。
2.3 实施目标与内容
在分析本馆资源情况和调研读者需求的基础上,北大图书馆将发现服务的实施目标概括为:对北大图书馆所藏/所建/所购的全部学术资源进行元数据级的深度整合,构建海量、高质、标准化的元数据中心索引,通过功能强大的搜索引擎以及与读者熟悉的网络服务相比拟的界面体验,向读者提供统一、快速的搜索服务。在搜索结果链接中,分层次地嵌入图书馆相关系统命中该条资源的全文链接、信息页、系统入口或服务申请人口,带动读者对图书馆现有系统和服务更好的了解和实践,以此增进读者对本馆学术资源类型、形态、获取方式的理解和把握能力,促进读者综合信息素养的提升,并提高图书馆学术资源的有效使用率。在实施过程中,重新梳理所涉及资源的管理方式,借机清理数据中的遗留问题,力争促进业务流程和分工的优化与合理调整。对SaaS模式的产品实施和服务应用进行有益的尝试和探索,为今后的系统选型和实施积累经验。
实施内容主要包括:本地馆藏的映射与同步,商业电子资源的订购与配置,检索机制的优化,界面和检索框架的客制化,系统发布与服务。
2.4 组织与实施方式
在前期多部门共同参与发现服务试用和评估的基础上,北大图书馆针对实施工作成立了专门的项目小组,抽调多部门的骨干馆员共同参与,在资源映射与配置、系统数据与检索功能、界面框架与发现体系、读者需求与反馈等方面各有分工并密切配合。同时,在“图书馆主导实施方案和计划,厂商提供技术支持和人员嵌入”的原则下,实施小组与厂商共同制定了实施计划,协调人员安排和进度。与以往引入的系统有所不同,发现服务厂商的支持团队分散于国内外的几个服务中心,因此,除邮件之外,双方还大量、频繁地使用了网络视频会议作为越洋沟通的主要方式。同时,由于上述方式在语言差异、上下文语义、即时反应上存在较大的局限性,实施小组在重/难点问题的讨论上,依然坚持与厂商的核心支持团队召开直接的面对面会谈。充分依托高校图书馆的人文环境,图书馆还邀请到了北大计算语言学研究所、北大信息科学技术学院网络与信息系统研究所的师生来馆交流学习,在自然语言处理、搜索技术和策略等问题上进行了深入探讨。
3 实践与思考
3.1 资源的全面整合
发现服务的核心是格式统一、结构清晰、内容全面的元数据中心索引和基于标准化索引的快速检索。相应地,实施过程的核心任务是将图书馆所藏/所建/所购的全部资源通过一系列的处理步骤全部纳入该中心索引,并以此为基础提供强大的搜索和链接功能。endprint
资源整合的总体框架如图2所示,整合工作可划分为本地资源和商业电子资源两部分:(1)本地资源:馆藏书目/数字特藏元数据的抽取、映射、收割、导人中心索引(用于Summon中本地资源的搜索、揭示和链接),(2)商业电子资源:本馆所购电子资源在统一电子资源知识库Knowledgeworks中的匹配、状态订阅和自有数据建设(用于Summon中电子资源的搜索范围设定和360Link中的全文链接)。
3.2 本地馆藏的映射与同步
北大图书馆的本地馆藏资源丰富、类型多样、特色鲜明,数据基本情况如表1所示。
本地馆藏的处理可分为数据准备,数据映射与导入以及数据同步三个主要步骤。
数据准备:包括元数据的导出和清理。导出时,需在系统支持的范围内,尽量选择便于处理的格式(优先顺序为MARC、XML、其它),尽量选择国际通行的字符编码(但个别特藏除外),并注意数据的状态(是否删除、是否屏蔽等)。导出后需仔细核对数目和完整性,并整理每种数据类型的元数据字段说明表。
数据映射与导入:为了使这些数据在Summon中被正确地索引和揭示,需要将各个本地系统的各个元数据字段通过一个标准化的提取规则存入中心索引中相应的标准字段,这个标准化规则即为从该本地数据到中心索引的映射。完成映射后,即可按照此规则进行数据导入和揭示。实施小组首先针对北大馆的多个本地馆藏确定了“由通及变”的处理顺序,即先从有成熟经验可借鉴的USMARC书目记录着手,再到初次处理但结构相似的CNMARC书目记录,最后到更加个性化、多样化的特藏数据。对每一种数据类型,充分发挥小组成员各自的经验与优势,先由最熟悉该种数据的编目馆员通过两种数据的字段对照、存疑假定等填写完成初始映射表,冉由所有成员从不同的角度进行细致、全面的测试和调整,步骤为:映射→数据导入→测试→反馈→映射修正→数据再导人,如此往复若干次直至检验结果完全满意。为了最大程度地保证映射的全面和准确,测试对象既有从馆员角度挑选的典型测例,也覆盖了从读者角度随机抽取的大量记录。例如,书目记录测试中的典型测例包括:各种内容类型的记录,各种语种的记录,各个分馆的记录,各个时间段的记录,以及一些较复杂较特殊的字段(例如,需要先进行指示符判断的字段/多层次字段等)。对测试中发现的问题,编目馆员、小组其他成员、以及公司的编目专员共同进行了分析和处理。书目记录遇到的主要问题有:显示字段映射不准确(不显示/显示不对或不全/相似字段混淆/显示格式不当),索引字段映射不准确,提取程序处理不当,标识字段格式不规范等。相应的处理方法为修正映射,修正程序,调整数据格式的识别方式等。对数字特藏,问题则集中在不能严格匹配的个性化字段如何变通处理,例如,多媒体数据的责任者类型繁多(导演/演员/演讲者/编剧/作曲/编曲/演奏/演唱……),最终都统一作为著者字段映射和揭示;北大名师的元数据本质上是以人物为核心的复合型数据,但在系统内容类型不支持的情况下,最终取其人物介绍的类型映射到“文章”。
数据同步:数据同步是保障Summon中检索内容时效性的关键环节,包括基本信息和实时状态的同步。(1)基本信息的同步:理想情况下Summon中的数据基本信息应随原系统数据的变化而立即更新,但实践中通常随系统支持情况和自身更新频率采取弹性策略。例如:北大图书馆的ILS系统自身的更新频率较高,策略为自动日更新;学位论文一般随着每年学生毕业进行数据更新,策略为手动年更新;电子书和大部分特藏数据的更新具有批量性和项目阶段性,策略为紧随原系统作不定期更新。更新方式主要为ftp自动或手动上传。测试中也考虑过通过OAI-PMH协议自动收割,其优点是自动化和时效性更高。但由于支持该协议的系统本身的更新频率较低,且收割范围和字段在接口中难以准确界定,最终并未采用。(2)实时状态的同步:基于本地自动化系统的支持情况,实施中成功实现了两种方式:“页面提取”方式和“Z39.50协议”方式。但由于本地自动化系统对页面访问压力的承受力较低,而Z39.50协议接口的响应速度较慢,如何稳定地实现实时状态的快速同步仍需结合ILS系统的具体情况,进一步研究探索更优方案。
在对本地馆藏的导出和处理过程中,北大图书馆择机发现和清理了一批图书馆本地系统数据中存在的问题,例如CNMARC的001字段问题,并借此契机促进了书目数据的批量修正。另外,小组成员在实施中还提出了若干难以两全、未有定论的问题,例如:元数据中心索引的标准字段应该尽量提高包容性(扩展、细化更多的字段)还是保持简洁通用性?分面中记录的划分应该尽量满足细分性还是简洁唯一性?这些问题值得在产品改进和应用深入的过程中继续思考。
3.3 商业电子资源的订购与配置
近年来,图书馆一直在大量引进国内外电子资源。例如,近五年来(2008—2012),北京大学图书馆在馆藏建设总经费基本持平的情况下,电子资源经费平均年增长率达到12.6%。电子资源数量众多、更新迅速、学术研究价值巨大,在图书馆资源中占据了重要的地位,有力地支持了用户的学习和研究需求。以北大图书馆为例,截至2014年6月5日,所购置的中外文数据库中(不包括试用数据库)为活跃状态的达237个,且涵盖多种资源类型,其中仅覆盖的电子期刊即达到近5万种,所包纳的论文篇目更是数以亿计,电子资源基本情况如表2所示。
网络级发现服务Summon中,对商业电子资源的访问和全文获取链接通过对后台的统一知识库Knowledgeworks进行配置得以实现。知识库统一存储和管理图书馆的电子资源馆藏信息(主要为电子刊、电子书、学位论文等),是电子资源整合服务最核心的数据基础。
北大图书馆在原有本地导航系统的基础上,对数据库列表、期刊列表进行了仔细整理,并通过与资源商沟通、索取最新数据进行了更新,据此在Knowlegeworks知识库中进行了全面配置。借资源彻底梳理和更新的契机,北大图书馆还将电子资源的后台管理和维护从本地系统迁移到了更加规范化、标准化的Knowledgeworks知识库管理端,并对业务流程和分工进行了优化和调整,以便进一步提升管理和服务水平。endprint
电子资源的配置中,电子刊/电子书全文数据库是最重要的部分,其全面性和精确性直接决定了Summon中检索结果的全文链接是否完整和准确。实施中,首先做数据库层级的配置:基于本馆数据库列表中的每一个数据库,在Knowledgeworks知识库中通过考察关键属性(平台商、链接站点、包含的资源集等)进行最优匹配,并对其详细信息(描述信息、关联信息、权限账号信息、可见性信息等)进行精确设置或修改。这之后,再进行期刊层级的配置:若数据库为整库购买,全部订阅即可;若数据库为部分购买,则需将本地电子刊/电子书列表与选中标准库中的列表通过唯一标识符(一般为ISSN或ISBN)进行自动匹配,并个性化设置匹配成功记录的订阅年限等状态信息,再人工处理匹配失败的少数记录(原因包括:数据库确未覆盖,记录标识信息缺失,记录标识信息有误或有变动)。对极少数人工依然无法识别的记录,还需要与公司电子资源专员和数据库商进行多方讨论和求证,尽量提高覆盖率。由于同一条电子刊/电子书记录可能被多个数据库或多个镜像站覆盖,所以,将所有数据库及其镜像站配置完成后,还需总览全局,对数据库之间以及镜像站之间进行优先级排序。对英文数据库来说,在配置中最常见的问题是匹配发生歧义和多镜像站并存时如何全面配置。对于前者,解决方法为根据情况灵活地拆分订阅,必要时进行单刊补充;对于后者,需要全面订阅本馆有访问权限的镜像站,对标准库不含的中国镜像站,要尽快补充建立。对中文数据库来说,实施时知识库中覆盖率几乎为零。为了保证发现服务中文资源也能尽快推出,北大馆根据自己的订购情况,详细梳理了中文电子刊数据库(例如:CNKI,维普,万方)和中文电子书数据库(例如:超星电子书,方正电子书)的资源列表,并据此快速新建了北大馆专用知识库。同时,在推动SerialsSolut-ions公司与中文电子资源商合作不断加强、知识库中中文标准库不断增加的过程中,将北大专用库逐步过渡到标准库。
除了全文电子刊/电子书资源外,北大馆订购的商业数据库覆盖的类型还包括:二次文献、学位论文、报纸、事实、资讯、百科全书、法律法规等。对于这些库,一般只做数据库层级的订阅,并将其中的篇目级内容在Summon中赋予访问权限即可。
由于商业电子资源的数量庞大,并且其状态、年限等可能由于各种因素而发生变动,在实践中达到配置和订阅的绝对精确是非常困难的。因此,在实施完成之后,还需要持续追踪数据库的更新,并且重视读者使用反馈的收集和响应,据此及时地对知识库进行动态维护和调整。
完成电子资源的订购和配置后,北大图书馆还基于电子资源知识库Knowledgeworks开发和推出了新的数据库导航和电子期刊导航系统,在110周年馆庆之际(1902-2012)与新的图书馆门户系统同期发布。
3.4 检索机制的优化
对于借鉴网络搜索引擎的技术框架,基于海量元数据仓储技术的网络级发现服务,衡量其检索效果的核心指标与网络搜索引擎相似,分别为召回率(又称查全率),精度(又称查准率),以及在系统返回的全部相关文档集合上进行的更为精细的相关度得分计算和排序。相应地,在检索机制的优化中,北大图书馆将这三个指标列为重点考量的因素。在大规模数据集合中,召回率和精度这两个指标是相互制约的,需要寻求一个平衡点。对于学术性的资源检索系统,高质量的数据和可靠的召回率至关重要。因此,北大图书馆在改进中文检索机制时的指导思路是:确保高的召回率,在兼顾较高精度的同时,通过相关度排序帮助用户在结果前列快速查找信息。实施小组对检索机制进行了深入的调查和研究,并通过大量实例评测了检索效果,提出了建议的改进方案。在此基础上,与公司负责中文检索的工程师进行了多次集中研讨,根据评测结果分析问题实质并提出解决方法,最终有效地推动公司在随后的几次升级版本中逐步实现相应的改进。
3.4.1 相关度排序的优化
Summon的相关度排序因子包括两方面:动态因子(词频、字段、邻接度等),静态因子(内容类型,时间等),具体算法则基于统计模型。实施小组从用户角度对系统相关度排序效果进行了评测,评测结果可分为两类:
一、取得一致的改进意见。例如:标题匹配的记录应该更加提前,完全逐字匹配的记录应该更加提前,中文记录的排序应该考虑语序因素等。相应地,实施中根据测试反馈对相关度排序进行了优化:1.微调个别字段权重。对标题字段权重在可允范围内适当加大。2.对完全匹配记录给予奖励权重。对符合与输入字串完全逐字匹配,甚至整个字段完全匹配的记录给予奖励权重。3.根据中文特点引入语序奖励权重。同等条件下当记录中词串语序与输入语序相同时该条记录提前。
二、有争议的改进意见。例如:1.内容类型的权重调整。有的意见认为纸本书目代表图书馆馆藏的优势和特点,应该给予尽量提前;有的意见认为期刊论文的时效性、学术性较高,应该尽量给予提前;还有的意见认为数字特藏最能突出本馆特色,应该尽量给予提前。2.中外文记录的混排。有的意见认为应该将与用户使用界面语种相同的记录提前,或将与用户输入检索词语种相同的记录提前,另外的意见则认为当用户使用某语种界面或使用某语种输入时,对记录的语种属性并无明确期待。对这类评测意见,实施中则保持原状,未做调整。但是,对于面向多种类型和多语种资源的发现服务,如何在繁多资源类型和不同语种之间进行权衡和平衡,是个无法回避的问题,有待进一步研讨。
3.4.2 中文检索相关
提高中文分词的精度和系统对分词歧义的容错性:中文分词技术是所有中文信息处理步骤的基础,分词结果的好坏对中文检索系统的三个核心指标都有影响。北大图书馆通过分词评测(SigHan标准)和检索测试,对系统中原来存在的主要分词问题进行了诊断和改进。1.人名和新词识别率较低,往往被切分为单字,导致检索返回大量不相关结果。针对这一问题,分词系统引入后处理模块和专用词典(该词典覆盖了系统元数据作者字段中抽取的高频人名、机构名等,并利用其它数据源进行了大量补充),对分词后不能有效识别的字词碎片,与专用词典进行匹配和二次识别。这种方式在基本不影响召回率的前提下,有效提高了检索精度。2.分词歧义(此处特指真歧义)的存在,对召回率和精度都造成了不利影响。针对这一问题,在索引中对典型切分歧义保留了多重分词路径,使得这些记录不再因为切分歧义而被漏检,在存在歧义的情况下提高了系统召回率。需要说明的是,这种方式对精度有一定的放宽,但通过在相关度排序中计入不同分词路径的权重,对用户体验的影响并不大。endprint
优化中文作者字段的查询策略:对未指定字段的检索输入,系统同等地将其解析为对每个字段的查询表达式并分别执行,再将查询结果合并,并按相关度排序。由于中文人名基本不具有变异写法,往往只有严格匹配时才具有检索意义。因此,优化中将作者字段的查询表达式作了更严格的限定,使大量不相关记录被滤除,在基本不影响召回率的前提下提高了精度。
3.5 界面和检索框架的客制化
对于发现服务而言,界面和检索框架意味着从资源发现到资源获取的完整的探索体系。北大图书馆立足于用户需求的求证来指导客制化,以“简洁、明晰”为主要定位,最大程度地契合网络环境下的用户习惯,同时也通过“链接解析”和“接口嵌入”引导读者更准确地获取资源,更好地了解和使用图书馆现有资源系统,更加熟悉图书馆资源的类型、形态、获取方式,帮助读者准确检索、深入挖掘所需的信息,并能结合各种手段和资源获取资源。
在资源发现过程中,读者通过检索界面输入关键词,并借助相关度排序和分面导航等功能探索和发掘感兴趣的记录。北大图书馆在系统上线前进行了试用、用户问卷调查和后台日志分析,为这部分功能客制化提供依据。例如,根据用户调查结果中更多用户倾向于直接检索而非先选择检索范围,系统采用类似Google的单一检索框,略去了带有图书馆传统检索痕迹的资源集合的划分;根据日志分析结果中分面按照点击率的排序,将“内容类型”和“主题”置于最靠前的位置;根据用户调查结果,希望提高中文检索的准确性和相关性,系统着重针对中文检索进行了优化。
对检索返回的每条记录,系统分层次地嵌入图书馆相关系统命中该条资源的全文链接、信息页、系统入口或服务申请入口。第一层:标题链接直达书刊纸本获取页/多媒体点播页/电子资源全文获取页。第二层:“更多获取途径”根据对资源的全面解析列出所有可能的选项:(1)开放链接服务器360Link通过对资源信息与KnowledgeWorks知识库中电子资源馆藏的匹配和计算,列出覆盖该条资源的所有数据库、数据库中的篇目全文链接和电子书/刊目录页链接。当存在多个数据库/镜像站时,按照KnowledgeWorks中设定的优先级进行排序。全文链接的解析主要依赖于OpenURL规范,对个别还未遵守此规范的数据库(例如CNKI),北大馆另外进行了特殊拼接,以保证读者能够“透明”地使用。(2)北大馆常用资源系统中该条资源的检索入口:包括馆藏书目OPAC系统、Google学术搜索、CALLS联合目录等。(3)相关服务的申请入口:包括馆际互借和图书馆咨询等。
3.6 发布与服务
在完成了系统准备(检索接口嵌入门户、界面调整、用户测试、压力测试),宣传与推广准备(个性化命名、宣传海报、系统介绍、发布通知)和人员准备(成立应用小组)后,2011年11月7日,“未名学术搜索”系统上线,图书馆门户进行了切换,同时上线通知在图书馆门户、未名BBS和图书馆学科博客等多处发布,标志着网络级发现服务在北大图书馆率先进入应用阶段。
服务推出后,北大图书馆多渠道收集和深入分析读者反馈,并优化应用小组的协作机制,以此推动网络级发现服务在北大的应用不断深入:(1)集中性的问卷调查:2012年4月,进行“未名学术搜索”使用效果问卷调查,共回收问卷381份。问卷覆盖了系统宣传、访问速度、检索效果、全文获取、界面功能以及文献题录导出等。结果表明系统得到了绝大部分读者的认可和嘉许,尤其是丰富的学术资源,便捷的一站式检索和清晰的相关度排序,快捷的全文获取/文献题录导出功能等。同时,调查也反映了读者对系统依然持有更高的期望,例如:更快的访问速度,更全面、准确的检索效果等。(2)随时提供通畅的反馈渠道:读者直接发送邮件,或在系统内部填写界面右上角的“反馈”即可将问题提交给pkusum-mon邮件列表中的所有应用小组成员。如果读者通过电话或BBS反馈,通常也能在第一时间由值班的咨询馆员转接/转发给小组成员。(3)优化应用小组的协作机制:当邮件列表成员同时接收到最新反馈后,由最熟悉情况的小组成员进行答复。这种方式扩大了图书馆向读者开放的服务面,节省了问题转发、转述的中间环节,不仅能够最快地响应该读者反馈的问题,而且所有成员都能实时跟踪和更新问题进展,提高应用小组整体服务水平。对于疑难问题,更有利于跨部门的问题沟通和协调,以及给出更有力的解决措施。
截至目前,系统已经稳定运行两年,并且得到了广泛的读者认可,每日的综合检索次数已接近或突破万次,有力地支持了读者学习和研究过程对高质量学术资源的搜索和使用需求,提高了北大图书馆的资源使用效率,增强了对教学科研的资源保障力度。
4 结语
网络级发现服务的核心可以归结为“数据”、“搜索”和“界面”三要素。落到实施环节上:“数据”要素侧重于关注本地资源的映射与同步、商业电子资源的订购与配置;“搜索”要素着力于提升系统三大核心检索指标:召回率、精度和相关度排序;“界面”要素则强调根据用户需求对资源发现获取框架进行客制化。“未名学术搜索”的实施正是关注并围绕上述核心要素而展开。本文以“未名学术搜索”的实践为基础,详细介绍和探讨了网络级发现服务在北大图书馆的实施细节,并提出了若干在深入应用中值得继续思考的问题。endprint