戴梦菲
(上海图书馆,上海 200031)
随着信息化技术的不断发展与图书馆数字资源的日益丰富,整合海量资源、建立一站式的多领域信息资源互通平台成为图书馆建设的重要任务。
基于中心索引仓储的信息资源发现系统能够整合海量的元数据,将图书、报刊、专利、标准、图像、地图、研究报告、音视频等多种类型的资源集合在一起,并使用强大的索引技术对异构资源的数据进行分析、抽取,将其映射转换为标准格式。这一类型的服务解决了图书馆的自建特色资源库、订购的数据库以及网络开放资源的分散问题,使得用户可以通过单一入口进行检索,获得各种资源之间无缝链接的一站式检索体验[1]。
目前,国内主流的信息资源发现系统已经基本覆盖了“985”“211”等国内重要高校图书馆与研究院图书馆[2]。随着数字资源与网络资源的种类日益丰富、发现服务行业的快速发展,用户对于此类服务的需求不再是简单的资源整合,而是对数据品质有了更高的要求。
本文以美国国家信息标准组织(NISO)发布的开放发现倡议(ODI)[3]与其2020年6月发布的更新版[4]为例,研究国内外发现服务实践中遇到的问题,以及如何针对这些问题进行标准化与规范化的建设,促进行业内各方利益体的协同合作,最大程度地优化发现服务的广度与深度,为图书馆读者提供更准确高效的服务体验。
国外电子资源相关标准和规范的建立起步较早,IFLA、欧盟、美国、英国等都有关于资源元数据的建设标准,如Angela Dappert等人编辑的《从业人员的数字保存元数据指南》(Digital Preservation Metadata for Practitioners:Implementing PREMIS)、美国图书馆协会(ALA)发布的《编目和元数据专业馆员核心能力》(Core Competencies for Cataloging and Metadata Professional Librarians)、美国NISO发布的《存取与许可指南》(Access and License Indicators)等。在发现服务领域,国外已建立了成熟的标准体系,如知识库及其相关工具的推荐实施规范(Knowledge Base and Related Tools,KBART)[5]、在线图书和参考资料使用统计标准(Counting Online Usage of Networked Electronic Resources Codes of Practice,COUNTER)[6]等。
2014年,美国NISO发布了开放发现倡议:提高发现透明度(Open Discovery Initiative:Promoting Transparency in Discovery,ODI),在发现服务的透明性、数据一致性等问题上提出实施规范与指南。2020年,NISO发布了ODI的更新版,为当前发现服务行业内的问题提供了最新的建议与规范。
图书馆采用发现服务的目的是帮助读者以更简便快捷的方式搜寻资料,然而有诸多要素会影响发现服务的最终结果,如资源提供商提供的元数据格式、发现系统开发商显示结果的方式、图书馆员对于发现服务的了解程度等。为确保发现服务的持续性发展,需要一套统一的标准对相关行业与从业人员进行规范。
2012年初,美国NISO成立了ODI工作组,组内成员由来自于图书馆、资源提供商和发现系统开发商的代表共同组成。这一跨行业的工作组在向三方业内人员调研学术型元数据的传递、索引层次、数据交换技术、数据使用等诸多方面后,于2014年正式发布了ODI。ODI以“提高开放发现透明度”作为宗旨,为发现服务的多个关键方面提供规范,包括资源提供商采取的元数据格式、数据交换格式与传输标准,发现系统开发商是否采取公平链接、如何提高发现服务透明度,以及图书馆对资源提供商和发现系统开发商工作的评估方式和标准、图书馆员在文献发现与传递等方面的专业能力等。
此后,ODI工作组转变为常务委员会,负责监督ODI规范的实施,并对资源提供商、发现系统开发商和图书馆进行内容详尽的问卷调查,以了解内容发现领域的生态情况。在此基础上,工作组明确了ODI下一步的提升方向,包括以下7个优先项目:①图书馆对于ODI的职责;②解决开放存取(Open Access)内容的问题,包括混合开放存取的内容;③对资源提供商而言更有价值的用户使用数据;④公平链接;⑤明确揭示发现系统界面中的条目来源;⑥揭示发现服务内容的覆盖范围;⑦进一步界定有效的元数据和内容描述。经过内部讨论、研究和公众意见征询,NISO于2020年6月发布了新版ODI,进一步阐明了图书馆该如何评估资源提供商的配合程度,梳理了图书馆、资源提供商和发现系统开发商之间协同工作的流程,并进一步明确了建议提供的用户统计数据等细化内容。
信息资源发现系统往往囊括了海量资源,为了让读者在数百万乃至数十亿个条目中发现所需资料,需要资源提供商将丰富的元数据提供给发现系统,以完成资源的挖掘与揭示。
第一版ODI规范了资源提供商与发现系统开发商之间的协作流程,确定了资源提供商应当提供的核心元数据,包括题名、著者、作者标识符、出版商、卷、期、页、日期、内容项标识符、集合题名标识符、内容地址链接、开放获取标注、全文标识、内容类型、内容格式,以及建议提供的增强型元数据,如索引数据、全文/脚本、摘要/描述等。上述规范能够保障资源提供商提供的元数据规模以及质量,为发现服务的效果奠定基础。同时,规范还提及了一系列规范的元数据格式与传输标准,包括元数据编码模式(MARC、MODS、METS、VRA、DC、KBART、EAD、ONIX)、文本格式(CSV、TXT、XML等),以及传输方式(oai-pmh、resourcesync、api、ftp)。此类标准的统一便于资源提供商和发现系统开发商完成信息共享。
尽管第一版规范中已经有所规定,但从新版ODI附录中的问卷调查结果可知,元数据相关的规范仍需进一步推行。多位参与调查的发现系统开发商指出,清晰、一致的元数据至关重要,尤其是开放存取指标、国际标准书号/标准国际刊号(ISBN/ISSN)、数字对象唯一标识符(DOI),开放研究者与贡献者身份识别码(ORCID)以及资源的语言信息。此外,问卷结果也反映出唯一标识符对图书馆工作的重要性,相较于直接链接,图书馆更倾向于获得OpenURL和DOI/CrossRef等链接信息。根据上述问卷结果,新版ODI加入了作者标识符、内容语言信息,以及索引数据、摘要/描述几项内容,进一步增强元数据的挖掘深度,并为开放存取新增了规范条目,要求元数据中应包含“可自由读取”(free-to-read)的标识。同时,修订版中还建议内容供应商提供最低限度的数据以支持OpenURL解析,确保图书馆对于链接解析的选择。
一站式信息资源发现系统对元数据检索并进行结果的查重、聚合、整理后,会将检索结果自动进行相关度的排序,或按照用户自定义的设置排序(如学科分类、出版时间、文献类别等)。详尽的检索结果页面与丰富的可视化展示能够帮助用户快速地定位资源,但这样的检索机制及相关度排序若缺乏规范和公开性,就可能存在不公平的情况。例如,发现系统开发商可能与部分资源提供商达成私下协议,在结果排序中修改优先级,这就会使另一部分资源提供商的产品无法被公平地发现,影响最终的使用结果统计,而图书馆也难以了解读者真实的文献需求与使用情况,这些都不利于发现服务的进一步发展。因此,ODI定义了发现服务公平链接内容的模型,倡议发现系统开发商使用公平/无偏颇链接、提供标准的使用统计数据并给予图书馆可选择的参数配置来调整检索结果与排序设置。此外,为进一步保障链接的公平性,ODI还建议发现系统开发商发表声明,确认生成结果、相关度排序、链接次序算法的中立性,并公开其与资源提供商的业务关系。
问卷调查结果显示,图书馆界对发现服务的透明度和公平性非常重视,图书馆员尤其希望了解发现系统开发商选择展示检索条目的机制、排序方式,以及当多个内容供应商提供的条目内容重复时检索结果的处理方式。新版ODI将“公平链接”作为关键方面单独列出,强调发现系统开发商应确保检索结果的公平透明,不应基于与资源提供商的业务关系对检索结果、相关性排名或链接顺序进行歧视性操作,并向图书馆提供算法解释以及结果顺序的配置选项。
除检索结果的公平透明外,问卷结果还反映出图书馆与资源提供商对规范使用统计数据的需求。从问卷反馈中可知,业内存在不提供使用统计报告或报告格式不标准等问题。大部分受访者建议发现系统开发商提供Excel、CSV或TXT格式的统计数据,并在业内制定统一的统计数据类别与标准,以便对信息进一步组织与比较。为此,新版ODI中还增加了对于使用统计报告的要求,要求发现系统开发商提供的报告符合在线电子资源使用统计标准(COUNTER)。
信息资源发现系统的安装、资源配置与维护工作较为复杂,后台功能包括数据类型配置、OA资源标识、学术推荐功能、计量指标评估等。这些配置工作不仅需要发现系统开发商的支持,也需要专业的图书馆员参与其中并了解其运行机制。图书馆员的相关知识储备与业务能力将直接关系到发现系统的内容揭示与实际使用效果。
第一版ODI的建议主要针对发现系统开发商与资源提供商,对于图书馆的工作指导十分有限。问卷调查结果显示,一些图书馆还未对发现系统的配置工作做好人员准备。尽管有半数以上的受访者遇到过发现系统初始配置有误、需要图书馆员自行更正的情况,但只有21%的受访图书馆员表示自己广泛参与到了配置工作中,还有11%的受访者因工作交接的问题对本馆初始的配置信息并不了解。此外,当被问及最关键的配置工作时,一定数量的图书馆员提到了OpenURL链接解析器的配置、代理的配置这两个突出方面,也有12%的受访者对配置工作所知甚少。在新数据库集合的添加工作上,只有32%的受访者表示有相应的程序来完成这一工作,另有24%的受访者表示没有此类程序或回答“不知道”“不适用”。以上调查结果都表明图书馆从业人员对发现系统的了解有待提高。为此,新版ODI新增了图书馆员维护发现系统的相关指南,包括指定专人负责发现服务的配置工作、科学记录配置信息与原因、与发现系统开发商配合制定系统升级计划、确切了解结果相关性排序的设置等。
为提升图书馆员对发现系统工作参与度与专业素养,帮助其更好地向读者呈现发现服务的效果,各方业内人士在ODI问卷中提出如下建议,包括为相关馆员制定具体可验收的工作要求列表、由发现系统开发商向客户图书馆提供定期培训课程、图书馆内电子资源业务相关的员工定期会面探讨发现系统配置工作、图书馆员通过各发现服务平台在线社区交流问题与经验等。根据这些反馈,新版ODI增加了针对图书馆的支持确认清单,明确了图书馆员在发现服务工作中需要具备的知识以及需要完成的任务,并建议图书馆提供相应的培训与交流学习机会。
近年来,我国电子资源类型和数量不断增长,对发现系统资源揭示粒度、配置复杂度以及技术要求持续提高,我国发现服务行业内的不足之处也逐渐凸显。
首先,由于我国尚未确立一套针对发现服务行业的统一的标准规范,使得资源提供商提供的数据质量得不到保障、图书馆自建数据库未能充分整合揭示资源,这导致发现服务的深度与广度受到限制。数据品质是衡量发现服务效率的关键指标,其中既包括数字资源元数据的可靠性、准确性、完整性、可获得性、唯一性,也包括对数字资源描述和揭示的深度、规范性以及一致性[7]。在2016年的一项研究中,Trapido[8]证明了核心元数据的质量对发现服务搜索结果的直接影响,并指出发现服务的元数据应确保连贯性、统一性以及较细的颗粒度,以此解决异构资源的整合问题。据调研,国内信息资源发现系统在数据品质方面有待提升[9]。如Springer、Sage、Elsevier等主流西文资源均有向发现系统提供全文级别元数据的情况,而中文资源提供的索引数据普遍深度不够,原因有两大方面:①中文资源提供商对元数据的版权保护意识较强,提供的元数据数量较少,挖掘深度有限;部分图书馆对自建的特色资源开放服务持保守态度,不愿提交到云端平台;②中文数据在格式、著录规则等方面与西文数据有较大的差异,从而导致中文元数据在发现系统中的检索效果不佳[10]。这些情况都使得发现系统在中文元数据方面的整合难度较大,影响了图书馆资源的利用成效。
在电子资源元数据方面,我国已经建立和推行了一系列标准。如,采用国际标准的《信息与文献 都柏林核心元数据元素集》(GB/T 25100—2010)、《信息与文献 信息检索(Z39.50)应用服务定义和协议规范》(GB/T 27702—2011);全国图书馆标准化工作委员会针对期刊论文[11]、电子图书[12]、学位论文[13]、网络资源[14]、电子连续性资源[15]等内容设定的元数据行业标准规范;国家科技图书文献中心(NSTL)编制的统一文献元数据标准;国家图书馆在数字图书馆推广工程的建设过程中研制的国家图书馆核心元数据标准、国家图书馆专门元数据设计规范、国家图书馆元数据置标规范及若干项元数据转换标准等[16]。然而,上述标准规范由涉及电子资源的不同机构制定,缺乏跨行业的统筹协调,导致标准的适用性差、标准重复制定,同时还有数据的互操作性、共享性较差等问题[17]。丁遒劲等[18]在分析国家图书馆、CALIS及NSTL等机构建设发现系统时发现,我国目前的元数据标准彼此之间存在系统性的条块分割,这导致发现系统建设过程中的元数据组织管理工作相对粗放,尚未形成标准化、模块化的工作流程。
其次,发现服务行业内相关利益方较多,也难以由其中一方制定公平统一的标准规范。尤其在牵涉商业电子资源时,国内资源提供商的元数据有自主、分散、封闭等问题,各个数据库厂商独立制定规则,缺乏交流互通,导致重复建设、数据适应性差等情况时有发生[19]。
最后,发现系统检索算法与资源配置复杂、图书馆人员业务能力不足导致资源无法被充分挖掘利用[20]。
上述问题与ODI中提及的国外发现服务行业情况有诸多共通之处。尤其在元数据提供、检索结果排序标准、使用统计数据、图书馆队伍建设等问题上,ODI都给出了相关规范指南,对我国发现服务的规范标准建设有很高的借鉴价值。
根据上述分析可知,我国发现服务的建设与发展亟待建立一套科学、完备、跨行业、全流程的规范标准体系,这需要政府顶层设计的引导、为发现服务提供指导和规范及保障,也需要各类图书馆与行业协会的共同努力,尤其是发现系统开发商、资源提供商和订购发现服务的图书馆这三方利益群体的协同合作。结合美国ODI与我国发现服务行业的实际情况,笔者建议在建设和推行发现服务行业标准规范的过程中应重点关注以下方面。
标准规范化建设是发现服务行业发展的重要保障。国外行业对于发现服务的指导内容较为系统、全面,从资源管理、资源描述到检索以及结果统计都有相关的应用标准。
国内标准规范体系的建立应在遵循国内行业需求与未来发展趋势的基础上,坚持国际化原则,在与国外最新标准有所差异的方面尝试借鉴与互通,推进中文与西文资源的数据整合。应在国内标准缺失的方面加快对国外体系的研究,避免重复劳动,并在标准建立后持续保持更新与完善,努力做到与国际接轨,与国外现行标准保持一致,保障国际资源数据的交流互通。
在此基础上,国内相关标准规范的建设也应以走向世界作为目标,努力做出领先于国内外行业的前瞻性创新,以此提升国内信息资源发现系统的国际竞争力,最终形成与国外发现服务行业相互借鉴、相互推动的发展机制。
国内电子资源的国家标准一般由文标委、出版标委会、图标委、信标委等行业标准化组织起草颁布。目前,电子资源标准制定的主体相对单一,如资源、服务标准的制定者多为图书馆从业人员,而技术标准的制定者多为技术开发或管理人员,这导致现有标准在发现服务行业中的实际应用情况不佳。而在标准制定的时效性上,我国也有行业发展先于规范设立的特点,导致行业内利益方形成业务惯性,无法有效执行业内新建立的标准规范。
根据上述对ODI的调研可知,发现服务领域主要由图书馆、资源提供商、发现系统开发商三方行业构成,共同为图书馆的最终用户服务。各方在元数据提供、系统配置等方面需要紧密合作,也在核心数据的开放、链接公平性、使用数据统计方式等问题上有各自的利益考量。
为推进国内信息资源发现系统的发展,我国应加速由国家统筹规划的发现服务行业标准规范建设,增强多部门业务协调,促进业内各利益方的合作交流,制定规范的运维机制并健全管理体系。同时,应积极吸纳图书馆读者的反馈与建议,由此制定具体细化的实践规范,形成标准化、模块化的工作流程,为建立开放透明、联合共享的跨行业协同体系提供指导与规范。
发现服务行业的标准规范内容框架应以行业中的各个环节为基础,在总结目前行业发展情况与需求的基础上,参考国际相关领域的实践情况制定。
在内容提供方面,资源提供商和图书馆对各自资源的保守态度长期以来限制了国内发现服务行业的发展。我国需要通过建立标准规范及实施监督机制,打破各利益方之间的界限壁垒,实行具有一致性、前瞻性、实操性的元数据标准发展战略。针对信息资源发现系统,需要制定核心元数据、扩展元数据的标准,多方协调提升数据的可发现、易用性、复用性、互操作性、共享性,为不同元数据之间的相互转换和映射奠定基础,并对元数据提交格式与上传方式提出规范建议。
资源提供商应与发现系统开发商共同努力,协作推进数据交换标准的建立,确保海量资源得到集成管理,并利用数据挖掘、大数据处理等技术对资源进行细粒度的挖掘与加工,从根本上提升中文资源在发现服务中的发现水平。除了基础的元数据以外,OCLC发布的读者研究报告显示,资源的可获取性和便利程度是发现服务最吸引读者的特质之一[21]。资源提供商在提供核心元数据的基础上,也应以用户需求为中心,尽可能提供更多有利于读者体验的数据信息,如开放链接、馆藏和文献传递服务等。
在发现服务方面,我国应对发现系统检索结果的排序算法、使用数据统计等内容制定统一的标准,将资源配置的掌控权交由采购发现系统的图书馆,打破图书馆被动接受发现服务系统设置的局面。发现系统开发商应达成行业共识,遵守相关标准规范建立统一且公开透明的排序算法,并通过发表声明及业内监督等方式确保标准的实施效果,保证一站式检索结果的准确性与公平性。此外,系统开发商也需顺应图书馆需求,简化配置操作、推进数据统计可视化,提升系统平台的使用效率。
山东大学图书馆程蓓等[20]在对我国70所“双一流”和“211工程”高校图书馆的发现系统相关调研中发现,图书馆在发现服务的管理中配置原则不明确、对开放资源缺乏审核机制,以及配置方式复杂、人员能力欠缺等问题对发现系统揭示资源的深度和广度产生了影响。一方面,发现系统后台管理界面功能复杂,数据统计能操作设计不便,英文发现系统还存在语言障碍。另一方面,调研也反映出图书馆配置的专业人员欠缺,图书馆对馆员缺乏相关能力培训与培养机制,馆员自身对发现服务的认识和重视程度不足等问题。
上述情况在ODI问卷中也有类似反映,我国图书馆界可以借鉴新版ODI中的相关建议,加强发现服务队伍的体系化建设以及图书馆电子资源建设的管理水平,增加电子资源方面馆员的数量并对其进行发现服务相关技能培训,提升馆员在资源整合与揭示方面的管理意识。电子资源馆员应对发现系统中的资源内容、索引深度、检索结果排序算法进行了解与考证,以此更全面地了解图书馆采购的资源情况及最终用户体验,最大化地发挥发现服务的价值,为高校人才和教学科研提供专业化的知识服务。
我国图书馆界正在加速向智慧化转型,用户对信息资源发现系统的需求不断提升,也对发现服务行业提出了更高的要求。要真正实现发现系统对图书馆资源的全面整合揭示,就需要建立与国际接轨的统一元数据标准、一致性的发现服务行业规范,并加强图书馆的专业队伍建设。发现服务行业应积极推动图书馆、资源提供商、发现系统开发商三方的统筹协作,进一步深化资源的整合与发现,实现图书馆数字资源多维度、细粒化的揭示,推动我国智慧图书馆的建设进程。