黄金霞,彭媛媛
(1.中国科学院文献情报中心,北京 100190;2.中国科学院大学经济管理学院图书情报与档案系,北京 100049;3.中国医学科学院医学信息研究所图书馆,北京 100020)
数字资源是国家和时代在社会、政治、经济、科技等领域发展特征的重要反映,因其具有巨大价值且易于消逝的特点,数字资源的有效保存受到国际广泛重视。国际图书馆联盟(简称“国际图联”,IFLA)明确了其核心的保存保护中心工作宗旨:“保证各种载体的图书档案资料,无论其是否出版,均以易于存取的方式尽可能长久的保存[1]。”纵览世界知名图书馆,数字资源的保存与保护已被置于重要战略地位,并在实现保存的同时开展利用[2]。但当前多数图书馆的数字资源是以购买当年使用权合同的方式引进,这种许可证制度使得“获取”与“拥有”相分离,一旦合同终止,多数数字资源将无法再获得,更是丢失了服务能力[3]。目前,中国多数图书馆数字资源的保存权仅落实到部分资源范围,且是通过订购印本、光盘保存和裸数据备份的方式,并未实施真正的本地自主可控的馆藏保存方式,也就无法保证数字资源的可持续利用[3]。
对于“保存”,当前存在多个概念:①是来自数字文献资源提供方协议提供的“永久保存”权利、“本地备份”数据;②是来自图书馆自身发展中提出的“馆藏保存”策略;③是指数字资源长期保存工作。这些保存工作的目标各有侧重,保存后资源服务的情况也有所不同。区别于①和③,本文将侧重②的“数字馆藏”(指图书馆订购或获取到的数字资源)本地自主可控保存,调研中国数字科技文献资源建设工作遇到的新挑战,分析图书馆数字资源本地保存工作中可能存在的问题,思考提出数字资源的馆藏保存与服务策略。
资源保存已被纳入图书馆资源保护工作范畴,但图书馆的馆藏资源保存工作并不“顺利”,图书馆中数字资源的比例越来越大、资产管理要求、新出现的科技文献获取“卡脖子”问题等,让中国图书馆数字资源保存与服务面临更多挑战。
数字化的文献出版方式已成主流,这造成图书馆中数字资源的比例越来越高。以中国科学院文献情报中心为例,在2017 年到2019 年的3 年内,电子资源的数量增加较快而印本资源的数量保持年度平稳。其中,电子外文期刊数量涨幅达18%、实际增加3 298种,而在此期间的印本外文期刊数量仅增加6%、实际增加仅210 种,同时,源生数字状态的开放科技资源数量涨幅更是高达200%、实际增加近200 万条全文数据(表1)。越来越多的数字资源进入图书馆,有效的管理变得越来迫切。图书馆已经把多种类型的数字资源(包括采购的数字文献资源、采集的网络资源、缴存的文献资源、自建的数字资源等)通过编目等方式纳入馆藏,但图书馆缺乏对数字资源内容的管理机制与管理方法。这是当下迫切需要解决的问题。
表1 中国科学院文献情报中心2017—2019 年文献资源数量(部分资源)Table 1 The number of literature resources for National Science Library,Chinese Academy of Sciences in 2017-2019(section)
中国数字文献资源的采购工作开始被要求纳入资产管理流程,例如在中国科学院,电子期刊、电子图书等被要求纳入资产管理。百度百科上解释了“资产”所具有的3 个特征:资产是由机构过去的交易或者事项形成的;资产应为机构拥有或者控制的资源;资产会给机构带来经济利益。当前购买的数字文献资源主要以无形资产的方式进行管理。对于无形资产,国内学者普遍定义为有偿取得的,一般不具有实物形态,可供企业长期使用,能带来超额的级差收益,并具有高度不确定性的特殊的长期资产。针对如何实现数字资源的长期使用等问题,图书馆有必要提出符合资产管理规定的资源自主可控管理新内容。这里的长期使用,等同于“保存+服务”,这是一个新要求。
知识产权国际合作中出现的新形势、新挑战,要求中国的知识产权相关工作因势而谋、因势而动、因势而进。中国科技文献资源保障工作同样面临着来自国际方面的文献资源获取“卡脖子”问题,例如国外停止对中国用户销售某些文献资源,例如不同意电子资源在中国进行长期保存,这些情况对中国科技发展、对全世界协同创新造成影响且后果难以估量。全面开放新格局、发展更高层次的开放型经济,要求我们更深入广泛地介入对现有国际规则和制度环境的改革之中,在国际知识产权保护建设中,发挥知识产权保护更为积极的作用,更加有力地推动全球的创新发展[4]。这就意味着,中国科技文献保障工作有必要在新形势下做更多努力,探索建立新的知识产权国际合作,尤其是在数字文献资源的本地自主可控保存与服务方面。
数字资源长期保存工作在中国已是战略举措且取得一定成效,但它无法解决数字资源馆藏化、资产化、服务性要求。数字资源长期保存系统包括3 种模式:暗存储系统(Dark Archive),保存内容数据备份,提供资源商服务系统无法访问状况下的资源访问恢复保障。半透明存储系统(Semi-Dark Archive),在提供内容数据备份存储能力的同时,往往提供与内容数据的存储和使用相关的元数据服务。透明存储系统(Light Archive):是一个与资源商服务系统同步的存储环境,具有相同的数据和基本相同的服务能力[5]。当前中国的长期保存系统为暗存储模式,无法解决“卡脖子”文献获取与服务能力,且针对数字资源资产管理新要求,长期保存工作形成的存储系统还未具备资产特征。有必要思考基于本地服务需要的中国数字资源自主可控保存策略。
当前国外图书馆资源的本地保存,存在4 种主要方式:数字资源长期保存,印本资源的集中馆藏计划,缴存法案,基于协议的电子资源永久访问。正如上文所述,美国国会图书馆NDIIPP 计划(National Digital Information Infrastructure and Preservation Program)、英国的“JISC 数字资源持续保存策略”、澳大利亚国家图书馆PANDORA、瑞典国家图书馆kulturarw3 项目、德国Nestor 项目等长期保存工作对数字资源的保存方式仍在于存储,数字资源的服务启动涉及到“触发状态”以及需要得到数据库商的允许,与本文阐述的本地自主可控保存方式有差异,所以,本文只阐述后3种方式。
(1)印本资源的集中馆藏计划。图书馆的大量印本正在通过数字化被放到网络供读者获取,但是数字化资源的长期稳定保存与服务仍然无法保证,尤其是那些低使用率的过刊,很多仍未数字化,但图书馆需要释放出低使用率印本的馆藏空间。面对图书馆继续保障用户对这些资源利用的义务与图书馆保护这部分印本资源的必要性之间的矛盾,大英图书馆和多所高校图书馆合作,建立科技资源集中保存项目(UK Research Reserve,UKRR),为那些低利用率但仍具有价值的过刊的保存和获取提供更有效的方式[6]。参与该项目的高校图书馆将此类过刊转移到大英图书馆,然后这些资源相关信息被录入大英图书馆的联机公共目录查询系统(OPAC),并在其中标明是UKRR 资源,由大英图书馆文献提供中心负责这些资源的文献传递服务。其中,关于UKRR 资源的当前所有权问题也作了明确说明:UKRR 资源属于存储该资源的图书馆的馆藏部分,即UKRR 资源的所有权和责任都转移给了保管该资源的图书馆。
(2)数字资源采集与缴存法案。2004 年12 月,丹麦议会通过 《出版资料法定缴存法》,该法规定了自2005 年7 月1 日起被纳入国家出版物法定缴存范围的各类在线资料,包括:①凡在互联网中由注册为丹麦域名的网站刊载或者由其他域名网站刊载的主要面向丹麦公众的在线资料均属法定缴存范围;②缴存人应根据法定保存机构的要求,提供公众获取缴存出版物所必须的信息,缴存人也有权要求法定保存机构不得将设有读取控制措施的信息泄露给未经授权的任何第三方;③涉及请求缴存及制作缴存资料复本的费用由法定保存机构负担[7]。德国的 《缴存出版物条例》 也详细规定了在线出版物的性质和缴存范围:①缴存人应将其在线出版物向国家图书馆缴存其商业版本;②缴存对象包括在线出版物的所有组成部分、软件和各种以实物及电子形态存在的读取工具[8]。对于缴存数字资源的服务,丹麦规定这些资源目前仅可向基于学术研究和统计目的的研究人员提供读取服务,且事先须获得丹麦资料保护局的许可。奥地利 《版本法》 修正案规定:对采集和缴送的在线资料,如其尚受版权或者其他权利保护者,国家图书馆可制作其一件复本用于服务;对于设有技术保护措施的在线资料,其所有人有权对该资料设定为期一年的禁用期;读者对缴存和采集的在线资料的读取仅限在图书馆馆舍内[9]。
(3)基于采购关系的电子资源永久访问许可。2003年,英国启动“电子资源国家许可计划”(The National Electronic Site Licensing Initiative2,NNESLi2)[10]。对于任何想在英国拓展市场的期刊出版商而言,NESLi2 是其在英国推销电子期刊的唯一途径。为此,英国首先设计出一套电子期刊永久访问的NESLi2 许可模型,以供出版商与图书馆签订许可访问协议时参考。该模型涉及电子期刊本地长期保存与永久访问事宜,包括:允许代表NESLi2 利益的保存组织或机构对许可资源进行电子备份并集中存储;为确保许可资源的长期保存和永久可获取,允许被许可方对出版者提供的存档备份进行复制或格式转换;针对永久访问,在图书馆停止支付电子期刊许可访问费用后,出版商要允许图书馆用户继续访问己停购的电子期刊内容,或是从出版商服务器上获得永久访问,或是在图书馆的保存设施上提供图书馆以前订购的电子期刊副本,或是在第三方的保存设备上提供图书馆以前订购的电子期刊副本。NESLi2 被视为电子资源保存和服务的较好选择:出版商专注于出版优质的内容,图书馆专注于为用户提供优质的服务,保存系统则专注于电子期刊的长期保存,各司其职,共同建立一个良性的学术交流系统。
韩国电子资源许可计划(Korean Electronic Site License Initiative,KESLI)建立一个数字资源国家协定,由国家图书馆保留从数字资源供应商处购买电子资源的版权,防止数字资源提供商对于相关内容的有限访问(尤其受版权保护的电子期刊)[11]。再由韩国科学技术信息研究所(KISTI)从参加KESLI 协议的出版商处获得的国际学术期刊论文的元数据,建立了一个集成的元数据搜索平台NDSL(National Discovery for Science Leaders)[12],提供包括印刷格式的学术期刊文章全文获取的数字资源相关服务。随着信息分发环境的变化,为了满足对标准化许可证模型的不断需求,韩国KESLI 联盟自2008 年以来一直致力于开发KESLI标准许可证模型以便替代发行商的协议,到2019 年年底已有16 家发行商同意使用KESLI 许可。
(1)中国研究型图书馆的电子资源本地保存探索。针对当前出版机构越来越多取消印本期刊的订购、只提供电子期刊订购的现象,中国农业科学院图书馆开展外文E-only 期刊本地保存实践,探索E-only 期刊全文数据本地下载、管理、保存与可持续利用方案[3]。E-only 期刊载体形式多样(网络版、Email 版、光盘版),出版频率存在不规律性(月刊、季刊、半年刊、年刊或者无规律),开通访问方式也多样(IP 控制、用户名密码登录),这些复杂情况为其保存、揭示、利用带来很大阻碍,他们的解决方案是安排专门馆员把这些期刊进行编目后纳入馆藏目录,下载保存PDF 格式的全文内容并建立相关元数据描述,建设E-only 文献数据管理系统。他们也提出在实施E-only 期刊本地保存过程中与代理商签订本地下载保存许可协议至关重要,同时也正在研制引进的数字资源本地保存管理策略。对于如何开展可持续利用,论文中没有提及。
(2)中国公共图书馆的馆藏数字资源保存现状。中国国家图书馆重视数字资源的保存与保护,依托“数字图书馆推广工程”,逐步建设了基于“两地三中心的存储系统”的数字资源保存体系,以“保护为主、安全第一、藏用结合、传承发展”为基本运作原则,有重点地保存馆藏特色文献数字资源[13]。在该体系中,国家图书馆的主存储中心采用SAN 架构的光纤通道存储网络,构建了“生产+灾备”双向保障保存体系,并形成业务管理制度、设备管理制度和人员管理制度等保存管理制度。截至2015 年,该体系保存的馆藏特色资源、电子呈缴、网络采集和国际合作等数字文献资源累计总量1.1PB。其中,按照数据服务模型实施的3 种资源保存策略值得关注:实时在线生产、实时服务的数据,采用“在线”保存方式;不需要实时在线服务的数据,包括互联网采集到的资源、作为中间数据临时保存的数字资源等,采用“近线”保存方式;需要进行永久保藏的数字资源、备份的近线/ 离线的资源,采用“离线”的保存方式。
(3)图书馆“十四五”发展规划中提出数字资源“本地馆藏”内容。国家科技图书文献中心(NSTL)是中国国家层面的科技文献资源保障机构。经过20 年的发展,NSTL 在其“十四五”发展规划的指导原则中明确“坚持安全自主,提升国家科技文献信息的安全保障能力”,在工作任务中提出“梳理摸清尚未实现国内本地馆藏的重点领域国外重要科技文献,有步骤地进行完整收集和本土化保存,全面提升数字资源的基础保障能力。”这是从图书馆馆藏的角度,首次提出本地化保存。
有学者指出“我们正处于一个数字黑暗岁月”,需要寻找数字时代的“修道士”对这个时代的历史和文化遗产进行保护。图书馆正在勇担数字资源的保护职责,但从国内外数字资源保存现状来看,当前数字资源的本地保存仍存在许多挑战:什么样的政策或制度能够保障数字资源缴存到图书馆?图书馆承担数字资源保存职责的“限制”与“例外”的障碍?本地保存的内容又如何开展服务?实际上,这3 个挑战的核心分别是知识产权保护问题、图书馆保存资源的服务问题、图书馆是否有能力来承担这个职责的问题。
(1)知识产权保护相关问题。在实施数字资源的保存过程中,图书馆最感兴趣的是如何保存信息以确保用户能够进行存取,而作者与资源拥有者更感兴趣的是其所有权如何能够得到保护。知识产权保护问题涉及到整个保存过程的3 个环节:摄取、存储、获取(服务)。数字资源的采购或采集不能简单平滑转移为保存,保存数据并不自然地解决使用问题,解决保存并不自然地解决公开和广泛服务问题。在解决数字资源保存中,需要避免脱离实际的、简单的“解读著作权法”式的讨论,而应结合当前真实的数字内容资源及其保存需求来谈图书馆具有哪些权益、需要如何保护、实际是怎么实施、困难又有哪些。知识产权保护本身是个复杂的问题,在法理、机制、技术等方面已有许多研究,并通过系列机制得到实施和检验,它们构成了一定的“保护”体系,可以运用,即使是在“卡脖子”文献资源的保存中,实际上涉及多方利益相关者在著作权问题及其转移和保护实践上的许多争议甚至变革,因此,可以从数字资源本地保存的权益管理角度来讨论这个问题的解决。
(2)本地保存内容及其服务方式。在实施文献资源的保存过程中,有必要重新定义图书馆馆藏资源。当前进入图书馆的科技文献资源包括通过采购、采集、缴存、自建的印本资源、数字资源,这些都应该属于馆藏资源,也是本地保存的主要内容。当然,本文研究的是馆藏资源中的数字资源。不同于长期保存工作,面向服务的数字资源的本地保存主要保存纯粹的内容数据、与内容数据存储和使用相关的元数据,而不主要保存数据的支撑原型环境。同时,根据知识产权法律的精神,不能损害版权所有者的合法权利,不能破坏数字资源和信息服务市场的正常运作,不能利用所保存的数字资源不当得利,不能阻碍数字资源的正常传播和信息服务的正常发展,因此,图书馆不能随意将自己本地保存的数字资源不加限制地提供服务,对于本地保存的数字资源,可以依据合作谈判、使用许可、甚至是国家法律条款,为图书馆用户提供“在线”的实时获取服务、“近线”的原文传递服务、“离线”的永久保藏服务或备灾备份等不同服务方式。
(3)保存是持续、昂贵的行为。数字资源实施保存,有必要论证其可行性与可持续性,因为它对环境、技术、人力、资金等条件要求比较高。主要表现在4个方面:①保存环境。与印本资源馆藏环境一致,图书馆需要改进数字资源本地“书库”基础设施,创建数字资源收藏保护环境,保有足够的提升保存容量,建立数据可持续更新机制。②专业的数字资源保存人员。需要一个掌握计算机技术、网络技术、数据处理技术的保存技术团队。③专门的数字资源购置经费投入。主要是用于支付数字资源保存和服务权益的经费。④保存效果的评估。数字资源保存作为图书馆的核心任务之一,对其实施效果的评估也是机构绩效评估、资产管理的重要方面。保存效果的评估指标,可以参照数字资源长期长期保存工作[14],主要表现在:数字资源本地保存规章制度的建立及其实施情况;保存设施的投入与维护情况;保存经费的支出与利用情况;数字资源的保存效果、服务效果;保存资源是否在合理范围外发生了老化、退变、毁损;是否制定了合理的应急预算措施[15]。
文献生存能力的非永久性、信息获取需求的连续性、数字资源保存的高成本、数字采购资源的资产管理要求,不得不使图书馆考虑其战略问题、未来发展问题。数字资源的遴选、组织和使用,从一开始就要考虑可持续的保存与服务,资源保存不简单是技术问题,而是机构长期可持续提供信息服务的基础。从前面的分析来开,有必要参照印本馆藏的保存与服务方式,构建图书馆数字资源的馆藏体系,从工作原则、资源获取、技术架构这3 个方面,来思考数字资源的馆藏保存策略与服务方式。
(1)数字资源馆藏保存的基本原则。参照其他国家图书馆的做法[16,17],建立“图书馆数字资源馆藏保存政策”,确定数字资源馆藏保护、本地保存、自主可控的原则:①认识到数字资源保存对历代人类的历史、技术、科学、社会、政治等的巨大价值;②要求对具有国家意义的数字资源应制定特殊的存储、安全、处理和复制条款;③规定数字资源的保存责任通过恰当的行动计划予以声明;④明晰数字资源的馆藏资产管理要求,制定馆藏文献资源馆藏寿命、专门保护措施、复制保存的标准,将损毁降到最低;⑤明确数字资源的保存应以方便科技人员的获取为根本宗旨;⑥坚持尊重原始数字资料的完整性为保存能力。
(2)数字资源馆藏内容获取、服务权益获取方法。建议通过以下方式解决重要数字资源馆藏的本地化问题:①数字资源国家许可的集中谈判获取到本地化权益。国家协议既能降低总体投入和平均使用成本,又能有效并可靠的获取所购资源的本地保存权益。出于市场占有率的考虑以及采购方要求长期可获取的压力,一些出版商不得不转让部分资源的本地保存权利。②在电子资源订购协议中增加图书馆对永久访问的电子资源内容的本地保存和使用权利,或者单独制定电子资源采购标准化许可模型,必要的时候考虑增加一定的经费投入。③开拓与多机构的数字资源保存和服务合作模式,寻求图书馆之间、图书馆与科研机构之间的数字资源联盟,从而把特色数字资源纳入图书馆本地馆藏系统,例如图书馆开展与国外重要科技数据系统拟南芥信息资源(The Arabidopsis Information Resource)、PubMed 的国际合作谈判,实现这些数字资源在中国的本地镜像服务。④制定“馆藏数字化规划”,规定馆藏文献资源数字化对象(例如仍有研究价值的过刊、图书、科技报告等)、范围、数字化方法、保存、数字化成果的利用,“在线保存”永久访问资源(例如回溯数据库、采购协议中约定为永久访问的内容、开放资源等)、“近线保存”获得光盘或者裸数据的文献资源,“离线保存”只获得访问权的数据库、数字化的印本资源。⑤建议图书馆积极承担中国呈缴制度中有关数字出版物的保存工作,或者发布图书馆捐赠指南、以支付补偿金的方式,调用非政府机构和用户捐赠的积极性。这里,要与呈缴者、捐赠者明确所捐赠资源的可利用性。
(3)实施数字资源馆藏的“在线、近线、离线”分级服务策略。“在线保存”资源提供实时在线全文读取服务,“近线保存”资源提供实时在线元数据服务、到馆全文服务,“离线保存”资源提供到馆元数据服务、原文传递服务。
(4)数字资源馆藏保存的技术架构。构建文献资源馆藏保存系统不是难事,其中,需要关注的是数字资源的国家网络化、分布式、多层次的本土保存技术框架:①制定与图书馆主体服务系统数据格式一致的数字资源保存技术标准。②实施分层、分阶段的数字资源内容保存策略。优先实施国家需要重点保障的全文资源本地保存,首先实现具有“永久保存”权利的资源、缴存资源的本地保存,主要实现资源内容本身的本地保存而不主要保存其原来的资源访问环境。③建立“以国家级图书馆为主存储中心,科研图书馆和高校图书馆为特定领域存储分中心和备份中心、异地灾难备份中心”的数据集聚式保存网络,充分调动多方力量,尽快达成中国数字文献资源本地保存和服务的目标。也包括加强与已有长期保存系统的合作,分发“离线保存”的数字资源入长期保存系统,或者作为灾难备份中心。④建立数字文献资源灾害防范与应急响应。除了IFLA 《灾害防范与规划简明手册》(2006)中提出的图书馆灾害防范与应急内容之外,中国图书馆也需建立针对国外的“卡脖子”行为采取数字资源保障应急服务措施,例如把“离线保存”数字资源的使用方式调整为“近线保存”或“在线保存”的资源服务方式。