开放存取随着其资源的日益增长,正成为学术信息资源管理的新兴课题之一[1]。而机构知识库(Institutional Repository,IR)正是伴随着学术信息资源开放存取的兴起而兴起的,其具有协助教育科研机构知识资产保存和知识管理的重要作用[2]。相比于2010年前后全球机构知识库数量保持年均30%的增长率[3],相关统计显示,近两年全球范围内机构知识库的建设已经进入一个增长相对平缓的阶段[4]。在此背景下,对知识库资源的“精耕细作”则更加受到重视,相关研究也日益增多。有学者指出,资源建设作为机构知识库建设的核心问题,目前也是机构知识库建设的瓶颈所在[5]。而高校图书馆作为推动全球机构知识库建设的骨干力量,其资源建设的好坏直接关系到学术资源开放存取服务的推进。
2002年11月,美国麻省理工学院(MIT)和惠普公司(HP)共同开发的 DSpace系统机构知识库面世,并作为开源软件向广大机构用户开放[6]。DSpace具有成本低廉且易于配置的特点,它的出现极大地促进了机构知识库在全球高校图书馆中的普及与应用,也拉开了全球范围内大规模建设机构知识库的序幕。麻省理工学院图书馆也是全球范围内较早推进机构知识库建设的高等院校。高校图书馆机构知识库承担着保存机构知识资产和支持知识开放共享的重要职责,是新型学术信息交流体系和教育科研知识基础设施的有机组成部分。学术出版与学术资源联盟 (Scholarly Publishing and Academic Resources Coalition,SPARC)的 Raym Crow[7]认为,高等院校的机构知识库是收集并保存单个或多个大学内的数字知识资产的知识库,是大学提供给其内部社群的一系列服务,用来管理和传播由此机构及其内部社群创立的数字资源。而美国网络信息联盟的常务董事 Clifford A.Lynch[8]认为,大学机构知识库是学校为师生员工所提供的一系列服务,其目的是用于管理和发布由本机构及其成员所创造的数字资源。
2005年以来,我国台湾地区[9]、香港特区[10]和大陆[11]的高校在高校图书馆机构知识库建设方面进行了一些实践探索。为保证数据的统一性,笔者以国际通行的机构知识库注册平台Open DOAR[12](The Directory of Open Access Repositories)、ROAR[13](Registry of Open Access Repositories) 和 Ranking Web of Repositories[14](The Spanish National Research Council)中的各项数据为基础,对中美两国高校机构知识库建设现状进行调研和分析。截至2017年2月20日,我国在以上国际注册平台中注册的机构知识库共41个(包括港澳台地区),来自高校图书馆的机构知识库有11个,其中大陆地区仅有北京大学、清华大学、厦门大学、西安交通大学、北京理工大学、浙江大学和广西民族大学7所高校明确推出了独立的机构知识库服务。美国共登记注册机构知识库477个,其中来自高校的机构知识库有255个,所占比例超过50%。相比之下,我国高校图书馆的机构知识库无论在绝对数量上,还是在相对数量上,都与美国有着较大差距。
截至2015年,我国高等学校共2 845所,美国共有大专院校4 180家左右[15]。需要注意的是,我国高校机构知识库建设尚处于初级阶段,相当数量的机构知识库虽然已经投入使用,但由于语言等各种原因尚未在国际注册网站中注册,如中国人民大学图书馆机构知识库、大连理工大学机构仓储和上海交通大学机构学术信息库等。2016年9月,由北京大学图书馆倡导,北京理工大学、北京师范大学、北京邮电大学、重庆大学等17所高校图书馆共同发起了“中国高校机构知识库联盟”(CHAIR)。但截至目前,大部分联盟高校尚未推出独立的机构知识库建设计划。
为了深入比较中美两国高校图书馆机构知识库资源现状的现状,本文选择我国C9联盟和美国常青藤联盟(Ivy League)两大顶尖高校联盟进行深度比较。2016年10月至2017年2月,通过网络访问的方式对以上两大联盟高校的机构知识库情况进行了在线访问和跟踪(表1)。我国C9高校中,有5所开通了机构知识库;常青藤联盟高校中,有6所开通了机构知识库。笔者从资源的丰富性、易用性、规范性和可持续性4个维度对比分析其资源建设现状。
表1 C9高校与常青藤高校机构知识库情况
资源建设的丰富性有3层含义,一是机构知识库的收录资源的个体数量,二是机构知识库收录资源的类型数量,三是机构知识库资源覆盖的学科或主题范围。
首先,从资源收录的绝对数量上来看,C9高校和常青藤高校机构知识库的资源收录数量差距很大(表2), C9高校机构知识库的平均资源收录量仅为常青藤高校平均资源收录量的14.45%。其中我国收录资源数量最多的浙江大学的资源规模仅为美国耶鲁大学的机构知识库资源规模的14.26%。
表2 C9高校与常青藤高校机构知识库资源收录情况比较
注:资料来源于相应机构知识库网站
其次,从资源的类型上看,C9高校和常青藤高校图书馆的机构知识库基本都收录了多种类型的数据资源,既包括正式出版的研究论文和学位论文,也包括工作报告、实验数据、课件等灰色文献。中美机构知识库在资源收录的类型方面差别不大,均以期刊论文、学位论文和会议论文为主。不同的是,包括哥伦比亚大学、耶鲁大学在内的美国高校图书馆机构知识库除了收录以文字为载体的资源数据外,还收录了如录音材料、视频资料和工具软件等多媒体资源。
最后,从资源覆盖的学科或主题范围看,高校图书馆机构知识库的学科和主题范围基本与所属高校的学科和研究范围重合。C9高校和常青藤高校图书馆的机构知识库资源都属于多学科(主题)范畴。
评价资源的易用性可以从资源组织方式的易用程度和资源的全文获取容易度两个方面展开。从资源组织方式的易用程度来看。C9高校图书馆机构知识库都是使用开放源码软件DSpace 建设的,数据对象组织模型采取层级制。整个机构知识库由若干个Community构成,每个Community下包含若干个Collection,每个Collection下包含若干个具体的条目。因而,机构知识库的资源组织和浏览方式相对于成熟的商业文献数据库要单一许多,一般仅提供作者、题名、时间、资源类型等几种方式进行浏览。如浙江大学机构知识库仅提供了按照期刊论文、会议论文和学位论文3种浏览方式。在这一点上,虽然常青藤高校机构知识库的建设软件要多元化一些,但其最终提供的资源组织和浏览方式与国内也基本相同。由于机构知识库只对资源的进行简单的DC元数据描述,缺乏对资源的更深层次的描述和揭示,从而对IR中资源的进一步加工整理和控制造成不利影响,也降低了IR资源的在浏览和检索上的易用性。
从获取资源全文的容易度上看。IR的本意是要促进学术信息资源的开放获取。然而调研中却发现,C9高校机构知识库极少提供可开放获取的全文链接,部分提供全文链接的也存在“链接无效”和“IP限制”的情况。如西安交通大学的机构知识门户,仅提供了论文资源的题录浏览功能,并不提供全文链接[16]。常青藤高校机构知识库均提供了资源的有效全文链接,约60%的资源提供了可开放获取的全文链接。其中康奈尔大学的机构知识库[17](arXiv.org e-Print Archiv)抽样全文获取率为100%,麻省理工学院图书馆的机构知识库(DSpace at MIT)已基本实现全部论文资源的开放获取[18]。
完善制度是确保机构知识库走向规范的前提。Open DOAR将相关的标准和规范设定为5类[12],即元数据再利用制度、内容再利用制度、资源内容制度、提交制度和保存制度。C9高校和常青藤高校机构知识库资源建设标准和规范见表3。
表3 C9高校与常青藤高校机构知识库标准和规范情况比较
注:数据来源于OpenDoar及各机构知识库网站
从调研数据看,高校图书馆鲜有进行资源建设标准和规范设定,国内方面仅有清华大学机构知识库对资源的内容再利用制度进行设定;即使在美国,进行了资源建设标准和规范的设定的机构知识库数量也很少[5]。
机构知识库资源建设的可持续性是指当前的资源建设政策是否能够推动学术信息资源开放共享的持续发展。
Kathleen Shearer[19]曾表示,“(资源提供者的)输入行为和机构知识库的利用率是决定机构知识库成功的两个重要因素。”高校图书馆机构知识库的资源采集政策正是影响其资源输入的关键。当前,机构知识库的资源采集政策可以分为3类,一是强制类政策,即主管单位强制要求学术研究人员上传论文、会议文献等资源;二是鼓励性政策,即将资源的上传采集与某种激励机制挂钩,如中科院部分院所的科研人员向机构知识库提交论文,将作为年终考核绩效和晋升的依据;三是建议性政策,即仅向科研人员发出资源采集的倡议。
从本次调研的情况来看,C9高校和常青藤高校的机构知识库都采用的是建议性政策,呼吁科研人员上传资源。而从全球范围来看,这种模式获得的资源输入比例非常低,仅有15%左右[20]。机构知识库的资源采集的障碍成为阻碍学术资源开放利用可持续发展的重要因素。
为了解决单个机构知识库在资源建设上面临的诸多难题,很多发达国家和地区开始构建机构知识库联盟借以实现更广泛的学术资源共享,扩大学术影响。如常青藤高校之一的康奈尔大学牵头建立的机构知识库联盟(arXiv.org e-Print Archive),由特定的知识库建设中心建立一个统一、集中的服务系统与平台,并长期管理所收集的元数据与内容,运行及维护整个知识库系统,各成员机构则需要积极地将本机构的学术资源和对应的元数据上传到知识库中心系统中,而不需要承担维护及管理系统的任务[21]。包括C9高校在内我国大陆高校图书馆机构知识库普遍加入了CALIS 机构知识库联盟,成员机构根据共同的数据交互标准和协议分别建立各自独立的知识库,并在数据与资源本身都是分布式和实现独立搜索的基础上,将元数据采集并存储到一个集中的搜索数据库中,通过建立统一检索平台的方式为用户提供其所有成员机构知识库资源的检索[22]。但这种分布式的IR联盟成员库之间缺乏必要的交流共享,加之全文获取率偏低的原因,通过CALIS机构知识库统一检索的使用体验并不好。
通过对中美两国顶尖高校机构知识库资源建设现状进行深度比较,得到以下几点启示。
第一,我国高校图书馆机构知识库的建设仍处于初级阶段。从中美两国高校机构知识库的数量来看,我国高校机构知识库的保有量明显低于美国,收录资源的总量上也存在巨大差距。从机构知识库的质量上来看,根据Ranking Web of Repositories 2016年1月最新发布的排名结果,我国大陆地区高校机构知识库排名第一的是厦门大学机构知识库,全球排名仅为278名,北京大学机构知识库全球排名1 830名。从机构知识库联盟的角度看,国内成熟的仅有中科院机构知识库服务网格和CALIS机构知识库,其中后者仅有37所加盟高校。就全中国的科研系统而言,开放学术资源的辐射范围相当有限。
第二,当前机构知识库资源建设现状不容乐观。相比机构知识库近年来在数量上的高歌猛进,其资源建设质量还有待提升,无论中国或美国高校都存在提升的空间。从调研的情况来看,中美普遍存在资源整体质量参差不齐,全文资源获取困难等问题。尤其是各机构知识库之间的资源收录量两极分化现象非常严重。作为中美著名高校,上海交通大学和宾夕法尼亚大学机构知识库的资源收录量甚至不足10 000条。统计结果也显示,数据在10 000条以上的机构知识库数量仅占知识库总数的 30%[23],少数发展较好的机构知识库占据了较大的资源量,绝大多数机构知识库的资源稀少,有的甚至近乎空壳。
第三,资源组织的易用性和规范性不足。虽然 IR 在学术界处于研究热潮,但IR 的建设和应用达到预期效果的寥寥无几。目前我国很多机构知识库沦为了“鸡肋”[24],大多数研究人员更希望从专业数据库中查资料[25]。这一点与机构知识库资源组织的易用性和规范性不足有直接关系。从本次调研的结果来看,中美两国的高校图书馆都缺乏对资源建设确定必要的标准和规范,更缺少对资源的深度组织和揭示,信息服务流于表面。
第四,资源建设的可持续发展前景堪忧。高校机构知识库资源采集政策一方面受制于版权因素,另一方面也受制于领导对IR建设的不重视。调查显示[2],虽然超过总量60%的用户知晓 IR, 但40%的用户对IR 用途不清楚或完全不明白,其中30%用户从未听说过;而实际上仅有43%的用户使用过 IR 。在此背景下,机构知识库资源采集难以通畅、全面,机构成员产出的新成果不能及时存缴到IR中,学术信息资源的深度开放获取更难以持续推进。
C9高校和常青藤高校作为中美两国顶尖高校的代表,因其在各自国家都具有极高的社会地位和学术影响力,其获取机构知识库资源建设支持的能力的也应当更强,其在机构知识库资源建设工作中的表现具有典型性,且对其他学校能起到榜样作用的。然而调研结果表明,当前高校图书馆机构知识库在数量急速增长的同时,质量并未同步提升。中美两国的高校机构知识库在资源建设的丰富性、易用性、规范性和可持续性方面都存在不足,我国高校在一些方面的欠缺更为明显。对于这些共性问题,中美高校应当竭力避免重蹈覆辙,这也将是未来深入研究和解决的方向。