胡 芳(1. 中国科学院文献情报中心 北京 100190; 2. 首都师范大学图书馆 北京 100089)
学科存储库及相关概念辨析
胡芳1,2
(1. 中国科学院文献情报中心北京100190; 2. 首都师范大学图书馆北京100089)
〔摘要〕文章对学科存储库的含义进行界定,并对学科存储库的相关概念(包括:机构存储库、预印本、e印本、数据存储库)之间的异同进行辨析,以明确学科存储库的特点和发展趋势。
〔关键词〕学科存储库机构存储库预印本e印本数据存储库
〔分类号〕G255.76
〔引用本文格式〕胡芳.学科存储库及相关概念辨析[J].图书馆, 2016(1):49
随着开放获取运动的发展,学术界对开放获取的关注逐步升温,对机构存储库的研究比较集中,而对同样也属于开放存储库的学科存储库的研究相对少。与学科存储库相关的概念有很多,包括:机构存储库(Institutional Repository)、预印本(Preprint)、e印本(E-print)、数据存储库(Data Repository)等。这些概念看似相近,实则不同。对于严谨的学术研究而言,概念界定不清,可能影响学术交流。因此,有必要对学科存储库的含义及相关概念之间的关系进行梳理和研究。
“学科存储库”一词来自对“Subject repository”或者“Disciplinary repository”的翻译,也可以译为“学科知识库”、“学科仓储”。在相关研究文献和实际项目中,对学科存储库的定义不同,对其内涵和外延界定也没有形成共识。目前对于学科存储库的自存储特性基本形成了业内共识。但对于其收录学科范围、文献类型还存在一些争议。
在学科范围上,主要包括三种观点:一是学科存储库汇集某个学科领域(可能是涵盖范围很广泛的学科领域)有关的研究成果[1]。二是认为学科存储库是对某个学科或者某些相关学科文献进行采集并提供给用户使用[2]。三是对学科存储库的学科范围不进行任何界定。因为学科存储库可能是单一学科,也可能是相关学科,或者更大范围的人文社科,不界定学科范围对覆盖学科的数量和广度比较灵活。
在文献类型上,主要包括两种观点:一是认为学科存储库提供论文元数据、研究数据、论文全文等资源的免费获取,而且可被网络蜘蛛索引[3]。二是认为学科存储库汇集某一特殊学科领域全文研究成果[4]。本文认可第一种观点,虽然之前学科存储库的主要文献类型是论文全文,但随着时代的发展,新的文献类型不断涌现,如:科学数据,这些也应该视为学科存储库收录的文献类型。
此外,也有学者从建设过程、开放获取等其他角度定义学科存储库,如:有学者认为学科存储库通常由某些研究领域成员创建,并得到该领域更广泛学者自发性地使用[5]。有学者提出学科存储库是开放获取存储库的两大主要类型之一[6]。
学科存储库对学者意义重大,有利于通过工作论文的形式交流学术思想和实验结果,也有利于澄清优先发表、获得国际学术认可、引起业界关注等[5]。综上,学科存储库是指由学者通过自存储而形成的学科文献资源库。学科存储库是开放获取库的一种重要形式,它收录的主要文献类型包括:论文全文、论文元数据、科学数据等。
“机构存储库”来自对“Institutional repository”的翻译,有时也称为:“机构知识库”、“机构库”、“机构仓储”等。虽然学术界对机构存储库从不同维度进行阐释,但学术出版和学术资源联盟(The Scholarly Publishing and Academic Resources Coalition,SPARC)对机构存储库的定义被很多学者所接纳和认可,认为“机构存储库搜集并保存学术机构智力成果,促进学术交流,同时也展现机构的学术价值”[7]。
可见,虽然学科存储库和机构存储库都能够提供学术资源的免费获取,都能促进数字资源的长期保存。但两者的差异也是显而易见的。第一,学科存储库主要搜集学科领域资源,任何学科领域内学者都可以提交,而机构存储库主要搜集机构内人员的学术成果,只有机构内人员才能提交或者被收录。第二,学科存储库资源的建设形式主要靠学者自存储,多是自发性行为。而机构存储库资源的建设形式虽然也包括机构人员的自主提交,但多是出于机构政策要求,而且现在很多机构存储库的资源是由系统自动匹配或者其他相关人员辅助完成提交。第三,学科存储库资源多是未在学术期刊正式发表的预印本论文、工作文档或实验数据,而机构存储库资源多是已经正式发表的学术期刊论文和会议论文。
从发展历史来看,学科存储库的起步比机构存储库更早。 1991年,首个基于互联网传播模式的学科存储库Arxiv诞生。而机构存储库是在学科存储库发展十年后才诞生,2001年,俄亥俄州立大学知识库建立,这是机构库的雏形[4]。之后机构库在全球迅猛发展。
从发展规模来看,目前机构存储库的数量远远超出了学科存储库的数量。根据开放获取仓储登记平台OpenDOAR的统计,截至2015年4月22日,该平台共收录2600多个开放存储库,其中学科存储库290个,机构存储库2376个[8]。可见机构知识库以绝对数量远超学科存储库。
从影响力来看,目前学术界对机构存储库更为关注,研究学科存储库的文献和项目都相对少。但是根据西班牙科学研究理事会的“网络计量:世界存储库互联网排名”最新结果,全球排在前五名的存储库分别为:PubMEd、Arxiv、SSRN、ADS、RePEc[9]。这些无一例外都是学科存储库。该排名采用的指标包括:网站大小(10%)、富文档(10%)、谷歌学术记录(30%)、链接度(25%)、替代计量(25%)[10]。可见,根据存储库收录文献数量和用户利用情况,学科存储库的影响力更大。
“预印本”来自对“Preprint”的翻译。以前学术界和出版界对预印本的定义不同,学术界一般认为预印本是指文章初稿,没有经过任何同行评审,甚至没有提交给出版商。而出版商认为预印本是文章终稿,经过同行评审和修改,但还没有进行页面布局和排版的稿件。为解决这一歧义,SHERPA认为可用后印本(Postprint)来表示经过同行评审但还没有排版的文章终稿[11]。这一观点得到了很多学者和机构的认可[12-13]。综上,认为预印本是指没有经过同行评审的文章初稿,而预印本库就是提供预印本提交和检索获取的存储库。
早期影响比较大的学科存储库同时也是预印本库,如:Arxiv。学科存储库和预印本库有很多共同之处:第一,学科存储库和预印本库资源的建设方式都主要靠作者自存储。第二,学科存储库和预印本库都能够提供资源的公开免费获取。第三,学科存储库和预印本都是收录学科资源,任何学科相关学者都可自行提交。
学科存储库和预印本库的差异主要体现在:学科存储库的资源类型更丰富,有学术论文,也有研究数据等。而预印本的资源类型一般只有学术论文。预印本是学科存储库早期的主要发展形式,现在学科存储库的范围超出了预印本库。
“e印本”来自对“E-print”的翻译。e印本一般是针对预印本和后印本而言,它是预印本或者后印本的电子形式[13]。我国学者乔冬梅对e印本库的定义较好地体现了e印本库的特点,她认为e印本库是“一种促进研究成果及时发布的网络学术交流平台,它通过作者自存档方式收集各种形式的学术论文的电子版本,经过互联网提供全球用户开放存取,并利用OAI实现系统互操作,向信息增值服务者提供收录e印本的元数据记录”[14]。可见,e印本库的特点主要体现在:作者自存储,资源开放获取,不限制收录学术论文的版本(既包括没有经过同行评审的预印本,也包括经过专家审议修改后的后印本)三个方面。
相对而言,e印本库是一个比较广泛的概念。如果e印本库对所收录的学科范围限定在某一学科或某几个相关学科,这种基于学科的e印本库就是学科存储库的一种,如:Arxiv。如果e印本库的资源主要来自某一个固定的学术机构,那么这种基于机构的e印本库就是机构存储库的一种。如果e印本库收录的只有论文的预印本,没有后印本,那么这种e印本库也可以称为预印本库。
“数据存储库”来自对“Data repository”的翻译,也称为:“数据仓储”、“数据知识库”、“数据资源库”等。国内学者刘峰等定义为:以存储和管理“科研数据”、支持科研活动及其知识创造的数字知识库[15]。突出了数据存储库的科研服务功能。
学科存储库与数据存储库都能提供资源的开放获取和长期保存。差异体现在:第一,在建设方式上,学科存储库依靠学者主动自存储完成,而数据存储库有可能是学者主动提交,也有可能是出于政策规定被动提交。第二,在收录的资源类型上,学科存储库覆盖的范围更加广泛,不仅包括科学数据,也包括学术论文。而数据存储库专门收集科学数据。可见,只有一部分由学者自存储的数据存储库,才能同时被称为“学科存储库”。
学科存储库、机构存储库、预印本库、e印本库和数据存储库,这几个概念的出现与开放获取运动的产生与发展密不可分,它们的共同之处是:都能体现对学术资源的公共免费获取。但它们之间有着本质的不同:第一,学科存储库和机构存储库是开放存储库的两种类型。它们之间的归属没有交叉,是并行的关系。第二,预印本库是e印本库的一种类型,它们之间是被包含与包含的关系。第三,数据存储库与学科存储库之间也存在交叉关系。只有体现自存储和学科特点的数据存储库才能同时被称为学科存储库。
由此可见,学科存储库存在如下特点:第一,自存储性。学科存储库的建设方式是由学者主动存储而实现。第二,多样性。指其收录的资源类型丰富,不仅包括学术论文,也包括科学数据,未来可能不断涵盖新的文献类型。第三,开放性。学科存储库的内容对全球用户免费开放。第四,学科性。任何学科领域的学者都可自行提交资源。
同时,学科存储库又是动态变化的概念,不同时代背景下学科存储库的具体内涵是变化的,未来学科存储库朝着以下几个方向发展:第一,收录学科多样化。早期的学科存储库往往只是收录某一个具体学科领域的资源,随着学科存储库影响力的扩大和学科之间交叉发展趋势,学科存储库收录的学科领域逐渐扩大到相关领域。第二,注重资源质量控制。由于学科存储库依靠学者自存储构建资源,没有经过传统出版模式的同行评审流程,为提高学科存储库的影响力和可持续发展力,未来学科存储库在建设过程中必然越来越注重对资源的质量控制。第三,收录对象类型多元化。随着时代的发展,新的文献类型不断涌现,学科存储库收录的资源类型也将朝着多元化的方向发展。可以预见,未来学科存储库收录的文献类型还将不断扩展。
(来稿时间:2015年6月)
参考文献:
1. Jan R, Khan N A. Development of Disciplinary Repositories: A Case Study of Open DOAR[J], 2010
2. Adamick J, Reznik-Zellen R. Representation and recognition of subject repositories[J]. D-Lib Magazine, 2010, 16(9): 3
3. Björk B C. Open access subject repositories: An overview [J]. Journal of the Association for Information Science and Technology, 2014, 65(4): 698-706
4. Darby R M, Jones C M, Gilbert L D, et al. Increasing the productivity of interactions between subject and institutional repositories [J]. New Review of Information Networking, 2009, 14(2): 117-135
5. Armbruster C, Romary L. Comparing repository types: challenges and barriers for subject-based repositories, research repositories, national repository systems and institutional repositories in serving scholarly communication[J]. Research Repositories, National Repository Systems and Institutional Repositories in Serving Scholarly Communication , 2009
6. Qing F, Ruhua H. Evaluating the usability of discipline repositories[C]. // IT in Medicine and Education, 2008. ITME 2008. IEEE International Symposium on. IEEE, 2008:385-390
7. SPARC.The Case for Institutional Repositories: A SPARC Position Paper[EB/OL]. http://sparc.arl.org/resources/papers-guides/the-case-for-institutional-repositories
8. OpenDOAR[EB/OL]. http://www.opendoar.org/find.php
9. Ranking Web of Repositories. World. http://repositories[EB/ OL].webometrics.info/en/world
10. Ranking Web of Repositories. Methodology[EB/OL]. http:// repositories.webometrics.info/en/Methodology
11. SHERPA. Definitions and Terms. Pre-print and Postprint[EB/OL]. http://www.sherpa.ac.uk/romeoinfo.html#prepostprints
12. Inefuku H W. Pre-Print, Post-Print or Offprint? A guide to publication versions, permissions and the digital repository[J], 2013
13. Harnad S. Eprints: Electronic preprints and postprints[J]. Encyclopedia of library and information science, 2003, 2:990-992
14. 乔冬梅. e 印本文库创建过程研究[J]. 情报理论与实践, 2006, 29(2):232-235
15. 刘峰, 张晓林, 孔丽华. 科研数据知识库研究述评[J].现代图书情报技术, 2014, 30(2):25-31
The Subject Repository and Related Conception
Hu Fang1, 2
( 1. National Science Library, Chinese Academy of Sciences; 2. Capital Normal University Library )
〔Abstract〕This paper gives a definition of subject repository and analyzes its similarities and differences with related concepts including institutional repository, preprint, e-print and data repository to understand its characteristics and future trends. The paper draws the conclusion that the subject repository has the characteristics of discipline, self-archive, multiple document types and openness. The future trends are as follows: the subjects are becoming diverse and multi-disciplinary; paying attention on the quality control of the resources; the types of the resources are becoming various.
〔Keywords〕Subject repositoryInstitutional repositoryPreprintE-printData repository
〔作者简介〕胡芳(1984-),女,中国科学院文献情报中心在读博士,首都师范大学图书馆馆员,发表论文十余篇,研究方向:资源建设、情报分析。