龚亦农 朱茗
(南京师范大学图书馆,南京 210097)
21世纪初兴起的机构知识库(Institutional Repository,IR)在世界范围内掀起持续的研究和建设热潮。根据开放获取仓储目录OpenDOAR(Directory of Open Access Repositories)统计,全球注册IR数量已经从2005年12月1日的128个持续增长到2017年12月1日的3 502个,年均增长率220%。IR建设在我国同样引发广泛关注和研究。在中国知网学术趋势工具中用“机构知识库”作为检索词查询可知,2000年以来,该主题相关研究论文数量总体呈明显上升趋势。2006年之前年均不足10篇论文产出,2014年至今已经稳定在年均100篇以上的高位,成为近年来的持续研究热点。那么,我国IR建设实践情况又如何?在OpenDOAR中注册的中国仓储数量为104个(大陆40个,台湾地区60个,香港特别行政区4个),在另一个国际权威目录——开放获取仓储注册系统ROAR(the Registry of Open Access Repositories)中注册的中国仓储数量为172个(大陆92个,台湾地区72个,香港特别行政区8个)。我国很多IR研究都以上述两大系统的注册统计为依据。事实上,上述两大系统并不能反映我国IR建设的实际状况,因为我国很多已建成的IR没有在国外权威目录系统中注册,另有很多IR处于在建状态。中国高等教育文献保障系统CALIS(China Academic Library & Information System)于2011年和2013年对我国大陆的IR建设状况进行过2次随机问卷调查[1-2],但2011年的调查仅限于大陆高校范围;2013年的调查只是抽样调查(有效样本数101份),都不能反映我国IR建设的实际规模。2013年2月,学者付伟棠等[3]曾采用实证收集的方式调查到我国可正常访问的机构知识库181个(大陆87个,台湾地区86个,香港特别行政区7个,澳门特别行政区1个)。2013年之后,没有全国范围的实证统计可参考。本调查作为机构知识库可持续发展研究的基础工作之一,对我国的IR建设状况进行尽可能全面的实证“摸底”统计,结合抽样问卷结果,梳理总结出我国IR建设现状,为深入研究提供事实依据。
根据收录的成果类型,IR可分为专门仓储和综合仓储两类。专门仓储保存单一类型的机构成果,如电子博硕学位论文系统(Electronical Thesis and Dissertations,ETDs)、传统的机构文库和新兴的科学数据管理系统等;综合仓储没有类型限制,收录本机构的所有智力产出。以往部分调查把ETDs等专门仓储也纳入IR调查范围。为突出重点,本调查中的IR仅指综合仓储,不包含ETDs等专门仓储。此外,无特别说明,本调查所提到的IR均为个体机构建设的独立IR,不包含各级各类联盟建设的IR门户和IR整合系统。
2017年9月20日—11月20日,采用抽样问卷和案例收集结合的方式开展调查。首先,随机向大陆200所高校和科研院所发放调查问卷,得到139份回复,去除无效回复,有128家机构(包括110所高校、18家科研院所)提供了有效反馈。然后,通过网络检索和访问,共采集整理出我国的IR建设案例472个。通过对128份问卷反馈和472个IR实例的统计分析,总结出我国IR建设现状。
从抽样问卷反馈看,128家受访机构中,表示“已建IR”和“在建IR”的机构数量分别为36(占比28.1%)和30(23.4%),另有58家(45.3%)表示“未建,关注中”,这三部分总合达到了96.8%,只有4家(3.1%)表示“未建,也未考虑”。可见,IR作为发展热点已经被广受关注。本调查采集到的我国“已建”和“在建”IR总数472个。
472个实证案例的分布和建设状态统计见图1。从地域分布看,大陆325个(占比68.9%),台湾地区和香港、澳门特别行政区各有138个(占比29.2%)和9个(占比1.9%);大陆325个IR中,高校建设有166个,科研院所建设159个。考虑到大陆高校数量远多于科研院所,在IR建设方面还有很大的推广潜力。从建设状态看,已建成367个(大陆239个,台湾地区120个,香港、澳门特别行政区8个),除去无法访问的情况,实际可正常访问的IR数量为263个(大陆176个,台湾地区79个,香港、澳门特别行政区8个)。与2013年付伟棠等[3]的调查数据相比,大陆的可访问IR数量翻了一番,发展势头迅猛;全国另有“在建”IR105个(大陆86个,台湾地区18个,香港、澳门特别行政区1个),保持稳定的增长后劲。但大陆可访问的IR年均增速仅为25.3%,远低于国际(年均220%)的总量增速,说明IR建设在大陆还处于起步推广阶段,IR建设的实效性还有待提高。
将472个IR按我国34个省级行政区[4]做数量分布统计,TOP5分别为台湾地区(138个)、北京市(63个)、上海市(30个)、广东省(23个)和江苏省(22个),这5个省级行政区的IR数量均超过20个,总数276个,占到我国目前IR总量的58.5%。有7个省的IR建设数量在10~20个,分别是海南省(19个)、湖北省(18个)、湖南省(15个)、辽宁省(11个)、四川省(11个)、陕西省(10个)和云南省(10个),其他22个省级行政区(主要分布在中西部地区)的IR数量均少于10个。总体来看,我国的IR建设还处于起步推广阶段。
本调查对大陆所有“211”“985”和“双一流”高校建设的IR逐一摸底访问,统计结果见表1。可以看出,高校实力越强,参与IR建设的比例越高。
图1 472个实证案例的数量分布和库状态统计
表1 大陆开展IR建设的各类别高校数量统计
综合来看,IR建设已经覆盖我国所有省级行政区域,在经济发达、教育科研实力强的地区和机构,推广较快。
“已建IR”和“在建IR”的66家大陆受访机构中,16家为科研院所,50家为高校。其中,16家科研院所全部由图书馆或同样性质的部门(如信息室)承担建设任务;在50家高校中,37家(占比74%)由图书馆建设,11家(22%)由图书馆与其他部门(如信息网络中心、科研处、教务处等)合作建设,只有2家高校(4%)由其他部门(网信中心和科研处)主持建设。总体而言,66个开展IR建设的大陆受访学术机构中,53个(占比80.3%)由图书馆承担建设任务。图书馆成为大陆IR建设的最重要主体。
关于“IR建设目的和意义”的问卷反馈统计见图2。高校和科研院所的认识表现出高度一致。最受认可的IR建设目的集中在成果展示(95%)、长期保存(92%)、开放获取(91%)和学术交流(81%),除此以外的建设意义还有,如有助于科研决策、科研产出统计、绩效评价、图书馆服务转型、抵制数据库提供商的不合理涨价等。
图2 IR建设的目的和意义
根据ROAR统计,目前44%的注册仓储使用DSpace,长期以来都是全球用户最多的IR软件系统。从本次调查的472个IR实证案例统计(见图3)可以看出,该软件也是我国用户量最大的IR软件系统,3个不同的汉化版本用户数量分别占据我国IR软件平台用户数的TOP3,分别是台湾大学汉化版DSpace NTU(用户数138,占比29.2%)、中国科学院汉化版CSpace(用户数127,占比26.9%)和北京大学汉化版DSpace CALIS(用户数30,占比6.4%)。三者用户总数超过本次实证统计样本总数的62.5%。这很大程度上得益于三大IR联盟(台湾学术机构典藏、中国科学院机构知识库服务网格和中国高校机构库知识联盟)的推广努力。在可访问的97个大陆科研院所IR中,95个(97.9%)都使用CSpace系统,表现出极强的联盟推广力度。而大陆高校表现出多元化的需求,越来越多选择商业软件,CALIS机构知识库的49个成员IR中,已有18个(36.7%)使用商业软件。图3统计结果TOP10中,除3种汉化版DSpace外,其他7个全部为商业软件,依次来自超星、知先、纬度信息、维普、宝和数据、知网和爱琴海乐之。这10个平台建设的IR数量达到了实证案例总数的85.8%,剩余14.2%的IR分别使用另外15种各类软件系统或开源工具。商业平台的流行有很多原因,其中一个重要原因是IR建设的SaaS(Soft As A Service)趋势越来越明显。由于目前很多机构还无法立刻建立有效的自存储机制,也很少能够提供OA服务,于是,保障IR内容建设的数据服务(如自动采集、数据加工),以及在此基础上的增值服务(如统计分析)就成为建设单位选择软件平台时的重要考量。商业软件的订制开发和数据服务,降低了技术门槛,缩短了回溯建设周期,满足了当前IR建设者的需求,成为越来越多机构的建设保障。
图3 IR软件平台用户数统计
图4是关于“IR支持或应该支持哪些成果类型”的问卷反馈结果。建设者认为应该收藏的成果类型是丰富多样的,从常见的“白色文献”,如期刊论文(100%)、学位论文(95.5%)、会议论文(90.9%)、图书(87.9%)、专利(77.3%),到传统“灰色文献”,如研究报告(72.7%)、演示课件(68.2%)、视频音频(60.6%)、工作文档(56.1%)等,还包括预印本(45.5%)、实验数据(45.5%)等新型成果种类,表现出“有则收录”的建设理念。表2是本调查专门对所有可访问的“985”高校IR(18个)和科研院所IR联盟(2家)进行的实证统计结果。对比可见,实际收录的文献类型主要集中在3类学术论文(期刊论文、会议论文、学位论文)和专利,其他类型成果(包括图书)的实际收录比例极小,远低于预期。
造成上述现象的原因除学术成果的类型分布存在自然差异外,主要还受数据采集加工的自动化程度影响。学术论文和专利数据比较容易通过商业数据库批量获取,便于自动采集处理,其他成果主要依赖手工加工或自存储方式获得,实际收录比例都不高。以科学数据为例,目前没有可自动采集的信源,完全依赖自存储,实践案例极少。有个别大陆机构在尝试科学数据的管理和服务,但都是在独立的系统中进行,未能融入到机构知识库系统。如何提高IR的自存储成果比例,是IR建设可持续发展的重点和难点,有待继续探索。
图4 IR支持或应该支持的成果类型
表2 大陆部分“985”高校与科研院所IR的收录成果类型统计
通过网络访问或资料查询对472个IR案例的收录成果数量进行逐个访问记录,获得288个IR的元数据总量,数量分布统计结果见表3。
根据付伟棠的调查[3],2013年,大陆只有1个IR(浙江大学IR)的元数据量超过10万。时隔4年多,“≥10万”的IR数量快速增长到22个,其中20个来自大陆高校,台湾地区同量级的IR数量由1个增长到5个,香港、澳门特别行政区在这个量级的IR数量没有增加。从公网可访问的案例看,目前我国IR成果总量最多的是北京大学(494 882条)。在可统计的大陆高校IR案例中,资源数量超过1万的IR比例为60.6%,这一比例在大陆科研院所中仅为33.0%。表现出大陆高校在智力成果积累上的巨大潜力。然而,大陆高校IR的全文提供率明显偏低。以三大联盟的统计为例(见表4),中国科学院的CAS IR GRID全文率最高,达到75.3%,台湾地区的TAIR达到了64.3%,而大陆高校机构知识库联盟CHAIR全文率仅为36.6%。
表3 我国IR收录成果元数据数量抽样统计
表4 三大IR联盟的全文率统计比较
总体而言,大陆资源过万的IR抽样比例为46.5%,低于台湾地区(53.8%)和香港、澳门特别行政区(62.5%),全文率极不平衡,资源建设仍然是大陆IR建设的重要任务。
OA是IR建设的初衷,问卷反馈结果(图5和图6)表明,大陆IR对OA的接受度还远远不够。66家“已建IR”的受访机构中,表示“完全开放元数据”的仅占40.9%,接近半数(47.0%)的受访机构对元数据采取有限制的开放RA(Restricted Access)。常用的限制手段包括IP控制和账号控制。对于自存储文档的全文服务,半数以上的机构表现出理性的谨慎:一方面,有58.0%的受访机构表示会“提供选项,由作者选择确定”;另一方面,接近同样比例(54.5%)的受访机构进行了IP控制,28.8%的受访机构做了账号控制。这种矛盾的心态也是IR实践中需要解决的关键问题之一。
图5 元数据开放度
图6 自存储文档开放度
是否支持多语种,不仅是技术问题,也是开放度高低的体现。由于历史原因,我国大陆、台湾地区和香港、澳门特别行政区的IR第一设计语言各不相同,分别是简体中文、繁体中文和英文。但为了便于共享传播,应该兼顾其他主流语言版本。本调查对我国262个可访问的独立IR系统的语言版本进行统计(见图7)。各地IR除均能很好支持第一设计语言外,对其他语种的支持度有较大差异。大陆IR对独立英文版和独立中文繁体版的支持率都不高,分别为8.0%和2.3%,有41.1%的IR系统采取中英双语的方式适应对外交流的需要。说明大陆学术机构意识到开放的重要性,但在具体实践中还存在一些障碍。这从侧面反映出我国大陆IR的开放度还有待提高。相比之下,台湾地区IR的语种支持率最全面,全部支持英文版,对中文简体的支持率也高达94.9%。香港、澳门特别行政区由于地域的特殊性,全部以英文版方式发布,不支持中文界面。此外,我国有2个IR支持其他语种,大陆有1个IR系统支持蒙古语,台湾地区有1个IR系统支持德语。总体来看,台湾地区IR对语种的支持最全面,大陆地区对繁体中文和英文的支持度均有待提高。
图7 我国IR系统的界面语种统计
关于“提供或希望提供哪些服务功能”的问卷反馈统计见图8。前6项均为IR常规性的基础服务。决策支持和增值服务成为IR建设中新的功能发展点。尤其随着大陆高校“双一流”建设,如何利用IR的数据优势提供增值的数据服务(而不仅是典藏与获取)已成为IR建设的潮流和发展方向。
图8 提供或希望提供的服务功能
IR的有效建设与可持续发展需要合适的环境,很重要的两个环境因素是政策和联盟的支持。
OA政策的发布者可以是政府、科研资助机构、联盟组织、出版商,也可以是个体学术机构(如高校和科研院所)。本调查只针对个体学术机构进行。在表示“已建IR”的大陆受访高校和科研院所中,“有OA政策”的比例分别为59.1%和57.1%,说明接近60%的受访IR机构已经意识到OA政策的重要性,并付诸实施,但实证统计发现,公布有效OA政策的机构寥寥无几。对大陆175个可访问的IR的实证统计发现,89个(50.9%)IR未发现开放获取政策;83个IR(47.4%)虽然有政策栏目,但内容套用各种现成的格式条款,且没有明确发布方,不具备落地的真实性;只有3家单位正式发布了具有独立内容的开放获取政策,分别是中国科学院、北京大学和西安交通大学。其中,中国科学院OA政策被下属百余研究所广泛采用,成为中国科学院所级机构IR建设的有力制度保障,这也是中国科学院系统IR建设与发展一直在国内领先的重要原因之一。北京大学和西安交通大学的政策发布者是图书馆,还不具备全校推行的效力,对校级IR建设的保障作用很有限。大陆高校系统中,至今还没有出台有效的OA政策,这在一定程度上制约了大陆高校的IR建设步伐。
规范成果提交的内容政策是OA政策的重要组成部分,直接影响IR的可持续建设。在表示“有OA政策”的36家受访机构中,有14家(38.9%)表示有“与成果提交挂钩的本机构其他政策”,其政策内容分布见图9,主要涉及科研考核(57.1%)和职称评估(57.1%)。另外,有50.0%的OA政策有强制提交要求。中国科学院系统在OA政策建设方面积累了很多实践经验。各研究所依托中国科学院开放获取政策,通过建设配套激励存缴措施,保障IR建设的可持续发展。中国科学院力学研究所制订了管理运行办法,把IR存缴统筹纳入研究所学术成果管理流程和评价监督体系;很多所(如中国科学院深海科学与工程研究所、中国科学院长春应用化学研究所等)将IR存缴与员工考核岗位竞聘、研究生毕业审查绑定,为IR可持续建设与发展提供有力支撑。但总体而言,OA政策环境建设还远不能满足IR可持续建设发展的需要,尤其是大陆高校需要尽快取得“零”的突破。
图9 与成果提交挂钩的本机构其他政策
我国早期的IR联盟成立于台湾地区(2004年)和香港特别香行政区(2006年)。大陆最早的IR联盟是中国科学院创建于2009年的中国科学院机构知识库服务网格(CAS IR DRID),这是目前大陆成员最多,组织效果最好的IR联盟。之后,各种区域性和行业性IR联盟陆续成立,目前,已经有8个(见表5)。还有更多的IR联盟(如内蒙古地区高校IR联盟、财经类高校IR联盟等)正在建设或酝酿中。本调查收集到的472个IR案例中,有380个IR分属于这8个IR联盟,联盟成员比例高达80.2%。
表5 我国IR联盟一览
IR联盟除了有统筹规划地组织管理外,也会为成员机构的IR建设提供不同程度支持。通常建设中心平台,提供整合服务。随着云技术的普及,联盟组织可以利用云平台和专业的运维团队为成员单位提供机构级的IR托管服务,帮助中小规模的机构快速构建起自己的IR门户。这在很大程度上降低了IR建设门槛。目前,8个联盟有一半已经提供这样的托管服务。在政策建设方面,中国科学院开放获取政策有力带动了下属各所级机构的OA政策建设,也为联盟政策建设树立了范例。
关于“IR联盟所起作用”的问卷反馈表明,65.6%的受访机构持肯定态度,认为“有助于自身IR建设”;15.6%的受访机构有所期待但对现状并不乐观,选择了“理论上有帮助,但实际效果未必”;有13.3%的受访机构则直接表达了不满,选择“没太多帮助”;还有3.9%的人认为“难以评价,酌情对待”。总体而言,大多数建设者需要联盟提供更多的帮助。联盟建设的蓬勃发展正是顺应了IR建设潮流的需要。
图10显示,位居“IR建设主要因素”TOP5的分别是领导的重视(平均87.1%)、建设经费(平均76.6%)、人力投入(平均74.2%)、对开放获取的广泛共识(平均62.1%)和技术支持(平均56.5%)。对比“已建”“在建”和“关注但还未建”的机构对这些因素的态度,可以发现其影响力会随着建设过程发生微妙的改变。其中,“开放获取的广泛共识”越来越受重视,而对“技术支持”的关注度会随着建设的进行明显降低,其他因素影响力也不是一成不变的,会随着建设进程发生一定程度的改变。
图10 IR建设的主要影响因素及其在建设周期中的关注度变化
通过本次“摸底”调查,基本厘清了我国机构知识库建设的总体状况,主要表现为:①学术机构对IR建设的关注度极高,但有效实施的较少,机构联盟是推进IR建设的主力;②已建IR覆盖全国34个省级行政区域,经济基础好、教育科研水平高的区域更易推广实施;③图书馆依然是高校IR建设的独立主体,政策制定约束力不够、执行度不高,已建IR平台数据多依赖自动抓取,学者参与度不高,自存储信息少,机构内部跨部门合作比例不高,科研数据难以实时共享,图书馆有“唱独角戏、自娱自乐”之感;④大陆高校IR建设平台有从开源软件逐步转向依赖商业软件的倾向,技术支撑的非自主性风险加大,技术支持依然是可持续发展重要因素;⑤学术成果的OA政策环境不明朗,约束了IR自存储建设和开放服务,已建IR开放度较低,无法惠及机构外大众;⑥大陆IR对中文以外的其他语言支持率较低,离国际化开放需求还有很大差距;⑦IR建设进程中的主要影响因素会发生变化,可持续发展之路需要全面无短板的支撑。
总之,IR建设在我国已广受关注,并初有成效,呈现出良好的发展势头,但现实与理想还存在较大差距。认清现状,找出短板,将有助于IR建设的深入研究与可持续发展。
[致谢] 共有139家学术机构的领导和同仁积极参与本次问卷调查,并有众多同行为案例采集提供了有价值的线索,在此一并表示衷心感谢!