严玲艳
(武汉大学信息管理学院 武汉 430072)
机构知识库(Institution Repository, IR)联盟在国外已有50多年的发展历史,因联盟能加快科研成果的传播效率,促进学术交流共享,因此受到各国学术机构、科研人员、图书馆和出版商的重视,成为开放科研成果的重要途径之一。代表性的国外IR联盟构建模式有两种:国家层面的IR联盟,如荷兰DARE、法国HAL、日本JAIRO、德国OANetwork、英国JISC RepositoryNet和美国ALADIN联盟等;区域性IR联盟,如欧盟DRIVER、科罗拉多数字知识库联盟、德州数字知识库联盟、英国机构知识库联盟SHERPALEAP等,整体的机构联盟建设已经取得较好的应用和成效[1]。相对于国外,国内机构知识库发展较为缓慢,仍旧处于机构知识库建设初期阶段,截至2017年,OpenDOAR在名录中收集的中国的机构知识库数量仅为45个,且多为高校自建的机构知识库,如北京大学的PKUSpace、厦门大学的学术典藏库、浙江大学的机构知识库以及2018年12月刚成立的武汉大学机构知识库。区域性联盟典型代表有CALIS机构知识库联盟、中国高等教育文献保障系统CALIS清华大学OAPS联合机构仓储、台湾学术机构典藏TAIR和香港机构知识库整合系统HKIR等,但知识库总体上存在资源数量少、资源更新速度慢、开放程度较低等问题[2]。相关的文献研究也多集中于单个机构知识库或高校机构知识库的建立问题上,针对国家层面的机构知识库联盟案例研究较少。
荷兰国土面积虽不大,但科研实力强劲,拥有全球最大的学术出版巨头之一爱思唯尔(Elsvier),在机构知识库建设方面发展迅速。据荷兰全国统一学术门户网站NRCIS(National Academic Research and Collaborations Information System)统计,截至2018年12月,已有2 980个组织的59 686人参与机构仓储,收录187万多份出版物和21万多条数据集,其中期刊论文占28%,具有高学术价值的博士论文开放率高达91%,未开放部分主要为涉及国家安全、医药安全等机密的研究[3]。该成就与荷兰国家级机构知识库DARE的建立紧密相关,联盟建设项目由荷兰所有大学、图书馆、荷兰皇家艺术与科学院、荷兰科技研究所等多家单位参与,并得到政府大力支持,对荷兰学科发展起着重要的推动作用。因此文章对荷兰国家层面的大型机构知识库联盟建设的外部环境和内部运行机制展开探讨,以期为国内相关领域的研究和实践提供参考与借鉴。
机构知识库联盟建设离不开国家政策、资金和立法的支持,同时机构的参与数量和意愿关系到资源建设的可持续性、资源质量、资源丰富度,与国外机构和出版商的合作力度也会影响资源的开放程度、版权问题,从而影响资源的共享范围。如表1,荷兰机构联盟的建设背景分为欧盟层面、国家层面、机构层面和资源层面四个部分,在欧盟和国家层面的全力支持和积极引导下,所有大学、科研机构和图书馆紧密合作,一方面积极对外参与国际开放科学运动,如欧盟开放科学项目;另一方面通过联盟与出版商进行谈判,赢得谈判话语权,为科研人员争取最大利益,最后建立全国统一的知识库和资源检索平台,促进学术信息的交流共享。
表1 荷兰机构联盟知识库建设环境
作为整个欧共体行政体系的发动机,欧盟委员会(European Commission,EC)引导的开放科学运动极大推动了荷兰科研机构的知识库建设。欧盟“地平线2020”(Horizon 2020)的第三期计划中,将在2017—2022年间投资20亿欧元,建立连接欧洲各研究机构的开放科学云,旨在为欧盟研究人员提供一个免费、存储、分享、利用的云数据平台[4]。荷兰科研机构积极参与“地平线2020”计划,要求所有接受该项目资助的研究成果公开至知识库。欧盟委员会还推出欧洲研究与技术发展第七框架(Seventh Framework Programme for Research and Technological Development,FP7),要求其自主科研项目成果实施开放存取[5]。2007—2013年,荷兰超过1 200个组织参与FP7项目,其提案接受率是欧洲最高的国家之一(占比23%)。OAPEN(Open Access Publishing in European Networks)是欧盟2008年资助的另一个图书开放项目,OAPEN运营两个知识库,一个是OA图书目录数据库DOAB[6](Directory of Open Access Books),包含来自272家出版商的12 132个OA学术同行评议书籍和章节,旨在提高OA图书的可见度。另一个是OAPEN图书馆(OAPEN Library)[7],平台主要提供人文社会领域可免费获取的学术图书。荷兰的阿姆斯特丹大学、莱顿大学、乌得勒支大学、荷兰科学院、荷兰国家图书馆和阿姆斯特丹大学出版社均是OAPEN基金会成员。2011年9月,在荷兰OAPEN项目(OAPEN-NL)的资助下,荷兰专业学术出版商Brill的第一批OA图书在OAPEN平台发布。
为促进全球教育资源的共建共享,扩大教育机会,荷兰科研机构还积极参与欧盟以外的国际开放教育资源平台,推动知识共享,包括:欧盟于2013年建立的开放教育资源平台Open Education Europa、美国的教育知识管理研究 所(The Institute for the Study of Knowledge Management in Education ,ISKME)推出的OER Commons平台、美国和加拿大共建的社区学院开放教育资源联盟(Community College Consortium for Open Educational Resources,CCCOER)。此外,2014年,荷兰大学加入由24个国家约300家图书馆和13家学术出版商参与的联盟开放项目Knowledge Unlatched,以及由全球47个国家和政府的3000多家图书馆和学术机构联合成立的粒子物理领域开放存取资助协会(Sponsoring Consortium for Open Access Publishing in Particle Physics,SCOAP3),对特定领域的OA出版进行资助。
荷兰政府坚持受公共资助的研究成果应该被免费获取的观念。荷兰教育、科学、文化国务秘书桑德·德克尔(Sander Dekker)在2013年给荷兰众议院的一封信中宣布了荷兰政府的开放存取目标:五年内将荷兰学术文章的开放程度提高到60%,并在十年内(2024年)实现所有研究成果都能够通过开放的方式免费获取[8]。2016年4月,荷兰作为欧盟轮值主席国举办的阿姆斯特丹会议“Open Science-From Vision to Action”中,将全面实现OA的目标提前到2020年[9]。2017年2月,荷兰推出国家开放科学计划(National Plan Open Science)[10],计划集中在三个关键点:①促进科学出版物的开放获取;②促进科研数据的最佳使用和重用;③调整评估和奖励制度以促进OA,并建立专门的网站平台实时发布计划的实施情况。
2015年7月,荷兰众议院通过《版权法修正案》,该法案第25条规定[11],对于短篇科技作品的作者,若研究全部或者部分由公共资源资助,应当有权在作品首次发表之后的合理时间内,无条件将作品向公众公开,只需指明作品首次发表的来源。该规定包括以下几条解释条款:①短篇科技作品是指独立发表而非某一章节的作品,且少于8 000字;②“公共资金资助”包括由大学或者其他公共机构资助的科研成果;③“无条件向公众公开”是指通过有线或者无线的方式,使得作品能够被公众在单独选定的时间或者地点访问,作者不得收费;④作者享有和保留将其首次发表的作品向公众公开并被获取的权利,出版商不得通过合同限制作者的二次公开权。
为合理分配科研资金、保证科研质量和激励学者们参与机构知识库建设,荷兰政府还设立了两个组织专门资助OA出版:①荷兰科学研究组织(the Netherlands Organisation for Scientific Research ,NWO), 自 2015年 12月 1日 起,NWO更改“开放获取授予条例”的条款,将“尽快向公众开放”改成“出版时立即开放获取”。NWO还希望受公共资助的研究科研数据可供其他科研人员查找、访问、互操作和重复使用。为此,NWO在2016年10月1日起实施受资助项目数据管理政策,要求受公共资助的研究数据必须提交到机构知识库,以被公众发现、访问、互操作和重复使用。②荷兰皇家艺术和科学院(the Royal Netherlands Academy of Arts and Sciences,KNAW),KNAW提供预算资金以鼓励KNAW的研究人员和研究机构参与机构知识库建设,该机构认为基于公共资助的出版物和数据应当可以被自由访问。KNAW科研人员的所有出版物和数据都可以免费获得,建议立即提交机构知识库,最迟18个月,除非涉及隐私和法定条例。
荷兰有20个大型科研机构,包括11所研究型大学,5个医学中心,3所应用科技大学,1个学术中心。大型的机构联盟有14所荷兰研究型大学和应用科技大学共同组成的荷兰大学协会(de Vereniging van Universiteiten,VSNU)、荷兰13所大学图书馆与国家图书馆联盟(Universiteitsbibliotheken en de Koninklijke Bibliotheek,UKB),以及为荷兰教育和研究提供服务的信息、通信和技术组织(SURF),促进和监督荷兰科研数据管理政策的制定和实施的国家科研数据管理协调中心(National Coordination Point Research Data Management, LCRDM)等。
2005年以来,荷兰大学协会、国家图书馆联盟和信息、通信和技术组织都陆续签署了《关于自然与人文科学知识开放存取的柏林宣言》(Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities),以促进科研内容和软件工具的开放获取。2018年3月9日,荷兰大学协会发布了2018—2020开放存取路线图[12],在路线图中提出了以下五个措施:①与大型出版商谈判,签订OA协议,否则荷兰大学将只与提供OA出版且无需支付额外费用的出版商合作。②加强国际合作。通过联盟提高大学等学术机构的议价能力,向出版商施加更多压力。③建立机构仓储。截至2016年底,荷兰所有大学均建立机构知识库,以确保2020年开放全部科研成果。④制定监督规则。协会与一些专家联合制定关于OA出版物监督的规则,大学基于这些规则于2016年对OA进展进行正式监控和研究。⑤开发替代出版平台(Alternative publication platforms)。为减少对出版商的依赖和提高大学的谈判地位,大学联盟积极探索自主开发提供OA出版的开放式平台,替代出版商平台。如2017年底,阿姆斯特丹大学历史学家Geltner发起建立的ScholarlyHub,旨在用最低成本实现科研人员与社会的最大连接。2016年,阿姆斯特丹大学的Jean-SébastienCaux教授创建SciPost平台,其旗舰平台SciPost Physics在短短一年内已经发布了70篇OA出版物,并被纳入DOAJ(Directory of Open Access Journals)中。
荷兰其他科研机构也用实际行动响应国家的开放科学计划。2015年7月,图书馆联盟签署与OA相关的《海牙宣言》,一致同意学术成果和研究数据不应该存在版权限制,每个人都应该有分析事实和数据的自由,许可证和版权规则不得对此类活动构成障碍。根据该声明,欧洲版权规则必须明确规定,作者不会因与出版商签订合同而失去使用或重复使用数据和文本的权利[13]。2018年3月,乌得勒支大学(Utrecht University)和蒂尔堡大学(Tilburg University)发布2018—2020的开放科学草案(Open Science Programmes)[14],草案与国家开放科学计划紧密相关,蒂尔堡大学计划与开放科学实验室(Open Science Labs)进行合作,开放大学的自出版期刊、图书、教育资源和预印本,并成立金色OA专项基金,发布黄金开放获取期刊,以及开展开放科学技能培训和启动开放科学校园网络。
荷兰所有大学都有自己的机构知识库,也有机构将同类学科的资源进行整合,建立区域性的机构知识库,使知识得到合理且有效的收集整理以便长期储存。如人文社科知识库4TU.ResearchData、生命科学技术中心的知识库DTL(Dutch Techcentre for Life Science)等。其中由政府资助并由荷兰科技大学建立的开放教育资源的知识库HBO,提供了超过42 000份教育资源,种类包括:在线讲座,文本、图像、声音或视频等开放内容,教材,课件,慕课等[15]。它还提供荷兰高校毕业论文的平台SCRIPTIONS-ONLINE,高校师生可以利用该平台检索各主题领域的的相关论文以及确定毕业论文选题。为实时公布荷兰开放科学运动进程,2014年12月,荷兰图书馆联盟、荷兰大学协会、荷兰科学研究组织和高等教育信息技术合作组织等学术机构联合建立Open Access网站,对外提供所有关于荷兰OA进展的信息。
为了减少资源重建和浪费、提高学术资源整合效率,荷兰14所研究型大学和应用科技大学、13所大学图书馆和国家图书馆、科研组织NWO、皇家艺术科学院KNAW等多家机构在国家支持下,将各分散的机构知识库统一起来建立国家级机构知识库DARE,形成覆盖全国的科研信息资源库,并创建强大的学术门户网站NARCIS,实现用户对所有资源的一站式检索,通过方便快捷的功能模块增强平台的用户友好性,提高资源的使用率和传播范围。
荷兰的机构知识库联盟工作机制如图1,各高校和科研机构的科研信息在生产后存储在各自的管理信息系统中,即分散独立的机构知识库,系统会将信息提交到联盟建立的国家级知识库DARE和科研数据库NOD中,随后信息被收集整合至全国统一的科研信息门户网站NARCIS供广大用户使用,同时知识库会将科研成果永久存储在国家或国家图书馆建立的数据存档与网络服务系统中。除了国内资源共建共享,知识库还与大型Google和Yahoo搜索引擎相连,将科研成果在全球范围传播,最终完成科研信息生产、输出和永久存储的流程。
图1 荷兰机构知识库DARE联盟工作机制[16]
荷兰皇家艺术与科学院KNAW、科研组织NWO以及13所大学是整个国家主要科研信息生产机构,每个科研机构都有自己的研究信息系统和知识库,这些系统大都存储关于研究项目、研究人员、研究机构、出版物、数据集等元数据相似的信息。其中科研组织NWO作为各大学的重要科研资助机构,截至2018年12月共设立222个拨款计划资助科研活动,并要求受资助的项目成果必须“在出版时立刻开放获取”,因而要与大学的科研信息管理系统建立信息共享联结。
机构先将科研成果通过各自的知识库接口存储到科研数据库NOD和联合电子学术仓储DARE。其中,科研数据库NOD是由KNAW的研究信息部门维护运行,该数据库不仅收录所有学科正在进行或刚结项的研究项目信息,并且是一个信息高度结构化的关系型数据库,可深度揭示项目、科研人员和研究机构之间的关系。DARE是于2003年1月启动的国家级联合电子学术仓储,由荷兰的国家数字高速公路行动计划(National Action Plan electronic highway,NAP)与信息通信和技术组织SURF资助,用以推动荷兰全国甚至是全球范围学术信息的开放存取,是国家级联合开放存取仓储的成功典范。DARE项目的仓储建设注重标准化和互操作,要求每一所大学的机构知识库统一使用OAI-PMH协议(Open Archives Initiative- Protocol for Metadata Harvesting)存储本校师生员工的数字研究成果,这种互操作协议标准能够提高学术资源的互通性和共享范围,并且DARE系统只接受PDF和WORD格式的预印本或后印本,格式的统一也有利于各机构知识库实现资源整合。
在科研成果输出过程中,为了让用户更便捷、广泛地获取信息,DARE于2004年9月启动子计划“国家学术研究合作信息系统”NARCIS,目标是建立所有科研数据的一站式检索中心,将各种结构化科研信息、开放存取机构知识库资源、各大网站及研究机构官网的信息集成到NARCIS平台,其技术应用原理如图2所示,共分为6部分:①与各科研项目注册系统链接,通过参与不同机构的信息管理流程来收集科研数据,这种工作方式可最大限度减少研究人员和研究机构的行政报告负担和时间成本,并且提供一次登记多渠道共享的便利性;②开发基于XML-SOAP(简单对象访问协议)的信息交换模式,XML-SOAP是一种轻量级协议,具有表现力、可扩展性和跨平台的优越性能,可以在分散的分布式环境中交换信息,使信息可以准确、及时、安全地传送到NARCIS系统中;③使用OAI-PMH协议收集知识库数据,因为机构知识库都使用OAI-PMH协议存储信息,协议一致能够保证元数据收集的完整性,便于用户在搜索某一研究项目或研究人员时也能一并获取相关科研成果信息;④安装爬虫工具,NARCIS主要用开源的爬虫工具J-Spider,并把抓取的格式调整为科研成果常用的PDF或RTF格式,从而提高所抓取信息的价值。此外,NARCIS还单独开发一个界面来执行爬虫任务,该界面可以根据用户的特殊需求进行爬虫定制。如限定访问的网站,甚至限定访问网站的特定部分,并将访问结果存储到NARCIS数据库中,因此,与某一科研项目相关的新闻报道或全文出版物可在NARCIS中一键检索,并提高信息检索的时效性;⑤开发用于自动分类的Web工具——NOD,通过不同方式收集到的大量科学信息需要一种自动分类工具提高管理效率,并且用户可以按类别进行详细检索。NOD就是这种分类工具,其中有259个学科类别,分类程序基于开源搜索引擎Lucene的功能设计,能够检索大量的训练集(Training Set),将相似的类别自动归纳或添加到门户网站中,然后根据信息描述把未知类别的新文档自动分配到已知类别中;⑥构建门户网站,网站的外观设计是参照谷歌式构建简单便捷的搜索界面,并根据前期邀请荷兰信息专家参与平台试运行的调研结果进行调整,包括网站的主页“外观和感觉”、搜索功能和限制选项、搜索结果的显示类型3个主题以及网站的用户友好性问题,这种以用户体验为核心的网站设计更具实用性,还能提高信息检索效率和资源的使用率。
图2 NARCIS平台技术路线
早先荷兰的科研成果大都长期存储在国家图书馆建立的数据存档与网络服务系统中,但随着数字科研成果的增加,存储空间成为资源永久保存的难题,对此,荷兰皇家艺术与科学院和荷兰科学研究组织于2005年建立数据存档与网络服务机构知识库 DANS(Data Archiving and Networked Services),为数以千计的科学数据集、出版物和其他研究资料提供长期存储服务。DANS通过在线存档系统来提供不同学科研究数据的存取服务,科研人员可以通过系统进行可持续归档和重复利用科学数据,系统为每个数据集和数据文件分配一个数字对象标识符(DOI),方便用户引用,并且DANS存储的所有数据均从NARCIS门户网访问。DANS同时管理另一个荷兰科研数据共享网站DataverseNL,负责科研数据的短期和中期存储,荷兰的大学和研究机构都是其成员,参与机构可以在线存储、分享和登记研究期间甚至研究完成十年后的数据。DANS还与SURFsara合作推出人文社科领域数据永久存储和访问平台4TU.ResearchData。2013年2月,DANS启动CLIO-DAP项目(Data Availability Policy,DAP),鼓励经济和社会历史领域的重要期刊共享科研数据。
荷兰实施机构知识库联盟战略的最大特点是在政府、学术基金会、大学、科研机构、图书馆、科研人员和出版商的多方合作与协调过程中进行,在大环境的支持和引导下科研人员的参与意愿高,每个机构不仅仅专注于建立单个机构知识库,更重视区域性乃至全国性的知识库建设。大规模的资源共建共享有利于提高学术成果的可见度和利用率,从而提高科研人员、机构的学术影响力。我国的机构知识库创建时间较短,荷兰国家级机构知识库DARE的外部环境和内部运行机制可为我国区域联盟机构知识库的建设提供如下启示:①政府加大引导和扶持力度,从政策、经费、法律、计划等途径保障科研数据的共享利用,发挥支撑和推动作用;②高校、研究组织和图书馆等机构需联合起来,加大开放科学的宣传力度,制定自存储或强制存储政策,并将开放存取的科研成果纳入学术评价体系中,提高科研人员资源共享意愿;③在资源创造、输出、扩散、整合、利用和长期存储的过程中,规定统一的存储协议、传输接口和分类标准,保障区域知识库资源的完整性和有效性,缩短知识搜寻与信息匹配的时间,提高知识转移的效率,降低知识库运行成本,实现平台的可持续发展;④为用户提供便捷实用的一站式检索入口,优化用户使用体验的同时提高资源的利用率,在检索界面利用爬虫软件抓取非正式结构的科研信息,如新闻报道和实验日志,给用户提供全面且个性化的学术资源。
总体而言,机构知识库已经成为数字时代开放科学运动中的关键环节,而且知识库之间跨学科、跨地区的联合建设将越来越多。我国科研机构要充分重视机构知识库在科研交流、知识共享中所起的作用,在借鉴国外机构知识库建设经验的基础之上,探索适合我国的运行机制,建设可持续发展的区域性机构知识库,营造开放的学术交流环境。
(来稿时间:2019年1月)