机构知识库存在问题及应对策略

2017-09-16 06:22翟中会
山东图书馆学刊 2017年4期
关键词:印本知识库全文

翟中会 石 蕾 李 凌

(西安交通大学图书馆,陕西西安 710061)

学术论坛

机构知识库存在问题及应对策略

翟中会 石 蕾 李 凌

(西安交通大学图书馆,陕西西安 710061)

机构知识库集中展示了机构的研究成果,对促进学术交流,提升机构和机构人员学术影响力具有重要作用。本文分析了研究人员单位变化、操作复杂、缺乏集中的资源、分散控制等对机构知识库发展的影响,在此基础上提出了相应的改进策略。

机构知识库 发展策略

机构知识库用来发布本单位的研究产出,包含大量的电子论文、灰色文献和其他数字对象等。从2010到目前为止,国内外出现了大量的机构知识库和学科库,许多大学图书馆都开始建立本单位的机构知识库,目前MIT的DSpace@MIT和加利福尼亚大学的机构知识库是存储本单位学术产出最多的两个机构知识库,DSpace@MIT机构知识库收录了科研人员44%的学术成果,加利福尼亚大学机构知识库收录范围达到25%。虽然机构知识库经过6年多的快速发展,已经取得了丰硕的成果,但仍然存在大量的问题:如机构知识库缺乏基本的元数据互操作标准;机构知识库和研究管理系统之间的关系;机构知识库如何解决论文不同版本问题;机构知识库在重视开放获取的同时,是否应该同时兼顾长期保存等问题。本文总结了当前机构知识库存在的问题,在此基础上,提出了相应的改进策略。

1 机构知识库存在问题

1.1 研究人员单位变化对机构知识库的影响

大多数研究人员在整个职业生涯中最少有两个单位(如果包括博士期间,单位可能更多),如果将学术成果存储在某个机构知识库,当学者离开这个单位后,机构知识库包含的浏览和下载等统计数据不能和下一个单位机构知识库的统计数据聚合。目前许多机构知识库采用ORCID解决这种问题,采用ORCID在不同机构知识库间推送学术成果元数据,但全文还是存放在最早的机构知识库中,并没有在作者新的单位机构知识库中存放复本。

机构知识库通过对那些没有全文的记录列表增加复本请求按钮(copy request button)规避延迟,用户在浏览元数据记录时点击复本请求按钮请求作者发送论文复本。但是当作者离开一个单位后,而机构知识库还列着作者无效的E-mail,机构知识库的复本请求按钮由于单位的变化而失去作用。

相对于机构知识库,如果研究人员在ResearchGate或SSRN等学术社区建立自己的简历并存储学术成果,无论单位是否发生变化作者都能够控制他们的学术成果。且这些学术社区列出的作者E-mail地址不会失效。另外学科知识库也不会出现这种问题,单位虽然可能发生变化,但研究者的学科和主题不会变化。

1.2 机构知识库元数据缺乏一致性

尽管许多大学机构知识库基本上都采用了Digital Commons、Dspace、Eprints等几个软件作为机构知识库平台,但是这几个软件由于不同的定制和特性设置而差异非常大,每个机构知识库有自己的分类、主题以及字段等[1]。由于没有标准的元数据和内容等,当用户使用CORE、BASE等机构知识库搜索引擎时,获得大量混乱格式的数据。国外OpenAIRE (Europe)、LA Referencia (Latin America)和Nii (Japan)等组织正在努力标准化机构知识库元数据。

1.3 机构知识库操作复杂且性能滞后

相对于学术社交网络,机构知识库在存储数据时操作复杂,用户在Researchgate中存入一条记录时,Researchgate会自动在Sherpa/Romeo数据库检测论文的存档权限(提供了一个出版社版权情况清单,包含了作者在线存档著作的不同权限,绿色出版:允许存档预印本和后印本;蓝色出版:允许存档后印本,不允许预印本;黄色出版:允许预印本,不允许后印本;白色出版:不允许存档)。如果允许存储,鼓励作者存储该记录的全文。另一方面,Researchgate记录了浏览、下载和阅读信息,作者甚至可以根据这些信息要求用户做出评论。从这点来看,Researchgate比一般机构知识库具有更好的创新性,而Dspace、Eprint等系统缺乏这种创新性功能。

1.4 使用过时的OAI-PMH协议

现有的机构知识库平台还采用10多年前的OAI-PMH协议,OAI-PMH协议不是资源发现和互操作的最佳选择。如果要降低机构知识库之间对被动聚合的依赖,就不应该采用OAI-PMH协议,而应该采用基于主动发布,如点对点架构、订阅通知模型[2]。google学术已经抛弃了OAI-PMH这种过时的协议,转而支持Highwire、Eprints、BE出版社以及PRISM标签,其余的学术论文全部采用Dublin标签[3]。

1.5 机构知识库缺乏集中的资源

机构知识库只适合存储资源,而不适合检索和浏览资源。首先,每个机构知识库是一个独立的筒仓,没有足够的集中资源,即使机构知识库的论文全部有全文,这种独立的筒仓也不适合检索和浏览一个主题内容。其次,一个大杂烩的内容格式,使许多查询功能不可靠。而国家机构知识库(如PubMed)和学科机构知识库(如ArXiv)消除了局部特点,比分散的单位机构知识库更加有用。

1.6 分散控制

大多数学者在整个职业生涯中可能更换工作单位,根据产出单位分散一个学者的成果很不合理。一方面造成学者管理多个账户非常不方便。另外不同单位政策也会发生互相冲突,多数机构知识库支持开放获取(OA),但是在取得必要的支持和建立共识的过程中,各级管理机构和学院委员会强加了一些本地规则和条款。

1.7 缺乏社交

研究成果是一个群体共同努力的结果,目前使用的机构知识库平台都缺乏社交功能。而学科机构知识库(如ArXiv和SSRN)、社交网络(如Academia.edu、Mendeley、Zotero、Figshare)都有强大的社交功能。

1.8 机构知识库聚合器存在的问题

采用OAI-PMH收割独立机构知识库内容可以建立机构知识库聚合器[4],现有的机构知识库有的仅有元数据,有的带有全文,但在机构知识库中没有指示是否有全文的字段,聚合数据时就不能辨别那条记录是否有全文,如BASE系统就不能完全确定那条记录是否有全文。不同的机构知识库采用不同的元数据标准,论文主题和作者提供的关键词不一致,在学科分类中没有使用控制词表或主题词表,这些问题导致机构知识库聚合器获得大量不一致的数据。如在OADOI.org输入DOI不能检索到机构知识库中的论文复本,就是由于机构知识库元数据不支持DOI。

2 解决机构知识库问题的对策

2.1 机构知识库应该有多个目标

机构知识库支持开放获取的同时,更应该培育创新性的学术交流形式,并且促进基本的学术证据(即数据)的保存。目前有许多机构知识库仅存储元数据来展示单位的产出,很少存储全文,Converis、Pure、Vivo就是这种类型的系统,这些机构知识库只是为了展示单位的学术产出而不是为了支持开放获取。机构知识库应该兼顾支持开放获取、成果展示、收集非传统学术产出(灰色文献、ETD(电子学位论文)、开放教育资源、数据集等)、长期保存等多个目标。

2.2 不同类型机构知识库应明确存档内容和存档目的

建立机构知识库时应该有一个明确的目的,不同的机构知识库存储的内容、储存什么时期的论文、存储的目的应该有所不同,下面列出了不同机构知识库在存储时间和存储原因上的差别(表1)。

表1 机构知识库存档的内容、时间和目的

大多数学者将学术成果提交到学科库主要目的是为了得到同行的反馈、加速科学交流。论文提交到学科库后可能会发生三种情况;立即提交给期刊、经过多次修改后提交给期刊、最终没有提交给期刊。这导致有的学科库内容和后印本内容不一致,甚至没有后印本。相对于学科库,研究人员很少向机构知识库提交投稿以前的版本(预印本),大部分只提交论文的后印本或最终版,作者的目的是为了提高低级别的学术论文以及接近出版的论文的访问量,进而能够提高这些学术论文的引用率,所以提交到机构知识库的内容很少再发生变化。

2.3 借鉴学科库和学术社交网络的社交功能

相对集中的学科库和学术社交网络(researchgate),机构知识库缺乏互操作性和网络效应。近几年来,学科库和学术社交网络发展发展非常迅速,其中researchgate和academia.edu是两个最重要的学术社交网络。随着大量开放获取论文出现在学术社交网络或学科库,越来越多的人通过这些网站浏览和搜索论文,另外这些网站有强大的社交功能以及引用和浏览数据统计功能,如社会科学研究网络SSRN可以根据论文数量列出全球商学院的排名(图1),而机构知识库缺乏这些功能。国外也有一些机构建立了机构知识库聚合平台。如Bepress Digital commons能够聚集各种孤立的Dspace机构知识库数据,在这些系统中能够进行一些简单的对比分析。

图1 SSRN排名前10的商学院

2.4 机构知识库和科研工作者工作流整合

机构知识库和研究管理系统整合(图2),首先,机构知识库和研究管理系统可以重用数据,另外能够用这些数据推送到科研人员的简历系统。目前典型的应用系统有Pure、Converis和Symplectic elements等。Scholars@Duke是一个联合Symplectic和VIVO构建的一个整合系统,这个系统实现了机构库和大学研究管理系统互相推送数据,机构库向科研人员简历系统推送数据。

图2 机构知识库和研究管理系统整合

出版系统整合到机构知识库(图3),佛罗里达大学利用Sciencedirect API将机构知识库和Elsevier进行整合,机构的论文元数据将自动从Sciencedirect填充到机构知识库,机构知识库和简历、期刊投稿系统建立链接关系。但这中做法的缺点是论文的全文仍保存在Sciencedirect。

机构知识库整合到出版社,除了将后印本整合进机构知识库,相反也可以将机构知识库中的预印本整合到出版社提交系统。PLOS论文提交系统和机构知识库Bioarxiv进行了整合。总之,扩展机构知识库工作流,使其更好的支持研究生命周期,机构知识库和其它系统整合可以提高机构知识库的内容摄取,支持研究成果的自动持续出版。

图3 出版系统整合到机构知识库

2.5 采用立即存储/选择访问模型

Liège大学建立的立即存储/选择访问模型(Immediate-Deposit & Optional-Access,ID/OA)取得了很大成功[5],ID/OA专门为了应对期刊的延迟或时滞,ID/OA是指作者在论文出版后应立即在机构知识库中存储该论文的最终版或后印本,同时作者可以设置立即开放获取或暂时关闭访问全文权限(仅能够访问元数据),但一般建议尽快设置为开放获取,如果有时滞的话,最好设置为6个月内。ID/OA政策比延迟存储(delayed deposit)和根据出版社的版权限制而选择退出(opt-out)更加有效,限制仅针对访问权限而对延迟没有限制,也没有出版社的版权政策限制[6]。如果有一个滞后时期,机构知识库软件采用“EMAIL EPRINT REQUEST”请求按钮向作者请求一个复本,这几乎提供了一个延迟时期的立即开放获取效果。采用这种政策有两方面好处:①大学管理机构可以实时跟踪学术产出,从机构知识库能够获得这些统计数据;②研究成果能够立即获得可见性和重用,截止2016年12月,ORBi包含9万多条记录,其中61%有全文,每天超过2400次下载量。

2.6 机构知识库聚合器应解决的问题

如果只是建立OAI-PMH收割器,机构知识库向接口(VUFIND、Summon、EDS等)提供所有的数据,而不对这些数据进行标准化,这是毫无意义的事情。要使机构聚合器更加有用,需要考虑下面几个问题:①仔细检查收割的条目是否有全文,检查是否有全文的一种方法是通过机构知识库提供的一个标识全文的元数据字段,但并不是所有机构知识库有这个字段。另一种方式尽力扒取机构知识库中的pdf全文;②尽可能索引全文而不仅仅索引元数据;③提供关键词发现外的增值服务;④采用SWORD代替作者从学科机构知识库推送或拉取全文;⑤COUNTER和ORCID结合解决跨机构知识库汇总统计问题。

2.7 增加学术成果可见性

西班牙网络计量实验室根据从网页规模、能见度、文档丰富度及学术成果数4项指标对全球知识库进行排名,其中增加学术成果可见性和引用是机构知识库一个非常重要的任务,在这方面ULG图书馆做的非常好。例如,文献存储在ORBi一小时后便能在google中搜索到这篇论文,也能被其它搜索引擎(google scholar、OpenAIRE、Base、Driver和Isidore等)收割。

2.8 作为研究信息管理系统的一个子系统

研究管理系统不但包含科研人员的简历,而且能从不同平台拉取研究人员的论文、获奖以及教学等内容。过去一直认为机构知识库和研究信息管理系统是两个并行的管理系统,两个系统也没有建立互操作关系。许多研究表明机构知识库应该作为研究管理系统的一个子系统,机构知识库中的学术内容能够通过研究管理系统增加可见性。

Scholars@Duke是一个联合Symplectic和VIVO构建的一个研究信息管理系统,能够对研究人员和研究主题进行搜索。在这个系统能够找到Duke大学研究强项并且能够和Duke大学的研究人员进行交流。该系统的一个缺点是如果你链接科研人员的学术成果时,由于受到许可和订购限制,导致许多链接无法打开。如果用机构知识库作为这个系统的补充,就能够避免上面的死链问题。

3 结语

机构知识库的短期目标包括支持数据导出、支持作者身份系统、支持搜索引擎优化(SEO)、公开出版物列表、整合不同的标识、公开文献计量信息、公开使用统计、支持额外的元数据格式。中期目标包括支持授权和验证、提高平台的稳定性、支持机构服务、有效的机构知识库元数据、支持在机构知识库注册系统的可见性、整合可用性服务、支持嵌入式服务、支持机构知识库排名系统、支持版本信息、支持去重、提高注册设施、监控开放存取授权。长期目标包括支持可视化工具、支持关联数据、扩展或修改元数据协议、处理复杂的嵌套机构知识库对象、支持长期保存和存档。

〔1〕 傅平,刘华.机构库:特性、利益和软件平台选择[J].图书馆学研究,2016(5):31-36

〔2〕 翟中会,石蕾.基于扩展OAI-PMH协议的机构库流控制和数据同步研究[J].情报探索,2013(8):102-104

〔3〕 翟中会.Google与Google学术及图书馆传统数据库差异性研究[J].图书馆工作与研究,2015(12):31-33

〔4〕 梁娜,张晓林.机构知识库的互操作需求和互操作规范框架[J].现代图书情报技术,2013(9):1-7

〔5〕 蒋逸颖,周淑云.中美开放存取知识库建设比较研究——基于OpenDOAR的分析[J].图书馆杂志,2016(6):80-87

〔6〕 刘红玉,罗南,何冰.国内高校机构知识库建设现状及对策研究[J].图书馆工作与研究,2016(7):51-55

〔作者介绍〕 翟中会,男,硕士,副研究馆员,发表论文16篇;石蕾,女,馆员,发表论文7篇;李凌,女,硕士,馆员,发表论文7篇。

TheProblemsofInstitutionalRepositoryandCopingStrategies

Zhai Zhonghui Shi Lei Li Ling

The institutional repository has a significant role in promoting the academic exchanges, and the academic influence of institutions and their personnel. The paper puts forward the corresponding improvement strategies based on the analysis of the problems existing in the knowledge base of the organization such as organization change of researchers, complexity of operation, lack of centralized resources and decentralized control.

Institutional repository; Improvement strategy

G250.74

A

猜你喜欢
印本知识库全文
开放融合环境下预印本发展态势分析*
全文中文摘要
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
全文中文摘要
国际学术出版机构预印本政策分析*
青年再造
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
明活字印本《适情录》排印技术考
构思精巧余味无穷 讽刺鞭挞淋漓尽致——再谈“虚荣”贯穿《项链》全文