刘晓慧 刘兹恒
(1.北京大学信息管理系 北京 100871)
近年来,数据已经成为驱动科学研究的战略性资源,数据的开放存取也备受关注。但数据共享仍然面临诸多问题,如数据存在被恶意使用和篡改的风险、数据生产者的回报无法保证等因素都会影响科研人员的共享意愿。激励数据生产者参与共享需要保证其成果得到认可和尊重,其中一个解决方法是规范数据的引用工作,即将数据像文献一样进行标引,明确其责任者和所有权,使用者必须按照规定格式注明数据来源,从而保证数据成果受到重视,同时能够进行数据影响力评价。
目前数据引用的发展刚刚起步,面临着技术、制度、意识等各方面的问题。为进一步完善数据引用理论,推动相关实践的发展,国际组织、数据仓储机构、科研机构以及出版商等各利益相关方都积极开展了数据引用的研究。如国际科学理事会数据委员会设立了数据引用标准和实践任务组,目前已在多个国家开展了共十次数据引用实施研讨会;国际社会科学信息服务和技术协会(International Association for Social Science Information Services and Technology,IASSIST)设立了数据引用特别兴趣组 (The IASSIST Special Interest Group on Data Citation,SIGDC),发布了数据引用快速指南;汤森路透集团(THOMSON REUTERS)于2012年推出数据引文索引(Data Citation Index,DCI);数据仓储库 Dryad 也推出了数据引用指南,规定了引用Dryad数据的格式。
学术图书馆对数据引用的参与也必不可少,一方面是解决数据引用发展过程中的问题需要图书馆的参与协助,另一方面也是图书馆在新环境下拓宽业务发展、完善用户服务的要求。但在众多的利益相关方中,学术图书馆具有什么样的优势、应该在哪些方面提供支持和协助,解决了定位和角色问题才能指导图书馆有效地参与数据引用工作。
数据引用(data citation)是指在特定的标引规则下,通过一定的标识技术和方式,对于引用的数据对象进行描述的实践,其过程类似于为期刊文章、报告和会议论文等提供书目参考的方式。数据引用涉及引用元素、粒度、格式等的选择与排列,还要考虑用户需求、系统可操作性等因素,具有一定的复杂度。
1.1.1 协助建立数据信用
一个数据成果往往有多人参与完成,不同的数据版本和粒度包含的责任者及其贡献情况也各不相同。规范的数据引用环境下,要求能够明确不同粒度的数据责任者情况,让所有相关人员的贡献得到认可。当明确数据责任主体成为可能,就可以为数据生产者及科研人员建立数据信用。当数据信用成为科研人员的另一张门面,也就意味着其数据成果得到了正视,能有效激励其参与数据生产和共享工作,进一步促进其数据质量控制意识的提升。
1.1.2 提升研究透明度
在传统的学术体系下,科研成果的计量主要以文献为主,而支撑科研成果的重要资源——数据,其生产、收集和使用等过程并不透明。当研究发现与其论证数据相脱节时,便会产生很多潜在风险,如科学欺诈、数据造假等。数据引用能够在一定程度上避免这些问题。数据引用是在科学传播过程中使数据和出版物保持一致的主要机制,其重要功能是将数据与其支撑的研究论文相连接,将数据从隐秘的研究过程提升到公众的面前,保证研究的透明度。
1.1.3 增加数据重用和协作
数据引用为发现和重复利用数据集提供了途径,研究人员可以根据相关领域研究文章中的数据引用条目定位数据,了解获取适用数据的方式,从而对数据进行深入挖掘,提高数据利用率,避免重复劳动;其次,数据引用也能有效促进基于同一数据集的协作研究,在明确数据责任主体和所有权的基础上,规范的数据引用让更多科学研究者愿意加入到数据开放共享的队伍中来,同时也便于吸引相关研究者合作利用数据开展研究。
1.1.4 促进科学数据影响力评估
科学数据影响力是指应用科学数据对学术、社会、经济等多方面产生的有益影响。数据影响力评估的实施仍然面临很多困难,如如何识别和计量数据的使用情况。数据引用在一定情况下解决了这个问题,就如文献一样,将数据按照统一的格式进行标注,数据的使用情况可以被查找和追踪,从而可以统计数据的被引情况、重用频次等内容。
1.1.5 完善科研数据管理工作
科研数据管理包括数据描述、存储、长期保存到数据出版、共享、重用的一次完整的数据处理过程,在数据密集型研究范式下对科学研究的发展具有重要意义。科研数据管理工作涉及数据生命周期中的一系列活动,数据引用是其中重要的内容,和数据保存、共享以及重用等环节联系紧密,这些环节共同促进了科研数据管理工作的发展,缺一不可。
1.2.1 技术与工具
数据引用面对的技术问题包括内部和外部两个方面的挑战。从内部来说,数据引用对象具有模糊性、动态性、复杂性等特点,给引用工作带来了一定的困难,主要问题集中在数据引用粒度和动态数据集处理上。数据引用的对象主要分为数据库、数据集、数据产品、数据记录四种类型,其中最常用的为数据集,一个数据集下可能包含多个子集以及独立的数据表格,如何选择适用的粒度等级以及处理不同粒度之间的关系表现形式是在引用时需要思考的问题;数据集的动态性包括数据更新、修订、删改等系列问题,不同于文献资料,数据产生的变动体量较大且可能过于频繁导致难以追踪和管理,如何在引用中处理动态数据集及各个版本之间的关系也是另一个挑战。
数据引用的外部问题来源于数据长期保存和获取。数据引用的前提是要有确切的数据位置,也就意味着需要解决数据长期保存、维护以及获取等方面的问题,而目前关于数据的长期保存工作尚未发展成熟,保存期限、维护更新、获取权限等都会给引用工作带来一定影响。
由于数据引用涉及多个引用元素,且具有严格的格式要求,实际应用中具有一定的难度。科研人员需要专业的工具协助其完成规范的引用工作。但目前具有类似功能的工具和平台较少,如张静蓓等对18种文献管理软件进行调研,发现只有3种工具具备引用数据库、数据表格、数据文件的功能,且尚无可以在论文中自动索引数据引用的工具。随着数据引用的发展,专业的引用工具的研发和推广使用也应该得到重视。
1.2.2 意识与文化
引用意识和文化的缺乏是阻碍数据引用发展的另一因素。从个人层面来说,科研人员关于数据引用的了解程度和态度会影响其选择。对于数据生产者来说,数据是凝结其心血的宝贵成果之一,其是否能够同意他人使用自己的劳动成果并进行引用?对于数据使用者来说,其是否能意识到数据引用的必要性并能够按照规范做好数据引用工作?让科研人员认识到数据引用的必要性及益处,并能够培养其开展引用工作的基本能力与素养是解决问题的关键。
引用意识的培养不能仅靠个人努力,还需要整个大环境的变化。惯性思维中只是把数据作为研究过程中的一部分,如何改变这种思想观念,将数据作为正式的研究成果看待,打造良好的数据引用环境,形成规范的引用文化,这对于组织和国家来说是一个重大的挑战,但引用文化一旦形成将会对数据引用工作产生积极作用。
1.2.3 制度与标准
统一的引用形式有利于更大范围的数据共享和利用,也能便于引用的质量评估和管理。目前国际数据组织、科学数据研究机构、数字知识库、数据出版商和图书馆等都在尝试制定相关标准,如DCC于2012年发布的 《如何引用数据集并关联出版物》(How to Cite Datasets and link to Publications); 中国国家标准化管理委员会于2017年发布的《信息技术科学数据引用规范》(GB/T 35294-2017)。但目前各方提出的引用规范中关于引用对象、引用元素和引用格式的要求都存在较大差异,使用范围和形式也有所不同,不利于数据引用的标准化发展,也为科研人员的使用带来了不便。
除此之外,数据引用还涉及著作权保护问题。如不能保证数据生产者的著作权,很难从根源上杜绝数据抄袭和滥用的情况,也很难让生产者放心加入到数据共享的队伍中。面对不按照规定引用数据的情况,法律法规是保证数据生产者利益的强制性的措施。目前,我国关于科学数据保护的制度和法规建设刚刚起步,需要积极借鉴国外经验,逐步建立完善的科学数据著作权保护体系。
学术图书馆包括研究型大学图书馆、科研机构图书馆和部分具有学术功能的其他类型图书馆,具有促进学术交流与传播、支持教学科研活动的使命和责任。学术图书馆的参与对于数据引用的发展有着不可替代的作用与优势,一方面,学术图书馆的机构性质和工作内容决定了其在处理相关领域的问题上本身就具备一定的资源和经验优势;另一方面,数据引用工作是学术图书馆数字学术背景下业务拓展和服务用户的重要内容,所以学术图书馆在开展相关工作时具有较强的内在动力,这样的积极性也会进一步促进工作的发展。
首先,学术图书馆是遍布各个高校以及科研机构的重要力量,直接面向众多研究者开展服务,得到它的参与,能更大范围地影响数据生产者和使用者,对于提升科研人员引用意识、培养能力和素养、创建数据引用文化具有重要意义;其次,长期以来,学术图书馆积累了丰富的数据管理和文献引用计量工作的经验,能够从管理和服务用户的角度对数据引用的发展提出宝贵的意见,推动数据引用技术和工具的发展;第三,图书馆具有一定的人才和资源优势,能够支持数据引用工具的研发以及推广试用,在实践中促进技术和工具的发展;第四,图书馆与数据库商、出版商、科研机构、资助者等有着稳定的合作渠道和丰富的沟通经验,对于协调数据引用工作相关利益方,促进基于数据引用工作的合作和标准化工作统筹有着重要作用。
数字环境下,学术图书馆面临着如何将自身业务与现实需求相结合,与时俱进以更好地发挥自身的使命价值的挑战。科研数据管理、数据出版、数据素养教育等工作已经纷纷进入图书馆业务范围。美国大学与研究图书馆协会(The Association of College and Research Libraries,ACRL)发布的《2016 年学术图书馆发展趋势》就提到科研数据服务、数据政策和管理计划等多个数据管理相关的主题内容。欧洲研究图书馆协会 (Association of European Research Libraries,LIBER)发布的《欧洲学术图书馆研究数据服务》报告也指出学术图书馆提供数据管理计划和数据引用实践等服务。参与推动数据引用工作符合学术图书馆的支持科研发展、服务教学科研的价值使命,也是图书馆在新环境下拓宽业务发展、完善用户服务的必然之路。用户日益增长的数字化需求将会转化成为学术图书馆积极开展数据服务的持续动力,而这种动力也会促进图书馆在该领域积极进行研究探索、创新服务和解决问题。
本文以国内外现有相关研究为线索,调研了国外数据引用项目、工作组以及学术图书馆,并从官网上获取其开展数据引用研究和实践的具体内容,对其中学术图书馆的参与形式和内容进行总结,发现目前国外学术图书馆主要通过两种途径参与数据引用相关工作:一种是以机构身份参与数据引用联合项目,包括制定数据引用规范、成立数据引用合作组织等;一种是面向用户提供数据引用相关服务,如提供数据引用指南、开展在线咨询服务等。
为促进数据引用理论及实践的发展,一些学术图书馆、研究机构、数据中心等成立联合小组,集合各方之力共同推动该领域的研究和实践工作。其中关于数据引用比较有代表性的是Datacite和Dataverse项目。
DataCite是由德国国家科技图书馆、加利福尼亚数字图书馆、普渡大学图书馆等于2009年联合成立的非营利组织,致力于推动数据引用发展。Datacite的主要工作是推动数字对象唯一标识符(DOI)的创建和分配,协助研究者识别和引用研究数据。目前已经形成了包括20多个国家的数据中心、图书馆、政府机构、研究型大学等在内的全球会员网络。其于2017年发布的数据引用指南性文件 《研究数据发布和引用的DataCite元数据模式》(DataCite Metadata Schema Documentation for the Publication and Citation of Research Data), 在国际上具有一定的影响力。Dataverse是一个集数据共享、保存、引用、分析等功能为一体的应用程序,是由哈佛大学量化社会科学研究所(The Institute for Quantitative Social Science,IQSS)、哈佛大学图书馆、哈佛大学信息技术组织等合作推进的项目,致力于协助用户发布、分享和引用数据。Dataverse对数据集的引用进行了标准化,在其平台上创建数据集时会自动生成并显示引文,极大地便利了数据用户的工作,对促进数据引用和共享具有重要意义。
目前国外学术图书馆提供的数据引用服务主要下设于数据管理服务栏目下,具体包括发布引用指南、提供引用管理工具、开展数据引用馆员及用户培训、参考咨询等内容。如耶鲁大学图书馆在科研数据管理服务中设置了数据共享与重用栏目,包含了数据引用相关的服务,同时还提供配套的教育和培训内容;麻省理工学院图书馆则在引用服务栏目下设立了数据引用专栏,提供了引用数据的样式指南及引用工具Zotero引用数据的步骤,除此之外,还设立了在线咨询服务,用户可以通过网站直接向馆员需求帮助、提供反馈和建议;弗吉尼亚大学图书馆针对其用户发布了引用指南,提出了作者(Authors)、题 名 (Title)、出 版 年 (Year of publication)、出 版 者(Publisher)、适用标识符(Any applicable identifier)、可用性和访问权限(Availability and access)六种引用元素,并规定了数据集、出版物中的数据表、更新版数据集三种引用对象的格式。
在提供的数据引用服务中,图书馆尤其重视增加用户对于数据引用的认知,培养用户引用意识。首先,图书馆通过在其网站上列出数据引用的作用及益处,让用户初步了解进行引用的必要性。如麻省理工学院图书馆、弗吉里亚大学图书馆等都在数据引用指南的一开始就标注了数据引用的重要性;接着通过详细的数据引用规范、最佳实践、相关链接等资料,让用户对于数据引用的内容、方式有进一步认知;最后通过咨询服务和培训课程,帮助用户深入了解数据引用,学习数据管理和使用的基本能力,养成数据引用的良好习惯。
在数据引用相关的研究中,也有部分学者关注到了图书馆的角色。如黄如花和李楠对国外数据引用规范进行调研,发现国外大学图书馆在积极倡导和发展科学数据引用文化,提出有自身特色的科学数据引用规范;张丽丽和黎建辉对于数据引用利益相关方进行了分析,认为图书馆在数据监管和传播方面扮演着重要角色;王丹丹提出图书馆需要参与建立统一的数据引用规范,并与出版商充分沟通,共同促进数据引用发展。但以上研究关注点更多在数据引用的发展上,关于图书馆在其中发挥的角色分析都不够深入和系统,本文尝试根据国外学术图书馆现有的工作实践,结合数据引用面临的挑战和图书馆在其中具有的优势作用,提出学术图书馆推动数据引用的四种角色。
数据引用规范是指在引用原则指导下建立的关于数据引用内容和方式的规范文本,一般包括引用对象、引用元素、引用格式和唯一标识符等具体要求。引用规范需要内容清晰、完整细化,从而达到规范引用行为、为用户提供引用指导和帮助的目的;同时还需要考虑实操性,尽量简单可行以便用户理解和使用。目前参与制定数据引用规范的主体众多,包括学术图书馆、数据生产方、出版商、数据库商、数据中心、科研机构等,其中图书馆是直接面向用户开展服务的机构,关于数据管理和用户服务的经验较为丰富,在数据引用规范的制定工作中能够从用户和服务的角度出发,充分发挥自身的经验优势。
在引用规范的制定工作中,图书馆要积极发挥中介作用。每个利益相关方基于各自的需求,对于数据引用有着不同的利益诉求,具体体现在其对用户引用时内容、格式、方式等不同的要求上。来自各方不同的政策规定会在一定程度上造成科研人员的混乱,不利于数据引用的发展。图书馆作为保障信息获取的重要机构,长期以来与相关机构具有沟通交流经验,也具有一定的话语权。未来,图书馆应该充分发挥其优势,促进多方沟通与合作,协调各个环节的参与者,促进统一的数据引用规范和原则的发展。
图书馆为用户提供研究和教学支持服务,科研数据管理服务是其中重要的一部分。有研究表明,学术图书馆的数据管理服务包括科研数据管理介绍、管理指南、数据监护、管理培训、管理咨询、相关资源推荐等形式。学术图书馆提供的数据引用服务直接面向有需求的用户,用户可以通过提供的丰富的资料自主获取帮助,也可以通过参与咨询、参加培训和研讨会等获取更深入的信息,在一定程度上能够协助科研人员进行数据管理,提高工作效率,增加其参与数据引用的积极性。
为了更好地提供科研数据管理服务、提升用户数据素养,图书馆需要增加对于相关领域的关注,及时了解新动态和新发展,从而更好地规划和组织工作。从组织层面来说,我国学术图书馆应该积极参与数据引用相关的研究和实践,尤其是国际性的活动,了解领域前沿知识和技术,力求能够及时满足用户的需求;从个人层面来说,每一个图书馆员应该积极学习新知识新技能,提升自身的数据素养,才能够胜任数据管理及咨询工作,为用户提供更高质量的数据引用服务。
数据引用的发展需要更多科研人员树立引用意识、学习引用规范,图书馆无疑是最合适的宣传者和培训者。图书馆是直接面向科研人员提供服务和给予支持的场所,科研人员习惯于向图书馆寻求信息支持和研究帮助,与图书馆之间建立了良好的信赖关系。图书馆对于用户数据意识的培养是潜移默化的,建立数据引用指南、提供数据引用服务、开展数据管理相关的活动等都会给参与人员带来影响,其中比较直接和有效的方式是开展数据引用的培训课程。
目前我国很多图书馆都尝试开展数据管理类的培训课程,但质量参差不齐,关于引用部分的培训多集中在引用工具的使用方法上,内容比较单一。下一步,学术图书馆需要重视课程体系的建设,针对不同对象的需求,搭建适用的课程框架,丰富课程内容,关注课程质量的提升;图书馆还应重视馆员的数据素养培训工作。馆员是与用户接触的一线人员,只有每一个参与工作的馆员都深切认识到数据引用的重要性,才能够在工作中给用户带来积极的影响。
数据的标引工作涉及作者、题名、出版者等多种元素并具有严格的格式要求,工作内容较为复杂且枯燥。为了促进引用的标准化、提高工作效率、增加用户参与的积极性,自动化的数据引用管理工具和平台必不可少。文献的引用已经有众多的引文管理、可视化分析等辅助工具,对于文献计量的发展十分有益。但由于数据对象的特殊性,大部分的文献引用管理工具不具有数据引用的功能,随着数据引用的兴起,专业的数据管理和引用平台的发展也迫在眉睫,其中少不了学术图书馆的参与。学术图书馆多年来积累的数据管理和服务经验能够促进相关软件和平台的建设,反过来平台工具的发展也符合其提高服务能力与效率的需求。
目前国外学术图书馆参与数据管理工具建设的经验较为丰富,相比之下,国内的发展尚有很大的空间。随着国内研究人员对数据引用的关注度增加,为了更好地为用户提供服务,我国学术图书馆应该紧跟国际步伐,积极参与到国际性的数据引用平台研究和建设中,学习国外图书馆的经验,争取积累一定的实践基础,能够根据用户需求和自身资源特色,推动我国数据引用工作的发展。
数据引用的发展离不开学术图书馆的支持,学术图书馆的业务体系中也不能缺少数据引用的内容。需要注意的是,本文提出的引用规范的制定者、引用服务的提供者、引用意识的宣传者、引用工具的开发者这四种角色并不冲突,图书馆可以根据本馆实际情况,选择一个或多个其可以承担的工作和角色。找准角色定位并制定详细的发展计划,学术图书馆才能够充分发挥其自身优势,满足用户需求,推动数据引用相关工作朝着一个良性的方向发展。