陈定权 诸葛列炜
被誉为“大数据商业应用第一人”的维克托·M·舍恩伯格指出,大数据时代最大的转变就是放弃对因果关系的渴求,取而代之的是对相关关系的关注,这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战[1]。数据监护(data curation)正是体现了维克托所指出的这一全新思维模式。数据监护是在e- Science 环境下围绕如何持久保存数字资源,再进行整合加工,最后为用户所利用的科学数据服务内容之一。高校图书馆擅长研究数据的关联环境,并能很好地发现、理解和使用研究数据的特性。本文介绍数据监护在国内外研究与实践的进展,比较和分析国内外数据监护研究和实践的不同。基于数据生命周期理论,从高校图书馆的角度分析高校图书馆在数据监护活动过程中的地位和作用,为我国高校图书馆实践数据监护和推出数据服务时提供决策支持。
2004 年英国联合信息系统委员会(JISC)给出数据监护的定义:数据监护是为确保数据当前使用,并能用于未来再发现及再利用,从数据产生伊始即对其进行管理和完善的活动。对于动态数据集而言,数据监护意味着需进行持续性补充和更新以符合用户需求[2]。2008 年Shreeves 和Cragin 在JISC 的基础上,进一步阐述数据监护为科学数据带来的价值及其包括的具体内容,即包括评价、筛选、重现及组织数据以供获取和使用[3]。另外,Choudhury 在提出数据监护定义时更强调数据监护是为研究者以及科学家利用提供便利[4]。尽管定义有诸多不同,但都强调两点:一是监护对象——科学数据,即通过存储加工等活动后能得到再次利用;二是如何监护——方法,涉及数据形式、格式、元数据、管理策略等细节[5]。笔者认为,数据监护是基于数据生命周期[6]所开展的服务项目。所谓数据生命周期,是指对数字化资源进行保存及长期保存、提供获取,最终用于支持研究、政策制定等再利用活动的整个过程,肯定了数据的动态存在[7]。数据监护工作存在于数据生命周期的过程中,如同档案管理可以贯穿于文件生命周期一样,可极大地提高数据监护的管理和利用效率。
高等院校一般都拥有众多科研机构和大量的科学数据,而图书馆作为文献保障和信息服务的阵地,完全可以将信息管理的理论与实践自然迁移到数据监护中,是可以在数据监护方面有所作为的。
在数据监护方面,国内尚处在探索阶段。虽然我国高校图书馆在数字资源长期保存领域的研究已有20 余年,但大多游离于数据管理流程之外。此外,单纯的数据保存工作无法发挥图书馆在数据管理和数据增值方面的职业优势。目前除积极介绍国外数据监护研究与发展概况[8-11]外,国内学者在两个方面做了深入研究。
(1)研究在数据监护过程中高校图书馆的角色定位及功能。肖潇于2012 年论述图书馆科学数据服务的未来发展规划、角色定位、技术应用与合作等五方面服务的实践探索[12],提出嵌入式学科化科学数据服务,为国内图书馆科学数据服务提供新思考[13]。
(2)以数据生命周期理论为基础,探讨图书馆的服务内容和服务形式。参考国外已开展的数据存储与发布、数据发现与获取、数据分析[14]等服务模式,推演出e- Science 环境下高校图书馆可以开展的服务方式,以指导图书馆的实践工作[15]。
实践方面,我国高校几乎没有开展数据监护的服务,但在科技部领导下,在科学数据资源整合、推动科学数据共享方面已作了大量奠基性工作,如2001 年底启动的科学数据共享工程[16]。目前国内开展数据监护的机构很少且保存规模相对有限,如何建立相应的法律授权、技术标准、管理规范,尤其是通过可靠的示范系统提高图书情报机构开展长期保存的信心和参与积极性是一个亟待解决的问题[17]。
数据监护最先出现在拥有大型数据的实验室,从早期的实践探索逐渐走向理论研究。目前比较热门的研究主题包括对相关利益群体和规划中所涉及的问题研究,对数据监护在图书馆开展中所存在优劣势研究以及对图书馆开展数据监护内容的探讨等,如Choudhury 阐述数据监护的概念以及功能[18],Pryor 通过提出数据生产者、数据管理者以及数据馆员等角色的合作来实现数据监护服务目标[19]等。实践方面,已有不少高校图书馆推出数据服务或相关的项目,下文对国外具有代表性的项目进行介绍和分析,力求全面了解数据监护。
(1)数据监护的战略实施研究。美国国家科学基金会(NSF)于2007 年推出DataNet 项目。该项目以图书馆为主体,计划用5 年时间资助5项数据监护重点研究课题计划,如美国高校图书馆主持的DataONE(Data Observation Network for Earth) 项 目 和Data Conservancy 项 目[20]。DataNet 对图书馆,特别是高校图书馆提出了一项长远的战略发展计划,内容包括抢占数据监护服务阵地、加快元数据建设、完成“数据监护员”角色转变[21]。
(2)数据监护的发展策略研究。项目资助者大都提出一个要求:数据监护不仅要有强大的数据服务功能,还要具备自我生存能力。例如DataNet 计划就明确要求被资助者要提出可行的经济模式,即在5 年资助期满后具备自我生存的能力[22]。
(3)数据监护的合作模式研究。图书馆在技术、学科等方面需要谋求与其他组织的合作[23]。数据监护的合作模式主要有三种:①协助研究者完成元数据的创建,如康奈尔大学图书馆的DataStaR(Data Staging Repository);②与专业学者合作完成专业数据库以及元数据等建设,如普渡大学图书馆的D2C2 (Distributed Data Curation Center);③为研究者提供数据共享平台,如加州大学加州数字图书馆的DataCite[24]。
(4)数据监护的内容研究。DCP(Data Curation Profiles)项目是对于数据监护内容方面的实践,此项目为数据监护的元数据内容设定指标,从而利用高校图书馆为研究人员提供更好的数据服务,也能对数据进行更好的存储、利用和完善[25]。
(5)数据监护工作应该开展教育和培训。例如,IDEA(International Data Curation Education Action)工作小组就是一项为了促进教育领域和研究领域的人员在这一方面的合作而产生的职业教育交流项目[26]。另外,国外几所高校已开设数据监护的研究生图书情报项目课程,例如伊利诺伊大学图书馆与信息科学研究生院、美国麻省理工学院图书馆、美国斯坦福大学图书馆、爱丁堡大学图书馆都开设了数据监护教育项目。
在科学数据呈指数级增长的时代,高校图书馆在发挥科学数据保存和服务上具有不可替代的地位和作用[27]。在硬件上,依托高校拥有庞大的科研团队及丰富的科学数据、提供技术平台对数字研究内容进行收集和组织管理,为研究人员提供专业的服务、庞大的用户群对数据监护的迫切需求以及完善的数据管理培训系统等;在软件上,高校图书馆擅长数据关联管理,有利于科学数据的整合与共享;对元数据规范的熟悉程度高,有利于配合各领域专家建立元数据标准等。这些软硬件显示高校图书馆具备开展数据监护服务的可行性。数据监护作为一项知识服务,其数据处理和管理方法实际来源于信息管理,而这正是图书馆的强项。也正因为出现了这项新型服务,才引发了图书馆人对高校图书馆未来发展定位以及战略规划等问题的思考。雪城大学的秦健曾总结有关数据监护的项目和研究时指出,“科学家们都忙于研究,需要有人来帮助他们管理科研数据,进行保存,建立元数据,从而方便查找、使用以及在这个基础做更深入的分析工作”[28]。这项工作落到高校图书馆身上,图书馆的职能不再仅仅局限于文献保障和信息服务,而应拓展到为科研机构提供知识服务的新职能,即保证数据在需要时能被再次检出并可以使用。当然,图书馆要想在数据监护上有所作为,作为主管机构的高校应该从多方面给予支持,包括科研管理政策的修订、经费和人力投入、软硬件建设、图书馆数据监护工作人员的职业技能培训以及相关标准的制定等。
一个数据生命周期意味着通过数据管理和长期保存,实现资源发现和再利用,也可以理解为一次完整的数据生命周期需要经历数据初次加工、数据再加工、知识抽取阶段(如图1)。数据初次加工包括数据存储及长期保存、数据共享、数据发现及获取等服务,是高校图书馆普遍存在的数据服务方式,该阶段的服务主要以数据存储为主,这本质上和图书馆的文献保存相似。例如部分图书馆建立的机构库有利于内部数据的共享,都是其在初级阶段所提供的服务。数据再加工主要是对前一阶段的完善,通过提供数据增值服务来更大范围的发挥数据的作用,即图书馆可以开展数据可视化、增添数据链接、数据注释等服务。目前已有高校图书馆尝试给科学数据添加注释及来源出处,实现科学文献和科学数据的交叉链接。知识抽取阶段则侧重于知识服务,是对数据进行深层分析,将其转化为知识的过程。图书馆可以通过与研究者合作提供数据挖掘、数据分析和数据融合以及提供相应的数据分析软件等[29]服务。无论是哪一个阶段,图书馆都应该确保其保存的数据能够对外提供服务。
国外高校图书馆已积极参与到数据监护的实践中,那么对于刚起步的我国高校图书馆而言,笔者通过理性分析数据监护在我国发展的优势和劣势,期望为我国高校图书馆开展数据监护服务时提供参考。
我国大多数高校图书馆对于数据监护服务的实践处于观望之中。虽然也出现过“科学数据共享工程”等项目,但还尚未大规模进入研究领域,没有得到学界的普遍关注。
图1 科学数据生命周期示意图
资金和人力上的投入直接决定了高校图书馆能否积极开展数据监护工作。高校图书馆本身业务比较繁重,经费也很紧张,图书馆没有更多的资源投入到数据监护工作上;科学数据在专业上的高门槛性,例如大气工程、航天工程等就要求馆员对所在学科有比较深入的认识;再加上科研管理体制的限制,图书馆难以在数据监护工作中找准角色。馆内外的限制导致我国高校图书馆参与数据监护的条件还未成熟,如缺乏数据资源、专业人才,没有统一的管理规范标准[30]。虽然在实践上困难重重,但包括高校图书馆在内的业界人员都在积极开展对数据监护理论与实践的探索,期冀为我国高校图书馆开展数据监护服务提供理论支持。
科学的数据监护离不开高校科研管理政策的支持。目前的科研管理政策对科研机构的数据监护工作没有约束力,科研机构缺乏投身数据监护工作的积极性,图书馆也缺乏对应的工作规范和工作流程,难以对科研机构的数据监护工作提供科学指导。在高校相关部门的组织下,图书馆要主动承担责任,全面充分了解科研机构的意愿和诉求,制定科学的数据监护工作和服务的相关规范和政策,为数据监护工作和服务保驾护航,确保数据监护工作和服务可持续发展。
除了必要的财力、人力以及政策支持外,图书馆也应积极谋划,推动数据监护早日成为图书馆的一项服务。
从战略布局来说,可以从四方面入手。首先,应尽早着手对科学数据的收集管理工作,推出数据监护服务;其次,应联合各领域专家建立各学科的元数据标准,推动数据共享;第三,应积极宣传数据监护项目,让更多的科研机构和研究人员了解和参与;第四,借鉴并有选择性地引进国外数据监护项目成果,做好汉化工作。
从服务内容看,首先,高校图书馆需要尽快明确馆员以及用户的角色及其职责。其中馆员的角色多为“数据管理者”,其职责主要有:(1)利用社交软件等有针对性地获取科研人员的科研需求,在Web 空间中融入数据监护活动;(2)学习相关技术,如元数据标准、数据管理模型等,从而进行内容提供的服务;(3)联合数据专家参与到数据监护人才培养计划中。另外,高校图书馆担负着培养数据监护人才的重任。2012 年3 月美国白宫科技政策办公室发布的《大数据研究和发展计划》,为高校图书馆联合院系开展数据监护人才培养提供了强有力的推动力。再者,高校图书馆可以通过寻求大型企业(如微软、谷歌、百度)的数据专家进行合作与交流,校企合作可以加深对实际的大数据问题的接触,提高数据监护人员应对数据的能力。例如,2013 年创立的华东师范大学云计算与大数据研究中心就致力于发展与赞助企业的战略合作关系,合作进行市场需求调研、联合项目研究和科研成果转化。
从数据生命周期的角度看,我国高校图书馆的数据监护服务主要停留在数据初级利用阶段,即数据存储服务,且存在数据存储空间局限的问题,跟数据监护的本质要求还存在较大差距。国内许多高校图书馆针对数据存储已纷纷建立自己的数据仓库,如香港大学、浙江大学等图书馆,但这些数据仓库往往只收集本机构部分最终研究数据,尚未能够对研究的中间过程和机构以外的全部科学数据进行开放存取[31]。再者,高校图书馆可否利用目前的云计算基础设施,从而减少数据本地存储的压力,为数据监护服务奠基。最后,国内高校图书馆也正在加紧探索为数据增加注释与连接等再加工服务,为实施数据监护服务做好充分的准备工作。
[1] 维克托·迈尔·舍恩伯格.大数据时代:生活、工作与思维的大变革[M].浙江人民出版社,2012:27- 28.
[2] JISC.e- Science Data Curation[EB/OL].[2013- 03- 11].http://www.jisc.ac.uk/media/documents/programmes/preservation/acfb51.pdf.
[3] Shreeves,S., M. Cragin. (2008) . Introduction:Institutional repositories:Current state and future[EB/OL].[2012- 12- 02].http://www.ideals.illinois.Edu/handle/2142/10679.
[4][18]Choudhury S.Data curation:an ecological perspective[J].C&RL News,2010(4):194- 196.
[5] 刘雄洲,王菲.国外数据存管实施现状及其对国内高校图书馆的启示[J].图书馆,2012(5) .
[6] Gold.A. Cyber infrastructure,data,and libraries. Part 1:A cyber infrastructure primer for librarians[J].D- Lib Magazine,2007(13) .
[7] Gold A. Conceptualizing the digital life cycle[EB/OL].[2013- 03- 13].http://www.iassistdata.org/blog/conceptualizing- digital- life- cycle.
[8][12][23]肖潇,吕俊生.e- Science 环境下国外图书馆科学数据服务研究进展[J].图书情报工作,20012(9) .
[9][13]肖潇,吕俊生.图书馆嵌入式学科化科学数据服务研究[J].图书馆杂志,2012(21) .
[10][14]洪程. 国外科学数据服务现状研究[J]. 图书馆杂志,2012(10) .
[11][15][29]师荣华,刘细文. 基于数据生命周期的图书馆科学数据服务研究[J].图书情报工作,2011(1) .
[16][30]科学数据共享工程[EB/OL].[2012- 11- 29]. http://www.most.gov.cn/ztzl/kjzg60/kjzg60hhcj/kjzg60jcyj/200909/t20090911_72832.htm.
[17] 张玫,李麟,张晓林,等.中国图书馆数字文献资源长期保存现状调查[J].图书情报知识,2009(2) .
[19] Pryor G,Donnelly M.Skilling up to do data:Whose role,whose responsibility,whose career?[J]. International Journal of DigitalCuration,2009(4):158- 170.
[20][21]杨鹤林.数据监护:美国高校图书馆的新探索[J].大学图书馆学报,2011(2) .
[22] NSF. Sustainable Digital Data Preservation and Access Network[EB/OL].[2012- 12- 22].http://www.nsf.gov/pubs/2008/nsf08021/nsf08021.jsp.
[24] DataCite Statutes[EB/OL].[2012- 12- 24]. http://datacite.org/docs/datacite- statutes- final.pdf.
[25] Data Curation Profiles[EB/OL].[2012- 11- 29]. http://www.datacurationprofiles.org.
[26] 数据监护范例分析——以DataCite、DCP 和IDEA Working Group 为例[J].大家,2012(9) .
[27][31]王学勤,Stout A,Silver H. 建立数据驱动的e- Science 图书馆服务:机遇和挑战[J].图书情报工作,2011(13) .
[28] 秦健.eScience 与图书馆服务新创举[DB/OL].[2013-3- 21]. http://v.youku.com/v_show/id_XMjk3NTE4 MTMy.html.