, , ,
在大规模生产、分享及应用数据的新时代,越来越多的科研人员认识到数据和数据分析对数据密集型科学和工程领域的研究及教育的发展至关重要[1]。2012年3 月 29 日美国政府推出的“大数据的研究和发展计划”更是将大数据提升到全球性战略发展的高度。许多IT 巨头都已投入到大数据软硬件技术整合、大数据信息处理等技术研发之中,力求在新一轮的信息竞争中抢得战略先机与技术制高点[2]。拥有海量文献资源和数据的图书馆也在悄然发生变化[3]。美国国家科学基金会提出,研究型图书馆应该在数据监护方面给予科研机构业务和技术支持,为他们提供相应的数据服务[4]。美国、英国、澳大利亚等国家的一些高校图书馆已把科研数据管理作为一项服务[5],并由此催生了数据馆员。
近年来,在信息与网络技术迅猛发展的推动下,从宏观到微观、从自然到社会的观察、感知、计算、仿真、传播等活动都产生了大量科学数据[6]。科学家通过对这些数据实时、动态的监测与分析解决原来难以解决或不可触及的科学问题,也可以把数据作为科学研究的对象和工具,基于数据来思考、设计和实施科学研究[7]。科学数据逐步成为“制数据权”的战略资源,因而科学数据管理受到科学界的重视。
2009年12月,来自10个国家的15个机构共同成立了DataCite国际联盟[8]。2011年,美国国家医学图书馆(NLM)开始为接受美国国立卫生研究院(NIH)基金资助的研究团队提供学科馆员服务补充基金[9]。2013年的《美国学术图书馆的发展和未来趋势》[10]指出,数据研究管理已成为图书馆一大发展方向。美国航空航天局(NASA)、疾病控制与预防中心(CDC)、英国研究理事会及其下属的7个研究理事会以及维康信托基金会、澳大利亚研究理事会(ARC)等,相继制定了科研数据管理政策[11]。蓬勃发展的科研数据管理工作催生了新的工作岗位,即数据馆员[12]。美国的耶鲁大学图书馆、英国的爱丁堡大学图书馆、澳大利亚墨尔本大学图书馆和加拿大多伦多大学图书馆等都设立了专门的数据馆员岗位,国内学者也纷纷开展相关研究。
科学研究完成前的所有过程数据、半成品以及科学研究完成后的成果皆为科学数据管理的对象,包括手稿、视频、音频、图片出版物、绘画、设计图纸、过程手稿、图形、工作流图、设备、数据文档、数据处理或计算机程序(软件)、研究数据统计记录等[13]。
科学数据管理(Research Data Management,RDM)是指对在科学研究活动中产生的科学数据进行统筹协调、科学配置、整合管理,涉及对各类型科学数据进行采集、分类、标准化、发布及共享,以形成管理科学数据的理念、政策、规范、环境、措施与体系,发挥科学研究数据资源的最大效益[14]。
不同学者对数据馆员有不同的理解和定义。Read认为数据馆员(data librarian)或数据服务馆员(data service librarian)就是提供数据服务的图书馆员[15];蒋丽丽等认为数据馆员是在数据管理、保存、存储等方面经过系统和专业训练,并具有行业资格的人员[16];魏来等认为数据馆员是数据创造者、数据专家和数据主管[17];孟祥保等则认为数据馆员是指在数据管理、保存和存储方面经过系统专门的训练,并具有行业资质的人员[18]。综上所述,数据馆员是指为了更好持久地利用科研数据,运用相应的技术(主要是计算机技术)和相关学科知识,科学地管理科研数据的图书馆员。数据馆员应发挥自己的优势,利用图书馆这一科研数据密集的主要平台实施科学数据管理。
随着越来越多的科研人员逐渐认识到科研数据的重要价值,数据馆员的作用也愈发突显。针对美国研究型图书馆协会馆员的一项调查表明,他们已意识到研究数据管理对于科学研究与图书馆发展的重要性,且大多数馆员认为自己能胜任数据馆员岗位。国内图书馆业界也开始意识到研究数据管理的重要性并行动起来。2012年11月在北京大学图书馆召开的国际学术讨论会上,“数据管理与数据服务”成为分主题之一。CALIS三期建设项目已经设立“科学数据管理预研项目”,开展了高校科学数据管理相关问题的研究。
数据馆员进行科学数据管理的意义主要体现在以下几个方面。首先,科学数据完全基于客观事实,是实际试验的记录,没有掺杂科研人员的主观思维影响,或许能给我们的科研提供更多的发展方向。第二,科学数据的应用具有多向性,根据一组科学数据可以向潜在的多种可能性推演发展,使其他人利用现有数据提出新的科学问题[19]。第三,通过有效的科学数据管理,实现科学数据共享,促进科研人员的研究工作,提高科研成果的产生速度和科学数据的价值[20]。第四,长期保存科学数据,保证科学研究的完整性,可以增强数据再利用效益。但是总体而言,目前国内科学数据管理工作做得还不够系统和深入,其重要原因之一是缺乏相应的数据管理政策和对数据馆员的作用缺乏足够认识[18]。
数据管理与服务领域影响最大的国际组织是国际社会科学信息服务与技术协会(International Association for Social Science Information Services & Technology, IASSIST)。根据IASSIST调查和各大高校官网信息,很多高校已经开展了科研数据管理工作,主要管理部门多为图书馆,其他部门予以支持,尤其是技术部门,但是具体的服务方式和内容因学校和具体部门不同而存在较大差异(表1)。
图书馆在数据管理方面具有得天独厚的优势。图书馆可以依托各种商业数据库的科学数据和图书馆资源平台,开设专门的数据平台,结合机构自身需要,添加相应的国际组织数据(如联合国下设的世界卫生组织)、各国政府部门及统计机构(如美国食品药品监督管理局、中国卫生和计划生育委员会)的数据、专业数据协会及数据联盟(如密歇根大学的政治和社会研究方面的校际联盟)[27]等组织的开放数据。但是在我国,科研数据管理和服务还是新鲜事物,其发展面临着制度保障缺位、人员配备不足、平台支撑欠缺等方面的突出问题,亟待解决。
序号 研究所成立时间/年所长数/位平均任职年限/年1斯克里普斯研究所19288112冷泉港实验室18987173萨克研究所1960964怀特黑德研究所1982485Broad研究所20031126杰克逊实验室19297127斯托瓦斯医学研究所2000288拉霍亚过敏和免疫学研究所1988399Gladstone研究所197931210Sanford-Burnham研究所197648
国外已经建立了数据馆员岗位制度,如普渡大学图书馆设置了副馆长负责支撑研究的服务工作,并下设数据服务专家、跨学科研究馆员和分布式数据管理中心;俄勒岗州立大学设立了数字学术与服务中心,其中一项重要业务工作就是科研数据管理,主要任务包括帮助研究人员按照美国国家科学基金会(NSF)和NIH的要求制定数据管理计划和资源统一标识符(如DOI)等[18];爱丁堡大学、康奈尔大学图书馆和哥伦比亚大学图书馆也有先例。
在我国数据馆员还鲜有听闻。究其原因,首先是国家科技管理层尚未充分认识到科学数据管理的重要意义,更没有提出科学数据管理的硬性要求;其次是科研机构和科研人员也没有提出数据管理的实际需求,数据管理工作尚未有效开展起来。宏观科研数据管理政策缺位和科研人员不重视对科学数据的系统管理,皆导致处于数据管理执行层面的图书馆没有明确导向,数据管理工作只能在摸索中前进。
要想破除僵局,图书馆必须积极推动相关科技政策的出台,加快数据馆员制度的建立。首先要了解学习国外的数据管理政策,同时尝试开展数据管理和服务,做好科研数据管理工作,适应数据密集型科研模式对图书馆的要求,并用图书馆员和科研人员的行动推进科研数据相关政策的落实执行,建立数据馆员制度,设立专门岗位。总而言之,在科研数据管理政策和科研数据管理实践两方面着手推进数据管理工作。
在设立数据馆员岗位时,可以先选择有一定数据知识基础的馆员兼职数据馆员,从科研数据管理相关支持服务中的数据管理需求调研、国内外基金政策、数据模板、数据管理计划的工具、OA数据、引用标准、分析大量数据的工具等工作中积累经验,待工作开展一段时间后,再依具体需求设立部分专职数据馆员。这种从兼职到专职数据馆员过渡的模式,不会带来过大的转型风险和压力,也有利于科研用户逐渐熟悉和适应科研数据管理的过程,使科研数据管理工作更容易开展。
数据馆员应该具有开展数据素养教育、数据管理计划咨询、数据管理服务咨询的能力,对科研或数据政策、科学研究流程有一定了解,能够利用一定的工具分析科研数据,如统计分析软件SPSS、SAS等[22]。传统图书馆员的职能任务主要是读者服务、资源建设和信息咨询。由于我国图书馆还没有专门从事过数据管理工作的馆员(包括数据馆员和从事数据服务的学科馆员),因此只能选拔一批具有计算机及相关背景的馆员,通过培养和实践锻炼,使之成为合格的数据馆员。具有计算机相关背景的馆员,熟悉元数据配置、数据存储、数据复用等专业领域知识,可能具备开发数据管理软件的能力、熟悉数据的标准格式和生命周期、对机构知识库很了解,还可能写过课题及基金申请书,熟悉科技管理政策,如NSF对科研项目资助中数据管理计划的要求,具备一定的版权知识,是数据馆员潜在的候选人。
图书馆应该鼓励和推动这些预备数据馆员自主学习数据管理的知识,并组织内部的交流探讨,推广分享数据管理知识。此外,数据馆员还应该多参加图书馆业界举办的各种数据管理培训班和研讨会,以提升业务能力和开阔视野[5]。如英国数字保管中心(Digital Curation Centre, DDC)不定期开设短期数据管理培训课程,并将培训资料发布在网上免费共享[28];DCC每隔半年面向科研人员、数字资源库管理者、图书馆员、信息研究组织、数据管理员、数据科学家及基金会等举办一次研究数据管理论坛;美国雪城大学在NSF的资助下开设科学数据素养教程,为未来从事科学数据管理的人员和科学图书馆员提供主修课程[29];国际社会科学信息服务和技术协会(IASSIST)、公共数据用户协会(APDU)、美国校际社会科学研究联盟(ICPSR)等组织也每年或每两年举办一次的学术会议[27];加拿大研究图书馆学会数据管理咨询分会专门开设研究数据管理服务在线课程,推进数据管理教育,提升馆员专业能力[13]。数据馆员应该充分利用这些学术研讨会和培训班,掌握数据管理相关技术,提高数据管理能力,从而顺利地开展科研数据管理工作。
支撑平台也是数据管理的一个必要条件。图书馆应依据自身预计提供的数据服务范围和内容,以及前台用户的体验和后台的管理方便和安全性,思考需要什么样的平台或设备,是重新建立一个数据管理平台,还是在原有的图书馆网站或已有的机构知识库中增建一个数据管理平台,平台是自建还是与外部合作[20],是否可以利用开源软件建设机构自用的平台等一系列问题。
对于平台建设框架,如果整合于机构知识库平台的数据管理平台不能充分发挥其应有的作用,而且整改成本较高时就应构架独立的数据管理平台。从节约费用的角度,应尽可能利用开源软件和工具,在已有开放软件接口上构建自己的数据管理服务平台。从集中力量做好数据服务的角度考虑,可以把与数据管理与服务这一核心工作不直接相关的平台开发外包出去,与专门的软件公司合作完成。建立数据管理平台之后,数据馆员可以根据数据管理流程,从拟定数据管理计划开始,提供数据存储格式与标准、数据共享政策与模式、数据评估分析方法、数据引用方式等,完善科研数据管理与服务流程[30]。
数据馆员和科学数据管理在实践过程中必然会遇到诸多问题和困难。以上对制度、人员、平台等方面的考虑或许可以提供一点解决的思路。另外,我们还要跟踪了解国外科学数据管理的进展,借鉴国外的成熟经验,更好地开展科学数据管理工作。