陆玉泉 李雪飞 宋正娜
[摘 要]该研究从科研环境转变、数据政策要求、科研人员需求3个角度就“大数据时代高校开展科研数据服务的必要性”这一问题展开探讨,认为大数据时代在科研环境转变和数据政策要求共同作用下,科研数据获取和处理工作日益专业化,科研人员亟须专业的科研数据服务。
[关键词]科研数据服务;高校;大数据时代
[中图分类号] G642 [文献标识码] A [文章编号] 2095-3437(2017)10-0186-03
科研数据(research data,又称研究数据、科学数据)可以理解为,各种科研活动过程中产生并记录在任何形式载体上的、可以作为研究结论支撑材料的所有事实或者结果;包含各种观测数据、计算数据、实验数据、记录数据等;可以是原始数据、中间分析处理过程数据或者结果数据。[1][2]对于多数科研项目,如何合理规划、充分获取和高效管理相关科研数据是影响项目顺利进行的关键因素之一。
科研数据服务(research data service)是指由各类科研数据服务机构提供的、围绕科研人员获取和处理科研数据这项工作产生的相关服务,其主要目的是保障数据安全和促进数据再利用。[3[4]开展科研数据服务相关工作的探索已有相当长的一段历史,早在1957年国际科学联合会理事会就成立了世界数据中心[5],其后众多国际组织、国家政府、资助机构、出版机构相继推出有关科研数据服务方面的政策和措施。
美国、澳大利亚、英国等发达国家有相当数量的高校提供科研数据服务,早在20世纪70年代美国密歇根大学就建成了“校际政治与社会研究联合数据库”。[6]本文通过检索文献和浏览国内近百所重点高校的相关网站,仅发现3所高校曾经或者正在开展科研数据服务。武汉大学2011年开始尝试在校内开展科研数据服务[7],但笔者写作本论文期间该校“高校科学数据共享平台”始终处于无法正常浏览状态;复旦大学于2013年建立了社会科学数据平台,这也是目前能检索到的高校领域唯一面向社会科学的数据平台;北京大学2015年底推出了“开放研究数据平台”的测试版,并在其图书馆主页的“科研支持”子栏目下面明确列出数据搜集、数据分析、数据管理咨询、基于科研数据的分析报告等4项“科研数据服务”。[8]
国内高校科研数据服务总体上起步较晚,目前仍处于规划探索阶段,个别提供科研数据服务的高校,其服务内容和项目都较少,大幅落后于国际同行。面对现状,理论和实践领域首先要面临的问题就是“提供科研数据服务是否有必要”,本文从科研环境转变、数据政策要求、科研人员需求3个角度就这一问题展开探讨。
一、科研环境转变是高校开展科研数据服务的根本动力
我们身处大数据时代,麦肯锡全球研究院(MGI)认为大数据(big data)是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低4大特征。[9]2011年6月,MGI首次提出“大数据时代已经到来”的命题,指出“当前大数据规模以及其存储容量正在迅速增长,已经渗透到各个行业和业务职能领域,成为可以与物质资产和人力资本相提并论的重要的生产要素。
大数据是继传统IT之后下一个提高生产率的技术前沿。[10]牛津大学教授维克托·迈尔-舍恩伯格(Viktor Mayer?鄄Sch?觟nberger)和《经济学人》杂志的数据编辑肯尼思·库克耶(Kenern Cukier)合著的《大数据时代》一书指出,“大数据改变了我们的思维方式,让我们从因果关系的串联思维变成了相关关系的并联思维;大数据改变了我们的生产方式,物质产品的生产退居其次,信息产品的加工将成为主要的生产活动;大数据改变了我们的生活方式,我们的精神世界和物质世界都将构建在大数据上。大数据不仅仅是一门技术,更是一种全新的商业模式,它与云计算共同构成了下一代经济的生态系统”。[11]
大数据给科研活动带来3个颠覆性的观念转变:一是所有数据,而不是随机抽样(随机抽样可以看成技术能力不足的条件下人为外加的限制);二是允许数据误差,掌握大致方向即可(样本数据较少时,数据误差容易导致结果偏差,需力求数据精确);三是关注相关关系,而不是因果关系(大数据分析是寻找相关关系的一个重要手段,并不是要否定因果关系)。
这些颠覆性的改变孕育了新的科学研究第四范式(the fourth paradigm)——数据密集型科研范式。“第四范式”由图灵奖得主、关系数据库的鼻祖Jim Gray率先提出。第一范式“实验科学”以记录和描述自然现象为主(如钻木取火),第二范式“理论科学”利用模型对所记录的现象进行归纳总结(如相對论),第三范式“计算科学”利用计算机对复杂现象进行模拟仿真(如天气预报),第四范式“数据密集型科学”借助计算机对海量数据进行挖掘。
全新的科研范式下科研数据成为科学研究的基础性资源。[12]数据密集型科研范式归根结底是对海量数据的挖掘,理论和技术的发展使我们能够突破以往抽取部分数据样本进行模拟分析的限制,进而对全样本数据进行分析。可以说只要获得数据就可以进行科研,那么“已有的数据是新研究的宝贵资产,对于已有数据的整合、挖掘和再利用为学术研究提供了一种新的资源”。[13]
大数据时代的数据密集型科研是一种“大科学”模式,给高校传统的以个体和小团队为主的“小科学”模式带来巨大冲击。第四范式下的科研活动分工更细、协作度大幅提高,大数据的采集、存储、处理、计算都有赖于专业的设备和人员,可以说传统的个体和小团队很难完全独立胜任。大数据时代,数据成为可以重复使用的生产资料,高质量的数据获取和处理工作一定会从传统科研活动中细分出来,及早适应并紧跟趋势对于做好大数据科研至关重要。
二、数据政策要求是高校开展科研数据服务的政策动力endprint
联合国教科文组织(UNESCO)、世界经济合作与发展组织(OECD)、世界数据中心、欧盟委员会等国际性组织都制定了相应的数据政策。UNESCO在2004年发布的《开发和推广政府公共领域信息政策指南》中指出,公共资助的科学数据和公共领域未加保护的事实信息是基础研究的重要支柱;UNESCO在2007年发布的《开发与促进开放获取的政策指南》中强调,科研数据同其他类型资源都应免费、开放获取;OECD在2004年通过的《公共资助的研究数据开放存取宣言》强调,国际间的数据、信息和知识交流将极大地推动科研发展与创新,数据的开放获取和无限制利用将推动科学进展和促进研究者的培训,开放获取有利于公共投资收集的数据价值最大化。
美国、澳大利亚、英国属于科研数据政策相对完善的国家。美国的《信息自由法》《隐私权法》《阳光下的政府法案》是美国政府数据开放制度的重要依据和保障,美国政府2009年颁布的《开放政府指令》要求通过政府网站发布更多数据,并于同年5月设立data.gov数据网站;澳大利亚2009年发布《开放政府声明》并推出数据门户网站data.gov.au,2013年发布《公共服务大数据战略》;英国政府2010年建立了data.gov.uk数据网站,2013年首先提出《八国集团开放数据宪章2013年英国行动计划》。[5]
来自课题资助机构的要求是科研数据开放获取和处理的重要政策动力。美国国家卫生研究院(NIH)发布的《数据共享政策和实施指导》要求从2003年10月1日开始,所有申请经费在50万元以上的课题都必须提交数据共享计划或者不共享的说明;2010年美国国家科学基金会(NSF)发布的数据政策要求从2011年1月18日开始,所有课题申请书必须附带一份不超过两页的“数据管理计划”;澳大利亚研究理事会(ARC)、澳大利亚国家卫生与医学研究理事会(NHMRC)、英国研究理事会(RCUK)这些主要的研究资助机构都已经发布了相关数据政策。[5]
国外的出版机构如Springer、Elsevier等旗下的期刊也制定了自己的科研数据出版政策。Nature要求作者将期刊论文的数据或附加信息存储在可公开访问的数据库中;2008年PLOS One公布的数据政策建议作者将数据作为所发表论文的支持材料进行提交。
在全球数据政策大环境,尤其是NIH、NSF等资助机构出台数据共享政策的影响下,各研究机构也纷纷出台相应的数据政策,2008年以后美国、英国、澳大利亚等国高校赢来了科研数据政策制定和服务开展高潮,澳大利亚政府更是明确提出高校必须建立起科研数据保存、数据所有权归属以及数据访问等政策。据不完全统计,U.S.News世界大学综合排名前50名的高校中已有26所在其图书馆开展科研数据管理服务[14];截至2016年的统计显示,已有40所澳大利亚大学制定了科研数据管理政策[15];根据何青芳2016年的统计,在英国“目前已有37所大学出台科研数据管理政策,5所高校制定了政策草案”。[15]在我国,2014年10月23日,北京大学等9所高校图书馆的代表汇聚复旦大学,成立了“中国高校研究数据管理推进工作组”,致力于推进国内高校研究数据管理的事业发展[15],但制定和拥有完善的政策还需时日。
国际组织、各国政府、课题资助机构、文献出版机构、研究机构相继出台的数据政策涵盖了科研数据从采集、存储、处理、分析再到发表和共享的全过程,这些政策起到衔接各个环节、规范数据格式、协调各方利益的作用,而专业的科研数据服务工作则是这一系列制度安排得以顺利实施的重要保证。
三、科研人员需求是高校开展科研数据服务的直接动力
首先,多数科研人员在有关科研数据获取与管理方面是“无知”的。数据密集型科研范式下科研数据获取和处理是一项具有一定专业性的工作,当北卡罗来纳大学教堂山分校(UNC)的研究人员被问及数据管理“是否能够获得充分的基金支持”等问题时,高达65%的回答是“我不知道”;根据刘霞等学者的调查,高校中“超过60%的科研人员发生过数据丢失现象”,“65%的数据由项目团队分散存储和管理”,“超过50%的科研人员不对数据永久保存”,超过40%的研究者对“数据管理对于科学研究的促进作用”没有明确的认识,即便如此仍有“超过50%的科研人员对现有的数据管理手段表示满意”。[7]可见,相当数量的科研人员由于各方面原因并不了解数据获取或者管理,更不要谈论如何更专业地做好这件事。
其次,科研人员没有足够的时间和精力应对科研数据获取和处理工作。即便科研人员具有相当的科研素养,也很可能无暇顾及这方面的工作。当前数据获取与管理工作需要掌握更为繁琐的政策、操作更加复杂的软硬件,专业性越来越强,这意味着需要耗費更多的时间和精力用于数据获取与管理。另外,在传统科研中,科研人员为获取和处理数据花费大量的精力,但是社会发展在逐渐加速中,全社会对科研人员的产出要求也在逐步提升,将过去的模式用在现下和未来,科研人员必将无法应对繁重的科研工作,UNC超过一半的受访者认为在使数据为他人所用上需要花费时间。[13]
最后,科研人员没有足够的经费用于科研数据的获取和处理。获取和处理数据需要支付大量的软硬件和人力费用,由个人或者小团队独力支付相关费用,无疑是很不经济的做法,而且这也得不到资助机构的全力支持。当UNC的研究人员被问及在他们所在院系、实验室、中心或者研究群体中,在长期数据保存(5年以上)上面是否可以获得充分基金支持,仅有10%的人给出肯定的回答。科研经费是有限的,提供科研数据获取和处理服务,集中管理科研数据,对于节省科研经费、提升科研产出具有不证自明的作用。
由此可见,多数科研人员或者不了解科研数据的获取和管理,或者其时间和经费不足以支持数据的获取和管理,因此提供专业科研数据服务,解放科研人员,让其回归科研核心工作不失为一个更加合理的安排。endprint
四、结语
大数据时代,数据密集型科研范式下科研数据成为现代科学研究的基础性资源,面对日益繁琐的数据政策要求,科研数据获取和处理工作日益专业化,科研人员对数据获取和处理“无知”化日趋加重,即便能够胜任相关工作也受制于繁琐的科研工作和有限的经费。因此科研数据服务必将成为科研人员的重要需求。
[ 参 考 文 献 ]
[1] 李伟绵.基于生命周期理论的研究数据管理服务评估研究[D].北京:北京理工大学,2016.
[2] 凌晓良,LEE Belbin,张洁,等. 澳大利亚南极科学数据管理综述[J].地球科学进展,2007(5):532-539.
[3] 张凯勇.数据密集型科学环境下的高校图书馆科学数据服务[J].图书馆学研究,2014(3):69-72+96.
[4] 刘桂锋,卢章平,阮炼.美国高校图书馆研究数据管理服务内容研究[J].图书馆论坛,2015(8):137-144.
[5] 张瑶,吕俊生.国外科研数据管理与共享政策研究综述[J].图书馆理论与实践,2015(11):47-52.
[6] 中国国家调查数据库.存数据.[EB/OL].[2016-12-06].http://www.cnsda.org/index.php?r= site/datasaving.
[7] 刘霞,饶艳.高校图书馆科学数据管理与服务初探——武汉大学图书馆案例分析[J].图书情报工作,2013(6):33-38.
[8] 北京大学图书馆.科研数据服务.[EB/OL].[2017-02-26]. http://www.lib.pku.edu.cn/portal/cn/fw/kyzc/shujufuwu.
[9] 百度百科. 大数据. [EB/OL].[2017-09-18].http://baike.baidu.com/item/大数据/1356941?fr=aladelin.
[10] 赵姗.大数据时代来临,中国准备好了吗?[N].中国经济时报,2013-07-01(011).
[11] [英]维克托·迈尔-舍恩伯格,肯尼思-库克耶.大数据时代:生活、工作与思维的大变革[M].周涛,译.杭州:浙江人民出版社,2013.
[12] 孙继周.E?鄄Science环境下高校图书馆开展科学数据管理与共享的路径研究[J].图书馆,2016(5):66-71.
[13] Gary Marchionini,杨冠灿,芦昆.科研数据管理:保障数据质量,促进iSchools新科学研究[J].图书情报知识,2013(4):4-9.
[14] 张莎莎,黄国彬,邸弘阳.美国高校图书馆科研数据管理服务研究[J].图书馆杂志,2016(7):59-66.
[15] 何青芳.国外科学数据管理政策的调查与分析[J].上海高校圖书情报工作研究,2016(2):9-13.
[责任编辑:庞丹丹]endprint