陈建新
(江苏食品职业技术学院图书馆 江苏淮安 223003)
随着信息社会的发展,产生于科学实验、科学研究过程之中以及日常信息行为、社交网络、移动终端的数据海量增加,由于数据产生来源、存储媒介的不同,使得数据的类型、存在形态和结构都丰富多样,随着隐藏在这些数据背后的巨大价值被发现和利用,数据的科学价值逐渐被人们重视,致使科学研究工作向着数据密集型研究转变,科研人员必须对大量的科学数据进行收集、分析、管理、保存和共享。作为社会信息、文献的收藏、利用、加工、服务机构的图书馆,在科学研究进入到以数据为基础,以数据密集为主要研究范式特征的大数据时代,科学数据服务值得关注和研究,也必将是未来图书馆服务的主要组成部分。
信息社会的发展,使得科研环境也向信息化、网络化与数字化方向发展,在重构的科研环境下,各种实验及设备、计算机及仪器产生的原生科学数据指数增加,其中包含着大量未被重视和处理或只出版公布了最终实验结果而对实验过程数据没有记录的数据,而事实上这些数据也有着大量的科学研究价值,因此,科学数据作为一个传统的概念,随着数据科学的兴起以及在数字化科研背景下第四科学研究范式的形成,受到了越来越多科研人员的重视,其含义、组成及存在形态也都在发生着变化,如从科学数据来源来看,其既包括科研、实验过程中的实验数据、计算机中的存贮数据等数字化数据,如实验记录数据等,也包括原始的非数字形式数据,如神经图像等;从数据组成类型与格式来看,其既包括传统的结构化数据,如数值型数据、多媒体数据,也包括大数据时代的非结构化数据、半结构化数据,如文本数据、HTML 数据、社交数据等。
实现对需要进一步研究方可发现其蕴含价值和内容的科学数据的存储、共享、利用与服务随着科学数据大规模的产生而显得愈发紧迫和必要,因为科学研究已不再是独立的观察某一实验或领域的数据,学科间交叉合作研究和学科内继续研究成为了科研发展趋势,在这种大环境下,科学数据成为科研机构、科研人员学术交流的基本单元。作为社会知识服务机构的图书馆特别是为用户提供科研、 教学支撑的高校图书馆向用户提供科学数据服务,能有效保护数据免于丢失、提高数据曝光度,传播和出版成果、实现数据共享、对科学质疑公开、鼓励观点多样性、节约科研成本、完成研究资助方的要求等。
2012 年6 月,美国大学与研究图书馆协会出版了《学术图书馆与科学数据服务》白皮书报告,该报告调查了美国和加拿大的大学与研究图书馆协会的351 所成员馆的科学数据服务情况,结果显示尽管目前只有少数的美国、 加拿大的大学与研究图书馆协会成员馆开展科学数据服务,但也显示许多高校图书馆准备在未来一到两年内开展科学数据服务。现有的科学数据服务以情报咨询类服务为主,如科学数据服务培训、数据管理计划、数据查找与引用等,很多高校图书馆还将科学数据服务嵌入到科研过程中,鼓励图书馆员直接参与到项目的过程之中。此外,科学数据的技术服务也是服务的主要类型之一,如提供数据标识、数据更新、技术支持等服务。但由于技术服务涉及到了科学数据的内容、存在形态、创建与更改等方面,对馆员的技术素养要求较高,因而开展此项服务的图书馆数量较少,而大多数图书馆只是计划在两年内提供此类服务。值得一提的是,在提供科学数据服务的图书馆中,尽管大多数图书馆倾向于让学科馆员(71.1%)担任数据馆员职务,但也更愿意对现有员工进行相关业务培训后重新上岗来从事此项服务,如参加课程进修、内部交流等培训方式,只有较少比例的图书馆愿意采取雇佣新员工的方式来开展此项服务。
作为以社会或机构信息组织、服务、加工为主要职责的图书馆,因其服务的用户在科研过程之中、所藏文献信息开发之后均能产生大量的科学数据,故而其蕴含着大量的科学数据,嵌入式服务、学科服务的深入开展及大数据时代的到来,使得图书馆的科学数据含量变得更为丰富多样,图书馆如何开发、挖掘自身的科学数据,搭建自己的科学数据开发、存储、共享、服务平台,变得尤为重要。因此,可以预见在图书馆的科学数据服务中,以科学数据的收集、整理、组织为主要服务内容的科学数据开发服务将得到图书馆的重视和开展,用以更深的揭示文献资源和隐含的数据价值。
大量数据的产生,使得实现便捷的存储与获取成为了图书馆和用户的一大问题,云计算的出现似乎解决了海量的存储、高速的运算问题,但云计算天性存在的不安全性和高价格并不是所有图书馆或用户都能解决的,图书馆通过自建或合建自身科学数据的管理存储库来实现科学数据的收集、共享与服务成为必然。如康奈尔大学图书馆建立的DataStaR 就是一个临时的存储库,用户可以上传数据、自主选择数据共享对象、数据出版等,同时支持小型研究团体的数据共享;普渡大学图书馆的D2C2是一个分布式数据保存项目,其中e-Data 作为数据管理服务的试验平台,图书馆员和各个领域的研究者合作进行数据收集; 澳洲国立大学建立的超级计算机设备(Australian National University Supercomputing Facility,简称ANUSF) ,也提供了大量项目范围内的数据存储服务。同时,从社会及图书馆事业发展的角度来看,合作与共享也是未来发展的主旋律,因此,图书馆寻求机构间或科研单位的合作存储服务也将是发展的一大趋势,如哈佛—麻省理工数据中心( Harvard-MIT Data Center,HMDC) 就是由两所学校联合建立的数据仓储中心,以供两所高校的教师存储、获取数据。
在已经到来的大数据时代,数据的挖掘、分析与组织将是图书馆等信息服务机构的主要内容,因此可以预见,通过对科学数据的分析来达到对科学数据的增值与深度揭示将是未来图书科学数据服务的主要的内容之一,如对科学数据的关联度分析、可视化分析、聚类分析等。如哈佛大学的“Dataverse Network”项目除包括有科学数据的出版、共享外,还包括有参考、抽取和分析等内容[8]。
技术的发展与海量信息环境中用户需求的变化,使得图书馆的发现服务也发生着变化,目前主要以资源名称检索和链接,如数据检索、数据导航等,来揭示资源存在与实现服务。其途径也将随着数据来源、类型、存在形态等的变化而借鉴谷歌、百度、搜狐等一站式搜索引擎和Google Scholar、SCIRUS、INFOMINE 等 学 术 搜 索 引 擎理念,实现一站式的资源发现服务将会是图书馆未来信息服务的发展方向之一。而这一服务类型主要就是科学数据服务,如科学数据的集成融汇服务等。知识发现服务系统的开发与大量应用将加速发现服务的发展,目前已开发和在图书馆大量应用的发现系统有Primo、EBSCO Discovery Service(EDS)、Encore 等,OCLC 也推出了自己的一站式知识资源发现与服务系统Worldcat Local,这些系统通过类似Google 的简单检索框,采用统一路径以实现对图书馆各种资源的发现和获取。图书馆界特别是高校图书馆已开始引进和应用这些资源发现服务系统,如北京大学图书馆、浙江大学图书馆、西安交通大学图书馆以及北京师范大学图书馆引进了Summon 系统, 清华大学图书馆、上海交通大学图书馆、中科院高能所图书馆、 农科院图书馆、 中国社科院图书馆引进了Primo 系统。
近年来,随着科学数据服务在美国等发达国家的发展,我国图书馆界也开始对科学数据服务进行了探索,如中科院国家科学图书馆提出并开展的科学数据与科技文献跨界集成服务、数据融合技术的研究和开发,利用数据SRU 技术实现了科技文献、科学数据、字典等的服务融合;北京大学图书馆等还通过引入和应用信息资源发现系统,来向用户提供知识发现等服务。同时,我国学者还对图书馆特别是高校图书馆的科学数据服务进行了学术研究,提出了多种服务模式。笔者以为,我国图书馆的科学数据服务,可以借鉴美国等发达国家的科学数据服务,开展以数据引用、数据查找等内容为主的咨询服务,帮助科研人员对科学数据进行快速的查找与利用,在具有一定科学数据服务的基础上延伸到其它高端领域,如技术支持、 数据关联等,最终实现对科学数据的深度分析、价值挖掘等服务,扩大图书馆在科研支撑、数据保存于传播、知识创造与应用中的作用。
西方的部分高校图书馆把科学数据服务也称作为数据监管(data curation)服务,因而在2012 年美国大学与研究图书馆协会研究规划与评估委员会的报告中将数据监管服务列为2012 年学术图书馆的十大趋势之一。从美国的科学数据服务来看,一方面其服务人员主要是从内部挖掘,通过图书馆员的学术内部交流、课程进修来使其达到科学数据服务的基本素养;另一方面,图书馆专门设立数据馆员岗位,通过对岗位的设置要求来促使数据馆员来提高自身的服务技能与素养。我国图书馆特别是高校图书馆应借鉴这种岗位设置模式,设计数据馆员管理制度,重视人才培养与素质教育,如数据馆员的胜任条件、进修课程等,如爱丁堡大学的数据馆员管理政策明确指出:“学校为科学数据馆员提供培训、支持、建议和适当的指导方针和指导”。
[1]钱鹏.高校科学数据管理研究[D].南京:南京大学,2012.
[2]ANU data management manual: Managing digitalresearch data at the Australian National University[EB/OL].[2012-11-29].http://ilp.Anu.edu.au/dm/ANU_DM_Manual_v1.03.pdf.
[3]Academic Libraries and Research Data Services: Current Practices and Plans for the Future[EB/OL].[2012-11-29].http://www.acrl.ala.org/acrlinsider/archives/6297.
[4]DataStaR[EB /OL].[2012-03-15].http: / /datastar.Mannlib.Cornell.edu /.
[5]D2C2[EB/OL].[2012-03-15].http://d2c2.lib.purdue.edu/.
[6]ANU supercomputer facility[EB /OL].[2010-09-01].http://anusf.anu.edu.au /.
[7]Harvard-MIT Data Center[EB /OL].[2012-03-15].http: / /hmdc.harvard.edu /.
[8]An open-source application for publishing,citing and discovering research data[EB /OL].[2012-03-15].http: / /thedata.org/book/features.
[9]北京大学启用Serials Solutions Summon 发现服务[EB/OL].[2012-12-10].http://www.serialssolutions.com/news/serialssolutions-peking-university-summon-simplified.
[10]Prim 资源发现与获取系统案例[EB/OL].[2012-12-10].http://www.exlibris.com.cn/support/casestudy.Html.
[11]项英,李向军.高校图书馆资源发现服务系统应用研究[J].情报科学, 2012,(11):1682-1685.
[12]李春旺.图书馆集成融汇服务研究[J].现代图书情报技术,2009,( 12) : 1-6.
[13]李春旺,王小梅,王昉等.基于SRU 的集成服务平台设计与实现[J].现代图书情报技术,2007,( 2) :12 -15.
[14]师荣华,刘细文.基于数据生命周期的图书馆科学数据服务研究[J].图书情报工作, 2011, 55(1): 39-42.
[15]肖潇,吕俊生.E-science 环境下国外图书馆科学数据服务研究进展[J].图书情报工作, 2012, 56(17):53-59.
[16]ACRL Research Planning and Review Committee.2012 Top Ten Trends in Academic Libraries[EB/OL].[2013-01-07].http://crln.acrl.org/content/73/6/311.full.pdf+html.
[17]Research Data Management Policy [EB/OL].[2013-05-28].http://www.ed.ac.uk/schools-departments/informationservices/about/policies-and-regulations/research-data-policy.