江银凤
(第三军医大学,重庆 400038)
基于长尾数据监管的图书馆服务研究
江银凤
(第三军医大学,重庆 400038)
摘要:文章结合大数据时代长尾理论,探讨长尾数据在图书馆服务中需求的增长、图书馆参与数据监管服务的迫切性及图书馆在长尾数据监管中所产生的形态,论述长尾数据监管在图书馆服务中的应用,包括监管重心转移、资源长尾聚合、知识产权保护及服务角色转变等对策措施,以期为图书馆长尾数据监管实践提供参考。
关键词:长尾数据;数据监管;数据生命周期
网络数据的级数非线性增长,将我们带入大数据时代,数据量的海量、高速、复杂度以及非结构化的特性,给我们带来了更好的数据价值及体验,但也让数据的监管和存储变得越来越复杂,图书馆的数据量也不例外。OCLC副主席Dempsey曾说:图书馆集聚了研究、学习和文化资源的长尾[1]。图书馆在网络的冲击下,用户资源被搜索引擎等分流,已逐渐丧失了其作为学术资源中心的最佳聚合度。相对于大数据对应的大科学平台的关注度体量大,处于数据长尾的小科学以及新兴学科领域,在科学研究动态循环的过程中,由于缺乏必要的关注度,对科学数据第一手资料及实验数据的记录、存储及维护、再利用的过程就得不到其应有的价值。在此背景下,图书馆作为科研数据监管及存储的最佳机构[2],其长尾服务优势已体现出来,这就是本文研究的目的之所在。
1相关研究概述
1.1 长尾数据及数据监管概述
赵艳枝在《长尾数据监护与图书馆的职责——伊利诺伊香槟大学图书馆范例研究》中,将长尾数据定义为:科研团队或个人投资较小或非基金资助科研项目研究过程中产生的数据[3]。杨鹤林将这类科学称为科学界的“地方志”,以方便认识和了解特定的局部事物[4]。伊利诺伊大学香槟分校的实践也说明了图书馆的监管重心是在“小科学”[5]。图书馆对长尾数据资源的服务需求的增长不言而喻。除此之外,科学成果的产生需要原始数据作为基础,在后续的研究中对其他科研项目的推进也具有很好的参考价值。小型科学项目一般是以小团体或个体研究的形式进行的,产生的数据小众却量大,但一般只注重项目所产生的结果,对整个科研过程的前期、中期及后期所产生的数据未有详细记录。这些数据可能带来更为前沿的创新领域,对未来科学的发展与进步可能具有重要价值,但一般只保存在科研人员手里,如果图书馆不加以集中监管,则不利于其永久保存。
数据监管一词,美国学术界将其统一为Data Curation,由微软研究员、图灵奖得主Jim Gray在2002年提出,被日本、澳大利亚、荷兰等国沿用。而英国学者常用Digital Curation作为其专业术语[6]。中国学者在引用该术语时将其翻译为“数据策展”“数据字典”“数据医疗”“数据存管”“数据监护”“数据监管”“数据管理”等,意义不尽相同,而对数据的界定则统一为科研数据。国外的定义,主要从数据生命周期的过程展开,即从数据的产生、利用、保存、归档、维护、再利用等这一系列的活动的总和的开展过程。国内的定义可归纳为两个方面:一个是与国外相类似的数据的选择、组织、存储及管理,另一个是为揭示数据监管所产生的附加价值与知识效能。而本文用数据监管一词来界定,注重数据的持续性、动态性及可管理性的特点,显示对数据的监管不仅是对数据整个生命周期的监视管理,更是为满足周期中数据持续性管理的要求。
1.2 国内外图书馆数据监管现状与实践
针对数据监管,国外关注较早。最初的研究都是从对数据及数据共享的政策规范等开始,逐渐过渡到数据管理直至更为细致化的数据监管。从国际性组织到校际联盟,从大学再细化到公共及大学图书馆,关于数据监管的研究一直都没有间断过。国际性组织如美国国家科学基金会(NSF)2011年提出对所收集的数据的管理计划的详细说明,启动 DATANET计划;英国、荷兰、澳大利亚等对数据管理作了计划研究及政策管理,更是通过法案的形式限定数据政策,以保证数据管理能有效操作与共享。美国校际政治和社会科学研究联盟(ICPSR)、英国联合信息系统委员会(JISC)与巴斯大学的资助合作[7];康奈尔大学、加州大学圣地亚哥分校等国外很多所大学有关数据管理网站、计划、协议、政策、机制及服务等,与图书馆结合,给予了充分的数据需求形式。由ARL,CNI和专业组织主办的监管相关活动(ACM/IEEE,ASIS&T,ACRL)[8],加上图书馆为发展支持数据监管进行的研究生教育计划,都表明了数字数据的监管在研究型图书馆界的重要性。
国内图书馆有关数据监管的研究,主要是从机构知识库的角度,以存储科学文献中的期刊论文、学位论文、本校原生文献资源、教案课件及预印本等为主。CALIS三期有关于科学数据管理的预研项目[9],中国科学院、清华大学、复旦大学等也有相应资源,上海交通大学的情报分析服务,也是对本校科研数据资源的分析。台湾大学图书馆联合伊利诺伊大学香槟分校所做的研究[10],定位了大学图书馆在科学数据管理中的新角色。而在军队院校图书馆中,三个军医大学都有各自相应的自建特色库的原生数据资源,主要以医学实验类为主提供学科服务,这就需要图书馆员在科研实验过程中参与数据进程,才能有效将数据保存再利用。
总体来说,国外有关数据监管的研究已相对成熟,国家、机构以及图书馆的合作也使数据监管服务开展更为顺利,而国内在图书馆方面的应用实践还相对较少,数据能被利用的价值还有待提高。
2长尾理论在图书馆数据监管中的作用实施
有文章调查显示[11],科研数据的来源主要是从实验过程以及网络采集中所获得的第一手数据资料,大科学项目的数据记录有专门的数据机构。但小的科研项目中的长尾数据,处于科研长尾的80%却很少受到关注,要想将这些长尾数据永久保存并能有效利用,就需要图书馆对其进行收集、存储、监管并延伸到再利用的生命周期中去。
2.1 长尾数据在图书馆管理服务中的需求分析
图书馆数据,是图书馆网站上的数据资源,主要包括学位论文库、专业数据库、特色数据库、视频图片数据库等自建资源,也有CNKI、Elsevier、Springer、PubMed等标准资源,外加新闻消息、通知教务信息资源等。这些数据集成在图书馆网站上,构成了图书馆数据的整体。图书馆长尾数据即是在此基础上衍生出来的小科研项目集成数据,相应的数据特征、数据标准、数据分布特点、隐私与产权信息、数据获取方式、内容形式、数据量大小及更新周期等,是图书馆服务内容的一部分。图书馆作为知识传递的渠道,在当前用户被分流的环境下,重构服务内容,让用户重新逆回到以图书馆为学术资源聚合中心,是面临的一大挑战。
现有图书馆有关数据的管理以机构知识库为主,存储本校师生自有的期刊论文、学位论文、工作文稿等,而研究中的实验数据、假想数据、视频图像、算法程序等科研数据却没有有效集中管理,只注重科研成果而缺乏相关科研支撑材料。本文以长尾数据监管观照图书馆所提供的服务,研究的对象以科研数据为主,目的是为科研数据信息的再利用,倡导对科研产生的数据进行全程收集存储、元数据标准的规范、长期保存及管理,以方便后续研究以此为基础进行再处理利用,挖掘数据信息的价值,达到数据增值的目的,从而强化图书馆在科研过程中的知识服务价值。
图书馆是为全社会服务的非盈利性的机构,在资源使用中,长尾资源的出现是不可避免的。应用长尾理论聚合数据资源,聚合用户需求,能使用户接触到那些原本很少利用的信息,并能有效地利用到自己的研究之中。
2.2 图书馆参与数据监管的实施方法途径
大数据时代,传统的图书馆服务方式已不再适应用户需求,急需对其重新定位,以更好为用户服务。图书馆数据监管服务的出现,即是对其服务方式实施转型的主要形式。美国国家科学基金会(NSF)自2011年始规定所有申请NSF的科研基金项目必须以补充文件的形式提交其相关的研究数据管理计划[12],即是有关数据监管的数据长期保存、共享形式、访问方式等,且其DATANET项目将图书馆作为主体参与者放到此项工作中。大数据时代图书馆转变其服务方式,开展更为深层次的信息服务,也对数据监管理论与实践的研究有很大价值。
图书馆在技术、数据标准等方面的便利性,以及图书馆员所具有的文献管理知识,让其能在传统文献分类组织、元数据、资源描述、编目检索等基础领域有很高的专业水平。数据监管服务的出现,图书馆及其馆员的知识内容能很好沿用。图书馆在现有知识库的基础上,由从关注科研成果转向为关注数据这一支撑科研整个过程的材料,由被动的资源收藏者变为主动的知识管理者。数据监管过程中,相应的数据平台的建立、用户信息需求的服务、数据标准形式等,都能与图书馆有效服务洽和。
2.3 图书馆在长尾数据监管中的生命周期形态
在不同领域资源集合日趋完善的今天,我们还没有协调好一个很好的模式比例来描述小型科研项目中产生的研究级数据集合[13],这些科学长尾数据在聚合集合中具有高度的异质性[14],往往是分离的,要想跨越长尾科学及相关数据的监管,即是在数据生命周期的基础上形成图书馆监管新形态,以利于数据的使用,如图1所示。
图1图书馆长尾数据监管生命周期形态
长尾数据从被纳入科学假想开始,就开启了其生命周期的形态,虽然周期会短一些,但接下来的科学实验、分析设计、数据成型、得出结论、出现成果直至成果的发表,且成果发表之后所产生的效应以及后续的数据、文献资源的引用,形成相应的理论,其每一个阶段都会产生一定量的科研数据,这就包括长尾数据生命周期的上中下游。
而图书馆在其相应的生命周期里,数据监管工作的重心在数据的收集选取、数据的挖掘分析、检索利用、语义匹配及长尾聚合等不同阶段亦有差异。这就要求图书馆在不同的长尾数据监管阶段,给予不同的服务形态。在项目进行前期的假想实验数据阶段,通过对数据的收集选取,对数据的动态采集、鉴定、选择及更新。与相关的机构研究者合作,制定相应的监管计划,对数据产生的类型、数量、形式、保存期限、访问权限等予以规定。规范数据标准及格式以方便互操作,以关联数据的方式,可以将整个长尾数据的生命周期过程关联起来,也可以对不同项目的相似数据、同一项目不同研究者的数据之间建立关联,以利于数据的统一集合形成资源的聚合。图书馆现有的数据资源,主要有数据库资源平台、相关的制作标准、以及流动的网络数据,这些资源都可为图书馆的数据监管提供便利条件。通过图书馆技术搭建数据平台,制定相应的元数据格式标准,以利于长尾数据的存储。对数据知识的存储与再利用以及知识产权的保护方面的安全防护也是图书馆后期服务中要考虑的内容。
3长尾数据监管在图书馆服务中的对策思考
面对数据密集型科研时代及用户知识需求的转变,图书馆应发挥其应有的学术价值,为中小型性质的科研、教学等予以数据监管,完善其科研数据的生命周期管理,同时也要延展其在数据长期存储方面的作用。
3.1 转移数据监管重心
在缺乏相应监管计划及管理制度的要求上,大部分科学数据保存在科研人员自己手中,一旦项目结束或结题,相应数据就会被遗忘,很难再被共享或利用,数据也因此可能会被毁坏或丢失,这样它的隐藏价值就不会被挖掘出来。长尾数据的生命周期形态,要求图书馆数据监管工作从项目申报开始就提供相应服务,将监管重心由只注重收集研究成果改为加强对数据生命周期的上游及中游各类数据的管理。在项目初期即与科研人员充分合作,或直接加入到科研团队中,项目进行中对推导或者中间数据进行有效管理,最后生成的成果数据也有其原生价值。图书馆要在国家相关政策的基础上,制定数据监管计划,厘清不同学科数据产生的类型、数据形态,弄清楚哪些是需要纳入监管体系的数据,如何对数据进行标准化、格式化、结构化、知识化处理,数据特征的描述、数据的体量及其更新周期、内容形式等,将其囊括到自有的监管计划中,进行动态实时化监管,以利于发挥长尾数据监管的价值。
3.2 转变长尾资源聚合
图书馆现有的长尾资源主要表现在读者长尾、资源长尾以及服务长尾三个方面,其可持续发展的长尾点是转变其资源聚合方式,即以数据监管服务作为生长点,实现资源长尾的供应聚合。科学生命周期的上中下游所产生的数据,体量大且有暂时性、动态性,这就要求图书馆高度重视用户生产出的内容的收集存储以及长期性的保存,利用图书馆所占有的技术及管理优势给予统一管理,聚合数字资源,从而有效扩展图书馆的内容空间和信息数量[15]。同时在长期存档中亦需要图书馆这一主体给予数据的维护和再利用的资源,发掘出长尾用户的潜在需求,延展长尾数据资源,方便研究用户充分发现、获得及利用资源,实现其循环周期的价值。除此之外,图书馆在世界范围内的分布已经形成了一个图书馆网,但资源的聚合程度还有待进一步挖掘,数据资源更是各成体系,没有统一标准。而图书馆资源长尾的聚合不是单靠一个馆的力量就能实现的,而是需要图书馆在网络环境下有机结合,共同参与,将数据资源充分纳入到管理体系中来,在方便用户的同时也实现了长尾资源的整合统一。
3.3 保护知识产权信息
图书馆存储数据资源,在收集存储上传过程以及长期保存再利用中,都会涉及到数据存储方式及位置、访问与使用权限、数据共享利用管理等安全性问题,亦即数据中包含的知识产权问题。科研项目中图书馆所收集到的长尾数据,如果未对使用权给予清晰的界定,尤其是军队院校会涉及到一些敏感数据及信息的所有权及使用权问题,很容易导致数据信息的泄露,这显然违背了数据监管服务的初衷。因此,图书馆在保障数据生命周期监管共享之外,数据资源知识产权的保护也是非常重要的一个方面。在数据备份的监管方面,伊利诺伊大学香槟分校图书馆对科研数据文档监管,建议对其备份三份,包括原始文档备份、外部本地备份和外部远程备份[16],根据版权许可和发布协议将数据存储在库中,亦可通过web站点联机发布,我国图书馆可以根据本馆实际参考借鉴其做法。在长尾数据使用的监管方面,图书馆要根据不同密级等级的数据,设置相应的浏览使用权限,并对数据使用者的身份给予审核,提供对应的数据信息,同时要求其在数据引用过程中要明确注明出处、作者信息及必要的出版信息等,数据监管员在服务过程中亦要遵守产权规则。只有保证了数据提供者的知识产权权利,长尾数据才能不间断地存储及再利用,这与图书馆生长着的有机体这一定律不谋而合。
3.4 变化服务职责角色
国外图书馆在数据领域已经开始设置专门岗位角色,Data Scientist、Data Services Librarian、Data Research Scientist、Data Manager等,国外图书馆员已经被NSF、NEH及其他管理者确认为能帮助研究人员、机构和组织解决问题的关键角色之一[17]。图书馆的工作服务边界也已扩展到数据服务阶段。这些学科馆员在图书馆服务过程中,在与读者交互的过程中,其角色定位、职责范围、服务方式等都有一定的转变。数据监管员(data curator)的角色,就是在整个长尾数据监管生命周期的过程中,明晰用户需求及规范需求类别,以数据的价值为增值点,具备数据监管专业知识,以及小科学科研项目领域相关知识,与科研人员交互数据信息,提供图书馆与科研数据之间的人机接口,在科研初始阶段即参与到科研数据的操作过程中,规范数据框架及标准,将研究轨迹信息中的隐性知识挖掘出来,以为数据共享服务提供保障。这对我国现阶段图书馆人员的能力要求提出了较大的考验,数据监管岗位越来越成为图书馆的重要岗位,图书馆服务职责角色转变,要求图书馆要做好数据监管员的准备工作,做好人才储备及综合知识的考量,重点培训相应的学科数据服务人员,跟进最新研究进展,立足长尾数据,扩展长尾知识技能,以更好地为用户服务,保障图书馆数据监管中心的能力。
4结语
图书馆的数据监管服务为其学科化服务带来了新的生命力[18],尤其是长尾数据的监管,更是其抓住用户需求的生长点。但这一服务在国内还不够成熟,监管形态也不够明晰,这就需要图书馆参与进来,在未来服务中通过更好的实践应用,大胆创新。
参考文献:
[1] 陈锦红.基于长尾理论的图书馆服务的深化[J].情报资料工作,2010(5).
[2] 张秋彦.高校科学数据监护研究[J].情报科学,2013(5).
[3] 赵艳枝.长尾数据监护与图书馆的职责——伊利诺伊香槟大学图书馆范例研究[J].国家图书馆学刊,2015(3).
[4] 杨鹤林.数据监护:美国高校图书馆的新探索[J].大学图书馆学报,2011(2).
[5] Digital Curation[EB/OL].[2015-12-29].https://en.wikipedia.org/wiki/Digital_ curation.
[6] 张文彦,武瑞原,于洁.大数据时代的图书馆初探[J].图书与情报,2012(6).
[7] Anna Gold: Short-Term Developments, Long-Term Prospects. Data Curation and Libraries. April 4, 2010.
[8] 谢春枝,燕今伟.国内外高校科学数据管理和机制建设研究[J].图书情报工作,2013,57(6).
[9] 陈德容.基于关联数据的图书馆数据发布及数据服务[J].图书馆工作与研究,2015(2).
[10] 胡永生,刘颖.基于用户调查的高校科研数据管理需求分析[J].图书情报工作,2013,57(6).
[11] 范爱红,Deborah J. Schmidle.学科服务发展趋势与学科馆员新角色:康奈尔范例研究[J].图书情报工作,2012,56(5).
[12] Philip Lord, Alison Macdonald, Liz Lyon, etc. From Data Deluge to Data Curation[C].In Proc 3th UK e-Science All Hands Meeting, 2011.
[13] Carole L. Palmer, Melissa H. Cragin, P. Bryan Heidorn, etc. Data Curation for the Long Tail of Science: The Case of Environmental Sciences. JANUARY 2007.
[14] 胡舒莉.图书馆学五定律与长尾理论[J].图书馆工作与研究,2009(8).
[15] 赵艳枝.科学研究中的长尾数据及其监护[J].情报资料工作,2015(3).
[16] 颜世霞.州理工大学图书馆数据监管需求评估项目的启示和思考[J].医学信息学杂志,2014,35(12).
[17] 叶兰.国外图书馆数据监护岗位的设置与需求分析[J].大学图书馆学报,2013(5).
[18] 沈婷婷,卢志国.数据监管在我国高校图书馆的应用展望[J].图书情报工作,2012,56(7).
(责任编辑:曹高峰)
中图分类号:G251
文献标识码:A
文章编号:1006-1525(2016)04-0073-05
作者简介:江银凤,女,助理馆员。
收稿日期:2016-01-13
Research on Library Services of Long-tail Data Supervision
JIANG Yin-feng
(Third Military Medical University, Chongqing400038, China)
Abstract:Combining with the long-tail theory in the big data era, this paper discusses the increasing needs of the long-tail data in library service, the urgency of library service involved in data supervision, and the producing form in long-tail data supervision of library. This paper also expounds the application of the long-tail data in library service, including supervision focus shifted, resource long-tail aggregated, intellectual property protected, and service roles transformed to provide the reference for the long-tail data supervision practice in library.
Key words:long-tail data; data supervision; data life cycle