陈丽君(许昌学院图书馆 河南许昌 461000)
·学术论坛·
基于生命周期模型的科学数据服务研究*
陈丽君
(许昌学院图书馆河南许昌461000)
国外图书馆基于生命周期理论成功开展了科学数据服务。文章介绍了生命周期模型的类型和特点,指出图书馆借助于生命周期模型开展科学数据服务的利弊,提出基于生命周期模型的科学数据服务开展策略,以期为更多的国内图书馆提供参考与借鉴。
生命周期;科学数据;信息服务
在生命科学里,生命周期模型以可视化的方式描述有机体从出生、成熟、生殖到发展演化所经历的一系列阶段,而科学数据也像有机体一样经历类似的发展阶段,科学数据从产生、应用与再生,在格式、应用过程与应用目的等方面发生了多种形式的变化。因此,可借助于生命周期模型开展科学数据服务。K.Subramanyam在《图书馆学和情报学百科全书》第26卷中以生命周期模型的形式描述了科学信息发展演化的过程,把该过程经历的时间总结为3年,1年1个阶段,共3个阶段,并详细描述了每个发展阶段科学信息发展演化的成果[1]。俄亥俄州伍斯特学院图书馆馆员Donna Jacobs对该模型进行了改进,重点强调研究成果,并将改进后的模型用于图书馆网站,以可视化的形式将图书馆的信息服务与用户连接起来,便可得到每种信息源的描述和如何获取该信息源的详细信息,该模型后来被葛底斯堡学院的Musselman图书馆采用[2]。新墨西哥大学图书馆的DataONE项目组借助于生命周期模型研发了管理、组织与保存科学数据的信息系统,指导图书馆科学数据服务活动的开展[3]。杨传汶和徐坤以科学数据生命周期理论为基础,结合科研工作流程,提出动态科学数据服务模式,并给出渐进开展科学数据服务的建议[4]。杨滟和孙建军以数据管护生命周期理论为基础探讨科学长尾数据管护可能的解决方案,论述了科学长尾数据生命周期不同阶段的可能举措[5]。师荣华和刘细文指出,数据生命周期是依据科研过程发展而来,从数据产生、加工到数据发布、再利用的一个循环过程,并归纳数据生命周期理论,在此基础上推演出E-science环境下图书馆可以尝试开展的科学数据服务方式[6]。
开展科学数据服务时,有3种类型的生命周期模型可参考,即基于个体的生命周期模型、基于组织的生命周期模型和基于社区的生命周期模型。
2.1基于个体的生命周期模型
基于个体的生命周期模型用来描述一个特殊的科研项目包含的所有工作,是设计与开展某个科研项目时进行有效规划与组织的辅助工具。普渡大学农学教授借助生命周期模型生动而直观地展示了开展科研项目过程中数据集产生的详细过程,包括采集植物标本、将这些植物标本转换成科学数据、科学数据的使用与分享,该生命周期模型中每个阶段的名称由研究人员个人确定[7]。基于该生命周期模型,普渡大学图书馆馆员与一组信息技术人员共同研发了科学数据管理系统用于采集、描述和管理农学实验室里产生的科学数据,便于更好地为科研人员提供数据监护服务。
2.2基于组织的生命周期模型
基于组织的生命周期模型可为某个组织向研究人员提供科学数据服务时提供借鉴,这些组织可以是图书馆、出版商、学术社区或其他正式或非正式组织等。基于组织的生命周期模型主要有两方面的功能,一方面,该生命周期模型可作为某组织提供科学数据服务的检验标准;另一方面,该生命周期模型可为科研人员在不同的研究阶段提供指南便于他们更好地使用科学数据服务。政治与社会研究高校联盟(ICPSR)研发的生命周期模型[8]是这种模型的代表。ICPSR提供社会科学领域的科学数据服务,使更多的研究人员能够获取与共享科学数据。
2.3基于社区的生命周期模型
基于社区的生命周期模型主要用于为某个特定的研究社区或致力于为研究某个特定的课题而形成的某个临时社区提供科学数据服务时提供参考与借鉴。它能够提供良好的科学数据服务实践行为模式及其不同的实践行为模式之间的联系,并附以详细的说明文档或报告说明细节问题,便于其他社区的理解与使用。英国数据监护中心(DDC)研发的科学数据监护生命周期模型是基于社区的生命周期模型的典型代表[9]。该生命周期模型用于定义与连接监护与保存科学数据的不同细节活动或活动的组成元素。该生命周期模型有个详细的说明文档,便于帮助其他社区正确地规划与开展自身的科学数据服务,如应该开展哪些科学数据服务活动,这些活动的开展顺序是什么。
3.1借助于生命周期模型开展科学数据服务的好处
(1)成功的科学数据服务需要长期的规划,并在合适的时间付诸实践。科学数据服务是一个复杂的过程,涉及到不同人员、机构和资源等要素之间的协调问题,借助于生命周期模型,可将此复杂的过程以可视化的方式进行描述与定义,便于识别这些要素之间的关系或科学数据所处的不同发展阶段。将科学数据从产生、增长到演化的整个过程分为不同的发展阶段,有利于快速识别不同阶段科研人员的特定需求,并确定何时提供何种形式的数据服务以满足科研人员的特定需求,便于在科学数据生命周期的整个过程中识别与说明不同利益相关者之间的责、权、利关系。
(2)生命周期模型展示的是一个不断发展进步的循环过程,并将不同发展阶段之间的联系与循环作为一个整体进行集中展示。借助于生命周期模型可定义不同发展阶段的数据服务并将它们联系起来形成一个更大的系统,进而有利于识别提供的科学数据服务的空白点或薄弱环节并有针对性地改善科学数据服务。
(3)生命周期模型以可视化的方式为科学数据服务提供者提供清晰有用的参考框架,有利于他们选择以易于理解、富有吸引力的方式向用户提供科学数据服务的内容、时机和形式,并展示不同科学数据服务内容之间的关系和用户使用某项数据管理服务前提或要求。
3.2借助于生命周期模型开展科学数据服务的弊端
首先,生命周期模型倾向于完美而非现实的真实写照。在生命周期模型中,每种活动是有先后顺序并且是线性的。例如,一个生命周期模型可能始于科研活动产生的数据描述、加工,便于进一步研发、分析和最终使用。事实上,科学数据的产生、发展与演化并非是线性的。科学数据是科研活动的产物,科研活动本身比较复杂,可能涉及到要处理无法预料的某个环节的错误并对错误环节作及时处理,这就需要重复某些科研环节的活动并重新处理科学数据。所以,生命周期模型可能掩盖了利用科学数据开展科研活动的复杂性、多样性与动态性。其次,生命周期模型可能掺杂了其创建者的观点、兴趣与偏见,这可能影响其他组织借鉴该生命周期模型的有效性与实用性。
4.1界定科学数据服务范围
在研发生命周期模型之前,需要想清楚要提供的科学数据服务的内容、水平与服务对象,以上3种类型的生命周期模型都可以借鉴。如果为研究人员提供的数据服务是针对某特定项目的,这意味着研究人员要和一个科研团队在一起工作一段时间,开发基于个体的生命周期模型是最合适的。因为基于个体的生命周期模型的专一性与针对性能够更详细地展示科研活动的某些细节,有利于基于这些细节开展科学数据服务。如果提供的科学数据服务在本质上是程序性的,意味着服务对象是大众化的非特定的科研团队,可以采取基于组织的生命周期模型。基于组织的生命周期模型是基于个体的生命周期模型的聚合,能够提供不同的科研项目之间的共同发展阶段或涉及的共同活动或共同特点。基于组织的生命周期模型的准确性与细节水平取决于要展示的科研项目所涉及的学科领域的数量或覆盖范围。基于组织的生命周期模型可包含不同的科研方法产生的不同类型的数据、这些不同类型数据的共同点以及数据之间的聚合。
4.2选择生命周期模型的类型应该与自身所处的组织环境相符合
生命周期模型易于受到创建者的主观局限,容易掩盖科研人员利用科学数据开展科研活动的复杂性、多样性与动态性,并影响其他组织借鉴同样生命周期模型的有效性与实用性。所以,如果一个组织打算借鉴其他组织的生命周期模型,需要考虑要借鉴的生命周期模型所揭示的科研活动与科学数据管理实践是否真正与自身所在的组织环境类型匹配,不能盲目搞“拿来主义”。
4.3生命周期模型应该反映特定环境下科研人员的真实需求
开发生命周期模型之前,应认真调研与分析科研人员所在的科研环境并对科研人员的研究行为与过程有深层次的理解与认识,只有如此,才能使开发出来的生命周期模型真正反映用户的需求。例如,牛津大学科学数据管理模型是建立在全校范围内调研基础上的,调研的内容包括科学数据的类型、存储、研究人员分享科学数据的意愿、科学数据管理培训的需求和科学数据的长期保存等。没有对科研人员科研环境与科研过程的分析,生搬硬套类似组织的生命周期模型的行为是不可取的,并且是徒劳的。
4.4注重数据监护服务中关键且易于被忽视的环节的设计
科学数据生命周期中包含许多易于被忽视但却对最终的管理效果产生重要影响的环节,如科学数据的背景信息、科学数据的保存与共享环节、多版本数据文件的控制等,在生命周期模型中要对这些环节进行合理的规划与设计,否则将造成一定的损失并失去科学数据管理应有的意义。例如,随着科研项目的结束,科学数据进入存储与共享环节,为了使科学数据的保存与共享变得更加方便、快捷,科学数据在此环节可能由原始拥有者或管理者移交至专门的数据仓储管理部门或者第三方服务商,如果在生命周期的设计过程中忽视对该环节的规划与设计,可能会出现科学数据的错误或者丢失。
4.5加强对生命周期模型中具体内容的深度挖掘与研究
加强对科学数据对象价值的评估与科学数据生命周期变化规律的深入分析与研究,合理划分生命周期不同阶段的时间长度,确立各阶段科学数据对象的价值与变化规律,通过主动管理尽量延长有价值的科学数据的生命周期或尽量使这些科学数据处于增长期,保证其共享或再利用的价值。
4.6开展嵌入科研过程的基于科学数据生命周期的科学数据服务
数据生命周期模型是科研生命周期模型的子集(见图1)。该生命周期模型的第一个阶段是源于科学数据发现的科研项目规划和科研项目申报书的撰写。一旦科研项目获得资助,便进入启动阶段,该阶段可能涉及到购买设备、人员分工和其他更详细的规划。科研项目一旦开始实施,便进入始于科学数据采集的数据生命周期阶段。所采集的科研数据的性质取决于科研项目的性质。科学数据一旦被采集到,在分析过程中被科研项目人员所利用。在科学数据的分析阶段,可能会发现一些错误导致科学数据将会被重新搜集。科学数据分析阶段一旦结束,便进入以报告、出版物和其他研究产品的形式进行间接分享或者以共享协议的形式分享。科学数据被保存到数据文档库中,便于更多用户存取并保持科学数据的价值。在用户的存取过程中,有利于新数据的发现或新思想的产生,进而开始新一轮的科研活动循环。基于科研工作过程与科学数据生命周期的动态科学数据服务涵盖科研过程的各个阶段,针对不同阶段的特点为科研人员提供科学数据服务,并根据科研人员的需求动态调整科学数据服务的内容,即在科研项目启动阶段,帮助科研人员制定科学数据管理计划;在科研项目的实施阶段,帮助科研人员搜集、分析和共享相关科研数据;在科研项目的结束阶段,帮助科研人员存储与再利用科学数据,便于进入到另一个科研活动中,相应的科学数据服务也是针对另外一个项目开展,但这一个过程并非简单的重复,而是一个螺旋上升的过程。
图1 嵌入到科研过程的科学数据生命周期
生命周期模型是开展科学数据服务的有力辅助工具。尽管如此,规划一个合理的生命周期模型需要投入大量的时间、精力并考虑许多问题,包括生命周期的类型、每种类型的生命周期模型所涵盖的范围,以及如何辅助图书馆实现具体的科学数据服务目标与任务、生命周期模型是否真正反映了科研人员的科研数据需求与使用行为等。基于生命周期模型的科学数据服务具有整体性、动态性、及时性、持续性和以科研人员为中心的特点,需要加强对生命周期模型中具体内容的深度挖掘与研究,这不但需要提高数据服务人员的能力与水平,而且也需要不断提高科研人员的数据信息素养。
[1]SubramanyamK.Scientific Literature[M]//Encyclopedia of Library and Information Science. New York:M. Dekker,1979:375-548.
[2]Research Publication Lifecycle Model[EB/OL].[2016-05-10]. http://www.gettysburg.edu/library/research/guides/scientific_information/index.dot.
[3]Primer on Data Management: What You Always Wanted to Know[EB/OL].[2016-05-11].http://dx.doi.org/doi:10.5060/D2251G48.
[4]杨传汶,徐坤.基于生命周期的动态科学数据服务模式研究[J].图书馆论坛,2015(10):82-87.
[5]杨滟,孙建军.基于生命周期管理的科学长尾数据管护研究[J].情报理论与实践,2016(4):45-50.
[6]师荣华,刘细文.基于数据生命周期的图书馆科学数据服务研究[J].图书情报工作,2011(1):39-42.
[7]Data Curation Profiles Directory[EB/OL].[2016-06-10].http://dx.doi.org/10.5703/1288284315012.
[8] Guide to Social Science Data Preparation and Archiving: Best Practice Throughout the Data Life Cycle[EB/OL]. [2016-06-15].http://www.icpsr.umich.edu/files/ICPSR/access/dataprep.pdf.
[9]DCC Curation Lifecycle Model [EB/OL].[2016-06-15]. http://www.dcc.ac.uk/resources/curation-lifecycle-model.
Study of Scientific Data Service Based on Life Cycle Model
The library at abroad has successfully carried out scientific data service based on life cycle theory.It introduces the types and characteristics of life cycle model,points out the the pros and cons of providing scientific data service based on life cycle model,and put forward the strategy of offering scientific data service based on life cycle model in order to provide some reference for the library of our country.
life cycle;scientific data;information service
G252
A
陈丽君(1980—),女,许昌学院图书馆馆员。
2016-07-23
*本文为河南省社科联调研课题“E-science环境下高校图书馆科学数据管理研究(项目编号:2016-1226)”;河南省教育技术装备项目“河南省高校图书馆创客空间的构建及其服务创新研究(项目编号:2015155)”的成果之一。