杨传汶,徐坤
基于生命周期的动态科学数据服务模式研究
杨传汶,徐坤
探讨如何有效开展科学数据服务,通过专家访谈法参考专家意见,借鉴国内外相关研究和实践,以科学数据生命周期理论为基础,结合科研工作流程,提出动态科学数据服务模式,并给出渐进开展科学数据服务的建议。
科学数据 生命周期 动态科学数据服务
欧美发达国家的科学数据服务发展较快,在数据开发、检索、存储、咨询、分析等方面取得了较好的成绩。数据开发服务主要是对科学数据进行组织,使之更好地被共享和利用,如美国加州大学图书馆对学校实验室数据进行收集和整理[1]。数据检索服务主要是帮助用户获取所需数据和相关资源的信息,实现文献资源和相关数据资源的交叉链接,为科学数据用户提供系统服务,如德国国家科技图书馆利用给数据对象分配唯一的标识符实现文献对科学数据的链接[2]。科学数据存储服务是科学数据服务的重要内容,是其他相关服务的基础,有效地对相关数据进行存储才能实现科学数据的共享和复用,如哈佛和麻省理工大学联合建立数据中心,供本校教师进行数据存储和获取[3]。数据咨询服务主要是针对用户需求,帮助用户选择数据知识库,协助用户制定相应的数据管理计划,如麻省理工大学图书馆提供地理GIS数据、社会科学数据、生命科学数据的咨询服务[4]。科学数据分析服务主要是对科学数据之间的相互关系进行分析,总结出新内容或者发现相关领域的研究趋势,如哈佛大学Dataverse Network项目就提供利用SPSS和STATA对数据进行分析服务,并能对分析结果进行下载[5]。另外,数据服务人员的教育培训[6]、数据服务软件工具的开发[7]等在国外都有较好发展。
国内科学数据服务的研究起步较晚,但近年呈现蓬勃发展趋势,在CNKI上以“科学数据”为主题进行检索,对检索到的相关文献进行筛选,得到科学数据相关论文篇数见表1(检索时间:2015年2月27日)。
表1 CNKI科学数据相关文献数量表
由检索结果可知,科学数据一直是科研人员关心的热点,2013年开始受到更多的关注和研究。从内容看,多为对国外相关理论和经验的介绍[8],洪程以东南大学研究生为对象调查科学数据需求与利用情况[9],还有一些单位做了科学数据管理上的实践,如武汉大学的社会科学数据管理中心[10]。
从实际效果看,虽然国内科学数据服务对科学研究产生了积极影响,但与欧美发达国家相比还存在差距,许多方面仍然需要完善。尽管国外有较多的实践经验,但由于服务对象和科研环境不同,国内科学数据服务不可能完全照抄国外经验。同时又因为数据服务是一项系统的持续的任务,有大量工作需要做,如何系统地开展国内科学数据服务,具体有哪些工作需要做,这些问题是在目前科学数据服务研究蓬勃发展的情况下亟待解决的,需要一个有效合理的科学数据服务模式来指导科学数据服务的具体实践,以促进科学数据服务更好实施。基于此,本文参考国内外相关研究和实践,结合科学数据生命周期和科研过程,提出覆盖整个科学数据生命周期的动态科学数据服务模式,并对科学数据服务实施提出建议。
构建动态科学数据服务模式需要正确理解科研过程和其所需数据服务,为此,本研究在参考相关研究文献的基础上,于2014年10月对相关专家进行访谈。访谈过程如下:
(1)拟定访谈提纲。除介绍访谈目的、意义、匿名保证等基础项目外,还需参考相关研究文献,从中抽取整理科研过程、科学数据生命周期等知识,访谈人员要熟悉相关内容,保证访谈过程中与专家有良好的互动交流。访谈提纲可在与专家访谈后进一步完善,以利于后续访谈取得更好的效果。
(2)选择专家。为使访谈有效进行,笔者从吉林医药学院选择访谈对象,包括临床医学、检验、口腔影像、药学等科学数据产出较多的专业。首先由笔者工作部门领导与相关院长沟通,而后院长推荐专家,保证访谈工作顺利进行。在被访谈的40名专家中,教授25人,副教授12人,均曾主持过省级以上科研项目或者是项目的主要完成人,了解和掌握科研过程,对数据服务具有较高需求,其中3名是中级职称,主要从事实验室实验工作,日常工作中科学数据接触频繁,对科学数据服务需求内容较了解。因为被访谈人员均由各个学院院长选择推荐,在科研过程、科学数据服务需求内容等方面的意见具有一定代表性,能够对相关内容做出较真实的反应。
(3)进行访谈。访谈地点双方约定,保证不受外界干扰,一般宜选择小型会议室。首先记录专家的性别、年龄、专业、学历、研究方向等基本信息,使用录音笔需经专家同意。访谈内容按照提纲顺序进行,注意访谈过程与专家进行适度互动,主要是介绍和解释相关研究成果中的科研过程、科学数据生命周期等内容,同时在访谈过程中保证对访谈核心问题理解的全面性与深刻性。访谈时间一般在30分钟左右,访谈结束后请专家核实记录内容。
(4)访谈结果分析整理。整理专家访谈结果,再选择10名被访谈教授对结果进行修正和确认,最终得到一般科研过程和科学数据生命周期。
科研过程一般包括如下步骤:①制定计划,设计如何实施整个科研项目;②进行实验,采用相关的仪器设备采用相关的方法进行实验;③收集数据,对实验过程中所产生的数据进行收集整理;④解释与分析,将整理好的数据进行加工,分析其相互关系;⑤得出结论,整理分析结果,得到相应结论;⑥表达与交流,对结论进行合适的表达,与其他科研人员交流;⑦评价与改进,在交流过程中对结论进行评价,改进不够理想的地方。
在科研活动中,科学数据由最初创建的初始数据,经过科研人员的解释和处理形成中间数据,并进行存储管理、复用,最后随着研究的进展将数据发布整理结果数据,再被其他研究所引用,形成这样一个生命周期过程。各研究机构和学者给出了不同的数据生命周期模型,如英国的Data Archive项目把数据生命周期分成6个阶段[11],澳大利亚国家数据服务项目将数据监护分成了创造、存储、描述、标识、登记、获取、检索、开发等8个环节。在与专家有效沟通上述科学数据生命周期的情况下,获取专家对科学数据生命周期的设置建议,经整理后将科学数据分为计划、生产、保存、筛选、存储、利用、更新等7个阶段,在每个阶段所需进行的工作内容也不相同,具体如下:
①计划:进行科研工作前须有周密计划,在计划阶段设计好数据生命周期每个阶段的任务和需注意的问题,能使科学数据服务实施更加容易和可靠,同时让相关人员清楚自己的任务,保证工作有效地开展。对科学数据而言,要满足后续的数据存储和共享复用,需要针对本学科并兼顾科学数据的跨系统应用做好科学数据的元数据模板,明确需要记录的内容,以及应以怎样的方式对记录进行有效组织,方便科学数据在不同的系统中处理和利用。
②生产:做详细计划后是实施科研工作,在这个过程中科研人员利用自己的专业知识,参考其他相关知识和数据,进行科学研究,利用科学数据元数据模板记录科学研究产出的数据。由于科研人员在查找资料和相关数据上要花费大量的时间和精力,他们需要更专业的人员和机构为他们提供相关服务,基于国内科学数据交流与共享的实际情况,对科学数据的服务需求更为明显。
③保存:科研过程生产的科学数据存入临时存储系统,为进一步研究使用。这些原始数据来自于科研人员的研究项目,不同的研究人员对同一数据可能产生不同的想法,进而产出新的研究成果,这就是科学数据的增值性特点。即使是错误的或者失败的数据对避免同类错误发生也具有重要的借鉴价值。而科研人员保存数据的情况亟待改进,目前,这些数据多数是零散的以表格的形式存在于计算机中,缺乏安全机制,数据丢失情况严重,更不利于数据的复用和共享,科研人员急需专业的服务将他们从不太合格的数据管理员的角色中解放出来。
④筛选:由于科研实验产生大量的原始数据、中间数据和结果数据,鉴于科学数据存储需要花费一定的人力物力,并不是所有的原始数据都需要进行存储,只需要对原始数据进行筛选,选出具有长期存储价值的数据,这个过程需要同行的参与,在与其他研究人员充分交流的基础上筛选的数据才能更好的保证有用的数据不被误删,发挥其应有价值。而要实现这一目标需要有一个合适的交流平台,既能保证数据交流,又能保证数据的安全。
⑤存储:将筛选出的科学数据存储到数据中心,让更多的科研人员复用和与其他科研人员共享交流,并做好备份工作。共享和交流最多的是结果数据,但因为各种原因结果数据往往不够完整,并且加入了研究人员的主观因素,导致复用数据的人员对科学数据产生误解和误用。因此,存储数据需要将更加完整的原始数据和中间数据也以不同的版本存储,这样科研人员可根据需要对数据进行较好的利用,减少因误解而造成的错误。信息组织不是科研人员的专长,需要专业的服务技术帮助他们实现科学数据的有效组织,发挥科学数据的最大价值。
⑥利用:数据中心的科学数据应可较方便地为科研人员提供检索、下载等服务,根据需要,还可以进行数据分析等高级应用服务,这部分一般是科研数据创建者已经完成科研工作,将数据完全公开在科学数据中心,由科学数据中心向其他科研人员提供服务。
⑦更新:因为科学数据是动态存在的,在被其他科研人员共享复用的过程中可能不断对原有数据进行完善和更新,并且这一过程可能多次出现,科学数据服务中应该能够提供该项功能,如果不是数据创建者本人对数据更新,应该提供便利的沟通渠道,使双方对数据更新达成一致意见,以保证数据的质量和数据不被滥用。
科学数据经历一个从创建到更新,再到其它研究继续应用进而产生新的科学数据的一个动态的循环过程,并且与科研过程紧密相联。通过调研得知在科学数据生命周期的每个阶段都需要不同的科学数据服务,并且服务随着科研过程的推进而动态变化着,其在科研活动过程中的周期如图1。
图1 科研活动中科学数据的生命周期图
由图1可知,科学数据在科研过程中不是一成不变的,可能会经过若干次的利用和修正,在利用中被不断更新和完善,是一个循环上升的过程,不但如此,一个科研项目虽然结束,其数据存储到数据平台还可以被其他项目所应用,继续发挥其更大的价值,这也正是进行科学数据服务的目的所在。
在确定科研工作流程与数据生命周期的基础上,将第一轮访谈中专家建议的服务基于生命周期进行分类整理,如计划阶段需要哪些数据服务,本研究采用德尔菲法的理念选择15名教授(包括做确认的10名)进行了三轮调查,对所调查内容专家们具有较高的收敛度,整理后得出动态科学数据服务模式,如图2所示。在此模式下,数据服务人员参与整个科学数据生命周期,在不同阶段提供不同服务,使数据服务形成一个动态的有机的整体,保证科学数据的完整性,避免数据描述不全而造成的理解上的误解,更有利于科学数据被有效共享复用或者二次开发,发挥科学数据的最大价值。动态科学数据服务模式要求科学数据服务人员与科研人员密切合作,对提高科研人员的数据信息素养具有重要意义,能更有效地促进科研人员共享科学数据,发挥科学数据的最大价值,提高科研效率。
动态科学数据服务模式需要具有以下特点:
①科学数据服务内容的整体性。动态科学数据服务模式基于科研工作过程和科学数据生命周期,覆盖科研过程的各个阶段,针对科学数据的整个生命周期对科研人员提供科学数据服务。
②科学数据服务的动态性与及时性。动态科学数据服务模式不但要覆盖科研过程的各个阶段,同时还要根据科研人员的工作的动态需要及时地为科研工作提供服务。
③以科研用户为中心。从科研人员进行科研计划、资料搜集到科研工作的进行、科研成果的存储与利用,数据服务人员要提供相应的数据服务,如帮助科研人员制定科学数据管理计划、帮助科研人员搜集相关科学数据、有效组织存储数据、利用数据服务等,做到按照科研人员的需求,并以科研人员的科研活动为重心为科研人员提供科学数据服务。
图2 动态科学数据服务模式图
④完整存储科学数据。动态科学数据服务强调对整个科学数据生命周期进行服务,能够对科学数据的各阶段的状态做及时准确的存储,并由专业的信息组织人员与相关领域人员共同完成,既保证数据的准确完整性,又能保证数据的长期可用,避免因数据描述不全而造成的理解上的误解。
⑤有效提高相关人员的能力。动态科学数据服务要求科研人员与数据服务人员合作,不但保证数据管理与应用的有效实施,同时对科研人员的数据信息素养和数据服务人员的专业知识的提高都有帮助,为科研人员与数据服务人员进一步合作打下良好基础,使得数据服务形成良性循环。
⑥持续提供科学数据服务。随着科研项目的结题,一个科学数据生命周期完结,但相关科学数据还会继续被共享重用,发挥价值,进入到另一个科研过程中。科学数据服务也一样继续为其他项目提供服务,这一过程并非简单的循环,无论是科研过程还是科学数据服务,都是一种螺旋式上升的过程。
动态科学数据服务模式不仅是一个有机整体,同时也是一个复杂的工程,基于当前的实际情况,想要在短时间内实施所有动态科学数据服务内容是不现实的,应采用渐进式的方法,逐步实施。基于上述科学数据服务模式的特点要求,如下几个方面的工作需要开展。
3.1 培训数据服务人员
优秀的科学数据服务人员是动态科学数据服务实施的重要保障。从相关计划的制定到数据的动态存储,再到科学数据的交流复用,在整个动态的科研过程的各个环节中,需要不同的科学数据服务,这要求动态科学数据服务模式下的服务人员具有良好的服务水平,需要具有信息组织知识和所服务学科的专业知识双重能力,针对以上特点,国外开设了相关的教育和培训。而国内科学数据服务以信息人员为主,缺少必要的专业知识。有些科研团体设置相关数据管理岗位,由科研人员自己进行相关服务,而科研人员又相对缺少信息组织方面的知识。比如近年来吉林医药学院图书馆优先培训学科馆员,使学科馆员嵌入科研过程,从科研计划阶段开始参与科研活动,负责相关资料的搜集整理服务,协助制定数据管理计划和针对学科特点制定元数据模型,对科学数据进行有效组织,1年后3名学科馆员的领域知识明显提高,较好地融入学院科研团队,科学数据服务能力显著增强。同时,嵌入学科馆员科研团队科研人员的信息素养也显著提高,在数据搜集整理和管理利用上的技能明显进步。
3.2 提高科研人员数据信息素养
在动态科研过程中,科研人员的数据服务需求也是动态变化的,单凭科学数据服务人员很难有效满足其需求,不断提高科研人员的数据信息素养对满足科研人员不断变化的科学数据服务需求具有一定积极作用。目前科研人员搜集传统文献资源的信息素养已经具备一定水准[12-13],但由于科学数据服务是近年来的一个新兴领域,限于相关机构或者部门所提供的科学数据服务宣传不够,以及科研人员出于数据安全等因素对自己所创建科学数据的保护行为,在数据信息素养上离满足科研人员的科研工作需求还有较大差距,需要进行相关的培训干预来提高科研人员的数据信息素养。例如近年来吉林医药学院图书馆开展了科学数据相关研究讲座、国内外数据资源介绍、科研数据相关政策学习等讲座,对提高科研人员数据信息素养起到了一定效果,使相关科研人员的数据获取能力、数据共享态度等发生了积极转变。
3.3 选择组织部门
在服务过程中会涉及多个部门,如信息组织部门、资源管理部门、科研部门,它们之间需要协作才能更好地进行科学数据服务。在高校,图书馆是科学数据服务较理想的组织部门,与科研处和各院系协作完成科学数据服务。图书馆具有信息服务的经验和人员,与学校各个院系部门建立了长期的服务关系,在此基础上进行科学数据服务,只是对信息服务的升级和细化,在技术、组织和协调上都能较好完成服务任务。吉林医药学院图书馆组织实施科学数据服务1年时间以来,在资源、技术和部门间组织协调上未出现特殊困难,保证了科学数据服务有效实施。以一个部门为主导对科学数据服务进行有效组织,协调多部门共同协作,能够保证科学数据服务的动态性和及时性,有利于科学数据服务的持续发展。
3.4 利用和开发相关软件
在科学数据服务的不同阶段,有针对性的利用相关计算机软件对相关科学数据进行组织与管理,使科学数据资源有效数字化,提高科学数据的安全性和可重用性。目前主要开发了一个科学数据存储系统,功能上还只是实现简单的存储和检索展示,基本满足科研人员的数据日常管理需求,对科学数据进一步的利用和开发需要继续完善相关软件,如辅助制定科学数据管理计划、元数据构建、科学数据的关联化组织管理等功能还待开发。
3.5 搭建数据交流与共享平台
尽管动态科学数据服务各个阶段内容不尽相同,但最终目标都是使科学数据被更好的利用和发挥更大的价值,有效的交流平台是实现这一目标的途径。在大数据背景下,科学数据已经成了科研人员之间交流的一项主要内容,而科研人员之间现在能够方便获取的数据还仅限于所发表成果中的结果数据,而对这些结果数据具有重要支持作用的初始数据和中间数据的获取则较困难。产生这种情况的主要原因之一是缺少方便科研人员进行交流和共享数据的平台。目前的科学数据平台多以数据存储为主,所存储内容多为基础数据和结果数据,对初始数据和中间数据未见有相关处理方法。同时鉴于科学数据具有重要价值,交流共享当中如何才能保证数据创建者的利益不被损害,就需要有一个好的政策平台来保证。鉴于技术、资源、政策等原因,目前平台还未能成功搭建,吉林医药学院图书馆将进一步完善相关工作,由于任务的复杂性和艰巨性,只能渐进地实施。
科学数据服务是一项重要又复杂的工程,本文在参考相关文献的基础上,利用专家调查法、问卷调查法等研究方法,结合科学数据生命周期理论与科研工作流程,提出动态科学数据服务模式,并给出科学数据服务动态实施的建议,为科学数据服务开展提供参考。由于时间、人力、技术等因素,加之科学数据服务本身的复杂性和长期性,对科学数据服务细节研究不够深入,深层次的科学数据服务也没能有效开展,这是本研究的不足,也是下一步需要继续研究的方向。
[1]UC Berkeley's Principal Archive of Social Science Data [EB/OL].[2015-03-09].http://ucdata.berkeley.edu/.
[2]Lautenschlager M,Hock H,Brase J.Publication and Citation of Scientific Primary Data at WDC Climate [EB/OL].[2015-03-09].http://colab.mpdl.mpg.de/ mediawiki/images/3/30/ESci08_Sem_1_Primary_data_ registration_Lautenschlager.pdf.
[3]Harvard-MIT Data Center[EB/OL].[2015-03-09]. http://hmdc.harvard.edu/.
[4]Lincoln Laboratory Grid(LLGrid)[EB/OL].[2015-03-10].http://www.ll.mit.edu/news/llgrid.html.
[5]An Open-source Application for Publishing,Citing and DiscoveringResearch Data[EB/OL].[2015-03-10]. http://thedata.org/book/features.
[6]陈清文.美国Data Curation职业教育研究综述及启示[J].情报理论与实践,2015(1):135-138.
[7]Digital Research and Curation Center[EB/OL].[2015-03-10].http://ldp.library.jhu.edu/dkc.
[8]马建玲,祝忠明,王楠杨.美国高校图书馆参与研究数据管理服务研究[J].图书情报工作,2012(11):77-82.
[9]洪程,钱鹏.高校研究生科学数据需求与利用行为调查分析[J].国家图书馆学刊,2014(1):17-21.
[10]项英,赖剑菲,丁宁.高校图书馆科学数据管理服务实践探索——以武汉大学社会科学数据管理为例[J].情报理论与实践,2013(12):89-93.
[11]Keeping Research Data Safe:A Cost Model and Guidance for UK Universities[EB/OL].[2014-05-19].http://www.jisc.ac.uk/media/documents/publications/keepingresearchdatasafe0408.pdf.
[12]徐秀秀,杨寅华,尚珊珊.上海地区一般本科高校图书馆学科服务工作探究[J].图书情报工作,2014(23):117-121,125.
[13]沈婷婷.数据素养及其对科学数据管理的影响[J].图书馆论坛,2015(1):68-73.
Study of Dynamic Scientific Data Service Model Based on Life Cycle
YANG Chuan-wen,XU Kun
In order to discuss how to effectively carry out the scientific data service,after consulting the experts and taking the domestic and foreign relevant researches and practices for reference,a dynamic scientific data service model is proposed on the basis of scientific data life cycle theory,combined with the process of scientific research work.At the same time,suggestions are given on how to carry out scientific data services gradually.
scientific data;life cycle;dynamic scientific data services
格式 杨传汶,徐坤.基于生命周期的动态科学数据服务模式研究[J].图书馆论坛,2015(10):82-87.
杨传汶(1973-),男,三峡大学图书馆馆员;徐坤(1979-),男,吉林大学公共卫生学院博士研究生。
2015-04-07