数字保存的认知与实践——基于对高能物理学科研究人员的调查

2012-12-10 07:08臧国全王晓梅郑州大学信息管理系郑州450001
图书馆理论与实践 2012年4期
关键词:研究者数字实验

●臧国全,王晓梅(郑州大学 信息管理系,郑州 450001)

数字保存主要有两类:学术论著保存和研究型数据保存。前者比较普遍,理论和实践相对成熟,后者集中在数据密集型领域,理论和实践都较滞后。高能物理(又称粒子物理)是一个典型的实验型学科,产生大量研究型数据(实验数据是研究型数据的一种重要类型),对该学科研究人员的实验数据保存的认知与实践的调查,有助于了解对数字保存的期望,掌握数字保存的现状,发现数字保存理论与实践的不足。

目前为止,全方位对数字保存认知与实践的调查甚为鲜见,欧盟PARSE.insight项目[1]历经三年(2008—2010),不仅对数字保存利益相关方(包括科研人员、保存机构和出版商)进行了比较系统的调查,而且也选择了若干个代表性学科领域进行案例分析,其中之一是高能物理学科,针对该学科的科研人员的调查对象选择来自欧洲核子研究中心CERN[2]在全球各地分支机构的880位实验研究者和260位理论研究者。本文基于该项调查,总结该领域科研人员对数字保存的认知与实践,分析数字保存存在的问题,寻求可能的解决方案。

1 数字保存的认知

1.1 重要性

总体上,绝大多数理论研究者和实验研究者对数字保存的重要性都给予了高度认可(见表1)。不同研究经历的人员(少于5年和大于5年)对该项认知的程度没有明显差别,但理论研究者要明显高于实验研究者,这可能说明了前者更注重使用实验数据,而不仅仅局限于基于实验数据分析而公开发表的成果。

表1 数字保存的重要性

1.2 保存原因

保存原因有很多,但得到比较广泛认可的(见表2)。总体上,与实验研究者相比,理论研究者对保存原因的认知度要略高一点,可能的解释是实验研究者对实验数据保存的困难以及进行分析的缺憾体会较深,对保存原因的认知更趋理智。

表2 数字保存的原因

原因1:如果由公共资金资助,实验数据为公共财产,应合理保存,为未来科学研究之用。

原因2:实验数据可以用于未来研究成果的验证。

原因3:实验数据可以结合未来实验数据一起使用。

原因4:实验数据可以根据未来新理论模型进行重新分析。

原因5:实验数据可以用于教育。

1.3 保存用途

数字保存的基本作用是促进科学发展和传承文化遗产。针对高能物理学科实验数据保存的最主要作用为前者,对此,实验研究者(97%) 和理论研究者(99%)都给予了高度认可。具体来说,表3列出的四项用途(尤其是前三项)得到研究人员的认可度较高。除此之外,被调查者提到的用途还有完善或验证新的模拟工具和分析方法等。

表3 保存数据的用途

用途1:测试新理论模型。

用途2:验证新老实验之间的兼容性或一致性;或探测新老实验之间的偏差。

用途3:供设计新实验方案时参考。

用途4:专题资料汇编(如述评)。

1.4 保存威胁

实验数据的保存威胁比较多,表4列出了受访者最关心的威胁。

威胁1:数字保存缺乏可持续性导致实验数据未来可能无法访问。

威胁2:保存数据的无控制访问与使用可能导致错误结论的膨胀。

威胁3:使用保存的数据,但未对原始作者进行引用或说明。

威胁4:保存的数据可能被无意地修改或被不恰当地操作。

针对威胁1,对数字保存可持续性的关注为最高,这也充分说明了与传统信息资源相比,研究人员对数字资源脆弱性的认知更深刻。

表4 保存威胁

针对威胁2,错误结论的膨胀被高度关注(尤其是实验研究者),可能因为实验研究者深知实验数据的复杂性和其他研究人员对实验数据分析的潜在失误风险。应该说,两者的最主要区别还是在于学术名誉,如果基于原始数据由第三方进行分析得出的结论不够完善,可能会影响原始数据生产者的名誉,但对理论研究者没有影响。

绝大多数实验研究者(77%)认为,采取一定程度的访问控制(比如访问许可、用户认证等)可以减少错误结论。另外也有一些实验研究者(34%) 和理论研究者(28%)建议,实验数据在提交保存之前,应该对其真实性和完整性以及应用的合理性等方面进行评价(如通过同行评审方式),但会增加成本,甚至可能会阻碍科学交流的自然流程。实际上,访问控制与开放存取是数字保存的两个方面,目前的理论探讨和业界实践比较倾向的看法是:虽然开放存取存在风险,但它带来的益处要远远大于所产生的弊端,并且开放存取也可以进行适当控制。

针对威胁3,业界可以参考现行的学术论著引用规范来制定实验数据的引用规范,研究人员应该遵守该规范,出版商应该监督实施该规范,学术机构应该评估该规范的实施情况。另外,还应该加强研究人员的科研诚信教育,设立科研诚信监督机构,接受并处理有关投诉。同行之间监督和舆论也是一种方法。总之,科研诚信是科学昌盛之本,多管齐下才是解决方法。

针对威胁4,研究人员的关注度较低,主要是技术层面的问题,任何保存系统都应该提供相应手段(比如设置保存数据的属性为只读型)保护数据。另外,保存系统应该具有数据自动备份机制,定期运行数据完整性检查,必要时实施逆向恢复功能等。

2 数字保存的实践

2.1 保存数据类型

调查结果显示,实验研究人员保存实验数据的类型分布比较宽泛(见表5),表明该研究群体在此项实践上缺乏共识。

表5 保存数据类型

2.2 保存时间

最常见的答案是在整个实验结束时,或者完成数据分析且分析结果公开发表后(见表6)。这说明在高能物理领域,对实验数据的加工需要一个漫长过程,且常常持续到项目结束,甚至在整个实验周期中需要加工多次。

表6 保存数据时间

2.3 保存位置

保存位置与数据共享密切相关。调查结果显示(见表7),大多数实验研究者不仅将实验数据提交到面向公共服务的数字保存系统,同时也保存在仅供课题组内部使用共享的数据平台中,说明高能物理学科实验研究者具有较强的开放存取意识。

表7 保存数据位置

2.4 保存投资

调查结果显示,保存投资占整个费用(包括实验数据生产、分析、处理等各项费用)的比例较高,其中近一半的实验研究者对实验数据的保存投资占整个费用10%以上(见表8)。而在PARSE.insight的另外一项调查中,[3]只有少数实验研究者(16%)表明他们所在的机构提供该项投资,并且该项投资伴随实验数据生产的整个过程(41%),甚至发生在数据生产之前(31%)。这说明了在实验项目收尾阶段,项目组已优先考虑下一个项目,很难筹集资金用于已经完成的实验数据的保存。

表8 保存投资

2.5 数据使用

实验数据不仅被理论研究者使用,而且也被实验研究者使用(当然实验研究者同时也是数据生产者)。在数据使用过程中,最常遇到的问题见表9。

表9 数据使用最常遇到的问题

问题1:保存质量无法保证。

问题2:实验数据丢失。

问题3:表征信息丢失和过时。

问题4:保存格式过时导致无法访问。

针对问题1,实际上,保存质量是一个宽泛的概念,不仅包括上述其他3个问题,还涵盖更多内容(如实验数据的产权、保存所需的软硬件性能等)。

针对问题2,这里的“数据丢失”不仅包括一般意义上的数据丢失(如存储介质的退化导致数据的丢失),而且还包括虽然数据存在但已经无法使用,比如,由于实验数据的有效访问依赖于充分的元数据,而元数据的丢失会导致相应实验数据处于“检索不到”状态,这种意义的数据丢失所占比例可能更大。

针对问题3,表征信息是有效浏览和使用实验数据所必须的工具,比如浏览软件、分析软件、理解实验数据所需的知识、记录实验数据生产的文档等,这类信息常常要求与实验数据一起保存。由于高能物理领域中实验数据的高度复杂性,表征信息对有效使用和理解实验数据至关重要。

表征信息的丢失有三种情况:其一是自然丢失,比如存储介质的退化导致保存在这些介质中的表征信息丢失;其二是保存策略的实施导致表征信息丢失,比如实施数字迁移可能会导致表征信息没有同步迁移;其三是恶意损坏,比如黑客对表征信息数据库的恶意攻击。表征信息的过时是指新的浏览软件和分析软件的出现导致采用原来的软件无法有效使用实验数据,此时原来的浏览软件就过时了。

针对问题4,格式过时是导致数字资源无法有效使用的最重要原因之一,根据目前的实践,解决该问题的常用方法有二:数字迁移和数字仿真。数字迁移是通过改变数字资源的文档格式,使其适应于新的软件环境,从而使用户能够采用当前软件有效地访问和浏览过去的数字资源。数字仿真则不同,不改变数字资源的文件格式,但要提供采用新的浏览软件来浏览过时格式数字资源的仿真工具。

3 对数字保存的思考

3.1 认知上的思考

认知上,虽然研究人员认为实验数据的保存非常重要,并且对实验数据保存的原因和用途的认识也比较一致,但对实验数据保存的未来高度忧虑(具体体现在最严重的保存威胁是“可持续性”)。因此,业界应该加强对数字保存的可持续性研究。宏观上,数字保存的可持续性包括管理、技术、经济可持续性等方面。多年来,对数字保存的研究主要集中在管理和技术层面,但对经济可持续性涉猎甚少,因此应该开展对该课题的探讨。

从运行机制角度,目前的数字保存有两大类:基于市场机制运营(如CNKI的中国期刊网)和基于公益性机制运营(如美国国会图书馆的American Memory)。这两类数字保存都可以视为经济产品,其中前者可视为市场经济产品,后者可视为公共经济产品。从经济产品角度,数字保存经济可持续性可以从解析其经济要素并在此基础上对其进行经济评价两个方面进行研究。

数字保存的经济要素解析可以从宏观和微观两个层面进行,宏观经济要素主要包括“供给与需求”,微观经济要素主要包括“成本与收入”。数字保存的经济评价包括定性评价和定量评价,其中定量评价可以从评价指标体系建立和评价方法设计两个方面进行,评价指标体系包括财务指标和实物期权指标,评价方法包括评价指标的计量方法、评价指标的基准值设置方法以及评价实施等。

3.2 实践上的思考

实践上,比较集中的是数字保存质量问题。与其他产品一样,无论是作为经济产品的数字保存还是作为公共产品的数字保存,其质量问题都可以通过建立其质量标准并在此基础上对其进行质量认证来解决。

在质量标准建立方面,根据全面质量管理理论,产品质量不仅限于生产过程,也体现在各个环节:决策、设计、制造、检查、使用和服务等。对数字保存来说,“决策”和“设计”由保存者实施,“制造”和“检查”由数字资源生产者实施(有时候,保存者和生产者是同一个机构,有时候则是不同机构),“使用”由用户实施,“服务”也由保存者实施。鉴于数字保存的特点,“使用”和“服务”都需信息技术支撑。因此,数字保存的质量标准可以从管理质量(如保存方针、灾难性事件的应对方案、数字保存风险识别与管理)、性能质量(如数字资源的正确性和完整性、保存信息包组成的完整性、系统检索性能)、服务质量(如用户服务政策、用户服务管理)、技术支持质量(如数据备份的同步更新、损坏和丢失数据的检测与恢复、系统软件与硬件、系统安全)等四个方面来研究建立。

在数字保存质量认证方面,可以借鉴成熟的ISO质量体系认证方案,结合数字保存的特点,设计认证模型。该模型可以从认证机构和认证人员的要求与资格、认证模式、认证标准、认证流程和认证方案等方面来构建。

猜你喜欢
研究者数字实验
记一次有趣的实验
高等教育中的学生成为研究者及其启示
做个怪怪长实验
研究者称,经CRISPR技术编辑过的双胞胎已出生。科学将如何回应?
研究者调查数据统计
答数字
数字看G20
NO与NO2相互转化实验的改进
实践十号上的19项实验
医生注定是研究者