张 靖 邵 波(南京大学信息管理系)
随着网络时代信息资源的爆炸性增长,数字资源长期保存已成为世界各国数字图书馆发展过程中亟待解决的问题。我国在这方面的研究始于20世纪90年代后期,经过不断地发展,研究成果逐年增多,内容也逐渐丰富。这一课题的研究,不仅对数字图书馆、档案馆的发展极其重要,对人类文化的传承也有着重要的作⒚[1]。因此,对数字资源长期保存进行研究具有重要的意义。
所谓数字资源长期保存[2],即是对目前社会所拥有和使用的数字形态的资源进行有效保存,是为保证数字形态的资源可长期维护和其内容可长期获取的必要管理活动,这里有两层含意,一是长期存储(storage),二是长期可获取(access)。而长期在这里也有它的特殊含义,即是这些资源被社会所需要的时间。
当前,数字资源已经成为科技⒚户的主流信息来源,包括我国在内的世界各国的科研教育机构和图书馆都已将数字资源作为自己文献服务的主流形式,以数字文献资源为主的科技㈦教育文献服务体系正在迅速发展[3]。
iPRES(International Conference on Preservation of Digital Objects)是数字资源长期保存领域主流的国际性系列会议。继2004年(中国)、2005年(德国)、2006年(北美)、2007年(中国)、2008年(英国)成功举办之后,第六届iPRES会议于2009年10月5日在美国旧金山成功举行,围绕“成为主流,保障我们数字化的未来”的主题,对保存基础设施、研究数据和工作流、持续性和费用模型、元数据和重要属性、格式、保存实践以及保存案例等方面进行了深入分析和讨论,强调了只有当数字保存真正整合到学术、文化、商业等领Ⅱ中成为其业务的有机组成时,才能最终实现长期保存的目标[4]。而中国科学院国家科学图书馆日前与Springer科学与商业媒体集团数字资源签署长期保存协议,在建立合法、规范和可靠的数字资源长期保存系统方面迈出了坚实的一步。据国家科学图书馆馆长李静海介绍,该协议是中科院国家科学图书馆与国外出版机构签署的第一个数字资源长期保存协议,对我国长期保存引进的国外数字资源具有积极的示范作用[5]。
本文以国内论述数字资源长期保存的文献为出发点,通过对文献发表时间、作者、期刊、机构、主要研究领域和研究主题等相关信息进行多角度、多层面的统计分析,进而剖析我国数字资源长期保存问题的理论和实践研究的进展情况,了解该领域研究的趋势和特点,为进一步的研究提供帮助。
中国期刊网的《中国期刊全文数据库》是国内最早的中国期刊全文数据库之一,也是世界上最大的连续动态更新的中国期刊全文数据库,几乎涵盖了各学科领域的核心期刊和重要期刊[6]。由于数字资源长期保存的主题有多个,为了确保文献的查全率以及查准率,笔者以“数字资源长期保存”、“数字信息长期保存”、“电子文件”、“迁移”、“仿真”、“数据更新”等主题词进行搜索,对其进行筛选并剔除不相关的文献以及重复文献,共得文献274篇,其中期刊论文267篇,硕士论文7篇。
表1 文献时间分布及增长情况统计表
图1 研究文献随时间分布趋势图
从表1和图1可以看出,按照各年的发文量以及文献增长率来统计,数字资源长期保存研究大致可以分为四个小的阶段:
(1)1999—2002年:我国对数字资源长期保存的研究是从九十年代末开始的,1999—2001年这三年是发展的初期阶段,文献量较少,且增长缓慢。在发表的16篇论文中,有7篇都是刘家真教授发表的,其中有5篇是基金成果。这说明在1999年,数字资源长期保存已经引起了教育部的关注,但是还没有吸引广大学者的目光。在随后的2002年,文献增长率达到了267%,呈现出明显的增长趋势,且基金论文只有一篇,说明数字资源长期保存已经在一定范围内引起了研究者的关注,越来越多的学者加入到对它的研究中。
(2)2003年:虽然2002年的文献增长率突破了200%,但在2003年却出现了一个低谷,文献量相对减少,文献增长率为负。经过对1999—2003这五年的论文主题进行分析,笔者认为出现这种情况的原因是初期的研究还处于摸索阶段,研究主题比较分散,在引起学者关注之后,2002年此类介绍性的文章突然增多,2003年回归正常,沿着研究的正常道路前进,开始了对数字资源长期保存的各个主题进行研究。
(3)2004—2007年:随着时间的发展,数字资源长期保存引起了更多学者的关注,文献量逐年上涨,文献增长率逐年下降,说明数字资源长期保存研究在稳步发展,研究涉及到数字资源长期保存的各个方面。其中2007年的文献量达到53篇,为历年最高。
(4)2008—现在:总的来看,2007年及以前的文献量可以用一条上升曲线来拟合。2008年论文数量有所减少,文献增长率又一次为负。到目前为止,2009年已发表的文献达到了29篇,预计2009年全年应达到40篇左右。笔者以为,作为一个较新的课题,2007年之后论文量的减少说明数字资源长期保存的研究到了一个关键的转型阶段,在未来的研究中必须有所突破,不能再纠缠于一般问题的研究,而应该有一些实质性的进展,开展一些机构之间合作的大型项目,进行实质性的实践研究。
2.2.1 著者发文分析
在检索到的274篇数字资源长期保存研究的论文中,无署名文章1篇,共有第一著者190人。发表1篇文献的著者有149人,占总第一著者数的78%;发表2篇文章的占总第一著者数的13.7%;其中发文3篇以上的第一著者共有15人,占总第一著者数的4.6%,发文73篇,占总发文量26.7%;共有9位作者发表4篇以上文章。
刘家真教授在1999—2008年间共发表了12篇论文,她的研究领域为国家信息化与电子文件管理、数字信息资源管理、电子政务研究、政府信息化研究,从她的发文量来看,是数字资源长期保存领域的资深专家,对该课题进行不断深入的研究。其他发文较多的著者诸如陈清文9篇,宛玲7篇,赵俊玲6篇,臧国全5篇,张绍武、杨道玲、王少辉、吴振新各4篇,另外张智雄、郭家义等6人各发表3篇。
发文量较高的几位著者对数字资源长期保存的研究都在三年以上,具有一定的持续性。他们对数字资源长期保存领域予以持续的关注,研究相对深入,形成了普赖斯定律意义上的核心著者群,发挥着导向作用,不断地将该领域的研究推向新水平。但值得注意的是,发表2篇文章的只占总著者数的13.7%,而发表1篇文章的著者占总著者数的78%,即该领域近五分之四的著者对数字资源长期保存问题的研究并不深入,他们大多是偶然涉足这一领域的图书馆员或在读研究生,属于瞬时作者,研究没有持续性,不深入不透彻,还有待进一步的发展,必须突破常规性的研究,探索问题的本质。
2.2.2 著者机构分析
通过对第一著者所在机构的统计,得知190个第一著者共分布在149个单位,以图书馆居多,其中有67个来自图书馆,发表论文数为123篇,占论文总数的44.9%;排在第二位的研究机构是各个高校的信息管理学院(系)、信息中心,共有15个著者,发表文献91篇,占论文总数的33.2%。其余机构则来自各个高校及档案馆,发文数只占总论文数的21.9%。
表2 数字资源长期保存研究核心机构列表
从地区的统计情况来看,发文量较多的分别是北京、湖北、河南、浙江、江苏、辽宁等地;其中北京地区为60篇,中国科学院文献情报中心14篇、清华大学图书馆9篇、中国科学院国家科学图书馆8篇、国家图书馆7篇、中国人民大学信息资源管理学院6篇;湖北地区为35篇,武汉大学信息管理学院24篇;河南为33篇,郑州大学信息管理系13篇;浙江、江苏地区分别为18篇。其余地区都较分散。发文量较多的10个机构共发文102篇,占总文献量的37.2%。
由统计结果得知,发文量前10的机构都分布在发文量较多的地区,也都是图书馆及信息管理学院、情报中心等发文量较多的机构。这10个机构中的相同或不同的著者对数字资源长期保存进行了较为深入、全面的研究,构成了数字资源长期保存领域的核心机构。总的来说,该领域的研究有78.1%由图情领域的学者进行的。这说明各个地区的图书馆以及高校图书馆、信管院始终是数字资源长期保存问题研究的主力机构,同时也说明数字资源长期保存研究是图情档领Ⅱ研究的重要内容,对学科发展有重要意义。
2.2.3 著者合著分析
合著率为合著文献与总文献数的百分比。数字资源长期保存领Ⅱ的合著论文数量为88篇。合著率较低,仅为32.1%,其中两人合著为57篇,占总论文数的20.8%,三个及以上作者合著的论文数为31篇,占总论文数的11.3%。对作者单位进行统计,88篇合著论文中有76篇文献是同一单位的学者共同的研究成果,这些著者大都是师生、同事等关系。在合著的情况中可能会出现合著不实的情况;另外仅有12篇论文为不同单位之间合著的成果。
以上统计数据不仅说明数字资源长期保存领域的论文合著率偏低,且文献的近亲合作严重;也反映了各个研究机构之间的合作交流较少。这都不利于数字资源长期保存合作体系的开展。笔者分析合著率较低的原因为这10年间对数字资源长期保存研究的中大型科研课题数量仍然偏少,各个数字资源保存机构之间没有建立密切联系,对数字资源长期保存的各种策略以及标准探讨的合作未引起足够的重视。
表3 数字资源长期保存论文载文量前十的期刊
在这11种期刊上发表的论文数占总论文数的47.8%。由表3可知这11种期刊是数字资源长期保存领域的核心期刊,且经过统计得知其中有9种期刊都为情报类核心期刊。另据统计,除去7篇硕士论文,267篇期刊论文共发表在66种期刊上,其中95篇发表在39种非核心期刊上;172篇发表在27种核心期刊上,占期刊论文数的64.4%。在这172篇论文中,数字资源长期保存领域的研究成果有76.2%发表在情报学的核心期刊上,这说明数字资源长期保存得到了众多学者尤其是图情界研究人员的广泛关注,论文具有一定的权威性,学界的认可度较高,进而能够吸引更多学者进行研究。
240篇论文共发表在45种图情类杂志上,占89.9%;27篇文章发表在21种非图书情报和档案类杂志。这说明虽然数字资源长期保存的研究内容大部分属于图书、情报及档案领域,但也跟其他的学科诸如计算机等相关,有一定的学科交叉。
表4 数字资源长期保存论文各类基金成果个数
由表4所示,1999—2009年的274篇关于数字资源长期保存的论文中,各类基金项目的研究成果有66篇,占论文发文总数的24.1%,其中有3篇是校基金的研究成果,17篇是省基金项目的研究成果,其余46篇是国家社科基金或自然科学基金的研究成果。
基金数量的不断增长说明数字资源长期保存得到了各级部门尤其是教育部的充分关注,是需要深入研究的重要问题。同时从表中可以看到,在2006年的时候各类基金数达到了最大值,而在其后的几年则不断减少,据笔者分析原因有二:一是通常基金项目会有一定的时限,2006年的项目时间较长,且有多个成果来自同一个项目;二是尽管学者对该领域关注依然很多,但由于之前的研究局限于数字资源长期保存的表面性问题,致使该领域的研究陷入了瓶颈。
表5 论文主题分布表
图2 论文主题随时间分布趋势图
笔者通过阅读部分文献,将数字资源长期保存按以下主题进行了归类与统计,见表5。
由表5所示,自从国内学者开始研究数字资源长期保存之后,以介绍性的一般性论文居多,占到了全部论文的41.6%;其次,学者关注比较多的是管理策略及技术策略;再其次是对国外项目的介绍。
而由图2可知,由于研究的深入,研究的范围逐渐扩大,涉及到数字资源长期保存的各个方面,研究的重点也在不断变化。各个主题的研究情况如下:
(1)管理策略:数字资源长期保存不仅需要各项先进的计算机技术,还要解决政策、法律、组织、框架体系、责任机制、合作机制等各方面的问题。从数字资源长期保存的研究之初,学者对管理策略一直都非常关注。在以后的研究过程中,对产权的研究将是数字资源长期保存中的一个重点内容。
(2)技术策略:各种实践和研究表明,技术的过时是引起数字资源长期保存问题的重要因素,也是解决数字资源长期保存的重要手段[8]。采用哪种技术方案,关键取决于被选择需要保存的资源。目前有多种技术方案和模型。国内学者通过对数字资源长期保存的不断研究,针对具体情况,开发出了不同的技术方法,其中研究较多的当属数据更新、迁移、仿真这三种方法。在我国学者的研究论文中,有关技术策略方面的论文共占22.3%,包括开放描述与标准化(元数据、永久标识符、文件格式、文件格式注册、OAIS模型)、应用技术方案(迁移、仿真、UVC、封装、技术保存)、应用技术方案评价—方案效能分析[9]等。但是经过讨论发现,这些方法本身也存在一些问题有待解决,技术方面应该是数字资源长期保存问题的重点研究内容。
(3)综合策略:综合考虑数字资源长期保存中的管理策略和技术策略,从整体上对数字资源长期保存的问题进行研究,好处是可以从宏观上对该问题进行把握,坏处是隶属于该范围的6篇论文显然都过于笼统,对数字资源长期保存问题没有从根本上进行解决。
(4)国外项目介绍:国外在数字资源长期保存问题上进行了深入的研究和实践,积累了大量的经验。此类论文对国外已经进行或正在进行的数字资源长期保存项目进行介绍、研究,探讨数字资源长期保存中存在的各种问题,以及中国数字资源长期保存的现状,应该从国外的各个项目中得到的启示。
(5)一般性介绍:一个新的学术领域的展开,都是从最初的介绍性文章开始,进而引起更多学者的关注。对数字资源长期保存一般问题的研究论文始终占居各主题之首,其中包括对数字资源长期保存的一般性介绍,各个时期国内外的研究现状及综述以及在数字资源长期保存过程中遇到的各种问题及挑战等,说明中国在此领域的研究尚处于初级阶段,还有很长的一段路要走。
国内关于数字资源长期保存的研究如火如荼,核心期刊、核心研究机构已基本形成,基金资助率较高,课题研究范围逐渐扩大。从论文的定量分析以及主题分析来看,数字资源长期保存研究在我国的发展始终沿着科学研究的一般规律进行,但是也具有一定的特殊性,存在一些问题需要解决:
(1)研究论文的合著率较低,且近亲合作严重,这些合著者大多来自同一个研究机构,仅仅局限于部门内、系统内的合作;而跨机构、跨国的交流合作研究较少。数字资源长期保存是关系到全人类文化遗产的保护与传承的大问题,理应受到各个机构、各个国家学者的共同关注。在此后的研究中,应该打破近亲合作的现象,多多增强不同机构、不同国家之间的紧密合作。
(2)由于我国在数字资源长期保存方面的研究并不深入,也尚未建成一个完善的可靠的数字资源长期保存体制,缺乏可靠的结构来支持预期的综合数字保存基础设施,迄今为止也没有将各种技术方案很好地应用到数字资源长期保存工作中去,因此有关基础设施建设、应用技术方案评价及长期保存评估体系方面的研究不多。由于各种不同的技术策略解决问题的方法以及产生的结果都有很大的差别,因此对应用技术方案的效能分析具有很大的意义,可以帮助人们更好地识别不同方案的优缺点[10],因此需要建立有效的评估体系来确保数字资源长期保存工作的持续发展。完备的数字保存基础设施体系以及完美的技术方案应用,将是数字资源长期保存研究的一个重点关注领域。
(3)虽然已经召开了六次数字资源长期保存的国际年会,并且有两次都在中国举行,国内该课题的研究也已经进行了十多年,基本上形成了核心著者群;但是在研究内容上,众多著者主要集中在对数字资源长期保存一般问题的探讨,而真正的实践研究还较少,缺乏足够的广度和深度,不能够很好地应用到项目中去,在管理及技术研究方面都有许多难题亟待解决。研究学者应该从更高的层面、更宽广的视角对长期保存进行了深入交流和讨论,在研究过程中把数字保存真正整合到学术、文化、商业等领域中并使其成为业务的有机组成,最终实现长期保存的目标。
(4)对于数字资源长期保存的重要意义,国际学术界早已形成高度共识,已经得到了学者的广泛研究,但是由于它关系到的不仅是资源如何保存的技术,更需要考虑管理方面的策略,各个资源保存机构之间的合作。但那些涉及到数字资源长期保存的图书代理商、出版社等机构并没有对该问题引起重视,没有参与到数字资源长期保存体系的构建中来。这需要已对数字资源长期保存问题有深入研究的图书馆机构在与图书代理商、出版社沟通的过程中,尽量督促他们对数字资源长期保存问题加强关注,最终形成规范的数字资源长期保存合作体系。作为一个国际性的重要议题,国家相关部门也应该进行有力引导,避免各个机构各自为政、过度重复保存、无法实现可约束可信赖的状况,协调全国各主要科研教育机构,责任共担,系统分工,实施可信赖管理,开展公共服务,实现可持续运行。
1 The National Archives,Digital Preservation Department[EB/OL].http://www.nationalarchives.gov.uk/preservation/digital.htm,2009-08-26.
2 数字图书馆高层论坛[EB/OL].http://www.dlforum.net. cn/index.jsp,2009-08-26.
3 计红梅.数字资源长期保存:国家主导最重要[EB/OL]. http://www.sciencenet.cn/htmlnews,2009-08-26.
4 成为主流,保障我们数字化的未来——2009国际数字对象保存会议(iPRES2009)综述[DB/OL].http://tgw.lib.tsinghua.edu.cn/blog/107,2009-10-30.
5 国家科学图书馆与Springer签署长期保存协议[EB/OL]. http://www.jyb.cn/book/dssx/200909/t20090910_309338. htm,2009-09-11.
6 张新兴,谈大军.2000—2006年我国基于本体的信息检索研究论文定量分析[J].情报科学,2008(7):1016~1021
7 潘宁.情报学核心期刊基金资助论文定量分析[J].情报杂志,2008(2):147~150
8 郭家义,吴振新.数字资源长期保存研究综述——技术、系统、框架[J].图书馆杂志,2005(5):53~58
9 宛玲,吴振新,郭家义.数字资源长期战略保存的管理与技术策略[J].现代图书情报技术,2005(1):56~60
10 Strodl S,et al.Becker C,Neumayer R,Rauber A.How to choose a digital preservation strategy:evaluating a preservation planning procedure[J].ACM,2007:29~38
11 华薇娜.网络学术信息资源检索与利用[M].北京:国防工业出版社,2002.