赵 芳
摘要:文章从分析目前文档格式现状入手,在综合国内外研究成果的基础上提出长期保存文档格式选择的标准,并对PDF格式与基于XML的格式进行了比较,认为基于XML的格式更适合作为长期保存文档的格式,
关键词:长期保存;文档格式:标准
1文档格式现状
长期以来,文档格式因微软公司最早占领办公软件领域而被“.doc”、“.xls”和“.plat”等事实标准所垄断,目前全球大概90%以上的文档都是采用微软Office的格式存储,微软的Word成为最为常见的电子文档格式。但由于该格式属微软公司私有,其隐患是该格式文档拥有者有可能因版本升级或其他原因,丧失对自己文档的处理能力,这对文档拥有者甚至政府部门都存在着丧失读取和修改的安全隐患。为此,国际上改变前办公软件相互封闭、文档格式互不兼容的努力如火如荼开展起来,由Sun、IBM等36个成员创建的ODF fOpen Document Format)联盟在全球推广ODF文档格式。2006年5月初,ODFJE式被国际标准化组织(简称ISO)认可为文档格式的国际标准。Word因其应用的广泛性,ODF因其的开放性,这两种文档格式目前成为电子文档的主要格式。然而,这两种格式并不适于长期保存。
Word格式不适于长期保存主要原因有二:其一,Word是二进制的,即人不可读的形式。没有匹配的读取软件不能把文件内容从Word文档中提取出来。其二,Word是私有格式,前边已经谈过私有格式的危害。尽管后来的ODF格式克服了Word格式的上述两个缺点,但作为文档处理软件生成格式的固有弱点,它仍不适于长期保存。究其原因,也主要有二:其一。该格式主要是描述文件外观而不是结构。对于长期保存来说,文件的纸张大小、页面、字体等外观问题不甚重要,而对于文件被划分为几个部分、各部分之间的关系等结构问题对理解文件内容来说很重要:其二,该格式是扁平式的,即文件由标题和段落按顺序构成。而长期保存需要保存每个章节段落的深层次结构以及内部嵌入的内容。因为这种深层次的结构有助于结构检索和查询及文档格式转换。
鉴于此,为了长期保存这些电子文档,我们需要把它们转换成适于长期保存的格式。
2选择文档长期保存格式的标准
长期保存文件不管是因其情报价值还是因其凭证价值,总而言之是为了利用。所以,要从利用的角度来分析保存文件的要求。另外,我们要利用的是真实可读的文件。这里的利用不仅是单纯的使用文件,它还应该包括文件的真实性、可读性的维护。所以我们在讨论保存格式问题要以保护文件的真实性和可读性人手。
Jacqueline Slats在“办公格式数字保存实践”中提到了保存文档的五个基本需求:其一,在背景方面,要求记录组织背景,如名称、活动过程、日期、与其他文档的关系、保存日志、原始文档与现存文档的关系、版本及名称、保护过程:其二,在内容方面,所有文档内容都要保存下来,纯文本内容要保持永久可读:其三,在结构方面,为重现文件内容间的逻辑联系必须保存文档的结构,如章、节、段落的次序,包括评论和脚注及插图的正确位置:其四。在外观方面,在不影响表达原始文档意思的前提下,保存的外观可以不必与原始外观完全相同:其五,在效用方面,对有效连接的著录必须要保存下来,现行效用和内容的更新部分不必保存但致使内容变化的效用的证明必须要保存下来。
Frank Moehle对数字保存提出下列五项要求:一是整体性(无损坏、安全存储);二是可理解性(能理解文件背景和内容);三是原始性(数据结构和外观);四是真实性(作者、来源和证据的真实);五是可利用性(可读、可利用)。
除了上述保护文件本身特点的需求外,还需要考虑为了应对技术挑战带来的软硬件升级更新文档格式需要进行不断地转换问题。所以,长期保存格式必须选择能够而且易于转换的文档格式。
面对纷繁复杂的文档格式,到底应该如何选择长期保存的文档格式呢?Frank Moehle在“文档格式在数字保存的角色”中对文档格式提出的八项要求是:(1)格式所用的语言及语法规范是公用的:(2)得到类似ISO这样标准化组织认可:(3)已被广泛地认可及使用;(4)免费的使用权;(5)无加密技术;(6)无压缩技术;(7)自带说明书;(8)不依赖任何存储介质。
Micheal Lesk在“数字化保存——新的需求及挑战”一文中也阐述了选择保存格式的一些标准:(1)内容层而非显示层的描述,这会简化转换工作:(2)足够的解释空间,提供检索和分类所需的信息;(3)开放的,任何人都可以免费使用;(4)可解释性,任何时候人都可读。
刘家真教授也曾论述过文件保存格式的选择问题,她提出了9条原则:(1)该格式能在不同的环境下使用;(2)该格式应是通用的、非专用的格式;(3)支持数据从专用格式的环境中移出;(4)最好选用标准格式;(5)挑选被业界或用户广泛支持的格式;(6)可扩展性:(7)可真实完整地被用户读出并理解;(8)具有自身的可证明性;(9)具有可评价性。
以上学者都从不同角度、侧重点提到了或简单或详细的文档保存格式选择的原则。为了正确或是辅助选择长期保存的文档格式,荷兰国家图书馆进行了文档保存格式选择的标准研究。该研究中提到了7条评价文档长期保存格式的标准,按其权重排列:(1)开放性(24%);(2)依赖性(24%);(3)采用性(21%);(4)复杂性(10%);(5)技术保护机制(10%);(6)耐久性(7%);(7)自我记录性(4%)。
综合以上观点,我认为长期保存文档格式选择标准可从以下几个方面考虑:
(1)开放性。包括公开源码、免费使用。只有开放的文档标准才能实现不同版本间文档格式的互通,确保文档在不同系统之间有效、自由地实现互操作,更适合长期保存文档的转换格式需要。
(2)广采性。即保存格式应是被广泛采用且得到标准组织认可的。这样的格式有利于推广,并且为多种软件开发商所采用,使文档很容易制作和保存。从长期保存的观点来看,也易于为其编写转换格式,集体转换文档,这样一方面减轻长期保存的经济压力,另一方面还能减少文档格式转换造成丢失数据的风险。
(3)无依赖性。即保存格式不依赖任何软硬件。这样可大大减少管理程序与管理费用,便于资源共享,更重要的是有利于减少文件长期保存中数据丢失的风险,不依赖任何加密、压缩等技术。换句话说,格式中不允许有加密和压缩这样的设置,因为加密
的文档在长期保存过程中不利于转换;压缩的文档容易损坏,且一旦损坏无法弥补,因而也不利于长期保存。
(4)可解释性。即保存格式不应该是二进制的,而是人可读的纯文本形式。这样即使格式软件不存在了,原始文件内容和标记也仍然可被人识读。且有足够的解释空间,能允许提供大量的元数据来满足说明文档的需求,也方便以后的格式转换。
(5)结构化描述性。也可以称作立体式描述。也就是说,格式要尽量揭示文件内容,而不仅是显示文件的外观。这样既可以反映文件内容间的逻辑联系,又便于格式的转换。
3长期保存文档格式的选择
目前各档案馆及图书部门选择的长期保存文档格式主要有两种:即PDF格式与基于XML的格式。
PDF(Portable Document For,mat、文档是Adobe公司开发的一种文档格式。该格式的最大优点在于能如实地保留原有文件的内容与外观。而且容易生成,既可用Adobe Acrobat软件,也可用MicrosoK Word和OpenOffice.orgWriter,它们都具有PDF的输出功能。此外,PDF还具有支持联机、安全、交互式使用等优点。这些优点足以促使那些文档保管单位积极采用PDF作为主要的文档保存格式。
XML(Xtensible Markup Language)“可扩展标识语言”,是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。它也是元标记语言,即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。XML最大的优势在于对各种数据的管理。任何系统都可以通过XML的解析器来读取XML数据,因此它的数据可以通行各处,而不用担心系统不支持的问题。基于XML的格式也是一种理想的文档保存格式。首先它是开放的标准;其次,它使用标准的文字编码,能描述任何语言、任何事物;再次。它基于纯文本。这使它能长期被识读。XML的这些优点均有利于真实可靠地长期保存文档。
到底哪种格式更适合文档的长期保存,Jacqueline Slats对这两种格式的优缺点进行了如下比较:
两者相比较而言,在长期保存文档方面,PDF不如XML适合保存文档,因为它的三项缺点对文档的长期保存来说都是致命的。此外,PDF的缺点还包括版本间的不兼容问题。
虽然PDF/A是基于PDF1.4开发的,它试图通过一系列规定限制来克服PDF的上述缺陷,并已成功地跻身国际标准成为电子文档长期保存格式标准。一方面,这是Adobe公司在开放性方面取得的进步:但另一方面,从根本上来说,PDF的公司所有的私有属性并不能改变。而且,如果把PDF中的一些特性如禁止加密、批注、禁止植入其他类型文件等通过限制的政策而剔除的话,PDF本身所特有的优势也就大打折扣了。此外,其版本兼容问题仍然成为它继续发展的桎梏。
可以与PDF/A竞争的另一格式是基于XML的XHTML和DocBook。
熟悉XHTML的人很多,这里只简单介绍一下DocBook。它是一个由SGML或者XML文档类型定义(DTD)的标记语言。简单地说,DocBook是一套描述文档结构的标签,它能将文件内容与文件样式信息分开处理(如字体,颜色)。DocBook从1991年开始创建,目前经历了四个主要的版本,已成为OASIS采纳的标准。除了拥有XML所有的优点外,DoeBook的可移植性非常值得称道,而且是一次输入、多种输出。一个用DocBook标记语言写的文档能够快速简单地转换为HTML、PostScript、PDF、RTF、DVI以及ASCII纯文本。DocBook以及所有配套DocBook使用的工具都是在开源授权下供自由使用的。DocBook的另外一个优势是能把作者从对文档的排版和格式的担心中解脱出来。所以,DocBook不仅适于长期存储文档,也适合编辑文档。
综上,在电子文档长期保存格式的选择时,我们要从保存需求分析人手,根据保存格式的选择标准,综合分析各种格式的利弊,最终选择最适于长期保存的文档格式,以保证电子文档的真实性和长期可利用性。
参考文献:
[1]BARNES,L.Preservation of wordprocessing documents.
Australianartnership for Sustainable Reposi-tories,2006.URL:http://www.apsr.e-du.au/publications/preservation ofword_processing_documents.html.
[2] Jacqueline Slats,Practical expe-riences of the digital preservationtestbed:Office formats in Proceed-ings of the conference "File formatsfor
preservation" ,Vienna (2004).URL:http://www.erpanet.org/event s/2004/vierma/presentations/erpaTr-ainingVienna_Slats.pdf.
[3]Frank Moehle, The Role of FileFormats in Digital
Preservation:Opportunities and Threats,http://www.erpanet.org/events/2004/vien-na/index.php.
[4]Michael Lesk,Preserving digitalobjects:Recurrent needs and chal-lenges in Proceedings of the 2ndNPO Conference on MultimediaPreservation,Brisbane (1995).URL:http://www.lesk, comJmlesk/auspres/aus.html.
[5]刘家真,文件保存格式与PDF文档[J],档案学研究,2002(2)。
[6]Caroline van Wijk Judith Rog,Evaluating file formats for long-term preservation.URL:http://rdd.sub.uni -goettingen.de/conferences/ipres07/.
[7]ERPANet,ERPA Advisory(2004).URL:http://www.erpanet.org/adviso-ry/list.php.
[8]宛玲,电子文档长期存取的跨媒体开放文件格式[J],中国图书馆学报,2007(3)。