归档电子文件真实性保障研究※

2010-11-09 11:02张健
档案与建设 2010年11期
关键词:纸张真实性纸质

□张健

为维护归档电子文件①(以下称电子文件)的真实性②,保证电子文件法律凭证价值的实现,需要行之有效的电子文件真实性验证手段和纠错方法。目前广泛采用的电子文件双套制管理方法可以部分解决这一问题,即采用电子文件的纸质版本验证其真实性和纠错。但同时也应当注意到,双套制存在诸多局限,尚无法从根本上解决电子文件的真实性保障问题。因此必须尽快从电子文件的本质特征出发,研究新的技术和管理方法,彻底解决电子文件真实性保障问题。

一、双套制在电子文件真实性保障中的必要性与不足

(一)采用双套制保障电子文件真实性的必要性

电子文件生成、传输、存储的环境是计算机网络,表现形式是由“0”和“1”构成的比特信息流。与纸质文件相比,电子文件具有信息与载体的可分离性、信息的易删改性、信息的流动性、信息的不稳定性、信息难以维持永久存取等新特点。这些特点从利用角度看很多是优点,它们能通过网络极大地方便对电子文件的利用;但从保管的角度看,却对维护电子文件的真实性相当不利。而传统的纸质文件不易删改的特性却正好可以弥补电子文件的这些不利因素。因此无论是档案理论界还是实践工作者都不约而同地想到了电子文件的“双套制”,即在电子文件形成后的适当阶段,以某种形式(主要是打印)将电子文件固化到传统存储介质(主要是纸张)上。当前普遍认为,双套制融合了纸质文件和电子文件各自的优势,既可发挥高效存取、传输和检索功能,又可用来验证电子文件的真实性,保障电子文件法律凭证价值作用的实现。

(二)采用双套制保障电子文件真实性的不足

1、纸质版本自身的真实性无法保证

双套制要求对电子文件制作纸质版本。当前许多办公自动化系统或者文档一体化系统提供的功能是在生成电子文件的同时打印出一份纸质版本。依照双套制一般要求,这份纸质版本将用来存档,用作将来的查考、凭证等作用。但这样的方式却没有考虑到文件在其生命周期中,尤其是在办理过程中会留下各种各样的痕迹,例如领导的批示、签字等。这些重要的痕迹内容就没有在上述纸质版本中体现出来,该纸质版本的真实性得不到保证。

另一种方式是在电子文件最终办理结束后再打印出纸质版本,但也会因为电子文件在形式上不同于纸质文件,领导的签批等处理痕迹的表现方式也与纸质文件有很大差别。以Word文件为例,当领导需要强调某一段文字时,大多使用颜色笔对文字进行着色处理;当需要对内容进行评述时,将会使用“批注”功能。类似这些电子文件常用的方式,各项信息内容间的交叉、引用、注释、评阅等内在联系在纸质版本打印时将难以全面完整地表现出来,从而造成相关信息的缺失,进而影响纸质版本的真实性。

由于无法完整地复制电子文件最终形态,上述纸质版本在本质上并不是电子文件的真正副本,在未来进行查考凭证等工作中实际能起到的作用将是有限的。

2、多媒体类电子文件无法制作纸质版本

电子文件带来的一个很大的改变就是能够摆脱过去纸张文件在记录信息时的单调与枯燥。除了政府或企事业单位日常工作中使用的普通公文类电子文件,当前越来越多需要处理的是基于照片、声音、视频等动态的、多媒体类的电子文件,诸如政府会议录音、公务活动现场录像等等。但目前基于印刷技术的纸张文件记录技术只能在纸张上表现文字或静态图形图像信息,对于声音或者视频类电子文件还没有可行的方法将其完整地记录和表现在纸张上。就目前技术的发展情况看,纸张印刷技术将很难用来直接记录声音和视频信息,因此当前的双套制将难以运用于对这些多媒体类型电子文件的保管。如果不采用新的方式方法解决这一问题,那么将造成人类社会活动的记录缺失。

3、电子文件与纸质版本的验证比对极为困难

双套制中纸质版本存在的根本目的是用来保证电子文件的真实性,以使其具有查考凭证等法律效力。如果需要用纸质版本来验证电子文件是否被篡改,就需要进行两个版本间的一致性检查。检查的唯一方法是从库房中调出对应的纸质版本与电子文件进行比对。这一过程描述起来容易,真正做起来将可能相当困难,甚至无法完成。

如果该电子文件仅仅是少量的文本或者表格数据,那么凭借人的肉眼就能进行逐字逐句的比较核对。但是当电子文件的内容很多时,这种比对将变得困难。由于纸质版本一般只有唯一的一份,因此实际比对工作很可能不允许普通用户亲自进行,而是由工作人员操作。这样枯燥的屏幕与纸张间的比对工作将十分困难和低效率。

当电子文件的内容是图片时,这种比对几乎无法由人来完成。首先图片的内容可能相当复杂,人的肉眼难以发现其间的细小差别;其次如果是彩色图片,由于显示器的成像原理与纸张打印的套色方式的差别,使得纸张版本很难真实还原电子文件的色彩;另外,不同的显示器显示的色温和色域都有差别,不同的人对色彩的感知能力也有差别,这些因素将进一步加大的图片的比对难度。

当电子文件的内容是声音和视频时,由于无法对其制作纸质版本,因此不存在比对问题。

由上述情况看,使用双套制来维护电子文件的真实性的实际意义将值得进一步思考。如果仅仅是制作了大量的纸质版本,却又无法及时有效地提供验证比对,用以证明电子文件的真实性,那么这种双套制在消耗大量的人力、物力和财力后,实际能够起到的作用将是相当有限的。

4、电子文件的纸质版本制作与保管成本巨大

目前最常见的制作电子文件纸质版本的方法是使用激光打印机或者喷墨打印机将电子文件打印到纸张上。通过统计,激光打印机一般打印一张黑白字迹的A4纸文件的成本约为0.1~0.3元,而彩色喷墨打印机打印同样大小的彩色文件成本约为0.8~1.5元。如果使用专用照片打印纸打印彩色照片,则成本约为5.0元以上。

尽管某个具体部门每天处理的电子文件数量有限,需要打印的内容不多,但全国各级政府部门、各企业事业单位每年处理的电子文件数量是一个天文数字。全部实施双套制每年需要消耗的纸张和其他相关成本将是一笔巨大的经费支出。未来随着社会政治经济文化的发展,更多的电子文件将会产生。为实现双套制必将消耗更多的优质纸张,也就意味着大量造纸用木材的砍伐,大量造纸污染的产生,这其中的环境成本不可计数。

双套制中的电子文件的纸质版本,其保管、维护、利用与传统文件(档案)没有区别。同样需要专用的档案库房、档案架、档案袋、档案盒等装具,需要保证库房的温度、湿度、光照等条件稳定,需要防潮、防霉、防火、防虫等等。对其查询检索同样需要一套专用的管理信息系统软件,同样需要配备具有专业知识和技能的管理人员。这些成本将会随着时间的积累不断增长。电子文件带来的便利和迅捷等优点,在双套制庞大的纸质版本保管利用成本面前将会越发显得不那么明显。

双套制在带来两种文件形态相辅相成完成文件的法律凭证的实现的同时,带来的是几乎双倍的工作量和相关财力、物力成本。必须分别培养和训练熟悉电子文件保管技术的工作人员,以及熟悉了解传统纸张文件载体保管技术的工作人员,造成两套班子两批人员。即使未来的档案工作人员综合素质不断提高,成为既熟悉电子文件又了解纸质文件的复合型人才,他们的培养和训练以及工资成本也将大大增加。

二、基于特征信息的电子文件真实性保障方法

(一)电子文件备份

电子文件备份就是将电子文件以某种方式另外复制留存一份或多份,以便在原文件遭受破坏(被篡改、损毁、丢失等)的情况下,能够利用备份文件继续开展工作。对于一个相当规模的档案馆电子文件馆藏而言,完全自动化地进行备份工作是保障电子文件安全的基本要求之一。从信息技术的角度而言,这种自动化的计算机数据(电子文件本质上就是计算机数据)备份技术已经相当成熟,应用在电子文件领域不存在更多的技术困难。

(二)散列函数与二维码技术

1、散列函数

散列函数是将任意输入计算机的数据(例如电子文件)转化成为固定长度的输出串(散列值)的数学函数。散列函数可以做到输入数据的任意变化(哪怕只有1个字节的差异)都将导致散列值的明显不同,因此散列值也被称为该输入数据的“特征信息”。现实应用中的散列函数有很多种,包括 MD5、SHA256、SHA512、MAC等。优秀的散列函数满足以下条件:①输入数据的长度是任意的;②输出数据(散列值)的长度是固定的,根据具体函数的不同,现在一般为32~128个字符长度;③散列函数的数学运算速度极快;④输入数据与输出数据唯一对应。

2、二维码技术

二维码技术是在纸张等平面媒体上印刷黑白相间大小不同的矩形图案组合,将信息记录到长和宽两个维度上(如图1所示),并可通过扫描枪方便地读取并还原所记录信息。

二维码具有以下特点:首先是信息容量大。在常规二维码的印刷面积上可以存储上千个的英文字母或数字。如果需要,还可以进一步扩大二维码的印刷面积,则信息容量可以继续扩大。其次是解码可靠性高。二维码解码时的误码率在千万分之一左右,而且即使二维码遭到了部分污损,也能正确进行解码。第三是制作成本低。事实上只需一套二维码编码软件和普通打印机就可以大批量低成本地制作二维码。

(三)电子文件特征信息的提取固化

任何电子文件,无论是文本、照片、声音或者视频,在计算机中都统一表现为由“0”和“1”构成的计算机数据。从这个统一的视角对所有类型的电子文件进行特征信息的提取固化需要如下具体步骤:①将电子文件输入散列函数计算得出一个固定长度的特征信息字符串;②将此特征信息输入二维码软件计算得到二维码;③将该二维码打印到纸张上最终固化。以上三步在现有条件下可以由计算机系统自动进行,既可以保证电子文件特征信息的提取与固化速度,也能最大限度地保证最终结果的准确性。见图2。

(四)电子文件特征信息保管

由于电子文件的特征信息以二维码形式印刷在纸张上,这种常见载体已经在人类社会中分别使用了千百年。人类对它的物理、化学、生物等特性已经有了相当充分的研究。档案工作者对如何有效的保管这类载体拥有丰富的经验,同时各级各类档案馆、档案室目前也拥有良好的库房保管条件,因此对电子文件特征信息的保管是有保证的。

(五)电子文件真实性验证与纠错

为验证电子文件的真实性,现行双套制需要人工方式用肉眼查看电子文件与纸质版本内容的异同。而使用经固化的电子文件特征信息验证电子文件真实性时只需以下步骤:①重新计算出电子文件的特征信息a;②用扫描枪读取纸张上的二维码,解码得到特征信息b;③如果a=b,则电子文件的真实性得以确认;④如果a≠b,则该电子文件真实性已被破坏,需要使用备份电子文件对其覆盖纠错。上述步骤可由计算机系统自动进行,能够避免在比对过程中人为因素的干扰,其比对效率和准确性都能得以保证。见图3。

(六)优点分析

1、制作成本低

对于电子文件备份环节,由于大容量存储技术的成熟,电子文件的备份已经没有存储载体容量大小的限制。而对电子文件采用散列算法提取其特征信息,无论电子文件的长度是几十个字的短篇新闻稿,亦或是数小时长度的视频文件,得到的特征信息都是固定长度的字符串。以MD5散列函数为例,由其计算出来的电子文件的特征信息均是类似于“c4ca4238a0b923820dcc509a6f75849b”这样长度固定为32的字符串。将此散列值转化为二维码并打印固化到纸张上,仅需要约10mm×10mm大小的面积。一张普通A4幅面纸张正反两面可以有效的保存约500个任意长度电子文件的二维码。这将比现行完整打印电子文件的方式平均节约2500倍的纸张打印量,由此节省的打印成本、时间成本和人力成本将相当可观。

2、保管成本低

采用二维码制作固化电子文件特征信息,如果选用纸张作为印刷材料,则纸张消耗量如上面计算为现行双套制的1/2500。由于缩微胶片的存储密度是纸张存储密度的约300倍,因此如果选用缩微胶片制作固化电子文件特征信息,库房存储空间的消耗将进一步降低,达到现行双套制的约1/750000。如此将节约大量的库房建筑空间、水电费用、人员费用,总体保管成本大大降低。同时由于总量极大减少,在保管上将更加方便快捷,容易实现各种功能需求。

3、利用快捷准确

使用专用扫描枪或者普通计算机摄像头即可快速读取二维码,并由软件程序进行识读,解码为电子文件特征信息,同时计算机使用散列函数快速重新计算出电子文件的特征信息,并将两者相比对即可验证该电子文件的真实性。如果使用缩微胶片,可以使用专用的缩微胶片扫描仪更加迅速简便地取得保存的电子文件特征信息。当发现真实性遭到破坏,计算机系统可以自动读取备份电子文件完成纠错过程。上述比对和纠错过程完全自动化进行,人为因素微乎其微。整个过程可以由电子文件(数字档案)的利用者自行操作相关计算机设备进行。

三、结论

现行电子文件双套制在解决电子文件真实性验证和纠错问题上存在的较多的缺陷,应当引起档案理论界和实践工作者的高度重视。本文通过对二维码技术和散列函数等技术整合,提出基于特征信息的电子文件真实性保障方法构想,为维护电子文件的真实性以及法律凭证功能的实现提供了低成本易实现且具有高可靠性的技术解决方案。

注释:

①本文中的电子文件指包含文件内容、结构信息和背景信息元数据的电子文件。

②国内外学者对于电子文件特性有着众多不同的表述。本文认为不完整的电子文件是不完全真实的,因此电子文件的真实性包含其完整性。

①王喜凤:《档案“双套制”管理探索》,《四川档案》,2009年第1期。

②谢俊喜等:《基于数学形态学的二维条码识别》,《计算机工程与科学》,2009年第2期。

③张燕蕾:《二维码技术及其在数字图书馆中的应用探析》,《现代情报》,2007年第10期。

④李鸿强等:《单向散列函数SHA-512的优化设计》,《计算机工程》,2007年第7期。

⑤唐三平:《基于散列函数的数字签名》,《信息网络安全》,2005年第2期。

⑥刘娇蛟、晋建秀:《基于单向散列函数的双向身份鉴别》,《信息技术》,2004年第7期。

猜你喜欢
纸张真实性纸质
薄如纸张的扬声器
近期国内市场纸张价格(2020年3月)
广告的真实性
撕纸张
全媒体时代纸质图书出版思考
不用一张纸,NENDO就描述出了纸张形态的千变万化
纸质读物的困境与出路
独立书店浪漫的纸质生活
从悬疑报道谈新闻的真实性
坚持新闻的真实性