宋 辉 张怡静
( 1.郑州航空工业管理学院,河南 郑州 450015; 2.湖南省建筑工程集团总公司中原工程分公司,河南 郑州 450053)
随着电子文件的大量产生,电子文件逐渐取代纸质文件成为主要的社会记录形式,电子文件管理工作成为档案管理工作的重要组成部分。然而信息技术的发展已经改变了档案产生、真伪性识别和保存的方式。电子文件不同于纸质文件,由于电子文件依赖于硬件系统和软件系统,所以需要不断地维护,这就造成了想要保存完整和真实的电子文件是具有挑战的。如果用户利用现有的软件和硬件能够成功地读出电子文件,我们才可以认为电子文件是可访问的。档案工作者有责任保持电子文件的长期可读性,使其完整性、真实性和可访问性不被破坏。类似地,数字取证专家利用数字设备保存、收集、验证、识别、分析、解释和记录来源于数字环境的数字证据。然而当这些电子文件不在电子文件管理系统中时,收集、识别、验证、保存这些电子文件就非常困难了。本文将提出一个能够被档案工作者用来收集电子文件和生成归档电子文件有关的元数据的一个数字档案管理系统,数字档案管理系统的主要目的是提供数字取证技术和用于获取、识别、分析、管理档案馆的电子文件。
数字取证研究工作组给出的定义,其具体内容是:为了重建数字犯罪过程,或者预测并杜绝有预谋的破坏性未授权行为,通过使用科学的、已证实的理论和方法,对源于数字设备等资源的数字证据进行保存、收集、确认、识别、分析、解释、归档和陈述等活动过程[1]。
正如数字取证的定义,数字法医专家从事数字数据的识别和保存。档案工作者也在从事类似的工作。然而,两者的工作在数字取证和数字归档方面有不同的角色。
文件的哈希值(摘要)可以用来检查电子文件数字档案的完整性。在存储电子文件之前,可以生成电子文件的散列值。每当出现问题时,这个散列值可以用于检查档案的完整性。
可信的电子文件是指真实性、完整性与长期可用性得到确认的电子文件[2]。“确认”不仅表明电子文件真实性得到了保障,还能对其真实性提供证明,从而满足社会对电子文件真实性要求的主观认知,电子文件是可信的,也就具有了法律效力,因此,可信电子文件是真实性、完整性、长期可用性得到保障并能进行真实性证明的电子文件[3]。
电子文件至少要明确由谁何时创造才可以认为其是可信的电子文件。此外,电子文件生成后,一旦被修改,这种修改行为能够被正确地记录。可信电子文件主要的属性有以下几点:完整性(保持电子文件是完整的和不变的。这并不意味着,电子文件不会遇到任何改变,而是意味着电子文件必须受到保护,免遭篡改或损坏);真实性(如果确定是某人发送的或者生成的,那么就认为此电子文件是真实的);证明存在性(可以用具体技术来证明电子文件存在于过去的某一时间)。
电子文件的这些基本属性可以用电子文件的比特流、时间戳和哈希函数来验证。散列函数接受二进制数据的一个任意字符串,在预定的范围内产生一个数,通常称为一个摘要。理想情况下,给定一组不同的输入,散列函数将它们映射到不同输出。电子文件创建后,它的摘要是通过电子文件比特流计算出来的。这个号码可以用于三个目的。首先,它被用作完整性验证机制。如果电子文件在其摘要被计算后修改,它的比特流将被改变,所以摘要也将改变。因此,使用摘要可以很容易地检查出电子文件的完整性。其次,电子文件的真实性可以使用其摘要和创造者的数字签名来确定。第三,可以通过摘要和从可信时间戳机构获得的时间戳来证明电子文件在过去某个时间存在。上述三种技术可以用来证明可信电子文件,并且它们依赖于电子文件的比特流。
有用的电子文件,它应该是可访问的。然而,随着技术不断地进步,面临的主要挑战是:媒介过时(由于缺乏硬件访问媒介,电子文件变得不可读);文件格式过时(由于创建电子文件的原始软件不再可用,这些重要的电子文件无法访问)。
电子文件由于其数字特性可以轻易地操纵和更改。用散列算法可以证明电子文件的完整性。然而,如果散列算法的强度是可以接受的,并且在一些级别,电子文件仍然保持完好无损,这是可能的。给定的电子文件的比特流因为很多原因被修改,例如,当使用不当的复制工具使电子文件从一个存储媒介转移到另一个存储媒介时。
时间戳可以用来证明电子文件在过去某个时间的存在。只有时间戳源于一个值得信赖的来源时,与电子文件相关联的时间戳才是可被接受的。
开源的软件数字取证工具在目前形势下并不适合档案工作者使用,需要设计开发出对档案工作者来说使用便捷的数字档案管理系统。
为了消除对任何操作系统的依赖性,应该使用可以供不同用户使用的跨平台的软件应用,这是非常重要的。因为在日常工作中,大多数非计算机专业人士只使用一个特定的操作系统。档案工作者基于他们的技能和工作环境使用着不同的操作系统。为了没有平台的限制障碍,数字档案管理系统应支持通用的操作系统。
3.1.1 可用性
数字取证工具是应数字取证调查专家的使用而开发出来的,这导致了数字取证工具具有复杂的功能,为了熟练使用这些工具,必须额外地加以练习。数字档案管理系统应该有一个直观的界面和功能,使得档案工作者在很短的时间内容易地理解电子文件。
3.1.2 在单一环境下提供多重功能
数字档案管理系统应具有以下模块:磁盘镜像模块;磁盘镜像安装模块;档案元数据生成模块;档案元数据数据库模块。如果档案工作者可以在单一的软件源中发现这些功能,可以有效地安装、使用和维护系统。
3.1.3 基于源代码开放的软件
开发数字档案管理系统的主要目的是为档案工作者提供可用于有效和便捷地收集电子文件的数字取证技术。为了实现这一目标,数字档案管理系统应被开发成开源软件资源。因此数字档案管理系统和源代码将免费提供给档案工作者。
数字档案管理系统是由提供以下服务的不同组件组成(图1)。
3.2.1 数字档案管理系统工作站
创建一个包含数字档案的存储介质的磁盘映像是很有必要的。一旦磁盘映像创建,档案工作者可以挂载磁盘映像,并使用该磁盘安装模块访问数字档案的内容。此外,档案工作者可以使用数字对象分析模块来分析,以确定和选择重要的电子文件。档案元数据生成器模块是用于为每个已收集的电子文件创建元数据。该元数据可以被用来唯一地标识每个电子文件,以验证电子文件和其他相关信息的完整性。
图1 数字档案管理系统架构
3.2.2 时间戳服务器
电子文件签署的日期和签名均是十分重要的防止电子文件被伪造和篡改的关键性内容,时间戳能够唯一地标识某一刻的时间。数字时间戳服务能提供电子文件的日期和时间信息的安全保护。可信时间戳即由国家法定时间源来负责保障时间的授时和守时监测,任何机构包括时间戳中心自己不能对时间进行修改以保障时间的权威,只有这样产生的时间戳才具有法律效力。数字档案管理系统中的可信时间戳服务器是作为时间戳的来源。在电子文件长期保存之前,要给每一个电子文件一个时间戳,此时间戳是用来证明存在的电子文件没有进行过修改。
3.2.3 数据存储器
为了使电子文件避免遭篡改而影响其可信性,由档案工作者创建的每个磁盘映像都应在电子文件收集完之后存储在专用的数据存储器中,这是非常重要的。
3.2.4 数据库
数据库用于存储存档的元数据,这对于有效地收集电子文件是非常重要的。
3.3.1 创建磁盘镜像
简单地说,磁盘镜像可以被定义为一种为了在较长时期保存数据而制作的安全可靠的副本。对档案工作者来说,制造存储设备的副本具有许多益处。首先,它使档案工作者在分析电子文件时不用担心会修改原始数据的风险。其次,由于技术的废弃或者存储媒介随着时间的衰变,原始的电子文件的存储设备很可能无法读出,创建合适的磁盘镜像可以有助于电子文件长期保存。
3.3.2 数字对象分析
对档案工作者来说,需要识别以下文件信息:文件名称;文件格式;生成时间;更改时间;加密或密码保护;存储地址。
3.3.3 创建归档信息
在电子文件捕获之后,为了电子文件的长期保存,有必要创建电子文件相联系的元数据,这样有助于确保电子文件的完整性和真实性。这些元数据包括:文件名称;对象标识符;哈希值;文件格式;创建者名称;捕获电子文件者名称;存储位置;时间戳。
3.3.4 存储归档信息
把可信的电子文件收集归档是一项具有挑战的任务。不同于纸质档案,电子文件很容易被篡改。因此,如果失去可信机制很难长久保存电子文件。然而我们可以通过创建和存储元数据来应对这种挑战,比如使用与电子文件关联的哈希值和时间戳。档案人员创建电子文件关联的元数据之后,需要把它们存储到关系型数据库中。一旦档案元数据被存储在数据库中,为了避免未授权的篡改,对元数据的进一步访问将被严格限制。
个人或者组织每天使用各种类型的数字设备产生了大量电子文件,我们有必要在对电子文件进行长期保存归档之前对其进行识别、收集、分析,本文提出了一个基于数字取证技术可用于加强电子文件收集工作的数字档案管理系统。
[1]李炳龙,王鲁,陈性元.数字取证技术及其发展趋势[J].信息网络安全,2011(1):20-21.
[2]李泽锋.基于OAIS的可信电子文件管理系统的体系构建[J].情报杂志,2010(8):33-35.
[3]张雅君.可信电子文件与电子文件可信管理[J].兰台世界,2015(4):50-52.