燕杨
一、电子文件长期保存之困
电子文件是以二进制编码形式存储于光电或磁电等载体中,依赖计算机系统处理并可在网络中快速传输的数字信息。从技术层面看,电子文件长期保存包含两层含义:长期可靠存储和长期可靠识读。
但是由于电子文件存储介质的脆弱性和文件格式的技术过时性两大难题,使得其长期保存面临着严峻挑战。一方面,磁电或光电介质作为电子文件的主要存储载体,其理化性能极不稳定,极易受外部环境的影响,任何细微的损伤都可能导致其无法正常识读。另一方面,计算机技术发展日新月异,使得对上向电子文件应用系统提供标准接口,对下管理硬件资源的操作系统不断更新换代,而电子文件又对运行环境具有很强的依赖性,这种软、硬件环境的快速更新会导致在低版本系统中生成的电子文件在新的数字环境中无法正常识读。而试图保存一个过时的软、硬件系统,以便在新的数字环境中识读低版本电子文件,不具有可行性。
近年来,随着“云计算”的兴起,虚拟化技术得到了空前的发展。虚拟化技术可将现有的计算机硬件整合成资源池,在一个特定的硬件环境中模拟出另一个不同的数字环境,资源池中个别硬件的故障并不影响整个系统的运行,这些特性都为电子文件的长期保存开辟了新的途径。
二、虚拟化技术用于解决电子文件的技术过时性
虚拟化技术的核心是虚拟机监控器(VMM)。在非虚拟化环境中,操作系统直接运行在硬件上,管理着底层的物理硬件资源。在虚拟化环境中,VMM占据了操作系统的位置,管理着真实的物理硬件资源,呈现出虚拟的硬件平台,“欺骗”着上层的操作系统,这样低版本的操作系统就可以在虚拟化环境中正常运行。
VMM对物理资源的虚拟化主要是通过处理器虚拟化、内存虚拟化和I/O虚拟化三个方面进行的。以主流服务器x86体系架构为例,其虚拟化平台如图1所示。
1.处理器虚拟化。VMM创建虚拟机时,首先要创建vCPU。处理器虚拟化实际上是VMM调度不同的vCPU。x86体系结构计算机通常具有两个或两个以上的特权级,从而使操作系统和应用系统彼此分离。而计算机指令系统又分成特权指令和非特权指令。特权指令是操作和管理关键资源的指令,只能运行在最高特权级上,如果运行在非最高特权级上,则会引发异常使处理器陷入到最高特权级,并将特权指令交由操作系统处理。在虚拟化技术中,将配置硬件资源的指令称为敏感指令。传统的虚拟化技术将VMM运行在系统的最高特权级,而将客户机(运行了应用系统的虚拟机)运行在非特权级上,当客户机操作系统执行某些敏感指令(此时也是特权指令)时,则会引发异常而陷入到最高特权级。VMM捕获到该指令后,便对硬件资源进行操作。因此,这就要求所有的敏感指令都是特权指令,但x86体系架构有17条敏感指令不属于特权指令,当这些指令运行在低级别特权级上时,VMM并不能捕获而成为漏网之鱼。为此,Intel公司在硬件上对虚拟化技术进行了支持。较为典型的是Intel的VT-x,如图2所示。VT-x提供了两种操作模式:根操作模式和非根操作模式。VMM运行在根操作模式,客户机运行在非根操作模式。当客户机执行某个敏感指令时,会自动触发VMExit,而进入根操作模式,这时VMM获得控制权,对硬件资源进行操作,之后再次通过VMEntry进入到非根操作模式,继续客户机的运行。
2.内存虚拟化。x86架构计算机将内存真实的机器地址空间定义为物理地址空间。一个硬件平台只有一个物理地址空间。为了让多个应用系统能相互隔离并能有效地访问物理地址空间,引入了虚拟的线性地址空间。一个硬件平臺可以有多个线性地址空间,CPU通过页表的方式将线性地址转换成物理地址,保证各应用系统能正确访问到该线性地址所映射的物理地址空间。在系统虚拟化后,由于在客户机与物理主机(简称宿主机)之间隔着一个VMM层,客户机操作系统并不能直接访问到宿主机的真实地址空间,因而,又引入了客户机物理地址空间的概念,这样,每个客户机都有各自的客户机物理地址空间。客户机操作系统访问到的是一个虚拟的客户机物理地址空间,但客户机物理地址并不能被直接发送到系统总线上,需要由VMM将它转换成宿主机真实的物理地址后,再交物理处理器来执行。为此,VMM为每个客户机动态地建立一张“影子页表”。客户机维护着自身的页表,将客户机线性地址转换为客户机物理地址,VMM则负责维护影子页表,将客户机物理地址转换为宿主机物理地址。一份影子页表对应一份客户机页表。当客户机进行页表操作时会导致VMExit, VMM捕获这一事件后,先由客户机操作系统更新其页表,然后根据客户机物理地址与宿主机物理地址间的映射关系,用宿主机物理地址更新相应的影子页表,并将影子页表载入到物理MMU(内存管理单元),保证客户机可以访问到真实的宿主机物理地址空间。为了提高内存虚拟化的效率,Intel开发了Intel EPT技术,其原理如图3所示。通过EPT页表,可以很方便地将客户机物理地址转换为宿主机物理地址,并载入到EPT MMU中,以访问真实的物理内存。
3. I/O虚拟化。计算机系统的I/O操作是通过CPU读/写外设的寄存器和RAM来完成的,而现代计算机DMA技术允许外设绕开CPU直接向内存读/写数据,所以I/O虚拟化面临以下两个基本问题:①让客户机直接访问到真实的I/O地址空间②让DMA操作直接访问到客户机的内存地址空间,而Intel VT-d技术将这两个问题得到了较好地解决。如图4所示。
从上述分析可以看出,采用虚拟化技术后, VMM不仅掌管着底层硬件资源,而且还为客户机模拟出特定的硬件环境,使得客户机的运行不依赖于底层硬件环境。基于虚拟化技术的这一特性,可以将电子文件管理系统及操作系统安装在虚拟机上,电子文件管理系统及操作系统通过VMM与底层硬件相互隔离,这样无论底层硬件如何升级,并不影响上层虚拟环境,电子文件管理系统及操作系统的运行环境始终处于稳定状态,保证了电子文件的长期可靠识读。endprint
三、虚拟化技术用于解决电子文件的存储介质脆弱性
在虚拟化环境中,由于VMM对底层硬件资源整合成计算资源池、存储资源池、网络资源池,个别硬件的故障并不影响整个系统的工作,这样保证了电子文件的长期可靠存储。以虚拟化主流产品VMware vSphere为例,它具有如下三大项独特的功能
1. vMotion。该功能可以将虚拟机从一台物理服务器即时迁移到另一台物理服务器。在虚拟化环境中,虚拟机的整个运行状态及网络身份和网络连接都被封装在共享存储器上的一组文件中。在迁移过程中,vMotion会自动ping网络路由器,确定虚拟MAC地址的新物理位置,保证虚拟机的精确执行状态、网络身份和网络连接快速从源ESX Server迁移到目标ESX Server上(即vSphere的VMM ),而不会引起停机和网络连接中断。
2. Storage vMotion。运用vMotion迁移虚拟机,要求在共享存储上进行。而Storage vMotion功能则可以将运行中的虚拟机的磁盘存储从一个数据存储器中迁移到另一个数据存储器中,如图5所示。
3.高可用性HA( High Availability)。该功能可将多台运行ESXi的物理服务器组织起来,构建一个虚拟化集群,形成一个大的资源池,包括处理器资源池、存储资源池、网络资源池,集群中的虚拟机可在集群中的任意服务器上自由移动,集群中某台服务器出现故障时,该台服务器上运行的虚拟机可被自动迁移至群中其他服务器上,如图6所示。
四、基于虚拟化技术的电子文件长期保存技术平台搭建
利用虚拟化技术原理及虚拟化产品的技术特性,可以搭建如下的电子文件长期保存技术平台,如图7所示。
1.将操作系统及电子文件管理系統安装在运行了VMware vSphere的ESXi层上的虚拟机内,解决电子文件技术过时性问题,保证电子文件长期可靠识读。
2.将两台或多台服务器构建成一个虚拟化集群,当一台服务器出现故障,则安装有电子文件管理系统及操作系统的客户机则自动在另一台服务器中重启,解决硬件脆弱性问题,保证电子文件长期可靠存储。
3.建立远程容灾备份。综合运用vMotion及Storage vMotion功能,将运行了电子文件管理系统和操作系统的客户机,整体自动迁移至远程运行了ESXi虚拟机中,一旦出现灾难,可以快速恢复,实现服务保存。
(作者单位:苏州市国土资源局相城分局 )endprint