周益帆 吴咏
摘要:检查点机制是高性能计算平台的一项重要特性。它能够在程序运行的某一时刻保存程序的运行状态,并在系统故障后恢复程序状态继续执行。由于文件操作在应用程序中的普遍性,支持文件回卷对于检查点技术来说是十分必要的。文件数据备份可以使文件在回卷后恢复到正常状态,但是开销太大。本文提出了一种基于行为特征的文件检查点优化策略(BBFC),能够提供文件数据的正确恢复,有效保证了程序回卷恢复到上一个检查点时文件状态与进程其它状态保持一致。BBFC对文件行为特征进行分类,并根据这些行为特征采取相应的保存恢复策略,从而在很大概率上减少了检查点间隔需要保存的文件内容,降低了文件检查点的时间、空间开销。它对用户透明,简单易用。
关键词:计算机软件;文件检查点;行为特征;回卷恢复;一致性;检查点间隔
0引言
随着信息技术的发展,人们对计算机的依赖性日益增强。科学计算、数据分析、信息处理等各种问题的解决都离不开计算机,计算机系统的可靠性也越来越受到广泛关注。检查点机制作为系统容错的一项重要手段,能够在进程运行的某一时刻保存当时进程的运行状态到磁盘文件,并在需要的时候从保存的磁盘文件中恢复进程状态继续执行下去。检查点机制能够避免在系统故障后程序从头开始执行带来的计算损失,也给无法满足长时间占用计算资源的应用场景提供了便利的解决方案。
文件读写是应用程序的一个普遍行为。很多程序在正常运行时离不开对数据的处理和对文件的访问,因此在检查点中实现文件的可恢复性是至关重要的。文件检查点能够提供文件数据内容的正确恢复,使得程序回卷到上一个检查点时,文件内容与进程的其它状态保持一致。在检查点中包含文件数据内容能够解决这一问题,但是由于实际应用中大文件越來越多,保存文件内容所带来的开销不容忽视。
本文提出了一种基于行为特征的文件检查点优化策略,可以在很大概率上减少检查点间隔需要保存的文件内容,从而大大减小了因文件检查点给系统正常运行带来的额外开销,让检查点技术更为实用。endprint