数据差异下的连续数据保护恢复算法分析及应用

2020-09-02 07:14关兆雄林钰杰

微型电脑应用 2020年8期

关兆雄林钰杰

摘要：

在现代网络环境普及的前提下，许多领域都采用数据化运作方式，这种方式能够有效的突破传统模式的局限性，规避一系列传统问题，所以在数据成为了现代社会运作的主要形式。但网络环境存在威胁数据的因素，例如病毒、恶意破坏或者设备失效等，都会直接导致数据无法应用。而通过连续数据保护恢复算法RMCBDD，能够有效地将被破坏的数据恢复，此算法即使在数据存在差异的前提下依然可以应用，在应用方面RMCBDD可以对起止时刻的数据差异进行分析，进而消除两者的差异来进行恢复，所以该算法的应用面积十分广泛，例如在多间隙复杂环境，在此环境当中算法显然要高于传统数据恢复算法、WDRS算法等，主要优势体现于效率等方面。

关键词：

连续数据保护; 数据恢复; 算法

中圖分类号： TP393

文献标志码： A

Analysis and Application of Continuous Data Protection Recovery Algorithm under Data Difference

GUAN Zhaoxiong， LIN Yujie

（Foshan Power Supply Bureau， Guangdong Power Grid Co. Ltd.， Foshan， Guangdong 528000， China）

Abstract：

Under the premise of the popularization of modern network environment， many fields have formed a databased operation mode. This method can effectively break through the limitations of traditional models and avoid a series of problems in the traditional environment， so modern data technique has become the main form of social operation. However， there are factors in the network environment that threaten data， such as viruses， malicious damage， or device failures， they directly cause data to be unapplied. The continuous data protection recovery algorithm RMCBDD can effectively recover the corrupted data. This algorithm can be applied even if the data are different. In the application aspect， RMCBDD can analyze the data difference between the start and end time. Then， the difference between the two sets is eliminated to recover， so the application area of the algorithm is very wide， for example， in a multigap complex environment， the algorithm is obviously higher effects than the traditional data recovery algorithm， WDRS algorithm， etc. The main advantage is reflected in the efficiency.

Key words：

continuous data protection; data recovery; algorithms

0引言

信息网络技术是现代社会发展的核心技术，能够应用于社会运作的各个层面，而此类技术的运作基础在于数据，所以如果数据出现问题，则会导致技术系统出现问题，不利于应用领域的运作，因此对信息网络技术中的数据进行保护，具有较为重大的意义。针对现代网络环境进行分析，其中存在着许多对数据存在威胁的因素，例如病毒、硬件损坏风险等，当数据受到此类风险的破坏之后，数据将难以应用，所以如何规避此类风险、恢复被破坏的数据，是当前相关领域所研究的重点问题。

1连续数据保护恢复算法概述

当数据被破坏之后，为了维持数据应用，采用连续数据保护恢复算法，能够有效的将被破坏的数据恢复，达到维持应用的目的。此算法在应用当中，能够在不干涉正常的数据业务前提下，对范围内所有的数据进行实时跟踪，并持续保持对数据更新的记录，此时自动形成了数据的完整备份，当数据出现破坏现象时，通过此记录备份，即可实现数据的恢复[12]。在传统的连续数据保护恢复算法之下，其恢复的机制在于时间顺序机制，即对数据更新的时间进行计算，从而当发现某时间节点下存在数据的空白，则认定此部分数据出现了破坏，再利用备份数据当中对应时间节点的数据进行回复，这样的运作方式能够最大限度的保护数据完整性，具有数据丢失小的优点，但缺点在于需要对整体数据的时间节点进行核对，在效率上相对较低[34]。

而随着信息数据应用的深入，数据的结构也出现了许多变化，例如多间隙复杂环境，此类数据环境当中，数据并不是连续更新的，数据与数据之间可能存在着较长的时间间隔，所以在传统连续数据保护恢复算法的应用下，容易出现效率低下的问题，为了对此进行改善，相关领域通过研究提出了一种RMCDD的连续数据保护恢复算法，此算法虽然同样采用时间节点机制，但在应用效率方面则远超于传统算法，因此其在现代数据保护回复当中具有较高的应用价值[56]。

2模型构建

为了对RMCDD连续数据保护恢复算法的应用进行分析，本文将构建基本模型，并对模型进行定义，以此在之后研究中将该算法纳入模型当中，验证算法的应用及有效性。

2.1模型定义

在理论角度上，当大小相同的独立数据模块形成数据集成之后，其每个独立数据的定性数据的大小也相同，并且定性数据只能被逻辑块地址所识别，在此基础上，本文假设A为数据块储存中所有数据的逻辑块地址，D为表示数据块中所有可能的数据的集合，即可得出下文中的2个定义。

定义1。假设A、D集合的二元关系为St，St由二元序偶集合而成，其中t代表确认的时间节点，此时A作为逻辑块地址，能够对D进行识别，因此在二元关系上为函数，其定义上代表了t时间节点在数据储存当中的镜像，并Sta为a在对数据块进行标识时t的数据镜像[78]。

定义2。写请求集合R为形式（t，a，d）的三元序偶集成，代表了某个时间节点内，逻辑块地址a和时间戳表示数据的更新集合，因此R（t1，t2）则表示了时间节点与时间节点之间的距离，即时间区间t1，t2当中数据储存系统所存在的所有写请求集合[910]。

2.2临近算法的形式化分析及证明

在应用连续数据保护恢复算法进行数据恢复时，一般情况下需要反复多次的对数据备份进行完整性检查，以此对照原有数据基础即可得出被破坏的数据时间节点[1112]。由此可见，在每次进行数据恢复时，连续数据保护恢复算法都需要对备份以及原有数据整体进行依次检测，从而其需要的时间十分漫长，因此首先说明其计算的效率较稳低下，而在结果方面来看，在通过长时间的检测之后，因为原有数据与数据备份的时间节点十分相似，所以两者的数据差异并不大，而这样就说明在传统连续数据保护恢复算法当中，时常会对数据相同的时间节点进行检测，这也就是其效率低下的原因，而通过对差异数据进行分析及处理，则可以有效改善传统的缺陷，提高整体运作的效率[1314]。

在数据差异之下，连续数据保护恢复算法能够有效的对数据镜像进行调控，并在此基础上实现对恢复时间节点的检测，确认恢复指令的有效执行时间节点，结合信息判断检测进行综合性控制管理[1516]，算法详细路径如图1所示。

由图1可见，在近算法的运作当中，能够根据时间间隔对临近信息进行有效控制，同时根据实际操作来提高算法在结构上的应用，以此消除时间节点之间的间隔。针对此项应用，下文将从两个层面上对此进行分析。

1、在对多间隔环境进行处理之后，数据之间的间隔已经消除，此时对临近时间上进行恢复，能够针对无间隙后的临近时间点进行恢复，恢复机制为T1到Ta的过度，之后将结

合数据当前的卷曲状态，在相应时间节点上对数据进行分析，这一过程相较于传统算法的过程要较为简洁，说明此算法具有更高的效率性。

2、在无间隙的条件下进行数据恢复时，计算会受到时间使用规范的的影响，临近时间恢复作用会得到相应的提升，同时依靠数据对比，可以对重复、完成的数据进行排出，之后结合镜像备份来对数据进行恢复。这一过程主要可通过下列公式来表示：

通过上述分析可见，临近算法有着比传统效率更好的效率性，同时也具备消除时间间隙的能力，但在与RMCBDD算法相比之下，其依旧存在性能上的不足。

3RMCBDD算法

3.1数据记录

在多间隙复杂情况下，通过RMCBDD算法的应用，能够有效的在此情况下进行数据恢复。RMCBDD算法本身具备了恢复映射序列的能力，可以对连续数据保护系统启动后的每一次恢复进行记录。

假设在3间隙条件下应用RMCBDD算法进行数据恢复，那么其过程为首先从初始时间节点到最终节点质检存在T1→T2，T3→T4，T5→T6间隙，然后在RMCBDD算法的应用下，对此3个间隙进行了3次恢复，恢复主要利用其中映射序列，记录过程的初始时间节点，以此在每个间隙的初始时间节点上，均设置相同的时间节点，以此来消除数据质检的差异性，最终执行所有恢复工作。

3.2插入快照

为了实现效率的提高，在RMCBDD算法当中插入快照，可以改变RMCBDD算法对历史数据的查阅方式，即在查阅当中，RMCBDD算法会按照一定的时间间隔，进行查阅。快照的功能在于分割时间节点，其主要插入在RMCBDD算法的日志链条当中，以此来分割时间节点，同时能够将起止时间节点与初始时间节点之间的共同经历录入在请求需求当中，有效提高计算的效率。

3.3数据备份

在RMCBDD算法当中，要实现数据恢复同样需要对数据进行备份，并且需要具备相应的数据恢复能力，为了详细对RMCBDD算法进行了解，本文针对此进行了相应的分析。数据备份即是指在数据为损坏之前对数据进行复制、保存，此点与其他算法相同，可以通过相应的复制功能、传输功能来实现。在备份完成之后，即可以保障数据恢复的正确性，避免数据出错。

4实验分析

4.1实验环境

为了解RMCBDD算法的恢复性能，本文将在相应的环境下应用此算法。本文将在Windows平台之下，通过磁盘过滤驱动技术，构建了传统算法、临近算法以及RMCBDD算法，在分別运作之后，对相同的一组数据进行备份，最终删除30组数据，在分别运作算法，查看其恢复的时间以及完整性。

4.2传统算法实验结果

运用传统算法进行数据恢复，首先传统算法对原始数据以及数据备份的查阅时间为19 min，对删除数据数量的计算为5 min，对删除数据的时间节点计算为10 min，总耗时34 min。其次，传统算法在对删除数据进行恢复时，总体耗时15 min，对恢复结果进行查看，恢复数据数量上无误，但却存在2组数据恢复错误，说明传统算法存在一定的缺陷。

4.3临近算法实验结果

运用临近算法进行数据恢复，首先临近算法对原始数据以及数据备份的查阅时间为13 min，对删除数据数量的计算为2 min，对删除数据的时间节点计算为5 min，总耗时20 min，相较于传统算法，临近算法在效率上存在明显的优势。其次，临近算法在对删除数据进行恢复时，总体耗时8 min，对恢复结果进行查看，恢复数据数量上无误，不存在数据恢复错误的现象，说明临近算法较为完善，并优于传统算法。

4.4RMCBDD算法实验结果

运用RMCBDD算法进行数据恢复，首先RMCBDD算法对原始数据以及数据备份的查阅时间为7 min，对删除数据数量的计算为2 min，对删除数据的时间节点计算为2 min，总耗时10 min，相较于传统算法，由此可见RMCBDD算法在效率上，要优于传统算法以及临近算法。其次，RMCBDD算法在对删除数据进行恢复时，总体耗时5 min，对恢复结果进行查看，恢复数据数量上无误，不存在数据恢复错误的现象，说明RMCBDD算法较为完善，并优于传统算法。

4.5综合分析

通过上述的分析可以了解到3项算法的实际应用效率以及性能，在相互对比之下，显然RMCBDD算法的应用结果最佳，其在效率上要优于传统算法与临近算法，而在数据恢复的完整性方面，其与临近算法结果一样，但因为本文实验条件有效，未能对大量数据进行研究，所以此研究结果存在可靠性不足的缺陷，需要在之后的研究当中进行完善。综合而言，RMCBDD算法是当前数据恢复工作当中应用价值最高的算法。

5总结

在现代社会的发展下，许多领域都将数据信息储存在网络环境当中，而这样的方式，会受到网络环境当中风险因素的影响，容易造成数据被破坏的现象，因此本文为了保障数据的安全性、提高数据信息化运作的水平，对数据恢复算法数据差异下的连续数据保护恢复算法以及其应用进行了分析，分析首先针对传统连续数据保护恢复算法进行了概述，之后构建了相应的模型来对临近算法的性能进行了分析;对RMCDBB算法进行了分析，最终在构建模型的基础上，借由Windows平台构建了新的实验环境，在此实验环境下实际运行了3项算法，从而能通过对比得出性能最佳的算法，即RMCDBB算法。

参考文献

[1]李艳平.WSN中一种基于压缩感知的数据恢复算法[J].计算机工程，2014，40（6）：2935.

[2]吴桂峰，王轩.基于二次规划的无线传感器网络数据恢复算法[J].计算机应用，2013，33（4）：935938.

[3]鲜江峰，徐善凯.基于神经网络的WSN丢失数据恢复研究[J].物联网技术，2017，7（2）：4041.

[4]李亚萌，何泾沙.基于Hash的YAFFS2文件各版本恢复算法研究[J].信息网络安全，2016（5）：5157.

[5]刘向东，陈晨.计算机取证中数据恢复算法研究[J].军民两用技术与产品，2016（20）：2133.

[6]张良德.LINUX系统下的计算机取证技术研究[J].内蒙古科技与经济，2014（9）：5556.

[7]赵静.一种文件系统硬盘数据恢复技术研究[J].电子设计工程，2015，23（23）：5153.

[8]顾广宇，张淑娟，王雪飞，等.一种FAT32文件系统中文件恢复方法[J].网络新媒体技术，2016，5（2）：3641.

[9]刘俊.WINDOWS系统下基于底层数据分析的数据恢复研究[J].深圳信息职业技术学院学报，2015（3）：2732.

[10]徐仙伟，杨雁莹，曹霁.Windows系统中文件级数据恢复方法分析研究[J].皖西学院学报，2014，30（2）：2427.

[11]王芳芳.基于纠删码的云存储数据可靠性保障[J].软件导刊，2015（4）：137139.

[12]曹茂诚，王军敬，何及夫.医院容灾备份系统的研究与实施[J].微型电脑应用，2015，31（2）：1718.

[13]顾瑜，刘川意，鞠大鹏，等.基于云存储的块级连续数据保护系统[J].计算机科学与探索，2014，8（3）：257265.

[14]吴昊，范九伦，刘建华，等.基于指纹魔方算法的云存储数据保护机制[J].电信科学，2014，30（11）：110115.

[15]闫明.一种新的云计算环境下数据安全保护算法研究[J].科技通报，2017，33（9）：184187.

[16]刘旭春.数据差异下的连续数据保护恢复算法[J].电子商务，2016（4）：5960.

（收稿日期： 2019.05.21）

作者简介：关兆雄（1987），男，硕士，平台管理员，研究方向：存储和服务器虚拟化运维工作。

林钰杰（1987），男，硕士，系统管理員，研究方向：系统开发和大数据研究工作。

文章编号：1007757X（2020）08014803