基于分段拟合压缩的多源数据容灾存储算法

2024-04-19 13:56崔建军董馨
电子设计工程 2024年8期
关键词:多源存储容量压缩算法

崔建军,董馨

(昆仑银行股份有限公司,北京 102206)

数据容灾、数据存储是连续执行的数据处理行为,数据容灾指的是网络主机通过建立异地数据系统的方式,完成对数据文件的复制与备份处理;数据存储则是指网络主机对数据文本的记录行为。从宏观角度来看,数据容灾是数据存储与备份的高级执行层次,能够在保证数据安全传输的同时,提高信息对象的持续可用性[1]。选择容灾备份数据的依据是确保丢失数据与未丢失数据之间的代价比关系,特别是在硬件备份空间无法满足数据存储需求的情况下,为实现对网络数据的容灾,应在实施处理前,建立数据信息存储表单结构。

对于多源数据对象而言,保障主机元件对数据样本的容灾处理能力,从而节省信息存储空间,成为了一项亟待解决的问题。针对上述情况,文献[2]提出了利用Hilbert 曲线与Cassandra 技术的数据存储与索引方法。利用Cassandra 数据库,降维处理多源数据,融合Hilbert 曲线编码原则,分割处理数据存储单元,从而将多源数据对象映射到不同的结构单元中。文献[3]提出了基于Hyperledger Fabric 与星际文件系统相结合的数据存储方法。分别利用Hyperledger Fabric 的Level DB 架构体系和星际文件模型,存储规模较小和规模较大的多维数据样本,根据扩展性原则,完成对存储源节点的深度追踪。然而上述两种方法的应用能力有限,不能保障压缩后数据样本的存储容量完全符合实际需求标准,易导致不完全容灾问题的出现。

分段拟合压缩是指由分段到压缩处理的完整执行流程。相较于其他类型的数据压缩方法,分段拟合压缩注重对已获取信息对象进行分段式辨识,并可以通过按需拟合的方式,将所涉及信息对象整合成既定存储格式,以便于主机元件可以在压缩数据样本的同时,定义具体的信息存储方案。利用分段拟合压缩技术的应用特性,设计一种新型的多源数据容灾存储算法,并通过对比实验的方式,突出该方法在解决数据样本压缩后所占存储容量过大问题方面的应用能力。

1 基于分段拟合压缩的多源数据容量估算

分段拟合压缩算法是主机元件估算多源数据容量所应用的技术手段。所谓分段拟合压缩就是指按照压缩信道分段条件,确定寻优拟合参数的实际取值范围[4-6]。通常情况下,压缩信道的分段数量值越大,表示主机元件所必须存储的多源数据样本总量越多,与之对应的寻优拟合参数计算值也就越大。

对于多源数据压缩信道分段条件的求解参考如下表达式:

式中,χ表示多源数据在网络体系中的实时传输参数,表示多源数据样本的单位累积量,βχ表示数据传输信道的分段系数,α表示主机元件对多源数据对象的压缩处理阈值,a表示多源数据的分段标记向量,˙表示传输信道内的多源数据压缩处理特征。

寻优拟合参数是在压缩信道分段条件下求解所得的物理量[7-8]。多源数据拟合结果影响主机元件对信息对象的压缩处理能力,特别是在寻优方向不一致的情况下,拟合参数的计算数值越大,就表示主机元件对多源数据的处理能力越强。

假设g表示多源数据寻优向量,φ表示主机元件内的数据信息实时拟合向量,联立式(1),可将多源数据寻优拟合参数计算结果表示为:

式中,ε表示多源数据对象的寻优定义项,f表示数据样本在主机元件内的寻优方向向量,ΔD表示主机元件内多源数据的单位拟合量。

多源数据容量就是指数据样本的实时存储量[9-10],对于网络主机而言,该项物理量的求解需参考分段拟合压缩条件,且压缩定义项的分类越细致,主机元件在单位时间内所能存储的数据样本类型也就越多,多源数据的实时容量水平也就越高。

设γ表示基于分段拟合压缩算法所定义的多源数据存储系数,Gmax表示多源数据压缩定容参量的最大取值,表示数据样本存储容量估算指数,φ表示数据样本的存储定容值,表示数据样本的多源分类特征,联立式(2),推导基于分段拟合压缩的多源数据容量估算表达式定义为:

利用分段拟合压缩算法估算多源数据容量,遵循实时性原则,以主机元件按照容量估算条件容灾数据样本时,只能将即时所得数据信息存储于数据库体系中。

2 利用容量估算条件的多源数据容灾与存储

主机元件完成容灾纠错,首先应将多源数据分割成多个存储部分;然后通过分别纠正的方式,将各个单元组织中的错误数据对象提取处理;最后按照分段拟合压缩算法,定义具体的数据容灾方案。

假设η表示多源数据在主机元件中的传输效率,κ表示多源数据纠错向量,pκ表示基于参数κ的数据对象纠错参数,ι表示实时容灾系数,表示基于分段拟合压缩算法的多源数据取样特征,˙表示标准容灾参量[11-12]。在上述物理量的支持下,联立式(3),可将多源数据容灾纠错表达式定义为:

LDPC 码决定了主机元件对多源数据的容灾与处理能力[13-14]。在已知纠错标准的前提下,主机元件对LDPC 码的定义参考分段拟合压缩算法,且随着数据样本累积量的增大,主机元件所需定义的LDPC 码源数值水平也会不断增大,但由于容灾处理的核心目的是在保证数据信息完整性的同时,控制其压缩编码后所占的存储容量,因此为避免错误识别情况的出现,每一个数据库单元结构只能存储一种类型的LDPC 码源向量。

容灾后的多源数据存储就是将容灾备份所得的多源数据对象寄存于互联网数据库主机中[15-16]。容灾后数据信息保持集群式存在状态,且压缩前数据对象的相似性等级越高,备份后容灾对象所处的存储位置就越接近。多源数据存储流程如图1 所示。

图1 容灾后的多源数据存储流程

利用式(5),推导容灾后的多源数据存储条件如下:

3 实验分析

基于分段拟合压缩的多源数据容灾存储算法,实验根据压缩后数据样本所占存储容量判断主机元件对多源数据对象的容灾处理能力,选择基于分段拟合压缩的多源数据容灾存储算法(所提方法)、利用Hilbert 曲线与Cassandra 技术的数据存储与索引方法(文献[2]方法)、基于Hyperledger Fabric 与星际文件系统相结合的数据存储方法(文献[3]方法)进行对比实验。

3.1 实验原理

在互联网环境中,主机元件对多源数据的容灾与存储需借助数据库终端体系,通常情况下,终端组织的输入端口与网络信道直接相连,负责提取处于传输状态的数据对象,输出端口负载于服务器平台中,负责输出未被完全消耗的数据对象。互联网数据存储终端结构如图2 所示。

图2 互联网数据存储终端结构图

该实验所选设备元件的具体型号如表1所示。

表1 实验设备选型

出于公平性考虑,实验过程中相关设备元件的运行始终保持稳定状态。

3.2 实验结果

在不考虑其他干扰条件的情况下,压缩后数据样本所占存储容量越小,表明主机元件对多源数据对象的容灾处理能力越强。在基于分段拟合压缩的多源数据容灾存储算法(实验组)、利用Hilbert 曲线与Cassandra 技术的数据存储与索引方法(A 对照组)、基于Hyperledger Fabric 与星际文件系统相结合的数据存储方法(B 对照组)作用下,压缩后数据样本所占存储容量如图3 所示。

图3 压缩后数据样本所占存储容量

图3 中1 号、2 号、3 号、4 号、5 号区域,存在比B对照组曲线颜色更深的曲线,这些曲线为A 对照组、B 对照组重合后的存储容量曲线。

分析图3 可知,实验组压缩后数据样本所占存储容量的均值水平相对较低,在20~25 min 之间时,其存储容量取得最大值4.9×107MB;A 对照组压缩后数据样本所占存储容量的均值水平较高,第20 min时,其存储容量取得最大值6.4×107MB,与实验组最大值相比,增大了1.5×107MB;B 对照组压缩后数据样本所占存储容量的均值水平处于实验组、A对照组之间,第15 min 时,其存储容量取得最大值5.8×107MB,与实验组最大值相比,增大了0.9×107MB。

综合上述分析可得出实验结论:应用基于分段拟合压缩的多源数据容灾存储算法,可以实现对压缩后数据样本所占的存储容量的有效控制,能够较好解决主机元件不能完全容灾多源数据对象的问题,符合实际应用需求。

4 结束语

该文提出了基于分段拟合压缩的多源数据容灾存储算法,根据数据容量估算条件,确定多源数据容灾后的具体存储方案。在实用性方面,这种新型算法的应用能够解决由压缩后数据样本所占存储容量过大导致的主机元件无法完全容灾多源数据对象的问题,在数据样本有效压缩方面具有突出作用价值。

猜你喜欢
多源存储容量压缩算法
ETC拓展应用场景下的多源异构交易系统
基于GNSS硬件在环的多源融合定位高逼真仿真方法
基于参数识别的轨道电路监测数据压缩算法研究
更正声明
一种利用点特征和互信息的多源遥感影像配准方法
浅析云盘技术及存储原理
PMU数据预处理及压缩算法
空间位置信息的多源POI数据融合
曲线数据压缩方法与实现
Buffalo推出四硬盘网络存储器 主打Soho一族