基于边缘计算的物联网数据处理和存储优化

2023-10-09 06:38张永芳张换莉
通信电源技术 2023年16期
关键词:哈希分块数据处理

张永芳,张换莉

(郑州工业应用技术学院,河南 郑州 451100)

0 引 言

随着物联网技术的迅猛发展,大量传感器和设备的广泛应用导致了海量的数据生成和传输[1,2]。然而,传统的中心化数据处理和存储方法在面对物联网数据规模与复杂性时面临着严重的挑战。为了应对这一问题,边缘计算作为一种新兴的计算架构被引入,通过将数据处理和存储功能从云端推向网络边缘,有效降低了数据传输的延迟和网络负载[3,4]。

文章的主要研究内容是深入分析边缘计算与物联网的集成架构,并阐明其在数据处理和存储优化方面的重要性。文章探讨了传统中心化方法所面临的挑战,包括高延迟、网络拥塞以及数据安全性等。针对这些挑战,提出了一种基于边缘计算的综合数据处理和存储方法。具体而言,所提方法主要包括数据去重和数据分块2个关键步骤。在数据去重方面,采用了SHA-1哈希算法,通过计算数据的哈希值来判断是否存在重复数据,从而避免了重复的存储和传输,节省了存储空间,减少了网络带宽的消耗。在数据分块方面,讨论了Rabin算法,通过将大规模的数据切分为较小的数据片段,实现了分布式存储和处理的目标,从而提高了系统效率。

为了验证提出方法的有效性和性能,进行了一系列的实验与分析。文章通过比较传统中心化方法和基于边缘计算的综合方法,全面评估数据处理和存储方面的性能和效果。实验结果表明,所提方法能够显著降低数据传输的延迟和网络负载,并减少了存储空间的消耗。

1 数据处理和存储优化方法

1.1 基于边缘计算的物联网架构分析

传统的中心化物联网(见图1)和边缘计算物联网(见图2)在延迟、网络拥塞以及数据安全等方面具有不同的特点。其中,中心化物联网常包括云端、核心网络和物联网设备(终端),而边缘计算物联网则常包括云端、核心网络、边缘计算和物联网设备。

图1 中心化物联网架构

图2 边缘计算物联网架构

在延迟方面,边缘计算物联网通过将数据处理和存储功能推送到网络边缘,缩短了数据传输的距离和时间,实现了更快速的数据处理与响应。在网络拥塞方面,边缘计算物联网通过在网络边缘部署较强的计算和存储资源,将部分数据处理任务从云端转移到边缘节点,减轻了云端的负担。在数据安全方面,边缘计算物联网通过将部分数据处理和存储功能移到网络边缘,降低了数据传输的风险,提升了数据的安全性。

边缘计算作为一种分布式计算范式,通过将计算和存储功能推送到网络边缘的边缘节点上,与物联网设备进行紧密的集成,如图2所示。在这种架构中,高效的数据处理和存储优化能有效提升其实用性。

1.2 数据处理和存储方法

文章提出的基于数据去重和数据分块的综合数据处理与存储优化方法采用的架构如图3所示,该架构包括5个组件。

图3 基于数据去重和数据分块的数据处理与存储优化架构

(1)传感器/物联网设备(终端):这些设备负责采集环境数据或监测物体状态,并将原始数据传输到边缘节点进行处理。

(2)边缘节点:边缘节点位于物联网设备附近,提供计算和存储能力。它们负责接收和处理从传感器/物联网设备传输的数据,执行数据处理和存储优化操作。

(3)数据去重模块:该模块使用数据去重算法(SHA-1哈希算法)识别和消除重复的数据[5,6]。该模块通过计算数据的哈希值,并与已存储的数据进行比较,以判断是否存在重复数据。若存在重复数据,则会删除重复数据,仅保留唯一的数据。

(4)数据分块模块:该模块负责将大规模的数据切分为较小的数据片段。它使用Rabin算法等分块算法将数据划分为固定大小的数据块[7,8]。这样的分块操作便于后续的分布式存储和处理。

(5)分布式存储:经过数据去重和数据分块处理后的数据片段将被存储在分布式存储系统中。该系统可以包括多个边缘节点和云端节点,能实现数据的高可用性和容错性。

通过该综合数据处理和存储优化架构,重复数据被消除,数据被分块存储,可以提高数据处理和存储的效率,减少网络传输和存储资源的消耗,也有利于后续数据传输和下一步处理。

1.3 数据去重和数据分块

在该架构中,核心是数据去重和数据分块。本研究使用SHA-1哈希算法来减少重复数据的存储和传输,并使用Rabin算法将大规模数据划分为较小的数据片段。

SHA-1哈希算法是一种将任意长度的输入数据映射为固定长度哈希值的算法。设输入数据为消息M,其长度为n位(n为任意正整数)。SHA-1算法的实现步骤分为5步。

步骤一,填充消息,将消息M进行填充,使其长度满足一定的要求。填充的方式是在消息M的末尾添加位数为k的填充,使得填充后的消息长度为m位(m=n+k)。

步骤二,划分消息,将填充后的消息划分为若干个固定长度的消息块,每个消息块的长度为L位。

步骤三,初始化哈希值,定义一个160位的初始哈希值,通常为5个32位的寄存器(A、B、C、D、E)。

步骤四,迭代压缩函数,对每个消息块进行迭代压缩函数的计算。迭代压缩函数由多轮操作组成,每轮操作包括扩展消息块和迭代计算。扩展消息块将消息块扩展为80个字(每个字32位),迭代计算对扩展后的消息块进行80轮迭代计算,在每一轮中,根据当前迭代的轮数和寄存器的值进行位运算与逻辑运算,生成新的寄存器值。

步骤五,输出哈希值,将最终的寄存器值按照顺序拼接起来,得到160位的哈希值,即SHA-1哈希值。

通过SHA-1哈希算法,可以将输入数据映射为固定长度的哈希值,实现了对数据的唯一性标识和完整性校验的功能。将哈希值作为数据的唯一标识,并利用哈希值判断是否存在重复数据,可以减少重复数据的存储和传输。使用Rabin算法将去重后的数据划分为固定大小的数据片段,便于后续的分布式存储和处理操作。

Rabin算法是一种用于数据分块的算法。设输入数据为消息M,其长度为n位(n为任意正整数)。Rabin算法的实现步骤分为3步。

步骤一,划分消息,将消息M划分为若干个固定长度的消息块,每个消息块的长度为L位。

步骤二,计算消息块的指纹,对每个消息块进行指纹计算。指纹是通过将消息块的二进制表示看作一个多项式,并对多项式进行计算,得到的一个指纹值。

步骤三,分块,根据指纹值的特征,将消息划分为不同的数据块。具体的划分方法可以根据指纹值的奇偶性、特定位的取值等来确定。

2 实验与分析

2.1 仿真环境和数据集

所用的基本仿真环境:操作系统为Linux;开发语言为Python;模拟器为NS-3网络仿真工具[9,10]。文章根据图3搭建了仿真实验架构。

2.2 结果与分析

实验结果如表1所示。

表1 实验结果

结果表明,所提出的数据处理和存储优化方法在实验中展现出明显的性能改进。该方法可以缩短数据传输延迟、降低网络负载和减小存储空间,可以提高物联网系统的效率和性能,并有效应对大规模数据处理和存储的挑战。具体来说,通过数据去重和数据分块的优化方法,数据传输延迟从52 ms降低到41 ms,实现了约21%的性能改进;网络负载从110 Mb/s降低到88 Mb/s,降低了20%;存储空间从10 GB减少到8.2 GB,实现了18%的优化效果。

3 结 论

文章研究了基于边缘计算的物联网数据处理和存储优化问题,并提出了一种综合方法。通过引入数据去重和数据分块的策略,成功减少了重复数据的存储和传输,并实现了大规模数据的切分与分布式存储。实验结果表明,所提出的方法能够显著降低数据传输延迟、减轻网络负载,并减少存储空间的占用,为物联网系统提供了高效、可靠的数据处理和存储方案,提升了系统的性能和效率。研究的贡献在于对边缘计算与物联网集成架构的分析,并提出了针对数据处理和存储的综合优化方法。未来的研究可以进一步探索其他数据处理和存储优化的算法,以提升物联网系统的性能与可靠性。

猜你喜欢
哈希分块数据处理
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
分块矩阵在线性代数中的应用
反三角分块矩阵Drazin逆新的表示
基于OpenCV与均值哈希算法的人脸相似识别系统
基于自适应中值滤波的分块压缩感知人脸识别
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
基于多分辨率半边的分块LOD模型无缝表达
基于维度分解的哈希多维快速流分类算法
基于同态哈希函数的云数据完整性验证算法