浅谈物联网海量数据的分布式存储算法

2019-08-23 10:41:40张征亮

数字通信世界 2019年7期

张征亮

（中国联合网络通信有限公司石家庄市分公司，石家庄 050000）

分布式存储（DistributedStorage）可降低网络压力，面向用户提供了一个分布式缓存系统，作为存储系统的访问接口，进行各类数据的缓冲以降低网络压力。物联网模式下，数据量快速增加，分布式存储的价值也进一步得到重视，针对物联网海量数据的分布式存储算法进行分析、设计，有较为突出的现实意义。

1 物联网海量数据的分布式存储算法设计

1.1 基本架构

以分布式存储算法为依托，尝试对物联网海量数据进行有效处理，要求搭建以智能设备为核心的工作系统，整个工作系统的架构为：数据分析设备、存储空间分析设备、通信线路、计算机终端五个部分。数据分析设备、存储空间分析设备以智能芯片控制，数据分析设备可评估产生的数据量，存储空间分析设备可了解计算机和网络资源的工作压力。通信线路负责进行信息的快速交互，包括设备之间和设备-网络之间。计算机终端作为上述工作工作开展的载体。

1.2 算法原理

上述设计的算法原理为，在工作开展前，收集相关对象的参数，包括网络资源（主要是带宽和对应的传输能力）、缓冲区空间等，并将其收集到智能设备中实现存储和记忆。具体工作开始后（数据产生），启动物联网中的计算机，为数据分析设备、存储空间分析设备提供工作平台，评估物联网产生的数据规模，该项工作由数据分析设备执行，在此过程中，存储空间分析设备实时向计算机提供存储空间信息和网络资源信息。如果数据规模较大，超过网络资源负载上限（或者接近），则将其暂时存储到分布式存储系统中，反之则允许其直接进入网络[1]。总体来看，智能化的固定参数记忆和实时参数匹配分析，构成了工作的基本模式。

1.3 关键技术

算法设计可实现的关键技术在于实时化的信息交互，和准确的参数收集、匹配。考虑到物联网内的信息产生源是多样的，为避免信息之间互扰（包括工作产生的源信息和各类反馈信息），拟采用CAN 总线技术，所有的信息源均通过独立的线路与计算机和数据分析设备、存储空间分析设备进行连接，信息之间的传输相互不存在影响，且可以独立进行[2]。参数收集工作要求早期进行，结合物联网的实际工作需要精确化核定，参数匹配是指数据分析设备、存储空间分析设备之间的参数，前者是非实时进行的，只在数据产生时进行评估，后者则以每2s 为间隔持续进行，将网络资源等信息传输给计算机，有计算机对数据分析设备、存储空间分析设备的数据进行对比，作出决策。

2 仿真实验

2.1 模拟对象和方法、过程

以某地区的工业物联网作为对象建立计算机虚拟模型。通过参数调整法进行实验，可变参数为物联网的数据产生总量、峰值数据量。观察指标为数据是否得到准确的分布处理、平均处理时间。共模拟进行200次实验，其中低数据总量、低峰值数据量实验50次，设为1号组，实验过程中数据产生量模拟为300GB/天，峰值数据量为5GB/s。高数据总量、低峰值数据量实验进行50次，设为2号组，实验过程中。数据产生量模拟为30PB/天，峰值数据量为5GB/s。高数据总量、高峰值数据量实验进行50次，设为3号组，实验过程中数据产生量模拟为30PB/天，峰值数据量为50GB/s。混乱数据产生实验50次，随机进行参数变化，设为4号组。另以该物联网实际工作为对照组

2.2 模拟结果

对实验结果进行记录，如表1所示：

表1 实验数据

从结果上看，以智能设备为核心进行计算，可改善物联网海量数据的分布式存储效果。无论数据出现何种变化，处理有效率都能达到96%以上，且处理时间不超过3s。而该物联网目前的处理效率不高，耗时平均为59.6s，且处理有效次数为42次，差异较为明显。这表明，上述算法设计具有较为理想的可行性。

3 结束语

综上，物联网模式下的海量数据，可通过分布式存储给予处理。本次研究提出了智能算法，以数据信息和分库空间实时情况为基准，通过不同线路下达指令快速完成信息处理，以总线技术、智能技术等作为支持。仿真实验中，大量数据的存储较为有效，没有出现信道拥堵和信息丢失问题，可作为后续工作的参考。