张征亮
(中国联合网络通信有限公司石家庄市分公司,石家庄 050000)
分布式存储(DistributedStorage)可降低网络压力,面向用户提供了一个分布式缓存系统,作为存储系统的访问接口,进行各类数据的缓冲以降低网络压力。物联网模式下,数据量快速增加,分布式存储的价值也进一步得到重视,针对物联网海量数据的分布式存储算法进行分析、设计,有较为突出的现实意义。
以分布式存储算法为依托,尝试对物联网海量数据进行有效处理,要求搭建以智能设备为核心的工作系统,整个工作系统的架构为:数据分析设备、存储空间分析设备、通信线路、计算机终端五个部分。数据分析设备、存储空间分析设备以智能芯片控制,数据分析设备可评估产生的数据量,存储空间分析设备可了解计算机和网络资源的工作压力。通信线路负责进行信息的快速交互,包括设备之间和设备-网络之间。计算机终端作为上述工作工作开展的载体。
上述设计的算法原理为,在工作开展前,收集相关对象的参数,包括网络资源(主要是带宽和对应的传输能力)、缓冲区空间等,并将其收集到智能设备中实现存储和记忆。具体工作开始后(数据产生),启动物联网中的计算机,为数据分析设备、存储空间分析设备提供工作平台,评估物联网产生的数据规模,该项工作由数据分析设备执行,在此过程中,存储空间分析设备实时向计算机提供存储空间信息和网络资源信息。如果数据规模较大,超过网络资源负载上限(或者接近),则将其暂时存储到分布式存储系统中,反之则允许其直接进入网络[1]。总体来看,智能化的固定参数记忆和实时参数匹配分析,构成了工作的基本模式。
算法设计可实现的关键技术在于实时化的信息交互,和准确的参数收集、匹配。考虑到物联网内的信息产生源是多样的,为避免信息之间互扰(包括工作产生的源信息和各类反馈信息),拟采用CAN 总线技术,所有的信息源均通过独立的线路与计算机和数据分析设备、存储空间分析设备进行连接,信息之间的传输相互不存在影响,且可以独立进行[2]。参数收集工作要求早期进行,结合物联网的实际工作需要精确化核定,参数匹配是指数据分析设备、存储空间分析设备之间的参数,前者是非实时进行的,只在数据产生时进行评估,后者则以每2s 为间隔持续进行,将网络资源等信息传输给计算机,有计算机对数据分析设备、存储空间分析设备的数据进行对比,作出决策。
以某地区的工业物联网作为对象建立计算机虚拟模型。通过参数调整法进行实验,可变参数为物联网的数据产生总量、峰值数据量。观察指标为数据是否得到准确的分布处理、平均处理时间。共模拟进行200次实验,其中低数据总量、低峰值数据量实验50次,设为1号组,实验过程中数据产生量模拟为300GB/天,峰值数据量为5GB/s。高数据总量、低峰值数据量实验进行50次,设为2号组,实验过程中。数据产生量模拟为30PB/天,峰值数据量为5GB/s。高数据总量、高峰值数据量实验进行50次,设为3号组,实验过程中数据产生量模拟为30PB/天,峰值数据量为50GB/s。混乱数据产生实验50次,随机进行参数变化,设为4号组。另以该物联网实际工作为对照组
对实验结果进行记录,如表1所示:
表1 实验数据
从结果上看,以智能设备为核心进行计算,可改善物联网海量数据的分布式存储效果。无论数据出现何种变化,处理有效率都能达到96%以上,且处理时间不超过3s。而该物联网目前的处理效率不高,耗时平均为59.6s,且处理有效次数为42次,差异较为明显。这表明,上述算法设计具有较为理想的可行性。
综上,物联网模式下的海量数据,可通过分布式存储给予处理。本次研究提出了智能算法,以数据信息和分库空间实时情况为基准,通过不同线路下达指令快速完成信息处理,以总线技术、智能技术等作为支持。仿真实验中,大量数据的存储较为有效,没有出现信道拥堵和信息丢失问题,可作为后续工作的参考。