云计算背景下物联网数据挖掘技术研究

2021-02-28 06:49国家互联网应急技术处理协调中心西藏分中心陈超雪
电子世界 2021年22期
关键词:项集数据挖掘编程

国家互联网应急技术处理协调中心西藏分中心 黄 君 陈超雪

近些年来,物联网挖掘技术作为信息化时代发展的重要结晶,正受到社会各界的广泛关注。该技术能够顺利的应用到各行各业中去,主要是因为云计算的产生与发展,云计算为我国的各个领域创造了信息化发展的环境,为人们的工作和生活带来了极大的便利。同时,云计算的采购成本比较低,为应用这项技术的领域节约了资金的投入。因此,应当扩大云计算在物联网数据挖掘技术中的应用范围,这将会促进社会的发展。

1 云计算背景下物联网数据挖掘技术分析

云计算在实际的应用中,主要包含了以下几个部分的内容,一是物联网感知层,它最主要的功效就是发挥感知作用,依托的是被控制范围内的大量的数据收集节点。它的工作内容主要是在被控制区域内安装摄像头、传感器等多种形式的感知设备,对被控制区域的数据进行实时的采集。同时,还可以将这些被采集到的数据整合到节点后发送给总服务器;二是物联网传输层,它是数据传递的中间环节,可以运用各种网络对采集到的数据进行高效且准确的传输,保证采集到的数据可以被总服务器收到;三是物联网数据层,它是实现物联网数据挖掘的核心部分,通常包含数据转换与数据存储两个方面,可以对采集到的数据进行合理的存储和处理,这是保证数据挖掘工作顺利开展的前提;四是物联网数据挖掘服务层,这部分是物联网数据能否被快速、准确挖掘的关键,它的功能的实现要依托于数据准备模块、挖掘模块以及个人模块。

云计算的主要支持技术是虚拟化。所以,在搭建物联网数据挖掘技术体系的实践中,要需要做好虚拟化技术的有效应用。具体来讲,在使用过程中,会出现高性能硬件产能过剩无法完全利用或老旧硬件的产能无法满足需求的问题,虚拟化技术的存在就是为了实现它们的重组利用,它可以将底层的物理硬件透明化,实现硬件与软件的相互分离。它可以将一个产能过剩的高性能硬件虚拟成多个资源,保证产能的有效利用,还可以将多个产能不足的老旧硬件整合在一起,形成一个虚拟资源,完成硬件之间的重组利用,提高利用效率。

除此之外,有效发挥海量数据处理技术与编程模型的工具作用,能为物联网中海量数据的有效挖掘提供基础性保障。现阶段,常用的数据处理与编程模型为MapReduce模型,如图1所示,它主要是由Map函数与Reduce函数组成,也就是由Map阶段和Reduce阶段构成的。这种并行编程模型的运行过程是这样的,第一,数据进入Map阶段,由Map函数对其进行按行读取和加工,数据被加工之后,会被分配到新的节点上;第二,数据进入Reduce阶段,对在上个阶段中经过处理的数据进行读取,再对其进行新的合并处理。这种并行编程模型可以用来处理规模比较巨大、数量比较繁杂的数据集,并且在处理的过程中,可以对数据进行监控,及时地发现其中出现的错误、异常或者是失败的节点,再次运行任务,因此,这种模型使用起来的安全性较高,用户不必担心在任务运行过程中出现错误或异常。

图1 MapReduce并行编程模型

MapReduce并行编程模型体现了一种分而治之的思想,简单来说,它是一种任务的分散与最终汇总。这种模型是将一个大规模的数据集,按照一定的规则发放到各个分节点中进行处理,这些分节点都是由同一个主节点管理的,再将各个分节点处理得到的结果进行合理地整合,得出一个最终的结果。

在并行编程中存在的诸如分布式存储、网络通信以及容错处理等较为复杂的问题,复杂编程的人员无须手动处理,均可以依靠MapReduce并行编程模型处理。但在利用这种模型的过程中,应当注意的是,被处理的数据集一定要可以被分成若干个小的数据集,同时,每一个小数据集还可以实现并行处理。

2 基于云计算的物联网数据挖掘实验验证

为了确定一种Apriori算法的可行性,我们将展开一项具体的实验,对这种新设计的平台工作效果进行验证。

2.1 Apriori算法分析

Aprior算法是数据挖掘十大经典算法之一,是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集,已经被广泛的应用到商业、网络安全等各个领域。首先,将频繁1-项集的集合用L1来表示,将L1作为已经完成的经验,用以推导频繁2-项集,频繁2-项集用L2来表示,再将L2看做已经完成的经验,来完成对频繁3-项集的探索,频繁3-项集用L3来表示,以此类推,将常数设为k,利用这种方法一直向下探索,直到再也找不到一个频繁k-项集。与此同时,在使用这个算法时应当注意的是,在每一次寻找频繁相机Lk的过程中,都要经历一次在数据库中寻找的过程。

另外,在众多数据挖掘算法中,存在着许多以Apriori算法为基础的改进算法,例如,基于哈希的数据挖掘算法,没有备选项集的FP-GROWTH算法以及基于数据切割的算法等,由此可见,Apriori算法是一种较为经典的数据挖掘算法。到算法中,就是我们所说的Apriori算法。

2.2 实验环境

这项实验所用到的设备是一台运行内存4G、存储空间128G、操作系统为Windows XP的台式计算机,在这台设备的内部安装3个采用Linux操作系统的虚拟机,并且分别在这3个虚拟机中设置上不同形式的节点。

2.3 实验过程

在完成设备的准备以及其他相关的调试之后,要将与实验算法相关的数据,采用C++程序代码检索重点词语的手段,将其转变为容量为1024MB的PLM文件。再将转变完成的文件利用HDFS传输到进行实验的模拟平台上,按照类别完成存储。在上述的工作完成之后,就可以正式进行计算机系统的运行,按照系统运行的情况,对数据的变化进行实时且详细的记录,对实验中频繁出现的项集要密切关注。

2.4 实验结果

实验的过程中,我们在运行系统中传输了几种不同大小的文件,最终得到了相对的运行时间,具体数据如表1所示。

从表1中的数据,我们可以得出以下结论,在文件大小逐步增加的情况下,文件运行的时间也在不断地增加,这时候,采取Apriori算法,会获得比较好的结果。它可以实现在数据庞大繁杂且不断增多的情况下,迅速地搜寻到频繁出现的项集。因此,通过实际的实验,我们可以得知,这种算法可以实现对庞大数据信息的挖掘,满足用户的使用需求。

表1 文件大小与运营时间的关系表

总结:综上所述,随着信息化社会的不断发展,信息产

Apriori算法得以实现是根据Apriori性质,它的主要内容是频繁项集的非空子集也必须是一种频繁项集。接下来我们对Apriori性质进行更深入的研究,依据频繁项集的定义,这个定义简单来说,就是如果一个项集I的最小支持度小于阈值support-min,则该项集就不属于频繁项集。这时,我们向这个项集中添加一个新的项X,这时,原本的项集I就变成了一个新的项集,我们用项集XUI来表示,这个新的项集的最小支持度依旧比阈值support-min小,因此,这个新的项集也不是一个频繁项集。按照以上对于该种性质的研究,将其应用业已经成为我国国民产业中最重要的一环。物联网与云计算都是信息化社会发展之中的先进产物,是当今社会信息化发展的重要体现,正在被各行各业广泛的应用,在其中发挥着重要的作用。云计算的形成和发展为物联网数据挖掘技术的发展提供了更多的可能性,依托这一背景,物联网数据挖掘技术在未来一定会在各个领域中发挥更大的作用。

猜你喜欢
项集数据挖掘编程
编程,是一种态度
探讨人工智能与数据挖掘发展趋势
元征X-431实测:奔驰发动机编程
编程小能手
纺织机上诞生的编程
不确定数据的约束频繁闭项集挖掘算法
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
一种新的改进Apriori算法*