◆王元太
基于云计算的物联网数据挖掘系统分析
◆王元太
(兰州铁路技师学院 甘肃 730050)
物联网是世界信息产业“第三次浪潮”下的产物,全球各个国家也将物联网的发展提升至国家战略的层面。现代大数据环境之下,物联网需要解决多个方面的技术问题。“云计算”具有规模庞大、可靠性高和扩展性良好的技术优势,满足物联网朝着智能化发展的现实需求。本文通过利用“云计算”在信息处理上的时效性及数据存储容量大等特点,改造相关算法,设计开发一种基于“云计算”的物联网数据挖掘系统,有效地提高信息处理的时效性和准确性。
信息系统;物联网;云计算;数据存储;信息处理
随着科学技术的不断发展,现代各行各业实现了高速的发展,尤其是各种信息化系统因其高效性、时效性和准确性得到了广泛应用。如在运输行业中的目标探测系统,是基于物联网搭建的框架下,利用目标探测系统中的各种传感系统,对所要监控的目标进行信息数据的采集,并将采集到的相关信息数据上传到主系统信息处理中心,进行对应的信息数据挖掘与处理工作。但是,随着各行业的业务量不断地增长,在传统的信息数据化处理系统中,数据存储容量以及挖掘处理效率等方面都已经不能满足现有需求。
“云计算”是一种集并行化与分布式等特点于一身的计算系统,可以有效地提高系统对信息数据的处理与挖掘效率。
“云计算”通常被认为是一种商业计算模型,是在大量计算机共同构成的资源池中处理完成任务的过程。而这种资源池就被称为“云”,用户可以按照实际需求获取存储空间或是其他类型的信息服务,且“云计算”用户可以动态地获取并利用部分资源,且各种任务直接交给“云计算”进行处理后,用户本身并不需要考虑到底层的分布细节,只需要关注任务的执行情况即可。
“云计算”是分布式计算方式的一种,它能够通过互联网将所有的数据计算处理方式,划分成许许多多个小程序,借助不同的服务器系统来对这小程序进行信息化处理和分析,计算出结果后反馈客户。
“云计算”通过利用互联网的虚拟化信息技术,将众多的服务器硬件有机结合起来,并进行抽象化操作,再进行逻辑化资源的整合分配与划分。
数据挖掘系统的任务直接决定了数据挖掘系统的工作方向,并且会直接指导算法朝着怎样的数据分析模式发展。前者主要集中于了解数据具备的一般特点,包括对数据库中已有数据的刻画和描绘,总结数据之间的关系和类型等。而后者则侧重于立足现有数据进行分析判断,对一些加入的新数据进行同步预测。按照具体任务的差异,在挖掘结果中会获得不同类型的数据模式,因此数据挖掘系统就要具备对多种数据的分析能力以此来满足不同用户的实际需求。按照发现的数据模式和任务要求,我们可以将基本任务划分为几个不同类型:数据描述可视化、相关性分析、分类预测与聚类、复杂数据挖掘和数据演变分析。
在“云计算”中,需要将各个不同的应用程序分析出来的结果数据,按照事前设定的逻辑关系进行排列,组成新的数据列。再通过“云”处理系统进行相应的统一处理,将资源有序地分配给需求客户。
数据挖掘的所需时间T如公式2所示:
通过公式1与2,得出复杂系数λ随着系统的系数复杂性的提高而提高,数据挖掘间的耦合性增大,其处理时间T也会增大。
基于“云计算”的物联网数据挖掘系统结构,主要是能为客户提供虚拟化与动态资源点的计算系统。该系统的结构设计主要是先进行软件层次的分层设计,主要分为三层,从低往上依次为:PaaS数据算法层,DaaS任务层,SaaS用户层。软件中的底层透明地为其上层服务,其上一层通过层间的开放式接口,来协调各层的服务,有利于各层之间的功能可以独立运行,满足各类算法灵活维护的同时,还符合物联网数据的高效动态特性。
物联网数据存在数据海量、逻辑关系不强以及比较混乱等问题,因其数据规模庞大,针对计算机的需求较高;数据间的需求与供给节点产生了巨大矛盾;物联网的数据安全性不强。
由于传统的信息处理系统,在统一处理不同程序应用的大量数据时,需要进行对数据挖掘算法的收敛,其效果不是很好,而且在它的计算能力和对应的数据存储资源上,不能有效地满足用户需求的提高,导致信息处理系统的效率不断地降低。通过设计一种分布式、网格化处理算法,来提高计算的工作效率。
通过在初始化计算阶段,将服务器中需要处理的相关信息数据,根据信息数据的属性来对其进行相关信息的判断并重新排序。之后,对相同属性的数据进行删除重复,并建立云服务器端与信息数据间的关联系数。
再通过公式3进行计算原属性D和客户需求G的关联系数,如果计算得出的关联系数小于0,说明原数据集合D与客户需求没有关系,不用保存其相关的数据;如果计算出的关联系数大于0,说明原数据集合D与客户需求相关,需要云存储终端进行对原数据的保存工作。
公式中D为数据集的属性;
F为通过服务器终端逻辑处理后的逻辑属性;
G为客户需求。
“云数据”挖掘算法需要先计算“云计算”预处理后的信息数据属性数集,并得出了不同属性间的业务数据集。再对这些属性数据进行逐条运算。把M设为挖掘的信息数据,其信息数据集为M1,M2,…Mn,每个矩阵向量中的元素为m1,m2,…mn,则简化后的数据挖掘算法公式如4所示。
经过算法关联处理后的数据公式如5所示。
数据挖掘模型主要分为如下五层形式:
(1)数据接入层,主要由各类的传感仪器终端组合而成,包括无线传感仪器,GPS等,应用在监视目标,并对目标进行数据采集工作;
(2)集成层,主要是将数据接入层采集到的相关数据存储起来,作为数据源,为其他各层提供相应的数据保障;
(3)挖掘层,作为该系统的核心层,主要是为系统提供数据挖掘所需要的各项功能模块,并行运算算法,并将计算出的结果反馈至业务控制层;
(4)业务控制层,主要是进行数据挖掘程序的逻辑运算,控制或调控逻辑算法,并将计算出的结果传送至交互层中;
(5)交互层,它是该系统与客户间联系的窗口,借助这些接口,客户可以查看或保存相关的数据结果。
上述系统模型五层结构拥有各自不同的功能模块,比如在接入层中使用的“云计算”功能模块;在系统挖掘层中使用的是并行数据挖掘算法功能模块、模式评估功能模块和并行的ETL功能模块;在控制层中主要是使用任务调度控制功能模块以及工作流程控制功能模块;最后的交互层主要是使用管理功能模块、业务功能模块和结果显示功能模块。
在数据挖掘中的相关数据子系统管理是用户对数据资源进行分配管理,主要是基于“云计算”功能的DaaS任务层服务模式,可以有效地保护用户的个人隐私,做到数据的安全性。在数据挖掘的子系统中,可以为用户提供数据知识的发现,实现对数据的挖掘工作,有效地帮助需要知识数据挖掘的用户。
随着科学技术的不断发展,物联网信息处理系统的需求不断提高,如对数据挖掘的精准度,高效性以及快速响应等需求也不断增加,传统的数据挖掘算法已经无法满足用户增长需求。借着大数据信息技术的高速发展,基于“云计算”的物联网数据挖掘系统将得到更广泛的应用,有效提高信息数据处理分析的高效性和准确性。
[1]汤勇峰.基于云计算平台的物联网数据挖掘研究[J].电脑知识与技术,2017(1307):218-219.
[2]陈俊丽.基于云计算平台的物联网数据挖掘研究[J].中国新通信,2016(1821):74-75.
[3]武桂云.基于hadoop平台的分布式数据挖掘系统研究与设计[D].天津大学,2012.
[4]BARALIS E,CERQUTTELI T,CHIUSANO S. Index support for frequent itemset mining in a relaional DBMS[C]//Procof Data Engineering 2005. ICDE 2005. Los Alamitos,CA:IEEE Computer Sociely,2005:754-765.
[5]减丽娜,郑艳娟,张宇敬.面向云计算的船舶生产信息平台建设[J].舰船科学技术,2014,36(12):107-111.
[6]曹强,潘维光数据挖掘技术在舰载信息系统中的应用研究[J].舰船科学技术,2005,27(8):62-65.