基于云计算架构的分布式数据挖掘研究

2017-05-30 23:39:35徐萍
科技风 2017年17期
关键词:云计算数据挖掘分布式

徐萍

摘 要:文章围绕数据挖掘展开论述,提出了基于云计算架构的分布式数据挖掘平台,该平台较传统数据挖掘系统具有较为显著的优越性,在扩展性、数据处理能力、服务面等方面具有较明显的展现。文章对云计算及其架构加以简要介绍,提出了基于云计算架构的分布式数据挖掘系统。

关键词:云计算;分布式;数据挖掘

一、云计算概述及其架构

(1)云计算。

1)云计算简介。

云计算属于商业计算模式的一员,是一种以使用量为付费依据的模式,其基础是互联网及其相关服务的使用与交付,以互联网作为动态易扩展的发展基础。在云计算模式下,人们可进行较为便捷、按需的网络访问,进入可配置计算资源共享池。云计算的计算能力可达每秒十万亿次,如此强劲的计算能力可应用与核爆炸模拟、气候变化预测、市场发展预期等现代化、高运算工作。同时,使用云计算的途径较多,使用者可以通过电脑、笔记本电脑、手机等多种方式进入数据中心,根据各自需求进行相应运算。2)云计算特点。

云计算的运行特点是计算分布并非仅限于本地计算机或远程服务器,而是将计算分布于不同的分布式计算机上,通常来说分布式计算机数量较为庞大,此时企业数据中心运行模式与互联网有许多相似之处。其最大的优势在于企业在进行资源切换与配置时,自主性较强,且对计算机与储存系统的访问上更贴近自身需求。

从运行角度看,云计算具有以下几点特点。首先,云计算的规模大。根据相应统计数据,通常企业拥有的私有云的规模自数百至数十万不等,从总体上看规模较大,规模大小取决于企业的需求。云计算带给了使用者前所未有的计算能力。其次,云计算具有虚拟性。在云计算模式下,使用者所享受的计算服务不收地点、终端的限制,所有资源均在“云”中存在,并不具有固定实体形态。其次,可靠性较高。云计算中,为保证其运行的稳定性与可靠性,采取一系列措施实现这一目标,例如计算节点同构可互换等。这些措施的实施将使得云计算的使用较本地计算机更加可靠。

(2)云计算架构。

云计算机构通常分为三层,分别为基础设施层(IaaS)、平台层(PaaS)和软件服务层(SaaS)。基础设施层主要包括计算机服务器、通信与储存设备等,为云计算用户提供基础设施服务。平台层主要提供以云计算为核心的开发、运行与运营应用软件的支撑平台。软件服务层的作用在于以互联网为基础下为用户提供软件服务的软件应用模式。

二、基于云架构的分布式数据挖掘系统

(一)分布式数据挖掘

分布式数据挖掘(distributed data mining,DDM),较为普遍的认为是利用分布式计算资源挖掘分布式数据资源,并对数据资源加以总结与整合最终形成结果的一整套过程。分布式数据挖掘被认为是数据挖掘在分布式环境下的发展与应用,在一定程度上弥补了由于互联网异构性等限制与实际应用中的法律因素、行业限制等约束因素下的集中式挖掘难点,同时提高了数据挖掘的效率。目前,分布式数据挖掘系统的分类有四种,分别为基于MultiAgent的系統、基于网格的系统、基于云学习的系统与基于CDM框架的系统。

(二)基于云架构的分布式数据挖掘

1.系统框架

基于云计算架构的分布式数据挖掘系统结构图

如上图所示,系统结构设计思想是分层设计,并结合了系统组件的需要。总体来看分为三个层面,根据云计算需要的分列,分别为数据挖掘云服务层、数据挖掘能力层与数据挖掘支撑平台,在三个层面的架构下可依据各自功能具体细化。三个层面之间相辅相成,不可或缺,共同运行,支持这云计算架构下分布式数据挖掘系统的运行。

2.关键技术

首先,云计算技术。云计算平台为分布式计算结果提供了文件储存与并行的能力,与分布式计算相辅相成、相得益彰,是整个系统的基础。云计算技术实现了文件的位置、移动、性能、扩展等方面的透明性,并具有高容错、高可靠、高性能的特点,形成数据挖掘平台的核心支撑能力。

其次,数据汇集调度中心。数据调度中心是将与本平台的相关的业务数据进行汇总,其主要任务是对不同类型数据的汇集工作。数据汇集调度中心可以实现平台对不同源数据格式的支持。数据源包括OLAP数据、OLTP数据及其他数据,通过流式同步或下载式同步进入云储集群,形成分布式文件系统。

第三,服务管理与调度技术。服务管理与调度技术的使用目的在于扩大本平台面向用户的宽度,使更多业务系统能够利用本平台进行计算。服务调度是指以服务优先级、资源与服务的配置等方面为依据进行调度,避免出现服务的互斥、隔离等现象,是数据挖掘平台平稳运行、保持可靠性的一项重要技术,同时形成一定的系统控制。服务管理旨在形成本平台内统一的功能,例如注册功能等,更好地将数据挖掘平台的功能发挥出来。

三、结语

综上所述,随着时代的发展与信息技术的进步,网络环境与数据环境日趋复杂,传统的数据挖掘系统在这些因素下难以达到业务质量,完成其业务目的,因而对数据挖掘系统的改革与创新是具有时代意义与必要性的。文章以数据挖掘为核心展开论述,首先介绍了云计算及其特点,提出了基于云计算架构的分布式数据挖掘系统,其中对分布式数据挖掘进行了概括性阐述,进而对云计算架构下的分布式数据挖掘系统进行了探究。基于此,旨在为我国未来互联网基于云架构的分布式数据挖掘研究提供些许参考。

参考文献:

[1]李颖.基于云计算的分布式数据挖掘系统设计与实现[J].电子技术与软件工程,2016,15:204.

[2]赵建光.云计算环境下并行分布式数据挖掘平台研究[J].电脑开发与应用,2014,07:7780.

[3]郭敏杰.基于云计算的海量网络流量数据分析处理及关键算法研究[D].北京邮电大学,2014.

[4]程琳.基于云计算的数据挖掘系统架构研究[J].电子世界,2012,21:57.

猜你喜欢
云计算数据挖掘分布式
探讨人工智能与数据挖掘发展趋势
分布式光伏热钱汹涌
能源(2017年10期)2017-12-20 05:54:07
分布式光伏:爆发还是徘徊
能源(2017年5期)2017-07-06 09:25:54
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
基于云计算的移动学习平台的设计
实验云:理论教学与实验教学深度融合的助推器
大学教育(2016年9期)2016-10-09 08:54:03
云计算中的存储虚拟化技术应用
科技视界(2016年20期)2016-09-29 13:34:06
一种基于Hadoop的大数据挖掘云服务及应用
基于DDS的分布式三维协同仿真研究
雷达与对抗(2015年3期)2015-12-09 02:38:50
西门子 分布式I/O Simatic ET 200AL