基于云计算的数据挖掘技术分析

2014-06-20 21:19赵芳
无线互联科技 2014年2期
关键词:海量维数分形

赵芳

摘 要:由于计算机的迅速发展,基于云计算的数据挖掘技术已经是一种十分高效可信的技术,它可以解决传统数据挖掘方式不适合海量数据的问题。本文介绍了数据挖掘、云计算的相关概念,分析了基于云计算的数据挖掘技术及其优点、问题。

关键词:数据挖掘;云计算

1 概述

随着物联网、移动互联网的迅猛发展,数据呈指数形式增加,当今时代已处于信息数据过载的海量数据时代,这对数据挖掘系统带来了难题。而云计算可以使分布在大量不同计算机的数据集中在统一的云端,便于各种应用系统的数据获取。云计算因为具有可弹性变化的计算能力和海量的存储能力成为解决海量数据挖掘的有效方式。

1.1 数据挖掘

数据挖掘也称数据库中的知识发现过程,是指在大量不完全的、随机的、模糊的、有噪声的数据中发现具有潜在实用价值或者新颖、有效的信息表示为模式、概念、规律、规则等形式的过程。数据挖掘的目标是找出事先不知道的数据关系,尤其是来源于不同数据库的数据之间的关系。

1.2 云计算

狭义上讲,云计算指的是通过网络以便于扩展、按照需求的方式获得资源(硬件、软件、平台),是一种IT基础设施的交付和使用模式,云就是网络中的软、硬件资源。广义上讲,云计算是指服务提供者根据用户需求、以便于扩展的方式提供服务,用户按需获取服务,是一种服务的提供和使用模式,而服务既可以是关于IT的,也可以是其他领域的。

云计算的特点:(一)资源虚拟化。云计算对用户的地理位置、接入时间方式、使用终端都没有严格要求,“云”中的资源是无形的、动态的,实际用户不会关心应用运行的具体位置。(二)价格便宜,速度快。“云”的构成节点极其廉价,所以降低了数据中心管理需要的成本消耗。“云”不仅成本低廉,资源利用率也大幅提升了,运行速度会更快。(三)服务器规模很大。“云”的规模巨大,而且能够提供强大的计算能力,Google云计算拥有的服务器已达到上百万台。(四)通用性较高。一个“云”可以支撑不同的、千变万化的应用,“云”可以根据自身资源形成多种应用,而且可以同时运行。(五)按需服务。“云”是个资源仓库,提供的服务很多,“云”可以像水电这样的基础设施计费,所以用户可以按需购买,按量计费。(六)较高的可靠性。“云”中采取了数据多副本容错、计算节点同构可互换等措施,使得云计算的服务更可靠,甚至高于本地计算机。(七)可以扩展。“云”的规模可以动态伸展来满足用户和应用数量的增长引发的需求。

2 基于云计算的数据挖掘技术

基于云计算的数据挖掘要进行数据预处理、数据挖掘、结果模式评价,这与传统数据挖掘过程一样。但是在数据的处理和存储方式上会不同,这是因为云计算中的数据格式与传统的不一致,它们大多来自于点击流。

2.1 数据收集处理

在进行数据收集和处理时,第一步要应用决策树判别出是Web机器人访问数据还是用户访问数据,第二步要把海量数据过滤、转换、清洗、整合,变成半结构化的XML文件保存。现在流行的是用Map-Reduce模式收集数据,但不足的是开发工具还不完善。今后结合分形维数和其他技术的方法是新的发展方向。例如:结合网络聚类和分形维数的思想产生的基于网络和分形维数的聚类方法(GFDC),是运用合计数法进行分形维数,可以改进为运用关联维数法进行。

2.2 数据存储

云计算系统运用最广泛的数据存储方式是分布式存储策略,同一个数据存储为多个副本,这保证了数据的可靠性。这不是冗余复制。 同时系统还要有错误隔离、心跳检测等措施。

3 基于云计算的数据挖掘技术优势

运用云计算进行数据挖掘的优点有:(一)因为要从海量的数据中挖掘出信息需要大规模的数据挖掘,而且挖掘的任务比搜索的任务更加复杂,更需要良好的应用环境和开发环境。考虑到这些因素,基于云计算的方法更合适。(二)基于云计算的数据挖掘隐蔽了底层,开发更方便,用户不用考虑数据划分、计算调度任务和计算分配等问题。(三)云计算提高了大规模数据处理速度和能力。(四)数据处理成本降低了,也不再需要高性能机器。

4 基于云计算数据挖掘面临的问题和挑战

云计算还处于初级阶段,发展还不成熟,还存在一些问题和挑战。主要包括以下几个方面:(一)算法选择问题。关键问题就是要选择合适的算法和并行策略来进行数据处理。(二)软件及服务的可信度。云环境下要突出考虑的就是隐私安全问题。(三)有太多不确定性。不确定的方面有:数据挖掘任务的描述、数据挖掘的方法和结果、挖掘结果的评价等。

[参考文献]

[1]Jiawie Han,Micheline Kambe,Jian Pei.数据挖掘概念与技术[M]. 北京:机械工业出版社,2012.

[2]纪俊.一种基于云计算的数据挖掘平台架构设计与实现[D].青岛:青岛大学,2009.

[3]余永红,向晓军,高阳,等.面向服务的云数据挖掘引擎的研究[J].计算机科学与探索,2012(1): 46-57.

[4]周晏,桑书娟.淺谈基于云计算的数据挖掘技术[J].电脑知识与技术,2010,6(34):9682- 9683.

猜你喜欢
海量维数分形
一种傅里叶域海量数据高速谱聚类方法
β-变换中一致丢番图逼近问题的维数理论
感受分形
一类齐次Moran集的上盒维数
海量快递垃圾正在“围城”——“绿色快递”势在必行
分形之美
分形——2018芳草地艺术节
分形空间上广义凸函数的新Simpson型不等式及应用
一个图形所蕴含的“海量”巧题
关于齐次Moran集的packing维数结果