张春丽
摘要:现如今,基于互联网信息技术的飞速发展,使用互联网的用户的数量也在与日俱增,而用户在使用互联网的过程中,就会产生大量的信息数据。信息数据的激增,推动了社会从信息匮乏时代进入到了如今的信息过载时代,于是人们开始探求一种新的技术来保存并分析这些数据,进而将这些数据背后所隐藏的价值提取出来。要想实现这一点,就需要解决海量数据信息的储存问题、处理问题以及挖掘问题,而云计算的诞生,为该问题的解决提供了一个方向和途径。该文正是在这样的背景下,就基于云计算的数据挖掘技术展开相应的研究探讨。
关键词:互联网信息技术;信息数据;云计算;数据挖掘
现代大量的互联网信息中蕴藏着极其丰富的具有非常重要利用价值的数据信息,倘若能够快速准确地将这些有用的数据信息挖掘出来,不论是对互联网提供商而言,還是对整个互联网产业而言,都具有尤为重要的意义和作用。数据挖掘最开始仅能用于对少量数据的处理,然而随着产生的数据信息量的激增,原本的程序处理方式不仅耗时较长,而且也无法有效应对新的数据信息处理形势需要。而云计算由于具有极高的可拓展性,以及非常适合用于对大规模数据的处理,倘若能够基于云计算对传统的数据挖掘技术进行相应的改造,相信一定有助于很好地解决互联网大规模数据信息挖掘这一难题。
1数据挖掘概述
在百度百科中,数据挖掘的定义是:数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘流程如下:数据选择一数据预处理一模式发现一模式评估一知识表示。数据挖掘主要有决策树方法、仿生全局优化的遗传算法、神经网络方法、统计分析方法、覆盖正例排斥反例方法、粗集理论、模糊集方法等7种方法。
2传统数据挖掘与基于云计算的数据挖掘
虽然两种数据挖掘方式都是以将有价值的信息和知识挖掘出来为目的,但是两者的处理对象以及数据挖掘程度却存在着较大差异。
2.1处理对象对比分析
在所面临的数据信息环境方面,由于传统数据挖掘与基于云计算的数据挖掘两者存在着极大的差异,因此在所面临的处理对象上,两者也存在着极大的差异。比如对于传统数据挖掘而言,待挖掘数据信息的来源主要来自某个信息系统(某一特定范围)所产生的被动数据,结构化数据是该被动数据的主要类型,兼有少部分非结构化、半结构化数据。但是对于基于云计算的数据挖掘而言,除了Web信息系统以及管理系统等是其来源之外,还包含感知信息系统所产生的仿真数据。因此与传统数据挖掘相比较而言,基于云计算的数据挖掘其数据类型更加复杂、体量更加巨大、来源更加广泛。相应地,基于云计算的数据挖掘其采集范围变得更加广泛,不再局限于被动,数据挖掘不仅及时快速,而且吞吐量高,但由于在数据的精确度方面并没有太高的要求,因此基于云计算的数据挖掘的数据不确定性以及冗余度就要比传统数据挖掘要高。
2.2挖掘程度对比分析
在挖掘程度方面,传统数据挖掘与基于云计算的数据挖掘两者在深度与广度存在的差异性,当复杂模式、结构及类型的数据融合交错时,基于云计算的数据挖掘正是利用云计算的多种挖掘算法以及计算模式来实现对这么庞杂的数据信息的实时处理以及多维分析。从这里就可以看到,基于云计算的数据挖掘显然挖掘更加全面,数据信息的处理分析范围显然更加广泛。但是对于传统数据挖掘而言,其挖掘对象仅仅限于具有较小维度的结构化数据(某一特定范围),因此相比较而言,其对数据信息的挖掘处理就显得较为局限,而且处理分析数据信息的方式也比较单一。再加之传统数据挖掘并没有形成一个完整的体系,以及其挖掘、计算算法的可拓展性并不强,这些都导致传统数据挖掘在对多源异构数据信息的获取、处理以及挖掘分析方面存在着诸多限制,而这也正是探讨探究基于云计算的数据挖掘的重要意义所在。
3基于云计算的数据挖掘技术的优势
基于云计算的数据挖掘技术的优势主要体现在以下几个方面:首先,基于云计算的数据挖掘能够实现对数据信息的分布式挖掘,进而实现对数据信息挖掘的实时高效。同时还能够很好地适应各种具有不同规模的组织。比如对于大型企业而言,基于云计算的数据挖掘针对某些特定数据信息的计算挖掘将大大减轻对大型高性能机的依赖性,而对于中小型企业而言,能够大大降低中小型企业的数据挖掘成本。其次,基于云计算的数据挖掘其挖掘出来的数据信息具有开发方便这一优势,这样对于用户而言,就不需要考虑划分数据、分配数据、加载数据以及调度计算任务等等环节。再次,基于云计算的数据挖掘能够实现对原先设备的利用,提高对较大规模数据信息处理能力的同时,在增加结点方面无疑也变得更加方便与自由,同时还大大提高了自身的容错性。最后,基于云计算的数据挖掘大大降低了应用数据挖掘技术的门槛,能够充分满足人们对于海量数据信息的挖掘需求。
4基于云计算的数据挖掘技术
4.1基于云计算的数据挖掘研究方法
一是数据关联性挖掘法。在对海量数据信息进行细节分析和价值提取的时候,关联性数据挖掘,能够使发散的网络数据信息集中化。关联性数据挖掘法通常分成三个步骤:第一,确定被挖掘数据的范围,收集待处理的数据对象,从而使得关联性研究的属性得以明确。第二,对海量数据予以预处理,从而确保挖掘数据的真实性和完整性,而预处理结果将会被保存在挖掘数据库中。第三,塑造训练的数据挖掘。借助排列组合对其予以实体阈值分析。
二是数据模糊性学习法。其原理就是首先假设云计算平台下存在一定数量的信息样本,然后对任意一个信息样本进行指标描述,对所有信息样本进行标准差计算,最终实现数据的挖掘价值信息操作与高度压缩。面对海量数据的挖掘,应用数据模糊性学习法的关键就是筛选与确定模糊隶属函数,最终实现基于云计算的海量数据挖掘价值信息的模糊化实际操作。但是这里需要注意一点,需要在激活的条件下才能实现网络数据的结点信息的收集。
三是数据挖掘Apriori算法。Apriori算法是一个挖掘关联规则的算法,是Agrawal等设计的一个基本算法,这是一个采用两阶段挖掘的思想,并且基于多次扫描事务数据库来执行的。与其他算法不同的是,面对海量数据的冗繁性和复杂性会导致数据挖掘算法收敛性较差这一问题,Apriori算法能够实现对这一点的有效规避。在尽量节省投人成本的前提下,利用计算机仿真模拟,将使得海量数据的挖掘速度大大提升。
4.2基于云计算的数据挖掘体系架构
基于云计算的数据挖掘正是凭借云计算的海量存储能力以及对海量数据信息的并行处理能力,从而实现解决传统数据挖掘所面临的难以处理海量数据信息的问题。图1给出了基于云计算的数据挖掘体系架构图。基于云计算的数据挖掘体系架构主要分为三层。第一层是云计算服务层,提供对海量数据信息的储存以及并行处理服务。第二层是数据挖掘处理层,该层包含数据预处理和数据挖掘算法并行化,通过对数据信息的预处理,能够有效提高挖掘出来的数据的质量,并让整个挖掘过程变得更加容易、更加有效。第三层是面向用户的用户层,这一层主要是接收来自于用户的关于数据挖掘的请求,并将这项请求传递给第二层和第一层,并将最后的数据信息挖掘结果在展示模块展示给用户。
4.3基于云计算的数据挖掘体系架构存在的不足
由于云计算技术自身就一直处于一个高速发展的时期,因此这也会导致基于云计算的数据挖掘体系架构也存在着一些不足。一是由云计算所带来的个性化、多样化服务需求;二是挖掘处理的数据其数量可能还会不断升高,此外动态数据、各种噪声数据以及高维数据等,也为数据的挖掘处理造成了阻碍;三是如何选择恰当合适的算法,这直接关乎到最终的挖掘结果;四是在数据挖掘过程中或许存在诸多不明确性,如何处理这些不明确性,并将这些不明确性所造成的負面影响降到最低,这也是基于云计算的数据挖掘所需要考虑的问题。
5结束语
基于云计算的诸多优点,文章试图研究如何将云计算技术应用到数据挖掘技术之中,促进数据挖掘技术对数据信息的挖掘处理能力的提升。文章介绍了数据挖掘的概念及内涵,然后分析了传统数据挖掘与基于云计算的数据挖掘两者之间的区别,最后分析了基于云计算的数据挖掘体系结构的优势以及存在的不足,这有待在今后的研究中继续对其予以不断完善。