云计算条件下的大数据挖掘内涵及解决方案

2018-02-28 11:25饶正婵蒲天银
电子技术与软件工程 2018年13期
关键词:云计算解决方案内涵

饶正婵 蒲天银

摘要 在大数据时代,一方面依托大数据丰富的资源储备和强大的计算机技术优势促进产业的升级和崛起,但是大数据的复杂性使得对于有价值信息的挖掘变得困难,尤其是当传统的数据挖掘技术无法满足用户需求时,就需要开发一种新的大数据挖掘技术来解决当前数据挖掘上的困难。本文将对传统数据挖掘技术和云计算条件下的大数据挖掘技术进行对比,然后进一步探讨大数据挖掘的内涵,提出了基于云计算的大数据挖掘体系架构,最后以Hadoop大数据挖掘平台为例,分析大数据挖掘内部工作的流程,并分析大数据挖掘技术的优势和所面临的挑战。

【关键词】云计算 大数据挖掘 内涵 解决方案

1 大数据挖掘技术和传统数据挖掘技术

大数据挖掘技术指的是从体量庞大的数据堆中将有价值的信息或者知识提取出来,然后通过服务的形式提供给用户。和传统数据挖掘技术相比,两者的目的一样,都是为了获取有价值的信息,但是两者的技术发展背景、处理对象以及挖掘的深度和广度有所差异。

1.1 技术发展背景

随着科学技术的发展以及对于有价值信息需求的提升,传统数据挖掘和大数据挖掘都获得了一定的发展。但是传统数据挖掘产生和发展的背景是互联网时代和数据库时代,其所需要处理的数据体量没有大数据挖掘技术时代的数据体量庞大,数据信息的复杂程度也没有大数据挖掘时代的数据复杂。而大数据挖掘技术产生和发展的背景是云计算、物联网和移动互联网,该技术是基于大数据特征和为了解决当前系统所面临的问题而诞生的,是基于云计算进行相关技术的集成来实现数据挖掘的,在开发和应用上还处于不断探索与发展阶段。

1.2 处理对象

大数据挖掘技术和传统挖掘技术在处理对象上也有所不同,这主要是和两者技术产生的背景有关。基于互联网发展而诞生的传统数据处理,只是对某个范围内信息管理系统所产生的数据进行处理,虽然也包含用户产生的主动数据,但依旧是以被动产生的结构化数据为主要处理对象。而大数据挖掘技术是在云计算、物联网以及移动互联网的背景下诞生的,所以其处理对象中的数据除了信息管理系统中的数据、Web系统用户产生的数据外,也包括感知信息系统自动生成的仿真数据。也就是说大数据挖掘技术所需要处理的对象体量庞大、数据类型复杂,采集范围更加广泛而全面,数据处理起来也比较及时快速。但是大数据挖掘技术在进行数据挖掘处理时对精确度要求并不高,所以会出现数据冗余度和不确定性提高的问题。

1.3 挖掘的程度

传统数据挖掘和大数据挖掘技术在对数据进行分析处理时的广度和深度也不一样。随着数据体量增大、数据类型复杂性增加,再加上不同结构和模式数据的发展,只有通过大数据挖掘技术,基于云计算进行相关技术的集成,才能对这些复杂的数据进行分析处理,其数据处理的范围更广,在数据挖掘分析上也更加深入。而传统数据挖掘只能针对小范围内的数据信息进行处理,处理的范围受到限制而且分析数据的类型比较单一。此外,传统数据挖掘受到自身平台体系的限制,其计算和挖掘算法的扩展性不强,所以在对多源异构信息进行处理上比较困难,且及时性不够。

2 基于云计算的大数据挖掘体系架构

2.1 云計算

云计算是一种基于网络的超级计算模式。主要是通过非本地的或者远程的分布式计算机为互联网用户提供计算或者存储等服务。在这种计算模式中,用户可以通过不同的应用平台进入到数据中心,然后利用中心里的数据,而且云计算的能力十分强。这样不但为每位互联网用户带去更为简便的信息处理方式,而且还能节约资源,提高资源的整体利用率。目前云计算已经成为新时代炙手可热的名词,也是诸多学者和网络公司研究的重点。和传统数据挖掘相比,云计算计算模式具有弹性高、可扩展性强以及虚拟化的特点,也就是说在大数据环境中,云计算可以为数据分析处理和数据存储提供支撑,提高数据分析处理和存储的能力。分布式存储和分布式并行计算是云计算的核心技术,其中分布式存储又包括分布式文件存储和分布式数据库存储,这种分布式存储解决了传统数据挖掘所面临的存储问题,而分布式并行计算由于其易用性和极高的扩展性,所以可应用于对海量数据的批量处理,从而可降低运算复杂程度,提高计算效率。目前很多企业基于云计算推出了相应的大数据挖掘解决方案,比如IBM基于Hadoop、流计算以及智能分析实现对数据的实时整合管理和智能分析。不同的公司会根据自己的业务范围制定不同的大数据挖掘解决方案,但是基本上都是基于云计算和数据挖掘功能的融合来构建策略。

2.2 大数据挖掘体系架构

根据上文大数据挖掘和传统数据挖掘的对比分析,在大数据环境下可以构建一种融合多种计算模式和存储模式的大数据挖掘体系架构。在该架构中根据功能可以分成支撑平台层、功能层和服务层。首先支撑平台层是为大数据挖掘技术分析处理数据和存储数据提供丰富资源和动力支持的,也就是以该平台为支撑,利用基于云计算的相关技术和处理工具对复杂庞大的数据进行分析处理,从而构建资源丰富的云环境。在云环境下除了向外界提供数据、硬件和软件等资源,另外还能大数据挖掘的数据预处理、数据分析和挖掘提供动力支撑。功能层是指从用户特点和实际需求出发,利用数据挖掘和分析工具,在云平台上对数据进行智能化的分析,具有较高的存储和分析能力。服务层指的是在云平台上利用大数据挖掘技术进行分析处理后将数据处理的结果,借助可视化技术等技术服务形式提供给用户。

3 基于Hadoop的大数据挖掘平台

基于Hadoop平台融合多功能的大数据挖掘,具有高可靠性、高扩展性和高效性的特点,计算模式以批处理和流处理为主,在结构上可分成数据源、大数据挖掘平台和用户层三层。在构建该系统时,传统的数据库和处理工具、图并行计算以及内存计算等也被融入到该平台上,功能丰富多样,依托支撑技术实现对复杂数据快速实时的处理。下文将从数据预处理、数据存储、数据计算与分析以及数据展示来介绍其内部工作流程,从而分析大数据挖掘中的数据处理方法和特征。

3.1 数据预处理

传统数据挖掘在数据预处理上,采取的是先有模式后有数据的方式,也就是在既定的模式下使用处理工具进行查询和更新等操作,然后对静态数据进行预处理,具有保护数据完整性、准确性,保证数据高精确度的特点;大数据挖掘技术则采取先有数据后有模式的预处理方式,在没有特定模式的情况下随着数据的变化而调整模式。大数据挖掘技术在进行数据预处理时,是借助传统预处理技术,流处理技术和多模态实体识别以及远程自动采集融合等技术,从而提高预处理中并行计算、迭代计算和数据合并以及共享等能力。不过大数据预处理关注的是数据之间的关联性而不关注数据之间的因果关系,而且在处理数据时注重实时性不注重完整性和准确性,所以数据预处理的结果质量不高。

3.2 数据存储

传统数据挖掘在进行数据存储时采用的是行存储的方式将一些静态的且确定的结构化数据以多维数据模型或者实体和联系的方式存储,存储的方式被动且随机,其灵活性和扩展性差;大数据挖掘技术在数据存储时一方面除了数据库存储外还包含分布式存储方式,另一方面能存储的数据类型繁多,有结构化数据,也有半结构化和非结构化的数据,存储的方式主要是列存储和行列混合存储。存储模式灵活简单,且具有高扩展性。

3.3 数据计算与分析

传统数据挖掘在进行数据计算和分析时主要是集中批处理,但是大数据挖掘技术则是将多种计算模式和数据处理工具融合到一起,对大数据开展分布式并行处理。对于复杂的、类型繁多的、体量庞大的数据进行处理时,传统数据挖掘无法自动深入地分析,也难以表达复杂的分析模型,而大数据挖掘可解决传统数据挖掘中分析工具扩展性差以及云平台分析功能弱的问题,提高数据并行计算能力和分析能力。

3.4 数据展示

传统数据挖掘在进行数据展示時主要是以文本、报表以及少数可视化的图形来反映模型效果、性能和挖掘的信息,但是只适合于数据小且关系简单的数据,对于多维的、海量的和动态的数据只能通过大数据挖掘来进行展示。大数据挖掘通过人机交互的可视化方式将海量复杂的大数据通过图像和动画的形式直观地展示,然后借助自动分析工具进行分析挖掘,帮助用户进一步理解数据。目前代表性的可视化技术有宇宙星球图、标签云等,不过为了实现更加高效的可视化分析,对可视化技术的时效性以及负载均衡和节点通信等还需要进一步研究。

4 结语

综上,在大数据时代,面对海量、复杂、不确定的动态数据,传统数据挖掘方式在计算分析能力和存储能力上都遇到了问题,而且其灵活性和扩展性也不符合大数据实时处理要求。而基于云计算的大数据挖掘技术一方面有强大的计算和存储能力,另一方面还能使大数据和云计算得以深度融合。不过,大数据挖掘也存在数据精确度不高、数据处理质量较差、隐私安全以及共享等问题,所以未来还需要对这些问题进一步研究和深入.从而满足用户对于大数据挖掘可靠、高效和高质量的需求。

参考文献

[1]孟小峰,慈祥.大数据管理:概念、技术与挑[J].计算机研究与发展,2013 (01):146-169.

[2]赵又霖,邓仲华,陆颖隽等,数据挖掘云服务分析研究[J].情报理论与实践,2012 (09):33-36,44.

[3]李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013(06):1147-1162.

猜你喜欢
云计算解决方案内涵
解决方案和折中方案
活出精致内涵
理解本质,丰富内涵
简洁又轻松的Soundbar环绕声解决方案
挖掘习题的内涵
实验云:理论教学与实验教学深度融合的助推器
要准确理解“终身追责”的丰富内涵
4G LTE室内覆盖解决方案探讨
Moxa 802.11n WLAN解决方案AWK-1131A系列