白玲玲
(中共阜阳市委党校教务处,安徽阜阳 236000)
基于云计算的大数据挖掘探讨
白玲玲
(中共阜阳市委党校教务处,安徽阜阳 236000)
随着科学技术的不断发展和进步,各种复杂的数据也随之增长。传统的数据挖掘技术由于人为因素,使数据受到的干扰程度比较大。将云计算与大数据进行有机的结合,可以很好地弥补这一缺陷,基于云计算的大数据挖掘具有潜在的发展优势。
云计算;大数据挖掘
大数据挖掘是从类型丰富、储量较大的大数据中挖掘出有相关需求和价值的信息和知识,并提供给客户的服务方式。相比传统的数据挖掘,虽然目的相同,但就技术发展的程度以及挖掘的深度和速度来说,两者的差异还是比较大的。
1.1 发展背景
在数据库以及互联网不断发展的背景下,能够实现从独立、横向到纵向的数据挖掘,主要得益于云计算以及智能终端等先进技术的产生和完善[1]。相比传统的数据挖掘,这种技术还在进一步的完善中。
1.2 处理对象
由于面临的数据背景不同,大数据挖掘与传统数据挖掘的处理对象存在一定差异。传统的数据挖掘主要针对从某个特指的范围管理信息的系统中产生的数据,这个过程中是被动的需求,主要数据类型为结构化数据。而大数据挖掘的数据来源更加广泛,类型更加丰富,不仅包括管理信息系统数据,还包括传感设备自动产生的仿真数据[2]。与此同时,由于采集范围更加全面,大数据挖掘在采集中不会处于被动,这使得处理的实效性以及速度都能够提升。
1.3 挖掘程度
传统的数据挖掘处理技术具有局限性,类型较为单一[3],导致对很多数据的获取和处理受到限制。目前大数据的类型以及结构都比较复杂,相互之间难免有交集和融合。大数据挖掘得益于云计算,能够对类型复杂、数量庞杂的数据进行处理,从多个维度进行分析,处理数据的范围更广泛,对数据的挖掘也更全面和深入。
2.1 云计算
由于扩展比较高,有虚拟化的计算模式,云计算为大数据挖掘处理提供了动力支持。分布式的存储与计算是云计算的核心技术,分布式文件系统具有高容错率和高吞吐率,多适用于一些大型或类型多样的数据,不适于一些单点的故障问题[4]。在面对多个领域内的数据分享和挖掘的适用性等一系统问题时,还需要进行深入分析,找到相应的解决方案实现进一步融合。
2.2 大数据挖掘架构
大数据的挖掘架构包含了多种计算方式、存储模式以及分析功能,如图1所示。(1)支撑平台层是大数据挖掘的动力支撑,能够将大数据与资源丰富的元环境进行融合,向外界提供数据信息和知识等资源。而且,还可以计算数据的移动方式,为复杂数据的处理和分析提供更强大的动力。(2)功能层能够依据用户需求进行分析和挖掘,它依托云平台的存储与计算能力,具有较好的伸展性。(3)服务层,大数据挖掘通过服务平台,将服务提供者与用户连接起来,对其所需数据进行处理,并通过服务层将数据提供给用户。这三者之间不是独立存在的,而是相互融合的。
图1 大数据挖掘框架
基于Hadoop的大数据挖掘平台分为三层,即数据源、大数据挖掘平台和用户层(图2)。它们各有分工,数据源主要对不同结构数据形成的对象进行处理;大数据挖掘平台是对数据进行实时的分析和处理;用户层则是通过相关的平台进行认知并接受服务提供者的服务。
3.1 数据预处理
传统的数据挖掘是先有相关模式,而后才能够从数据源中获取数据。通过相关工具查询和更新,进行数据预处理,此过程中比较重视数据的完整性和准确性,确保处理的数据质量比较高。而大数据挖掘不是在进行数据处理时确立某种模式,而是随着数据的变化,相应地改变其模式。数据预处理基于MapReduce进行融合,从而对这些复杂和多样类型的数据进行实时的处理和识别,以此提高预处理过程中对于数据的计算能力以及共享能力。利用计算机技术和相关数据处理技术对数据进行传输和迁移,可以实现对相关数据的同步处理,提高对数据的处理效率[5]。
3.2 数据的存储
传统的数据挖掘存储管理,以相应的数据库以及一些文件系统为主,将静态或已确定结构的数据进行存储,这样的存储方式比较被动,一般是由系统内部进行机械定义,灵活性较差,可扩展性不足,容错能力不强。而大数据挖掘的存储还包括了分布式、可存储以及结构式或者混合式的存储,这种存储模式是由系统内部来实现的,具有很强的扩展性,但受到一些因素的影响,数据不能对应一致,导致兼容性存在问题。对于一些不确定的数据,大数据存储能够以不确定的类型进行存储,实现不确定数据的直接存储和处理。
3.3 数据的计算和分析
相对于传统的数据挖掘来说,大数据挖掘能够以与计算模式相融合的方式对数据进行处理和分布。对于维度比较少的数据,传统的数据挖掘次数比较多,查询相对精准,具有一定的灵活性和处理能力,呈现出较高的性能。但是在面对维度繁多且立方体庞大的数据时,传统数据挖掘的处理速度、效率和质量都差强人意。针对传统数据挖掘分析工具扩展性的不足,大数据挖掘与已有的系统功能相融合,提高计算能力。对于一些动态图的数据以及数据流,可基于内存分布式的数据通过滑动窗口模型的方式,进行连续处理。除了传统数据挖掘技术的语言查询功能外,大数据挖掘具备自身相应的查询语言,其扩展性和灵活性比较出众,但查询性能比较低,对资源的利用率相对不足。
3.4 数据的显示
在传统的数据挖掘中,数据结果集的展示仅适用于数量比较小且维度相对较低的数据,展示方式主要以文本、图表以及可视化图形(饼状图、散点图、ROC图等)的形式对数据的理论效果和相关性能进行呈现和挖掘。但是,在面对多维度、类型多样、数目繁多的数据,由于技术的限制,导致扩展性不足且对数据的利用比较被动,难以找出数据相互之间的关联性,可视化效果不佳。而大数据挖掘对于数据的展示,是以图像或者动画的形式,通过人机交互的可视化方式进行直观的解释。在这个过程中可通过辅助的可视化分析,帮助用户理清数据之间的相互关系,降低数据的理解难度,使用户能够在探索的基础上进行理解。利用可视化技术表现较为复杂的图像,如宇宙星球、集群成员的分配等,以此来反映事物的变化和空间的信息流等,使数据的流线化、管道和任务以及数据的并行化等并行算法技术成为现实。
[1]林昕.基于云计算的大数据挖掘平台构建研究[J].山东工业技术,2015(17):104.
[2]张毅,崔晓燕.基于云计算平台的物联网数据挖掘研究[J].软件,2014(1):108-111.
[3]郭杰锋,王琳琳.探究基于云计算的大数据挖掘平台[J].科技经济市场,2015(6):176.
[4]刘猛.一种基于云计算的高效数据挖掘框架研究[J].微型电脑应用,2015(6):15-19.
[5]王勃,徐静.基于云计算的Web数据挖掘Map/Reduce算法的研究[J].计算机与数字工程,2014(7):1157-1159,1164.
Discussion of Data Mining Based on Cloud Computing
BAI Ling-ling
(CPC Fuyang Municipal Party Committee, Fuyang Anhui 236000,China)
With the development of economy and constant progress of science and technology, all sorts of complex data has risen as well. Due to human factors of traditional data mining techniques,data will be interfered. This paper combined cloud computing and big data to fill gaps, and it has a great deal of potential advantages for developing data mining.
cloud computing; data mining
2017-03-04
阜阳市2016年社科规划课题“网络伦理视域下领导干部网络能力建设问题研究”(FSK2016007)。
白玲玲(1981- ),女,讲师,硕士,从事计算机应用研究。
TP311
A
2095-7602(2017)08-0059-03