胡莹石 陈家晨 徐菱
摘要:随着计算机互联网技术的高速发展,云计算技术深入到了数据的挖掘和应用中,传统的数据挖掘面对海量的数据时关于数据的挖掘和分析存在一定的缺陷,然而云计算方式的应用带来了更快、更高效的数据处理技术,同时也增加了海量的数据存储空间和资源,服务范围广阔且投入的成本低,在数据挖掘平台架构的建设方面具有绝对的优势。文章在云计算技术大背景下,探讨数据挖掘平台架构的方法以及相关应用的技术,旨在促进企业数据挖掘业务能够高效开展并为企业带来相应的经济效益。
关键词:云计算;数据挖掘平台;架构;技术
互联网的高速发展催生了各行各业的进步,“互联网+”“大数据”等网络技术名词不断涌现,也体现着互联网技术的发展正在不断地改变着社会的生活。当前我们生活的社会是一个具有海量信息和数据的时代,也被人们称为“大数据时代”。移动网络设备手机的普及使人人都能够接收到海量的信息和数据资源,其中包括新闻、知识、影视、经济政治等方面的内容,然而在巨大的信息数据面前,人们往往会变得无所适从,寻找属于自己的兴趣点的信息内容变得困难。运营商在推出互联网产品的同时也迫切希望产品所生成的海量数据能够得到高效率的使用,为企业创造经济效益。对于海量信息数据的处理,云计算是数据挖掘的新型技术,它实现了对海量信息数据的高速分析与处理,提供动态资源、虚拟化和高可用的计算平台。云计算可以用于高性能应用程序的开发,然而当前云计算技术不具备数据规约的功能,因此论文在云计算技术的研究基础上,提出建立云计算的数据挖掘平台,基于云计算的基础能力,设计出满足云计算软件的设计理念,帮助运营商和企业减少在数据挖掘技术上的投入,提高产品开发和应用的收益。
1 基于云计算的数据挖掘策略
1.1 数据挖掘
数据挖掘的过程是一个从不完全、模糊且有噪声和大量、随机的实际数据中寻找隐含在其中但又具有价值的使用信息的过程,它的作用是发现新的知识,为用户寻找有价值的信息,用户通过一端的检索功能实现数据的挖掘。数据挖掘技术应用涵盖了模式识别、统计学、人工智能和机器学习等其他高技术的领域,数据分析的方法有预测分析、关联、特征化、聚类等。在应用方面,数据挖掘在电信行业、移动互联网、互联网、科学研究和金融等领域具有广泛的应用,如检索系统、购物关键词和根据用户搜索习惯的“兴趣推荐”等,都是数据挖掘在信息分析与处理时可提供的有效服务。找出在数据间隐藏的关系或模型,在海量的数据中进行数据统计和访问,并通过资源计算处理以及存储的方法实现数据挖掘。
“大数据”时代的到来,数据规模从MB,GB级发展应用到了TB,PB等其他级别,数据挖掘的环境和要求也趋向复杂化,在海量的信息面前传统的数据库系统已不能够很好地适应。在云时代的背景下,以往的数据挖掘处理技术和体系架构对于当前信息爆炸和数据膨胀的时代已经不能适应,并出现了不少的问题,如数据挖掘的效率、体系架构的能力、软硬件价格昂贵阻挡数据挖掘系统的开发等,用户在完成自身业务时需要进行算法的重新编写才能够实现。
1.2 云计算
云计算是互联网高速发展背景下的一种商业计算模式,它通过在大量计算机构成的资源地域上分布计算任务,使不同的应用系统能夠获取独有的信息、存储空间以及计算服务,从而满足自身的需求。云计算是对网格计算、并行计算、分布式计算的延伸与发展,也可以被认为是计算概念商业化的表现。云计算提供的服务可以分为3个层次,分别是基础设施服务、平台即服务软件即服务。基础设施服务的实现是在硬件设备的基础环境下实施数据的存储、计算和网络服务,将抽象化的硬件服务具体化,实现了信息资源的分布式计算和存储。
云计算具有5种特点,具体如下所示。
1.2.1 通用性
云计算针对的应用是在云技术支撑下构造的虚拟的数据信息空间,而非某一特定的应用。另外,同一个云计算可以支撑多个应用运行。
1.2.2 虚拟化
只要用户使用云技术提供的服务就能实现云计算的操作。云计算支持用户在任何位置发出数据获取的请求,并能够使用各种终端设备获取相应的数据应用服务。
1.2.3 超大的规模和高度的可扩展性
“云”的形式有很多种,如“百度云”“网易云” “新浪云”“腾讯云”等云空间,其规模可以实现动态的扩展,对用户而言这种扩展的形式是透明,且对用户的使用不构成影响。谷歌云计算具备了上百万台的服务器,具有强大规模的云空间,可以为用户提供云服务。
1.2.4 经济性
云的构成是节点构成的,而节点的投入成本较低,因此强大云空间的建立投入的资金并不是很高昂,因此云服务具有经济性和性价比高的优势。另外,使用云服务还能够降低管理的成本,因为云计算本身能够提供一定的管理功能,帮助企业降低数据的管理成本,用户在使用中可以充分享受到云空间的经济优势。如在新闻广播电视台建立云服务系统,将新闻报道所采集到的视频、图片、录音等上传到云空间中进行保存,一方面可以实现资源的共享,另一方面便于数据资源的存储,节省了数据信息存储的费用。
1.2.5 可靠性强
云服务提供了强大数据信息存储空间,也能够为用户提供高速的信息服务,轻可靠性程度也备受用户和企业的关注。云服务是多个计算节点以及多副本容错通过互换来实现数据信息的处理的,服务的可靠性高。
1.3 数据挖掘的云化策略
云计算技术的出现催生了数据挖掘的新模式,构建基于云计算的数据挖掘平台、为用户创造一个快速响应且用户参与程度高的平台是当前企业迫切需要解决的问题。云计算为实现高效的海量数据挖掘提供了可能,由于云计算本身具有可伸缩的计算能力且云计算的形式是动态的,对于数据处理的效率可以大大提高。云计算在提供软件即服务时,能够将数据挖掘实现大众化和企业化,用户的适应性更强。云计算数据挖掘平台的架构采用分层的思想来建立,数据挖掘可采用分布式和可插拔的组件来设计,有利于多个算法的部署和调度。
2 数据挖掘平台的架构
云计算的分布式存储以及分布式计算为数据挖掘提供了发展和优化的空间。数据挖掘平台的架构共包含了3层,分别是云计算支撑平台层、数据挖掘能力层以及数据挖掘云服务层[1],下面分别对每一层展开研究和分析。
2.1 数据挖掘云服务
数据挖掘云服务层的功能是对外部提供数据挖掘的云服务,另外服务能力封装处的接口处的形式是多样的,涵盖了多种接口形式。云服务层涵盖了结构化查询语言语句的访问,增加了引擎的解析,同时增加了云服务的自动调用。每一个业务系统的构建要根据业务和数据的需求以及组装来实现数据的挖掘。
2.2 数据挖掘能力层
挖掘的基础能力是数据挖掘能力层所提供的主要服务,涵盖了数据并行处理、算法服务管理、调度引起框架,同时为数据挖掘提供技术的支撑。数据挖掘能力层能够为第三方挖掘算法工具提供接入的点,为数据内部提供数据挖掘算法以及推荐算法库。
2.3 云计算支撑平台层
在数据挖掘平台的架构中,云计算支撑平台层提供的服务和功能是数据库存储、分布式文件春初和计算能力。百度拥有自主研发的云计算平台,数据挖掘平台可以为第三方提供,也可以是企业自主研发制造。
3 基于云计算数据挖掘平台的关键技术
3.1 云计算技术
解决海量数据挖掘任务、增加海量数据玩具效率可以通过分布式计算方式来实现,分布式计算涵盖了并行计算以及分布式存储两个层面。从以下几个主流的分布式文件系统以及分布式并行计算框架,从而实现云计算数据挖掘平台的构建,云计算技术是平台搭建的核心支撑能力。分布式的文件系统的优势在于能够提供巨大的存储空间,从而使海量的数据有成本低且可靠性强的空间存储,对于数据信息量大的企业来说具有极大的便利性,对于用户而言也更便利[2]。云计算基础上的云空间虚拟性、数字化、透明度、扩展度强,既可以实现资源的共享,也可以对个人的资源实施一定的保密。
3.2 分布式并行计算框架
分布式并行计算框架对分布式计算中所应用到的一些技术细节采取了封装的措施,如数据分布、任务并行、任务调度等,用户在实际的应用中并不需考虑这些内容,而知识能够在终端操作应用以满足自身的需求就可以。通过分布式并行计算框架的建立有利于提高数据挖掘的效率,同时降低企业数据挖掘平台维护的成本。
分布式计算框架随着云计算技术在企业中的应用,已经有不少的企业开发了自身的计算框架,如谷歌集团提出的一个并行计算框架MapReduce,它能夠在大量的PC机上并行执行海量的数据收集和分析处理工作。用户在使用时只要在终端开启执行数据运算的指令就可以实现数据的操作,它对数据的分析以及任务的并行执行有着推动的作用。用户在执行数据运算时,对数据应用提供抽象的接口。同时谷歌集团提出了迭代处理计算框架Pregel,它具有高效、可扩展以及容错的性能,对分布式的相关细节具有隐藏的特性,呈现在人们眼前的是一个编程容易且性能极强的计算框架,主要应用于大型图计算领域,例如交通线路、Web搜索等领域。
3.3 服务调度以及针对服务的管理技术
数据挖掘平台具有开放性的特点,能够兼容不同业务系统使用本平台进行计算,因此服务调度和服务管理就显得尤为重要。要确保数据挖掘平台的云服务的安全性和可靠性,对用户的相关信息具有保密的作用,加强对资源和服务的调度,并根据服务管控系统对平台中的数据实施有效的调度和控制。
3.4 数据汇集的调度中心
数据的收集和分析是数据挖掘平台建立的根本原因,数据挖掘平台应提供数据汇集调度的能力,主要体现在对不同数据规约问题的解决,并且对不同源格式的数据也能够支持分析和处理[1]。数据汇集的调度还能够实现数据更新的同步等功能,如文件传输的同步、消息的同步等,使数据更新速度快,进而满足用户对数据应用的需要,提高数据挖掘平台数据整理与分析的质量。
4 结语
随着信息化时代的到来,面临着信息的膨胀以及数据的大爆炸,当前时代对数据的整合利用能够转化为企业的经济效益。企业在依托云计算技术的基础上,开发和建立数据挖掘的平台,通过云技术的支撑,从而实现云计算为更多的企业会用户提供优质的服务,实现信息资源的共享,并为企业的数据分析创造更多的发展的可能,带来更大的经济效益。
[参考文献]
[1]杨舰友,唐彦.云计算总体架构及其应用与商业模式探讨[J].数字通信,2012(3):4-7.
[2]纪俊.一种基于云计算的数据挖掘平台架构设计与实现[D].青岛:青岛大学,2009.
[3]余永红,向晓军,高阳.面向服务的云数据挖掘引擎的研究术[J].计算机科学与探索,2012(1):46-57.