石 杰(1.山东青年政治学院 实验设备管理处,山东 济南 250103;2.山东省高校信息安全与智能控制重点实验室,山东 济南 250103)
云计算环境下的数据挖掘应用*
石杰1,2
(1.山东青年政治学院实验设备管理处,山东 济南 250103;2.山东省高校信息安全与智能控制重点实验室,山东济南 250103)
云计算是一个新的商业模型,它可以提供无限的廉价存储和计算能力。而数据挖掘中面临的主要问题是项目集合的空间需求问题,并且其操作非常巨大。将数据挖掘技术应用到云计算环境中,可以按需从云服务运营商那里获取项目集合所需空间,从而解决了数据挖掘需要巨大空间的问题。文章论述和分析了将数据挖掘应用到云计算环境的有效性。
数据挖掘;云计算;频繁模式;云存储
“云计算”被描述为是一个平台系统或软件应用程序。首先,平台系统意味着云计算系统可以实时地动态部署、配置、再部署、再配置。在云计算平台下,服务器是一个物理服务器或一个虚拟服务器。云计算通常包括很多计算资源。
云计算是一个新的商业模型[1-2]。它描述了计算任务到资源池的过程。资源池由大量计算机组成,从而保证各种应用可以按需获得计算能力、存储空间和各种软件服务。云计算的新颖性在于它可以提供无限的廉价存储和计算能力,这可以使其存储和挖掘大量的数据。
处理高维度和大规模数据有很多方法,但请求处理通常是瓶颈。认识发现任务算法通常被应用到多维未来空间广泛搜索或最近邻居搜索[3]。商业智能和数据仓库可以存放T字节级以上的数据。云计算作为数据挖掘的需求正被广泛使用。Map Reduce是一个程序框架,并且被用于处理大的数据集合。分割、调度和失败处理以及通信等细节被Map Reduce隐藏[4]。
云计算是一种计算服务而不单单是一个产品,它由计算资源、软件和各种信息组成。通过网络在任何地点,可以使用计算机或其他设备等终端访问。云是一个并行和分布式系统,由相互连接的虚拟计算机构成,可以被动态部署,并作为一个或多个统一的计算资源呈现出来。云计算基于服务运营商和用户签订的服务等级协议提供服务。
数据连接紧密度的增长和数据量增长导致许多运营商和部分数据中心使用大的、可以动态均衡负载的基础设施作为云计算平台。通过按需地在服务器上分布和复制数据,资源利用率显著提高。
“云”是一个弹性的资源执行环境,涉及到多个利益方,并能提供可以计量的服务。这些服务可以分为多个粒度级别。换言之,本文中所讲的云是基础平台,可以在多种资源上面以各种形式执行。从而提供资源和服务的管理性、弹性和系统平台独立性等能力。
目前有几种主要的数据挖掘技术已经开发并应用到数据挖掘项目中。包括关联规则、分类、聚类、预测和序列模式。下面将简要地介绍这些数据挖掘技术的例子。
(1)关联规则
关联规则是一种最好的已知的数据挖掘技术。对关联规则挖掘的研究可分为两种类型,一种是Apriori算法研究,一种是频繁模式增长算法研究[5](FP-growth增长等)。在关联规则中,一种模式的发现是基于在同一个交易数据库中特定项目与其他项目的关系。例如,该技术用于市场购物篮分析中确定什么样的产品客户经常一起购买。基于该数据业务会有相应的营销活动,从而销售更多的产品,创造更大的利润。
(2)分类
分类是一种基于机器学习的经典的数据挖掘技术。分类方法是利用数学方法实现,如决策树,线性规划,神经网络和统计。在分类过程中,软件可以学习如何将数据项分到不同的组中。例如,可以应用于“给那些离开公司的员工过去的记录应用分类,预测当前的雇员很可能在将来离开”,在这种情况下,把员工的记录分为两组,“离开”、“留下”,然后,可以利用数据挖掘软件将雇员划分到每个组。
(3)聚类
聚类分析是数据挖掘技术中很有意义或有用的一种自动聚类技术。不同于分类技术,聚类技术也定义了类和类中的对象,而在分类中,对象被分配到预定义的类中。以图书馆为例,在图书馆里图书的种类有很多,如何使读者能够在如此广泛的主题中找到相关主题的书目是一个很麻烦的问题。利用聚类技术,使相似类型的图书归在一起或放在同一个书架上,通过标签标识有意义的名称。这样读者想获取书中的主题时,只需去那个书架就可找到,而不必在整个图书馆中查找。
(4)预测
正如它的名字暗示的,预测是一种数据挖掘技术,用于发现自变量之间及自变量和因变量之间的关系。例如,预测分析技术,如果考虑销售额是一个自变量,利润可能是一个因变量,那就可以预测将来的销售利润,根据历史销售数据和利润数据,就可以得出一个用于预测盈利的回归拟合曲线。
(5)序列模式
序列模式分析是一种发现事件间在顺序上的相关性的数据挖掘技术。发现的模式是用于识别数据之间关系的进一步分析。
2010年,Kawuu W.Lin等人[6]提出了一套多任务的频繁模式挖掘的策略。通过各种模拟条件下的实验,算法在执行时间上表现出较好的性能。
2011年,李玲娟等人[7]提出了一种在云计算环境中的关联规则挖掘算法。该算法利用 Hadoop框架平台及MapReduce编程模型,以实现云计算环境下的并行挖掘为目标,给出了改进 Apriori算法在 Hadoop框架平台中MapReduce编程模型上的执行过程。算法在频繁项集挖掘中表现出较好的性能和实用性。
2011年,T.R.Gopalakrishnan Nair等人[8]提出了 k-均值算法,算法通过迭代过程把数据集分为不同类别,使评价聚类性能的准则函数达到最优,且每个聚类内紧凑,类间独立。
云计算作为大幅降低成本技术,在受到追捧的同时也面临着诸多挑战性问题。
(1)安全
在使用云计算服务时,用户往往不清楚自己数据存放的位置,这样就会导致用户对数据安全的担心,云计算架构于互联网之上,传统安全问题依然存在,如病毒、木马的入侵、隐私信息的泄露等,新的安全问题也将浮出水面。另外,身份认证、授权与访问控制、责任认定、安全与隐私等技术问题也都还处于探索阶段。
(2)Ad-hoc网络模式
Ad-hoc网络是一个没有有线基础设施支持的移动网络,是一种无线多跳网络。在Ad-Hoc网络中,所有的节点都是由移动主机构成的。与传统的无线网络相比,它不依赖于任何固定的基础设施和管理中心,而是由一组自主的移动节点临时组成,通过移动节点间的相互协作和自我组织,保持网络连接,实现数据的传递。其特点是:动态变化的网络拓扑结构,多条通信,较低的安全性。
(3)管理性
易管理性在云计算中非常重要,与传统的系统相比,受有限的人工干涉、工作负载变化幅度大和多种多样的共享设备这三个因素的影响,云计算中管理更加复杂。大多数情况下,没有协助基于云的应用开发的数据库管理员和系统管理员。甚至是单一用户的负载随时间都会发生大幅度的变化。
(4)庞大的规模
现有的SQL数据库不能简单地处理放置在云中的海量数据。在存储方面,是用不同的事务实现技术,还是用不同的存储技术,或者二者都用来解决一些限制性问题还不确定。在这个问题上,目前在数据库领域内有很多提议。现有的云计算已经开始探索一些简单的实用性方法,但是还需要做更多的工作来融合现有的云计算机制中的好思想。
(5)新的应用场景
预测一些需要预载大量数据集(像股票价格、天气历史数据以及网上检索等)的服务。从私有和公共环境中获取有用信息引起人们越来越多的注意。这就需要从结构化、半结构化或非结构的异构数据中提取出有用信息。
(6)延迟
延迟通常是因特网上的常见问题。云计算中产生的延迟并不是致命的,可以通过智能化设计的高性能基础设施以及灵巧的应用程序来补救。就像桌面计算机最大的瓶颈就是需要更大的硬盘和内存,云计算中延迟的真正原因必须确定和解决。云计算既需要较高性能的集群服务器,也需要高性能的通信设备来支持。
数据挖掘技术的主要问题是项目集合需要空间,并且项目级操作是巨大的。如果将数据挖掘应用于云计算环境,将会从云运营商那里按需租赁空间。这种方法解决了需要大量空间的问题。并且用户不再需要考虑空间大小,可直接使用数据挖掘技术。
[1]WEISS A.Computing in clouds[J].ACM Networker,2007,11(4):18-25.
[2]BUYYA R,VENUGOPAL S.Market-oriented cloud computing:vision,hype,and reality for delivering IT services as computing utilities[C].Proceedings of the 2008 10th IEEE International Conference on High Performance Computing and Communications,2008:5-13.
[3]BOHM C,BERCHTOLD S,MICHEL U.Multidimensional index structures in relational databases[C].in 1stInternationalConferenceonDataWarehousingandKnowledge Discovery,1999:51-70.
[4]DEAN J,GHEMAWAT S,USENIX.Map Reduce:simplified data processing on large clusters[C].6th Symposium on Operating Systems Design and Implementation,2004:137-149.
[5]Han J,Pei J,Yin Y.Mining frequent patterns without candidate generation[C].Proc.of ACM Int.Conf.on Management of data(SIGMOD),2000:1-12.
[6]KAWUU W LIN,LUO Y C.Efficient strategies for manytask frequent pattern mining in cloud computing environments[C].Systems Man and Cybernetics(SMC),IEEE International Conference,2010(10):620-623.
[7]李玲娟,张敏.云计算环境下关联规则挖掘算法研究[J].计算机技术与发展,2011(2):43-46.
[8]NAIR T R G,MADHURI K L.Data mining using hierarchical virtual k-means approach integrating data fragments in cloud computing environment[C].Cloud Computing and Intelligence Systems(CCIS),IEEE International Conference,2011(1):230-234.
Application of data mining in cloud computing environment
Shi Jie1,2
(1.Laboratory And Equipment Management Office,Shandong Youth University of Political Science,Ji′nan 250103,China;2.Key Laboratory of Information Security and Intelligent Control in Universities of Shandong Youth,Ji′nan 250103,China)
Cloud computing is a new business model.It can provides unlimited cheap storage and computing power.The main issue with data mining techniques is that the space required for the item set and there operations are very huge.Combine data mining techniques with cloud computing environment,then we can rent the space from the cloud providers on demand.This solution can solve the problem of huge space.This paper discusses and analyzes the effectiveness of the application of data mining to the cloud computing environment.
data mining;cloud computing;frequent pattern;cloud storage
TP311
A
1674-7720(2015)05-0013-03
山东省自然科学基金资助项目(ZR2013FM010)
(2014-11-11)
石杰(1980-),通信作者,男,硕士研究生,讲师,主要研究方向:人工智能、数据挖掘等。E-mail:mineingjie@sohu. com。