基于云计算的数据挖掘应用探析

2012-08-15 00:50李晓辉
长春大学学报 2012年12期
关键词:子系统数据挖掘算法

李晓辉

(长春大学 计算机科学技术学院,长春 130022)

0 引言

数据挖掘是一个知识发现的过程,具体是指对海量数据进行分析和总结,得到有用信息。数据挖掘的应用遍及社会各个角落,大到国家对各种社会信息的统计分析,小到一个家庭的收支帐本,都会涉及数据挖掘。虽然不是所有人都了解数据挖掘的概念,但这并不影响对数据挖掘的实际运用。比如一个家庭的收支帐目,通过对日常生活当中的收入与支出进行记录,然后对某一阶段的数据进行分析,做出一个对家庭财政理有利的决策,这就是对数据挖掘的具体应用。再比如一些证券分析类软件,对于股民来讲最常见的就是股票软件,股票软件的一个重要功能是对股票的以往数据进行分析,最后得出一个结论,供股民参考决策,也是数据挖掘的具体应用。数据挖掘不仅对个人有着重要指导意义,对于企业的经营来讲更是意义非凡,只有不断地总结过去,准确地预测未来,才能立于不败之地。比如通过对于企业的经营数据进行挖掘,从而找到经营当中的经验与不足,据此制定更好的管理方案;通过对市场的信息数据进行挖掘对市场未来趋势做出准确预测,据此制定优秀的市场战略,都会对企业的发展带来很大帮助。随着社会的信息化进程,各企业对于数据挖掘越来越重视,有些具有一定实力的企业已经拥有了自己的数据挖掘系统。

近些年来,国内外已经陆续开发了多种不同的数据挖掘系统,但这些系统不是价格昂贵就是使用复杂,其推广应用存在相当大的难度。云计算因其强大的计算与数据处理能力,为数据挖掘系统的发展打开了新的局面。

1 云计算简介

1.1 云计算的定义

云计算的定义有广义与狭义之分。从广义上讲云计算是一种服务的提供与使用模式,指服务提供方通过网络以按需、易扩展的方式为用户提供服务,用户可以按需获取服务,并按使用交费。这种服务既可以与IT和软件、互联网相关,也可以是其他领域的服务。从狭义上讲云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源,云指的就是网络当中的软件及硬件资源。云计算的使用已经渗透到生活中各个领域,比如我们在网上搜索信息、看网络视频、玩网络游戏等都是在享受云计算的服务。

1.2 云计算的优势

云计算的使用有着普通网络无可比拟的优势,主要有资源共享、数据安全、性能强大、降低成本等几个方面。

1.2.1 资源共享

云计算可以将连接在网络上的所有计算机及其它硬件设备和软件、数据信息等资源进行统一的调度管理。对于用户来讲,云可以认为是无限的,可以随时按需使用云中的资源,并按使用量付费。用户也可以将自己拥有的软硬件资源共享到云端,成为共享资源的一部分,同时有效的权限管理策略可以让用户放心地与自己指定用户共享资源,不会造成信息泄露。

1.2.2 数据安全

用户将自己的信息数据放到云端,数据的安全可靠性将大大增强。有专业团队会对云端的数据信息进行维护管理,用户不用再担心数据损坏、病毒入侵等问题。

1.2.3 性能强大

通过网络连接的大量计算机与各种硬件设备形成一个性能超强的服务器,可以为用户提供强大的计算和数据处理能力,这在个人计算机上是难以企及的。

1.2.4 成本低廉

企业不需购买昂贵的硬件设备,租用云端设备便可以构建自己的信息平台。

1.2.5 服务优秀

云计算为使用者提供优秀的服务,使用者可以方便地构建自己的平台,进行数据存储或共享。同时使用相当便捷,用户只需准确把握自己的真正意图,其它都可以交由计算机或其它终端来完成。

1.3 云计算的服务层次

云计算可以为用户提供多种优秀的服务,根据服务提供层面的不同我们可以将其大概分为三类:基础设施层的服务,平台层的服务,应用层的服务。基础设施层的服务主要是指网络当中的计算机及各种硬件设备资源。平台层的服务是将系统平台或开发环境做为一种服务提供给用户。应用层的服务主要指各类应用软件,对于用户而言,不用再购买各种软件,可以通过网络使用提供商提供的软件,并且不用再对软件进行维护,这是提供商要做的事情。除了应用软件,数据本身也可以成为服务,可以将原始数据或经过处理的数据提供给用户,用户只需按使用付费即可。

2 基于云计算的数据挖掘算法

算法是数据挖掘的灵魂,只有最有效的数据挖掘算法才能更好地完成数据挖掘任务,这样的挖掘目标才是有意义的。但数据挖掘算法有多种,哪一种才是最有效的却是要根据具体情况而定。因为数据类型也是有许多种的,挖掘不同类型的数据所要求的算法也是不一样的,目前还没有哪一种算法可以通用于所有数据类型。同样适用于某种类型数据的挖掘算法,得到的结果也不一样。而对单一类型的数据进行挖掘往往只存在于实验当中,是属于最理想的状态,在现实当中我们一般都需要对多种类型的数据同时进行挖掘,这就更加复杂,所以在实际运用当中,根据所要挖掘的数据类型与现有算法进行综合考虑,从而找到合适的挖掘算法是非常重要的。一般说来,我们会采用多种算法对数据进行挖掘,甚至可能会对已有算法进行改进或者创造新的算法以达到更好的挖掘效果。从挖掘的数据类型出发,我们可以将数据挖掘算法分为如下几类:

2.1 分类算法

分类算法的主要目的是通过对现有数据集进行挖掘来发现其它的数据,并对现有数据集与新发现的数据进行分析,进而找到数据分类的原理。这个原理可以用来对后加入的数据进行分类。分类算法主要适用于以元组构成的关系型数据。

2.2 聚类分析

聚类分析的主要目的是从潜在的数据中发现新的、有意义的数据分布模式,过程是将现有数据事先不规定分组规则,按照数据自身特征分为不同的组来进行挖掘。聚类分析主要也是用于由元组组成的关系型数据。

2.3 关联规则

关联规则的主要目的是找到大量数据中项集之间有趣的关联或相关联系。关联规则适用的数据类型相对较多,主要适用于事务型、交易型和关系型数据。关联规则最适合处理的变量类型是布尔型和数值型。

2.4 基于模式的相似性查找

这种算法适用于文本型和时间型两种数据,在文本型数据上的应用主要是进行文本相似性搜索;在时间型数据上的应用,主要是通过对时间序列数据库的挖掘从而发现时间序列中所蕴涵的知识。

2.5 时间序列或趋势发现和分析

该技术主要用于时间型数据,通过对不同时间点以前时间数据值的变化进行分析,对未来可能发生的变化或趋势进行预测。

3 基于云计算的数据挖掘平台

基于云计算的数据挖掘平台是云计算与数据挖掘的完美结合,既具有云计算的所有优势,又具有强大的数据挖掘能力,云计算为数据挖掘提供强大支持,数据挖掘使云计算的计算与数据管理能力大幅提高,云计算与数据挖掘相辅相承,相得益彰。

基于云计算的数据挖掘平台是一个结构复杂、内容丰富的服务系统。主要构成包括四个子系统、一个服务器群和一个数据库。基于云计算的数据挖掘平台充分发挥了云计算的服务模式,不仅在整体上能够更好地提供数据挖掘服务,而且系统中的任何一个子系统也都可以单独向用户提供服务。

3.1 基于云计算的数据挖掘平台的子系统

基于云计算的数据挖掘平台有四个子系统:帐户管理子系统、数据管理子系统、数据挖掘子系统、挖掘算法管理子系统。四个子系统分别负责不同的任务,但相互之间紧密关联,有机地构成数据挖掘平台的整体,下面我们对四个子系统分别进行介绍。

3.1.1 账户管理子系统

帐户管理子系统是整个平台的基础,主要负责管理用户对整个系统的所有操作情况。帐户管理子系统的功能主要有四部分:支出明细管理、收入明细管理、帐户余额管理、历史记录管理。支出明细管理主要用来记录用户使用的平台当中所有的服务及设备的明细项目。收入明细管理包括两个方面:一是用户通过数据管理子系统向系统平台提供的数据资源;二是通过挖掘算法子系统向系统平台提供的先进算法的报酬。帐户余额就是收入与支出的差额。历史记录管理主要用来记录用户在系统平台上的操作,用户可以据此进行撤消操作和回溯操作等。

3.1.2 数据管理子系统

数据管理子系统主要用来对用户的数据资源进行管理。用户可以通过数据管理子系统购买自己需要的数据,也可以平台有偿提供数据。用户的数据资源包括三类数据:用户自有的数据、用户购买的数据和用户出售的数据。用户自有的数据,用户可以将自己的数据存放到系统平台。用户购买的数据,是指用户向平台购买的数据,系统会将这些数据存放的数据库名称提供给用户。用户出售的数据,是指用户向平台有偿提供的数据的详细列表。

3.1.3 数据挖掘子系统

数据挖掘子系统是整个平台的核心部分,主要功能是通过对用户提供的数据进行挖掘从而发现有用信息与蕴涵的知识。数据挖掘子系统可分为六个功能模块:一站式服务、数据获取、预处理、数据挖掘、结果评估与帮助。一站式服务,指不具备数据挖掘相关知识的用户可以将数据和挖掘目的提交给平台,由专业团队来完成数据挖掘,然后将挖掘报告提供给用户。数据获取,主要工作是从系统内部或外部获取数据源供数据挖掘使用,并且将外部数据源保存在平台数据库中。预处理,主要是完成数据挖掘之前的准备工作,为数据挖掘提供符合要求的数据,包括数据清洗、数据集成、数据选择和数据变换四个功能。数据挖掘,对经过预处理的数据通过种种算法进行挖掘,找到有用信息。为了更好地达到数据挖掘的目的,用户还可以提供自定义数据挖掘算法。结果评估,主要包括三个方面:模式评估、结果展示、结果对比。模式评估是指对挖掘出的模式进行性能评估,比如可靠性与可信度等。结果展示是将挖掘结果以各种形式展示给用户。结果对比是对同一挖掘任务进行多次挖掘或使用不同算法进行挖掘,对多个挖掘结果进行对比,供用户参考。帮助主要是一些关于平台的介绍,操作方法说明等。

3.1.4 挖掘算法管理子系统

挖掘算法管理子系统主要负责对数据挖掘算法进行管理,并可以获取新的数据挖掘算法。挖掘算法管理子系统主要包括四个功能:系统算法、算法历史记录、自定义算法、算法销售。系统算法对平台现有的各种挖掘算法进行管理并有对各种算法的介绍。算法历史记录是对用户使用过的算法进行记录,可以做为算法的评价标准。自定义算法是一种算法扩展方式,可以对现有算法进行改进甚至创造新的算法,以达到更好地完成数据挖掘任务的目的。算法销售是指用户可以将改进的算法或自创的算法提供给平台,并获取报酬。

3.2 服务器群

服务器群可以利用平台所拥有的本地或异地服务器资源实现高效的服务并对资源进行有效配置。对于想构建自己的数据挖掘平台的用户,无需单独购买硬件设备,只需租赁系统平台的服务器即可方便地构建自己的平台,对于有设备闲置的用户,也可以将其出租给系统平台获得收益。

3.3 数据库群

云计算的一个显著特点就海量的数据信息,数据挖掘的目的就是从数据信息当中发现有用信息,因此数据的存储极为重要。数据库群就是用来存储平台本身的数据信息,以及用户存储在平台上的数据信息,还有用户与平台的交互所产生的各种数据信息。数据库不但提供给平台的用户用于数据挖掘任务,还可以将其租用给用户进行储存数据等其他用途。

4 结语

云计算的海量数据信息及强大的计算与数据处理能力为数据挖掘提供了有力支持,基于云计算的数据挖掘系统拥有许多以前数据挖掘系统所不具备的优势,为企业及个人用户的数据挖掘任务提供了良好的解决方案。

[1]魏德志,吴旭,林丽娜,等.基于云计算的模糊规则挖掘算法在入侵检测中的应用[J].吉林师范大学学报,2012(2):115-118.

[2]邓蕾蕾,于航.基于云计算的数据挖掘研究及展望[J].计算机与现代化,2015(5):93-95.

[3]黄章树,刘晴晴.基于云计算服务模式的数据挖掘应用平台的构建[J].电信科学,2012(1):53-57.

[4]余永红,向晓军,高阳,等.面向服务的云数据挖掘引擎的研究[J].计算机科学与探索,2012(1):46-57.

[5]何清.物联网与数据挖掘云服务[J].智能系统学报,2012(6):1-5.

[6]王超鹏,梁正科,李强.基于云计算的分布式数据挖掘算法研究[J].硅谷,2012(2):104.

猜你喜欢
子系统数据挖掘算法
不对中转子系统耦合动力学特性研究
探讨人工智能与数据挖掘发展趋势
GSM-R基站子系统同步方案研究
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
驼峰测长设备在线监测子系统的设计与应用
基于并行计算的大数据挖掘在电网中的应用
一种改进的整周模糊度去相关算法
一种基于Hadoop的大数据挖掘云服务及应用