基于云计算数据库的数据挖掘方法分析

2017-12-30 11:15
无线互联科技 2017年14期
关键词:海量数据挖掘聚类

陈 霄

(广州体育职业技术学院,广东 广州 510650)

基于云计算数据库的数据挖掘方法分析

陈 霄

(广州体育职业技术学院,广东 广州 510650)

随着互联网的不断发展,云计算数据库成为人们使用最多的一个平台。云计算数据库主要用于存储海量数据,为了保证云计算数据库的稳定性,需要对其进行调节。人们在利用传统方法对云计算数据库进行访问时,常会出现数据挖掘性能差的情况,为了解决这一问题,需要建立全新的数据挖掘方法,比如建立云计算数据库的多层自回归矢量空间模型,分析数据的特点。文章主要阐述云计算的概念及特点,分析云计算数据库的数据挖掘方法,提出基于云计算数据库的数据挖掘策略。

云计算;数据库;数据挖掘

1 云计算的概念及特点

1.1 云计算的概念

对于云计算的定义有很多,其中最具有代表性的是:一些具有虚拟的资源的负载量是不一样的,云计算可以把这些资源的不同量进行新的配置,是一个具有大量虚拟资源的承载盘。云计算的用户可以根据自己的需要去获取资源,但是在使用的过程中由于对云计算的了解不够全面,很容易出现一些问题导致计算机超载使整个系统崩溃。硬件设施都是固定的,为了解决这一问题就需要利用软件来弥补这一不足。由于计算机的存储空间是有限的,用户可以通过云计算的自主检测系统来提高存储空间,保证计算机可以高效地运转,给用户带来高质量的服务。

1.2 云计算的特点

云计算系统具有以下几个特点:(1)透明化。云计算对用户是透明的,用户可以不需要过多地了解云计算,直接使用进而得到自己想要的服务。(2)海量的数据处理功能。云计算能够对数据进行搜集,将这些数据进行分析、汇总,让用户可以随时随地地使用。计算机本身具有很多数据,随着用户需求量的增多,给计算机会带来一定的负担,为了解决这一问题,就可以通过软件替代的方式,把一些具有大数据的资源传输进去,提高了计算机的存储空间。(3)可用性较高。云计算具有排出失效节点的功能,在使用过程中不会影响到整个系统的运行。通过高性能的计算能力搜集数据,把这些数据进行存储,提高云计算的整体质量。(4)用户可以自行编写程序。云计算本身的程序编写不繁杂,用户可以通过学习自己编写程序,在完成之后可以在云系统上进行使用,在一定程度上能够给用户提供个性化的服务。

2 云计算数据库的数据挖掘方法

数据挖掘是通过对数量多、随机出现、粗糙的历史数据中找出一些具有潜在价值的不被人们所挖掘出规律的信息的过程。早在20世纪80年代,国际上就有人提出了对数据库进行知识发现,用于解决数据库空间不足知识贫乏的问题,要想挖掘数据,就需要人们通过多阶段的运行找到云计算数据挖掘的方法。

2.1 建立云计算数据库的多层矢量空间模型

要想分析云计算数据库的数据挖掘方法,就需要建立预估模型,通过对模型的分类和预估,分析数据集合,找出数据中的一些规律和特点。对预估模型进行分类,也就是把数据进行有规律的排序,将一些分离出的数据进行集合和记录,并利用这些规律把对象放在定义的分类中,通过这一分类能够预估出可能会发生的事情。预估就是通过建立预估模型把记录数据相互联系,对利润和预估方式进行分析。

把数据库作为基本的数据管理单元并入云计算环境,让其能够在云计算应用程序中访问调动,在这一过程中会产生海量的数据,这些数据能够通过数据信息映射到多层量自回归空间中,为了实现海量数据目标优化探测和识别,就需要建立云计算数据库多层矢量空间模型,在多层矢量空间模型中实现云计算数据库中海量数据挖掘。这一模型能够让人们有效地认识数据、分析数据,找出使用数据的方法,通过对海量数据的挖掘进而提高对云计算数据库的访问能力,以此达到对这些数据的提取。

2.2 云计算数据库的海量数据特征聚类

云计算数据库的聚类是指把一个较大的数据集分割成多个聚类,这些被分割的聚类内部都有很多相同的特征。聚类实际上就是数据集中的一个组成部分,聚类的差异与数据集内部相对比会发现,聚类差异比较小。对聚类进行分析能够找出簇内的相似度,同时每个簇之间的类似度比较低,所以簇只能是一个对象类,具有一定的属性。在聚类的划分上主要有3点:(1)K均值聚类,这要求挖掘者要先确定聚类的数目K,然后明确K的中心点,把聚类进行分解,并把i个数据进行归类形成新的聚类,再根据个体到中心点的聚类对其进行再次归类;(2)统计学聚类,在这一聚类中主要是对一些具有分类变量的数据进行分析,通过记录和原数据挖掘出新的聚类,通过统计看记录中的数据是否可以归为一类,然后重复直到聚类不再发生变化;(3)神经网络聚类,主要是通过特征映射的方式,通过拓扑映射使其靠近输出单元,这一聚类具有随机性,在输入时在邻近处会出现减少的现象,最开始输出单元不断地更新,到后来更新的量就会减少,直至形成获胜单元。

为了实现云计算数据库海量数据的高效挖掘,就需要在云计算数据库的海量数据特征提取的基础上,对这些需要处理的数据进行聚类,在云计算数据库信息流特征构建的多层矢量自回归空间中,可以采用多层空间模糊减法聚类,进而实现数据的挖掘。主要的步骤如下:在提取的云计算数据库的海量数据特征中,要先对海量数据特征进行假设,然后获得空间坐标模型,把数据带入到相应的公式中,利用模糊减法聚类算法获取云计算数据库海量数据特征聚类的目标函数。根据聚类中心的变化,分析整个聚类不再更新的时间,然后利用公式获得全新的海量数据聚类中心。

2.3 异构数据挖掘

找出数据模板中通过合作具有异构的,但是存在一定关联的数据。比如,移动公司在对用户的短信和彩信使用记录进行分析时,就可以通过该方式进而得出用户的消费倾向,在制作套餐时就可以利用该数据进行参考。把这些数据进行集中处理,挖掘出全新的数据方法,能够给人们提供便捷、高效的渠道。

3 基于云计算数据库的数据挖掘策略

3.1 加强数据管理技术

为了给用户提供更加便捷的渠道,就需要快速地对数据进行分析与处理。云计算系统虽然有了快速、高效的分析能力,但是在存储数据上还需要进一步加强。随着网络的发展,各种信息良莠不齐,用户对于信息的需求也各不一样。这就需要用户可以利用现代技术学会管理自己的数据,比如Big Table技术,该技术具有管理数据的能力,能够把这些数据进行结构化,还可以通过扩展形成大规模的数据,让其能够存储在系统中。

3.2 建立全面的存储空间

随着网络的发展,大量的数据出现给计算机带来了一定的压力。为了保证云计算系统能够存储大量的数据,就需要利用云计算系统存储的功能。通过分析可知,云计算系统在存储方面具有一定的经济性、可靠性和实用性,采用冗余存储的方式保证数据存储的可靠性,但是由于一些硬件设备跟不上系统的步伐,就需要利用坚实可靠的软件系统来完成。在数据的存储方面,需要保证数据存储技术要体现出传输率与吞吐率,通过这样的方式云计算才能够给用户提供服务,满足大部分用户的需求。

3.3 利用Web进行数据挖掘

Web数据挖掘就是从云计算系统的存储空间中,对在网络中存在的文档进行分析与提取。利用网络可以把计算机中大量的数据进行收集,用户可以通过连接服务器获取自身需要的资源。在Web数据挖掘中主要分为以下几个方面:(1)通过人为地在Web上对内容进行挖掘,用户可以通过利用关键词的方式查找数据,然后分析该数据是否满足其自身的需求;(2)可以通过挖掘网站中的相关数据和日志文件等发现网站中浏览者的行为,进而分析获得自己所需的数据;(3)通过结构挖掘,用户可以通过人为行为在文档中获得有用的知识,通过这样的方式能够让用户在数据库中高效地找到适合自己的信息,利用网络的先进性加强对云计算数据库的处理。

3.4 建立分层云计算数据库

随着网络大环境的发展,越来越多的数据存在于网络中,为了更好地筛选云计算数据库中的数据,就需要网络人员建立分层云计算数据库。把其中绝大多数的数据通过分层的方式进行整理归类,这样能够便于用户通过搜索关键词来获取数据。比如,用户想要查找一些有关文学类的常识,云计算数据库本身就对这些文学类知识进行了一个总的划分,然后再根据朝代、作者等细化的成分对其进行归类。用户可以通过关键词搜索得出自己想要的数据,在一定程度上能够更快速地找到信息,进而完成数据的使用。

4 结语

在云计算数据库的使用中,传统的方法多是利用云计算数据库来存储海量的数据,挖掘数据方法能够提高云计算数据量的调节能力,利用传统方法采用云计算数据库访问信道属性权重分配方法进行数据挖掘,在性能上比较差,这就需要人们通过建立全新的方法来对云计算数据库进行挖掘。通过加强数据管理技术,建立全面的存储空间,利用Web进行数据挖掘,建立分层云计算数据库等策略,不断优化海量数据库,通过云计算数据库进行数据挖掘,提高数据的聚集性,排除一些不具有效力的数据,改善和调节数据的能力。

[1]张兵.一种用于云计算数据库的数据挖掘方法研究[J].控制工程,2016(6):956-960.

[2]吴永琢.用于云计算数据库的数据挖掘方法分析[J].工程技术(全文版),2016(9):296.

[3]李颖.基于云计算的非连续层次数据挖掘方法[J].西安工程大学学报,2016(4):498-503.

[4]甘枥元.基于云计算的数据挖掘算法的研究[J].电子技术与软件工程,2015(7):195.

[5]王彬菁,李明东.基于云计算的数据处理及数据挖掘方法[J].软件导刊,2015(3):148-149.

[6]王永.基于云计算的数据挖掘平台架构及其关键技术探讨[J].中国新通信,2015(10):69.

Analysis of data mining methods based on cloud computing database

Chen Xiao
(Guangzhou Polytechnic of Sports, Guangzhou 510650, China)

With the continuous development of the Internet, cloud computing database has become a platform for people to use. Most of the cloud computing database is mainly used to store large amounts of data, in order to ensure the stability of cloud computing database need to adjust it. People in the use of traditional methods of cloud computing access database, data mining often has poor performance.In order to solve this problem, we need to establish a new method for data mining, such as the establishment of cloud computing database multi-layer autoregressive vector space model, to analysis the data characteristics. This paper mainly expounds the concept and characteristics of cloud computing, analysis the data mining method of cloud computing database, and puts forward the data mining strategy based on cloud computing database.

cloud computing; database; data mining

广东省高等学校优秀青年教师培养计划项目;项目编号:YQ2015204。

陈霄(1980— ),女,广东紫金,博士,讲师;研究方向:领域为数据库,数据挖掘。

猜你喜欢
海量数据挖掘聚类
一种傅里叶域海量数据高速谱聚类方法
海量快递垃圾正在“围城”——“绿色快递”势在必行
基于DBSACN聚类算法的XML文档聚类
基于并行计算的大数据挖掘在电网中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
一种基于Hadoop的大数据挖掘云服务及应用
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例
基于GPGPU的离散数据挖掘研究
基于文件系统的分布式海量空间数据高效存储与组织研究