大型数据库的数据挖掘应用剖析

2018-01-18 09:13叶符明
数字技术与应用 2018年9期
关键词:大型数据挖掘数据库

叶符明

摘要:近年来,随着互联网技术的发展,各行各业之间的信息存档都上传成为数据库的数据,这样相比较传统的纸质档案更加容易被查找以及保存,但是随着行业的发展,上传的数据越来越多,导致企业在查找时无法及时的查询到自己需要的信息,介于这样的情况,人们开始研究智能型的大型数据库的数据挖掘方法,本文根据数据挖掘的含义特征进行分析,探究大型数据库中数据挖掘的算法以及在实际中的运用方向。

关键词:大型;数据库;数据挖掘;应用

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2018)09-0089-02

在最近的十几年中,世界经历了网络数据信息滚雪球般的增长,各行各业的数据储存量都达到一个相当大的地步,在这样的情况下,当人们需要进行数据分析时,将面临巨大的工作量,并且因为数据的庞大,人们极易在数据分析期间出现过错,导致数据分析的结果出现偏差,影响人们的判断决策。在这样的情况下,人们迫切的需要数据库挖掘技术,并且要求数据库的挖掘具有智能性与自动性,能够帮助人们快速、准确的在庞大的数据中查询到自身需要的数据,并且进行分析,为人们的判断决策提供可靠的依据。

1 数据挖掘技术概述

1.1 数据挖掘的含义

数据挖掘主要是在信息收集完成之后,通过一系列的指令对需要的数据进行查询的过程。数据挖掘技术的产生是由于大数据时代的到来,人们所储存和交换的数据越来越多,导致数据查询难度增大,人们研究应用数据挖掘技术,希望通过数据挖掘技术在庞大的数据库中及时准确的查找到需要的数据,提高人们的工作效率,并通过数据的分析为人们的决策提供数据依据。

1.2 数据挖掘的技术特点

数据挖掘技术具有四个明显的特点,其都是受数据库中数据的特征所影响,要想数据挖掘技术准确的对数据进行查找分析,数据挖掘技术就必须符合数据库中数据的特点。这四个特点分别是:差异性;复杂性;算法之间的差异性以及准确性。

差异性的特征是因为在数据库中数据来源多种多样,数据信息之间的差异性也是十分的明显,数据挖掘技术要确保在海量的数据信息中准确的找到需要的数据信息,就必须具有搜索的差异性,根据不同的信息查找需求,分析出需要查找信息的特征,在进行相关的查找,节省查找信息的时间;数据挖掘技术的复杂性主要是体现在数据挖掘技术涉及的领域繁多,在进行数据挖掘技术的建模时需要建立一个复杂又庞大的计算模型;数据挖掘技术的算法差异性,在数据挖掘技术中,评判数据算法的优劣并没有统一的标准,而是根据实际需要进行查找的信息进行判断哪种算法最合适进行查找,使得数据挖掘技术的搜索算法具有较大的差异性;准确性主要表现在数据挖掘技术的使用时需要根据用户的实际需求进行数据挖掘,若用户没有表示明确的查找要求时,数据挖掘技术会根据用户的兴趣以及用户输入的信息进行相关信息的查找,并且搜索的结果会根据用户的喜爱以及需求进行相应的改变。

2 大型数据库的数据挖掘的算法

2.1 关联规则挖掘

关联规则挖掘技术就是根据用户的一项数据来进行用户其他数据推测的方式。如下图所示,当顾客在商场购买了一件衬衫的时候,关联规则可以根据以往用户的消费信息进行分析,预测出顾客可能购买领带的行为以及行为发生的概率。

Apriori是关联算法中常见的算法。假设一家商店当中经营四种商品,商店中各种商品之间进行组合的可能性,再根据客户购买行为以及商品之间的差异性,得到一个集合,表示商品组合可能性较低的情况,通过Apriori进行计算之后构建的组合机,此集合则是表示客户在购买中经常使用的组合集合,如此店主在进行商品的推广时就可以根据数据的分析结果,为顾客推荐常用的商品组合,满足顾客的潜在需求,提高自身的经济效益。

Apriori在运算中能够通过智能技术,对数据进行“频繁集”的计算,在计算过程中可以对数据进行相应的分析挑选,使其在最短的时间内算出用户需要的关联信息,满足用户的搜素需求,并且在Apriori的运算中对于无法一下识别出来的信息都算作频繁集,确保了信息分析的准确性,为用户的决策提供可靠的依据。

2.2 聚类算法

聚类算法的施行主要是在相同类型的数据信息中进行查找,其主要的算法类型又可以分为“分割聚类法”与“分层聚类法”。分割算法的的主要作用是对需要的数据信息进行分割划分,将相关的信息聚拢在一起成为一个新的数据信息库,其主要计算方式是首先对需要进行分割的数据信息进行划分,划分之后根据信息程序之间的距离进行判断,然后将距离较近的信息划分在一起形成一个新的数据信息群,再对新的数据信息群进行划分,寻找划分之后信息程序之间的距离,将距离近的信息聚拢,如此反复,知道最终的到的信息群中只剩2个具体的数据信息,此时这两个数据信息之间会形成一个标准的距离对称表。

在分层聚类的算法中,又包含着两种具体的分层计算模式,一是凝聚型的分层聚类,这类型的分层凝聚法,在计算时是将数据进行凝聚,首先在计算时将每一个数据信息都看作一个“类”,再根据用户给出的度量信息,例如3个“类”之间的距离,以此为准将之间的“类”集合成一个庞大的“类”如此反复,直到所有数据信息对象都在一个类当中,或者是类的集合满足了用户给出的要求,简单的说就是根据用户的需要将相关的数据信息集合在一个类中,形成相关的数据信息群,方便用户在进行数据信息搜索时,减少搜索的时间以及搜索范围。二是分裂的分层聚類计算方法,其计算的方式与凝聚的分层聚类计算方式完全相反,其首先将相对的数据信息集合放置在一个类当中,在根据用户的需要对数据信息划分较小的类,反复操作,直到每一个数据信息即代表一个类,或是达到用户的划分需求,简单形容即是分裂的分层聚类算法将庞大的相关数据信息划分成细小的数据信息,使用户在搜索数据信息时提高搜索结果的准确性。

3 大数据挖掘技术的主要运用方向

3.1 空间数据的挖掘技术

空间数据主要是通过卫星通讯设备进行收集,空间数据主要用来体现“空间实体”的具体位置或是“空间实体”的体积、外形,空间数据可以用来与现实世界的事物的发展相关联,可以将人们生活的现实世界中的信息进行表达。因为空间数据的特殊性,空间数据的挖掘技术的使用也具有特殊性,主要应用在交通输送以及灾难救援当中,或是对空间数据与非空间数据的潜在关系进行分析,找出现实事物中的客观规律,帮助人们预测或是判断现实世界的运动发展。

3.2 库存管理数据的挖掘

随着我国工业化程度的加深,我国制造行业的水平也在不断的提升,当下许多的制造企业对自身的产品进行出口贸易,这使得企业的产品生产量的增加,企业的库存产品规模也不断的扩大,库存管理的难度加大。库存管理数据的挖掘技术,就是为了满足企业日益增加的库存管理数据,使企业在庞大的数据中及时快速的对数据信息进行分类,或是将相关的管理数据项结合形成新的数据信息群,提高企业的管理效率,增加企业对库存管理信息分析的准确性,帮助企业管理者对库存商品做出正确的处理。

4 结语

根据上文的分析探究,根据用户的需要的信息不同,数据挖掘技术的使用情况也就不同,不同的计算方法之间有不同的优点,但面对越来越庞大的数据库,数据挖掘技术的算法要不断的进行更新拓展,使其满足用户数据挖掘分析的需求,使挖掘过程更加的快捷,挖掘出的数据信息结果更加的准确。

参考文献

[1]徐延强.基于大数据库的数据挖掘应用研究[J].中国新通信,2018,20(08):121.

[2]陈霄.基于大型数据库的数据挖掘应用研究[J].电脑编程技巧与维护,2017,(14):42-44.

猜你喜欢
大型数据挖掘数据库
基于并行计算的大数据挖掘在电网中的应用
大型商用空调新产品开发过程的分析
大型施工企业财务一体化探讨
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究