基于大数据时代的数据挖掘技术

2019-05-21 04:52曲萍
中国新技术新产品 2019年4期
关键词:大数据时代数据挖掘

曲萍

摘 要:随着计算机互联网技术的发展,信息数据在生活中显示出了越来越重要的作用,可以说大数据时代已经到来。因此人们需要高效自动化的数据分析技术对大量冗杂无规律的信息进行分类管理,数据挖掘技术由此应运而生。为了更好地利用大数据系统,该文对大数据系统中的数据挖掘技术进行了分析,并列举了数据挖掘技术在实际生活领域中的广泛应用。

关键词:大数据时代;数据挖掘;信息数据

中图分类号:TP311 文献标志码:A

1 大数据与数据挖掘的相关概述

1.1 大数据的概念及特点

大数据的概念最早是麦肯锡研究院在2011年提出的,他们在《大数据:创新、竞争和生产力的下一个新领域》中提到,数据已经融入了人们的日常生活中。通过对大数据的研究和分析,能够使人们的消费以及生产水平都有一个跨越式的提升。截止至2018年,全球数据量增加了4.8 ZB,换句话说,世界上的每个人都具有至少500 GB的数据量,而且这一数据在未来的几年还会以极快的速度向上增长。

大数据的增长存在以下4个方面的挑战:数据的含量、数据的传输速度、数据分类的多样性以及数据的真实性。大量化是大数据“量”的特点,多样性特点表现在大数据的来源和格式都多种多样,数据传输的速度性表现在数据产生的速度快、处理要求快,能够满足人们日常对数据及时性的要求。最后大数据的真实性指的是真正能够为人们提供服务和帮助的并不是大数据的规模,而是大数据的质量和真实程度,真实性是人们通过大数据制定计划决策的前提和基础。

1.2 数据挖掘的概念及意义

数据挖掘技术作为一种新兴科技在20世纪80年代被提出,数据挖掘技术最初是被科学工作者应用在人工智能技术的开发和利用当中的。简单来说,数据挖掘就是对大量数据进行发掘和创新的过程,即在大量冗杂、随机的数据中挖掘出有用的目标数据,创造出挖掘价值和挖掘潜力。

随着时代的发展以及网络技术的飞速发展,现阶段全球数据飞速扩张,2011年全球数据就超过了1.8万亿GB,预计几年过后这个数值会达到90万亿GB,短短10年时间增长了50倍左右,毫无疑问我们已经迈入了大数据时代。数据挖掘技术正在发展成为一种通过计算机技术对企业运营生产产生重大影响的管理策略,尤其是在信息化发展和数据应用较多的领域,数据挖掘技术的应用意义更为重大。

2 大数据时代数据挖掘的技术方法

根据不同的目标和需要,找出最为合适的分析方法。总体来说现阶段常用的数据挖掘技术方法有以下几种。

2.1 聚类分析

聚类分析是一种无预期、无监督的分析过程,它通过对某些事物进行集合和分组,将类似的事物组成新的集合,并找到其中有价值的部分。聚类分析的基础是“物以类聚”,根据事物的特征将其划分为不同的类别。

现阶段数据挖掘领域中较常用的聚类算法包括CURE算法、BIRCH算法以及STING算法。

CURE算法:CURE将每个数据点定义为一簇,然后通过某一收缩条件对数据点进行收缩,这样相距最近的代表点的簇就会相互合并,这样一个簇就可以通过多个代表点进行表示,进而使CURE能够适应非球形形状。

BIRCH算法:该算法是一个综合的层次聚类分析方法,对于具有N个数据点的簇{X}(i=1,2,3,4,5…N)其聚类特征向量可以表示为(N,,SS),其中N代表簇中含有点的数量,向量LS是这N个点的线性和,SS是各个数据点的平方和。另外,如果两个类的聚类特征分别为(N1,S1,SS1)和(N2,S2,SS2),那么这2个类经过合并后的聚类特征可以表示为(N1+N2,S1+S2,SS1+SS2)。BIRCH算法通过聚类以上特征可以科学的对中心、半径、直径以及类间距离进行运算。

STING算法:STING算法将整体空间划分为若干个矩形单元,根据分辨率的不同,将这些矩形单元分为不同的层次结构。几个低层的单元组成了高一层的单元,因此高一层的统计参数可以通过对低层单元计算得出。这些统计参数包括最大值、最小值、平均数、标准差等。STING算法的特点是其计算与统计查询是相互独立的,因此其运算效率较高且易于进行并行处理以及增量更新。

2.2 分类预测

分类和预测是2个不同的重要步骤,其中分类是对各个类别中标号的估计,这些标号是分散并且没有规律的。预测则是通过连续的函数值建立的函数模型。分类是进行数据挖掘的起始步骤,它是对可预测的数据按照相应的描述或者特征构建有关的不同区域;分类的方法有很多种,其中较为常见的包括神经网路以及决策树等。预测主要是以及回归基础,对数据未来的动态方向的估计,现阶段较为常见的预测方法包括回归分析法和局势外推法等。

2.3 關联分析

人们在日常生产生活中不难发现,各个不同的事物之间是具有盘根错节的关联的,象一件事件的发生随后会引起一系列相关事件的发生,一个意外的出现也会引发更多不同的意外。关联分析法就是通过对一系列事件发生的概率及时地进行分析,找到它们之间的规律,利用发现的规律对未来可能发生的事件进行预估和决策。象著名的沃尔玛啤酒和纸尿布案例的分析:沃尔玛营销人员发现商场内部啤酒的销量和纸尿裤的销量总是成正比,通过运用关联分析方法得出结论,婴儿的父亲在购买纸尿裤的时候总是习惯性的顺手买2罐啤酒,根据这一分析结果,沃尔玛将纸尿裤货架与啤酒货架摆放在了一起,从而大大促进了2种产品的销量。

3 大数据时代数据挖掘技术的应用

3.1 金融领域

金融行业需要对数据进行大量地收集和处理,通过对大量数据进行分析可以建立某些模型并发现相应的规律,从而会发现一些客户或者商业机构的习惯和兴趣,赢得客户的信任。另外金融机构通过数据挖掘技术可以更加迅速有效地观察出金融市场的变化趋势,在第一时间赢得机会。数据挖掘技术在金融领域的应用主要包括账户分类、数据清理、金融市场预测分析以及客户信用评估等。

3.2 医疗领域

医疗领域也具有大量的数据需要处理,与其他行业不同的是,医疗领域的数据信息由不同的数据管理系统进行管理,且保存的格式也不尽相同。在医疗领域中数据挖掘最重要的任务是对大量的数据进行清理以及对医疗保健所需费用进行预测。

3.3 市场营销领域

大数据的数据挖掘技术在市场营销领域的应用,主要体现在对消费者的消费习惯以及消费群体消费行为的分析上,根据分析得出的结果在生产和销售上进行调整,提升产品的销售量。另外通过数据挖掘技术能够对客户群体进行分类识别,从无规则无序的客户群体中筛选出有潜力和有高忠诚度的客户,帮助企业寻找到优质客户进而对其进行重点维护。

3.4 教育领域

在教育领域,数据挖掘系统也发挥着不可或缺的作用,通过数据挖掘技术的应用,可以更好地分析出学生的学习程度和学习特点,教师可以根据分析数据及时地对教学进度和教学内容进行调整,另外可以利用数据挖掘系统对学生的学习成绩进行分析,充分了解学生学习中的弱点,并对学习资源进行合理优化配置,从整体上提升教学质量。

3.5 科学研究领域

最后在信息量极为庞大的生物技术领域以及天文气象等领域,数据挖掘技术更体现出了其强大、智能化的数据分析功能。

4 结语

总的来说,在大数据时代,数据挖掘技术作为一个新兴技术具有较大的研究价值与发展空间,因此我们应该在各个领域内对该技术进行研究与探索,借助大数据系统分析提升各行业的经济效益和社会效益。

参考文献

[1]肖明.大数据时代下数据挖掘技术在企业中的应用[J].中国管理信息化,2015(18):58.

[2]杨华坤.大数据时代数据挖掘技术探讨[J].电脑编程技巧与维护,2015(24):78-79.

[3]宋志秋.大数据时代营销中的数据挖掘技术[J].数字技术与应用,2015(3):209.

猜你喜欢
大数据时代数据挖掘
基于并行计算的大数据挖掘在电网中的应用
从“数据新闻”看当前互联网新闻信息传播生态
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究