浅谈数据挖掘

2016-01-02 05:50曾令思王铁方首都师范大学
电子制作 2016年14期
关键词:数据挖掘研究

曾令思 王铁方 首都师范大学



浅谈数据挖掘

曾令思 王铁方 首都师范大学

【文章摘要】

【关键词】

大数据;数据挖掘;数据存储

前言

随着信息时代的来临,网络技术的发展和普及,各个行业都有爆炸性的数据增长,这些海量的数据中隐藏着我们需要的信息和财富。国际数据公司(ΙDC)报告称,2011年全球被复制和创建的数据总量就已经大得惊人,在短短几年时间内增长了近9倍,而且预计这些数据每两年就将至少增加一倍。并且,政府机构也对外宣称了要加快数据研究进度这一重大计划,各行业也在积极讨论数据挖掘研究带来的吸引力。面对如此庞大的数据,以及这些数据背后的价值和新的机遇,挖掘和研究这些数据就会给我们带来挑战和切实的利益。

1.数据挖掘研究的产生和发展

早在1989年8月美国底特律召开的第11届国际功能会议上就出现了KDD这个术语,1995年学术界和工业界共同成立了ACM数据挖掘与知识发现专委,后者发展成为数据挖掘领域的顶级国际会议。数据挖掘是一门交叉学科,涉及到各个行业和各个领域,同时,随着各行业对大量数据的处理深度和分析上的需求的增加,数据挖掘研究已经成为了学术界研究的热门学科,同时也受到各领域的重视。

经过多年的发展,数据挖掘研究领域成果颇丰,已经有了一套自己的基础理论。从大体趋势来说,国内和国外的研究方法和方向有差异,尤其是在某些方面还是存在着一定的差距。总的来说,国外的研究更偏重交叉学科和理论基础的研究,而国内则偏重于实际的应用上,用数据来解决实际的问题。同时,国内的学者在研究上也处于世界前沿水平,在国际舞台上也有十分突出的成绩,近年来也频频有国内团队登上国际领奖台。

在20世纪90年代中后期,用关联规则来进行挖掘、分类、预测等被逐渐用于时间序列数据挖掘和空间数据挖掘,以发现与时间和空间相关的有价值的模式,这些手段使得数据挖掘研究领域已经有了一些比较成熟的技术。如今的定位系统、手持移动设备等设备的普及和应用积累了大量的移动对象数据,对这些数据领域的研究使我们受益匪浅。近年来,数据挖掘研究已经渗透到生物信息、医疗卫生、智能交通、金融证券、社交网络、多媒体数据挖掘、轨迹数据、文本数据等各大领域。这些领域与数据挖掘研究接轨后又会出现一些新的机遇和挑战。

2.数据挖掘的技术方法

通常情况下我们把数据挖掘方法分为两大方面,一是人工智能领域中的机器学习型,这种类型通过训练和学习大量的样品获得需要的模式或者参数;二是统计类型,有判别分析、相关性分析和概率分析等技术。

2.1可视化技术

可视化技术指采用计算机图形学和图像处理技术,把抽象的东西转换成图像并且在屏幕上显示出来的一种让人一目了然的方法,从而进行交互处理的技术。它将几何数据绘制成目标图像,将图像按照要求进行输出显示在屏幕上。

2.2模糊技术

通过利用原有的数据挖掘技术的同时,结合模糊理论,从大数据中发现更为广泛的内容,并将其挖掘出来以方便用户理解。因为模糊性的客观存在,而且复杂性较高,因此,数据采集之间的关系表现出十分的模糊。将模糊理论与数据挖掘技术结合从大量、不完全的数据中提取潜在的、模糊决策、模糊模式识别和模糊聚类分析。

2.3粗糙集方法

粗糙集理论为一种描述不确定性和不完整性的数学工具,可以有效地处理和分析不完整、不一致、不精确等信息,并从中发现知识,揭示规律。粗集理论是处理模糊数据的有力工具,且粗集理论的创建和研究的出发点是直接对数据进行分析和推理,发现隐含的知识并揭示规律。

2.4神经网络

指能够模仿人脑神经元的人工神经网络,并能进行信息的处理。需要通过一定时间的训练才能增强挖掘结果的可理解性。其工作原理是根据人脑神经元的原理,通过不断修正其内部的节点间相互连接的关系达到处理信息的目的。

2.5遗传算法

遗传算法是在生物进化过程中,在组合优化的基础上的提出的,这是生物学与计算机结合的产物。就像生物的进化一样,会选择适宜度更强的个体进行交换和变异,通过时间和空间上的类比,能够使大量数据系统化和简单化,以方便找到他们的内在联系获得概念和模式。

2.6决策树

决策树的构造不需要任何领域的知识,很适合知识的挖掘并且可以处理高维度的数据。决策树可以被大多数人所掌握,并且,不需要太多的专业知识。

2.7关联规则

关联规则挖掘技术就是从大量数据中发现其相关性,这也是最常见的数据挖掘的方法。通过层层的筛选以减少候选的子集数,从而加快了关联规则挖掘的进度。

3.数据挖掘的应用

数据的应用实质上是利用数据的分析结果,为用户提供辅助决策,发掘潜在价值的过程。数据挖掘技术是面向应用的,是为了获取信息来服务各行业。随着数据挖掘研究的深入与成熟,发展和推广,数据应用技术也会越来越广泛。现阶段,数据挖掘应用主要集中在以下方面。在金融业上:用于银行行业各种趋势预测,优化存贷策越等。客户关系管理:用于分析客户的行为,对客户进行分类,改善客户关系等。生物信息:用于各种染色体、基因序列的识别以及制药生物信息和科学研究等。电子商务:用于在线交互式营销系统的经营模式、市场策略等方面来优化网站结构,改善网易推荐和商品推荐内容等。零售业:数据挖掘技术被用来进行分析购物篮来协助货架设置,安排促销商品的时间等商业活动。

4.结语

数据的挖掘与研究开启了一次重大的时代转型,这个时代将是技术推动了数据的发展,是数据推动着社会前进。它通过对数据的挖掘和分析发现数据中潜在的价值,并具有重要的研究意义的实际应用价值。数据挖掘研究有着广泛的应用前景,对数据的深入挖掘分析,也将是我们未来努力的方向。

【参考文献】

[1]吉根林,赵斌。面向大数据的时空数据挖掘综述[J]。南京师范大学学报(自然科学版),2014,37(1):91-98。

[2]刘大有,陈慧灵,齐红,等。时空数据挖掘研究进展[J]。计算机研究与发展,2013,50(2):225-239。

[3]王雅轩,项聪。数据挖掘技术的综述[J]。电子技术与软件工程,2015:204-205。

[4]万家华,刘冰,江早。知识发现中的可视化技术[J]。计算机科学,2000,27(增刊):131-134

[5]何新贵。数据采掘中的模糊技术[J]。计算机科学,1998,25(专刊):129-131

随着网络的发展与普及,各个行业都有着大量的数据需要存储。然而,如何挖掘和利用这些数据,将他们转变为有效信息,更好地为人们服务,一直是数据挖掘的最终目的。本文主要研究利用数据分析研究的方法,把数据转化成信息,实现数据的价值。并介绍了数据挖掘研究的产生和发展,以及数据挖掘的技术和方法、在生活中的应用。

猜你喜欢
数据挖掘研究
基于数据挖掘技术的非均衡数据分类研究
改进支持向量机在特征数据挖掘中的智能应用
FMS与YBT相关性的实证研究
2020年国内翻译研究述评
辽代千人邑研究述论
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
基于数据挖掘的学业预警模型构建
视错觉在平面设计中的应用与研究
EMA伺服控制系统研究