浅谈大数据背景下数据挖掘的方法及其应用

2018-05-14 21:29史慧陈俊褀
知识文库 2018年8期
关键词:遗传算法神经网络数据挖掘

史慧 陈俊褀

人类已迈入大数据时代,但很多时候我们会感到被数据淹没,却缺乏知识的困窘,并没有“得数据者得天下”的能力。因此,数据挖掘成了我们提取海量数据信息的必要窗口,本文主要探讨数据挖掘的一些算法、模型及其应用以提高大数据处理能力。

1 什么是大数据

虽然說“大数据”一词在当今时期是炙手可热,很多人都曾对大数据进行定义,但至今为止仍然没有人给出一个明确的定义。大家都认为它具备规模大、多样化、动态化、处理速度快、蕴含有价值的信息,由于其具有规模庞大的特点,我们只能通过机器从浩如烟海、杂乱无章的数据中挖掘对我们有价值的信息,实现数据为我们所用。

2 什么是数据挖掘

数据挖掘是面向事实的,利用数据挖掘工具,以客观统计分析方法挖掘出企业经营的需求信息,得到正确的销售模式、客户关系和行为策略等,有利于企业掌握正确的经营动态,增加利润并减少开支。“数据挖掘”在方法论上强调“面向数据”,由于它充分运用了自动化的数据收集技术与速度快、容量大的计算机,从而具有处理大量复杂数据库的能力。数据挖掘技术能够进一步运用统计等方法对数据进行再分析,以获得更深入的了解,并具有预测功能,可借助已有的数据预测未来。

3 數据挖掘的过程

数据挖掘的过程一般可分为三个阶段,包括数据准备、模式发现与数据挖掘结果。数据准备阶段用于为后续的模式发现提供有质量的数据。包括数据净化、数据集成、数据变换和数据归约。模式发现阶段是数据挖掘过程中的核心阶段,第一要确定挖掘任务和挖掘算法,通过对历史数据的分析,结合用户需求、数据特点等因素,得到供决策使用的各种模式与规则,从该任务的众多算法中选择合适算法进行实际挖掘,得出挖掘结果,即相应的模式。挖掘结果阶段是怎样将挖掘出来的模式与规则以一种直观、容易理解的方式呈现给用户,即可视化。

4 数据挖掘的方法及应用

4.1 关联规则

关联规则挖掘是数据挖掘的本质,它通过对规模庞大的信息进行量化处理,然后建立各类信息的联系,从而让那些看似无关的信息的关联性得以显现并为我们所用。

4.2 聚类分析

聚类分析是通过一定的规则将已有的数据集合划分成新的种类,而新的种类在性质上是相似的。所以它是研究数据间物理上或逻辑上相互关系的技术。通俗地讲即是“物以类聚”。聚类分析获得的结果可以作为下一步研究的基础数据。聚类分析的划分方法包括K-means算法、K-medoid算法;层次方法包括BIRCH算法、CURE算法;密度方法包括DBSCN算法、OPTICS算法;网格算法包括STING算法、Wavecluster算法等。

聚类分析还可以帮助公司在客户基本库中获得不同的客户群体,通过购买模式来描述种类不同的客户特征。除此,聚类分析在生物学、信息检索、气候、心理学和药学领域也得到广泛的应用。

4.3 遗传算法

遗传算法是对生物系统在计算机上模拟研究,基于生物遗传、进化机制的适合于复杂系统优化的自适用概率优化算法。具有鲁棒性强、应用范围广、简单通用的特点。遗传算法搜索最优解的方法是模仿生物的进化过程,模拟自然选择、遗传中发生的复制、交叉、变异等现象。遵循“适者生存、不适者被淘汰”的进化规则,从而留下适应环境能力强的个体,结果群体不断地向最优解的方向进化,最终把最后一代种群里最优的个体通过解码得到满足要求的最优解。

遗传算法由于全局搜索能力强、能胜任各种函数、高维空间的优化问题,而且在数据库领域中能较好地处理不同属性之间的关系,所以大数据库容量非常大时,我们进行穷举搜索是行不通的或者解决范围大、复杂的优化问题时,这时采取遗传算法进行搜索则是一个非常有效的选择。在数据挖掘领域中常见的有基于遗传算法的关联规则挖掘,基于遗传算法的聚类算法,基于遗传算法的分类、遗传算法和模拟退火算法相结合等。

比如在流水线生产调度、任务分配、生产规划等方面。由于遗传算法是基于人工自适用的系统研究,所以在机器人领域占据很重要的地位,例如:基于遗传算法的模糊控制规则学习、使用遗传算法来设计空间交汇控制器、机器人逆运动求解问题等。

4.4 神经网络

人工神经网络是由一个人工建立神经元的、有着模拟人脑结构和功能的有拓部结构和学习规则的动态信息处理系统。神经网络由于模拟生物的神经网络进行信息的处理,有着不断地自我学习的优势,被广泛地应用在聚类、预测、偏差分析等数据挖掘方面。比如在信息领域,常用来进行系统识别、神经控制和智能檢测;在医学领域,神经网络被用于检测数据分析、生物活性研究、建立医学专家系统;在经济领域上,用来进行信贷分析、市场预测;在军事领域上导弹的智能引导、航天器的姿态调控、战场管理和决策支持系统等。

未来,由于信息技术的应用普及,所产生的数据会越来越多,甚至以指数级速度增加。信息量过大导致数据应用也会变得越来越复杂,为了更加有效地提高大数据的利用率,更深层次地挖掘出对我们有价值的信息,我们还需要不断地研究、提高数据挖掘技术,实现对海量信息的掌控,让信息更加安全,让大数据更好地服务于人们。

(作者单位:山西总队参谋部综合信息保障中心)

猜你喜欢
遗传算法神经网络数据挖掘
基于人工智能LSTM循环神经网络的学习成绩预测
基于图像处理与卷积神经网络的零件识别
基于自适应神经网络的电网稳定性预测
基于遗传算法对广义神经网络的优化
基于遗传算法对广义神经网络的优化
基于遗传算法的临床路径模式提取的应用研究
基于遗传算法的临床路径模式提取的应用研究
遗传算法在校园听力考试广播系统施工优化中的应用
物流配送车辆路径的免疫遗传算法探讨
三次样条和二次删除相辅助的WASD神经网络与日本人口预测