韦丽红
(呼伦贝尔学院 计算机科学与技术学院,内蒙古 海拉尔 021008)
浅析数据挖掘的技术方法及应用
韦丽红
(呼伦贝尔学院 计算机科学与技术学院,内蒙古 海拉尔 021008)
现如今,数据挖掘是数据领域以及信息处理上最先进的一项研究技术.本文从介绍数据发掘的定义及其特征入手,归纳了数据挖掘过程的基本步骤,分析了数据挖掘的技术方法,并探讨了数据挖掘的相关应用,本文的研究对加快数据挖掘技术的前进步伐,拓展数据挖掘技术的学科应用具有重要的意义.
数据挖掘;技术方法;应用
数据挖掘通常包括数据搜集、数据分析处理、规律知识展示以及知识运用等几项因素.然而在现实社会中,绝大多数的数据均受到了一定程度的污染,导致了基本所以进行挖掘及处理的数据都是一些受污染的损坏数据,也就是说,没有健康的原始数据做依托,根本无法得出科学可靠的规律知识.在这些大量且繁杂的数据中,部分数据属于冗余数据,部分属于无关数据,还有部分属于损坏数据,它们直接影响了规律知识的研发,因此,应当充分研究并利用数据挖掘技术,从而确保数据的健康可用性,有利于数据分析处理与规律知识研发等后期工作的顺利开展.
数据挖掘指的是从数据库里挖掘出可用的、新颖的、有价值的,并且模式规范的数据的一个实现过程[1].数据挖掘即依据数据库中数据的高效存储功能,利用机器技术的新型设计理念,将具有潜在利用价值的数据知识挖掘出来.因此,数据挖掘技术属于数据统计技术、机器技术与数据库处理技术三者结合运用的成果,其多应用于工程上进行规律知识的研发.
数据挖掘同时也可以表述为一种用于大量繁杂数据处理的方法,相对与人脑而言,它能够更快速地获取有用的数据信息.因此,人们习惯性地赋予了数据挖掘另一个专业术语,即知识发现.
数据挖掘具有以下主要特征:首先,能够对数量庞大且纷繁复杂的数据进行有效的处理;其次,能够实现对数据信息的自动搜索;再次,能够通过数据统计分析总结归纳其规律知识并做出一定的预测;最后,经过挖掘的数据能够快速及时的展示数据的规律知识.
通常情况下,数据挖掘过程包括明确问题、数据准备、算法选定、模式评估以及知识表示五个基本步骤,具体如下:
2.1 明确问题
整个数据挖掘过程的目的是从大量繁杂的数据中获取有价值的可用数据信心,所以在进行数据挖掘之前明确所要获取的数据知识是整个挖掘过程中极为关键的一步.在明确问题的过程中,除了要根据实际情况明确相关要求外,还需要明确应当采用哪些切实可行的数据挖掘技术方法.
2.2 数据准备
数据准备的具体内容包括数据筛选、数据处理以及数据转换三个方面.数据筛选时为了确定进行数据挖掘的具体对象,即结合实际工作需要从数据库中选取一定的数据.数据处理主要是对数据进行形式转换、噪音消除、缺省值推导以及重复数据合并等处理.数据转换则是为了尽可能的缩减数据维数,为后期的数据统计分析提供便利.
2.3 算法选定
流行元素的引入能在一定意义上开拓学生的思维,帮助他们树立正确的审美观,以达到一个全身心投入音乐感悟的境界。流行注重的就是一个体验过程,学生在感知和体验当代的潮流时,自然而然地接近声乐,配合教师的教学。而“流行”作为一种心理学概念,加强对学生的音乐节奏的感知,从时代气息中感受到音乐是一种精神力量,是一种人文情怀,更是一种文化艺术。
算法选定指的是数据挖掘算法的选择与确定.在根据明确问题的具体数据挖掘任务及目标(如数据聚类、关联规则及数据模式确定等)之后,便要选定恰当的数据挖掘算法.在算法选定过程中,应当根据不同数据的数据特征以及实际工作的运行系统的具体要求进行选择.
2.4 模式评估
在数据的挖掘结果中,存在着部分没有利用价值或者与违背实际规律的结果,因此,对挖掘结果进行模式评估是十分必要的.一般情况下,可以通过结合相关工作经验或者利用实际数据信息对挖掘模型的准确性进行评估,从而不断地调整并完善数据挖掘模型.
2.5 知识表示
知识表示也就是决策者对数据挖掘结果的分析决策,即决策者依据挖掘结果并结合具体工作情况对相关策略不断地进行调试的过程.
上述步骤并非可以一步到位,或许需要不断反复进行某个或某些步骤才能得到最佳效果.
数据挖掘的技术方法多种多样,比如神经网络、统计分析法、决策树归纳法、遗传算法、粗糙集理论、模糊集理论、可视化、分类法、规则归纳法、证据理论、聚类法、数据仓库等等.本文就以下几种主要的、常用的数据挖掘技术方法进行概述:
决策树归纳法就是通过依据信息增益来获取数据库中信息字段的大小来设立决策树的节点,再依据字段的取值范围来确定决策树的各个分支.通过一层一层地不断建立决策树节点与分支,便形成了决策树.决策树归纳法常用于对数据进行分类及预测.
3.2 神经网络
神经网络计算模型的建立源自于仿造人体的神经网络结构以及其他人体工作机能.神经网络是以学习模式为脚本,并以此来控制神经元链接的权值大小(即强度).神经网络计算模型具有通过利用众多神经元说链接形成的神经网络进行大规模的逐步计算的重要特征.
3.3 统计分析法
统计分析法在挖掘数据的关联信息上起到重要作用.通过统计及分析数据关系表中的各项数据特性,获取数据信心间的内在联系.通常情况下,数据关系表的数据特性间的关系有相关关系与函数关系.常用的统计分析方法包括回归分析、相关性分析以及规律分析等等.
3.4 模糊集理论
模糊集理论主要应与处理或者展示数据的不确定模型.此外,模糊集理论除了能够处理或展示不完整数据、不精准数据或者噪音数据以外,还能够研发数据的不确定模型,并确保其灵活性与平滑性.
3.5 遗传算法
遗传算法是在自然选择学说和基因遗传学说的基础上建立起来的,并以达尔文进化论理论为模拟蓝本,在计算机操作算法的一门学科[3].具体来说是通过其中的一种算法,把任何一种种群放到这种算法操作中,产生新的个体,再让这一新个体选择到更好的区域,并在这个区域不断虚拟进化,最后让这些能适用的新环境的新个体集合成新的群体,同时这些新个体又被赋予了一个新的适合值,这就是遗传算法.遗传算法的主要功能是用在分类和组合上.
3.6 粗糙集理论
粗糙集理论在上世纪的八十年代中首先被提出,相对于其他计算方法,它是一种软计算方法,能够处理不完全或者不确定的信息,对不同的属性值进行离散分析,再对这些属性划分类别,再集合等价,最后是决策,最终获取规则.实现数据挖掘技术的成功处理.
在国内数据挖掘技术的应用并不算广泛,仅在上海宝钢等一些大型企业有所应用,并且仅仅把数据挖掘技术当成是一种辅助的工具,对生产进行辅助决策,可是却能提高生产的效率,节约成本.在全球上数据挖掘技术的应用很广泛,具体如下:
4.1 科学研究方面
数据挖掘技术能够应用到天文学科学领域、生物科学研究领域、物理科学研究领域等领域中,尤其是在微观方面,能够用各种数据分析遥远的星体的距离,预测地球以外中星体状况,能够通过先进仪器,运用数据挖掘分析生物中的基因,发现各种基因的异同,然后研发出新的生物分子配置,推动生物工程的发展.尤其是近些年来,科学研究领域中对微观科学研究越来越重视,数据挖掘更是得到飞速发展.
4.2 商业经营方面
当今商业领域的竞争尤其激烈,除了有一流的人才,一流的管理和一流的设备以外,对数据的收集也是非常的关键.如在零售业中,商品的销售量都不一样,单靠人工操作,也只能粗浅分析某一商品的销量的多少,并不能分析某一类商品的性质和类别,购买的群体等.而各种数据不断增加,人工效率不高[4].运用数据挖掘知识技术,能够让经营者在最短的时间内做出最有利的判断,制定各种商业经营策略,预测各种销售情况.很多大型的外国公司都很好利用了数据挖掘技术,如运用Intelligent Miner系统挖掘顾客的购物行为. 4.3金融投资方面
股市有风险,投资需谨慎,单凭个人的经验以及所学到的一些金融知识,我们只能从宏观上把握整体的金融走势,然而若要从微观去把握和分析某一种金融项目进行投资,则需要运用各种数据挖掘,通过这些数据才能处理人无法判断和分析的内容,最终才能做出最合适的选择.例如,我们能从股市中的各种微观数据判断整个大盘的走势,而不仅仅是纯粹了解国家的宏观政策.
4.4 医疗设备方面
当代的医疗技术发展很快,这得益于一些先进的设备的使用.通过这些先进的设备能够分析各种药物的分子和原子结构,结合病情案例进行分析整合,在不同的分子结构和基因结构快速地转换和检查,得出治疗的最佳方案.同时还能够用不同的数据挖掘配出各种新药,治疗其他的病症. 4.5保险评估方面
保险业本身是给顾客办理保险的,但保险本身就是个行业,保险行业也是以盈利为目的,因而对于一些高风险的生意同样需要检测评估,若是风险大的保险领域,则需要挖掘高风险的数据,对这些数据评估、检测、然后做出判断,最后知道保险公司的进一步经营.在当今内容多烦杂乱,竞争异常激烈的保险业务,能够建立数据挖掘数据系统,能够促进保险业务的发展.
4.6 通信网络方面
网络通信中有很多网络警告语,有的警告语是可以理解的,有的警告语是可以忽视的,但是有的警告语必须及时处理,这些急需处理的警告语一般都是根据人的经验去处理,这样的处理大大降低了工作效率,增加了很多成本.数据挖掘恰恰能弥补这个效率不高的短板,它通过分析各种警告数据,再获取各种警告数据之间的逻辑关系和数据关系,从而做出正确的判断.通过数据挖掘能有效地处理通信网络的故障,还能检测可能发生故障的网络.
对于数据挖掘,现在全球都处于一个起步的研究阶段,无论是科学理论、科学方法,还是各种软件技术都不是很成熟,但是由于其能融合各种数据分析、工程知识、各种统计数据、交互环境等各种学科的特点,对人类有很大的应用价值.
〔1〕谢冬.浅谈统计数据挖掘的方法及应用[J].计算机光盘软件与应用,2012(5):69-85.
〔2〕郭佳.数据挖掘技术方法的研究[J].中国新技术新产品, 2011(23):22.
〔3〕李明江,唐颖,周力军.数据挖掘技术及应用[J].中国新通信,2012(12):66-74.
〔4〕陈凤兰.数据挖掘技术在经济统计中的应用[J].现代商业, 2010(5):128-130.
TP311.13
A
1673-260X(2014)03-0022-02