数据挖掘开发及应用研究

2015-08-22 16:16卓广平
软件 2015年5期
关键词:网络数据挖掘大数据

卓广平

摘要:数据挖掘在当今的数字时代、网络时代以及大数据时代发展尤为迅猛,属于多学科、多领域的交叉学科,它在较短的时间内取得了令人瞩目的研究成果,并在社会的各个领域获得应用,表现了出巨大的优势和潜能。本文对数据挖掘的过程和数据挖掘技术进行了较为详细的介绍,并探讨了其应用领域和前景,旨在为数据挖掘理论与实践提供一些借鉴和新的思路。

关键词:数据挖掘;大数据;网络

中图分类号:TP311 文献标识码:A DOI:10.3969/j.issn.1003-6970.2015.05.017

0 引言

数据挖掘是从大量的(或海量的)、不完全的、模糊的、有噪声的以及具有随性的数据中,对隐含的、具有潜在作用和有意义(有时称作有趣的)知识进行提取的过程。其主要任务是从数据集中发现模式。通过数据挖掘发现的模式形式可以多样,根据功能可分为预测性模式和描述性模式两种。在实际运用中,则可根据其实际作用划分为分类模式、预测模式、相关性分析模式、序列模式、聚类模式以及数据可视化等。数据挖掘涉及多种学科、技术和领域,因此也会有一些不同的挖掘方法和实现。根据挖掘对象的不同,可分为关系数据库、空间数据库、文本数据源、时态数据库、多媒体数据库、遗产数据库和万维网Web等的挖掘技术;根据挖掘任务的不同,可将其分为分类或预测模型发现、聚类、关联规则发掘、数据汇总、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等;同时还可以根据挖掘方法进行划分,大致分为统计学方法、机器学习方法、数据库方法和神经网络方法等。

1 数据挖掘过程

首先,目标定义与数据准备。目标定义即是定义出明确的数据挖掘目标,数据挖掘的成败受到目标定义是否适度的影响,因此在目标定义的过程中技术人员需要具备丰富的数据挖掘经验,并与相关专家、最终用户实现紧密协作来实现,在明确实际工作的数据挖掘要求的同时,进行各种学习算法的对比,最终确定有效科学的算法。整个数据挖掘过程中数据准备占有最大的比例,约60%左右。数据准备阶段具体过程分为三步,即数据选择,数据预处理和数据变换。(1)数据选择(DataSeleetion):数据选择即是从已有的数据库或数据仓库中进行相关数据的提取,并形成目标数据(TargetData)。(2)数据预处理(DataProcessing):对参与提取的数据进行处理,从而使数据能够符合数据挖掘的要求。(3)数据变换(Data Transformation):数据变换的目的主要在于使数据维数得到精简,进而从数据初始特征中找出真正有用的特征,减小数据挖掘过程中需要考虑的变量个数与特征。

其次,数据挖掘。数据挖掘阶段属于实际的挖掘工作过程,首先需要进行算法的规划,决定所要采用的数据挖掘方法,然后在挖掘方法的基础上选择一种算法,待完成上述准备工作后,对数据挖掘算法模块予以运行。数据挖掘阶段是相关领域专家、数据挖掘分析者最关心的阶段,能够在真正意义上称之为数据挖掘。

最后,解释与评估。分析所提取的信息是根据最终用户的决策目的所进行的,目的在于将最有价值的信息提取出来。在数据挖掘阶段发现的模式,还需要采用机器或者经过用户的评估,其删除冗余或者无关的模式,而对于那些无法满足用户要求的模式,应退回上一阶段,重新发现模式。应注意的是,数据挖掘所面对的最终用户是人,所以需要对发现的模式进行可视化,或者将结果进行转换,使用户能够明白。

2 计算机数据挖掘技术的开发

计算机数据挖掘技术的开发,一开始就已经将数据挖掘定位成了以决策服务为导向的,以及应用型的,正是数据挖掘的出现,使得决策者的知识储备要求获得了极大的降低,并且对数据挖掘技术进行研究的企业也越来越多。

2.1 传统统计法

传统统计方法主要包括了三种,即抽样、多元统计分析和统计预测。抽样指的是,在海量的数据当中,为了免于对所有的数据进行分析进而采用的合理抽样。多元统计分析则是进行的因子分析,或者对具有复杂结构、较高维数的数据进行的分析。统计预测则是指回归分析、序列分析等。

2.2 遗传算法

遗传算法是一种设计方法的优化技术,是基于进化理论,并采用遗传变异、遗传结合和自然选择等实现的。其主要思想为“按照适者生存的原则,在最适合的规则下由当前群体组成新的群体,并形成这些规则的后代。”这些规则的适合度在度典型情况下,采用其对训练样本集分类的准确率进行评估。

2.3 决策树法

一系列规则的划分为基础建立的树状图,能够用于各种分类与预测。其算法具体包括有C4.5、ID3、CHAID和CART等等;如今又出现了新的算法,如SLIQ和SPRINT,新算法能够由非常大的训练集归纳决策树,并对分类属性和连续性属性进行处理。

2.4 神经网络

一个神经网络从结构上可划分为输入层、输出层和隐含层。在输入层中,各个节点都对应了一个相应的预测变量;而输出层节点则对应多个目标变量。隐含层位于输入层与输出层之间,其层数和每层节点的个数决定了神经网络的复杂程度。神经网络每个节点除了连接输入层的节点,同时也与它前面很多节点向连接,并且各个连接均对应权重Wxy,而该节点的值,则是通过其所有输入节点的值与对应权重乘积的和作为函数输入得到的,这个函数被称为挤压函数或者活动函数。

2.5 联机分析

联机分析是一种进行多维数据分析的方法,需要通过联机来实现。用户需要积极配合联机分析,主动提出分析要求,筛选分析算法,并对数据进行由浅入深的探索性分析。

2.6 可视化技术

由于数据特征有时并不明显,为了解决这个问题便于用户理解,可采用图标等方式来对数据的特征进行表述,使数据更加直观明了,如散点图、饼图、柱状图等可视化方法等,但是高维数据的可视化在目前还存在较大的困难。

3 计算机挖掘技术的应用

3.1 科学研究领域的应用

在科学研究中,需要对来自各种实验、观测的大量数据进行分析,而传统的数据分析工具已经无法满足现在的数据分析需求,为此具有强大功能的智能化自动分析工具也就要求迫切,而这种需求也推动了数据挖掘技术在该领域的应用与发展。如SKICAT(由加州理工学院开发)数据挖掘技术就帮助天文学家发现了16个新的类星体;而在生物医学研究中,也通过数据挖掘的序列模式分析和相似检索技术对DNA数据进行了DNA序列间相似检索和比较;同时还利用路径分析发现了疾病不同阶段的致病基因等等。

3.2 金融行业风险分析、欺诈甄别

金融企业具有一定的风险性,为此投资风险评估是最为重要的一项工作,只有这样,才能够最大限度的降低风险,获得经济效益。为此,金融企业就通过计算机数据挖掘技术来对投资项目进行评估预测,并协助进行风险评估,做出资产评价、资源计划、财务计划与竞争策略等等。同时还能够对银行、保险客户的要求以及信誉进行有效的分析,识别诸如恶性透支等欺诈行为,减少经济损失。在这方面应用较为成功的有FATS系统与FALCON系统,FATS系统使用一般的政府数据单,是一种用于识别与洗钱有关的金融交易的系统;而FALCON系统则是信用卡欺诈估测系统,由HNC公司开发,现已在一些零售银行中应用用于探测可疑的信用卡交易。

3.3 教育领域的应用

首先,学生学习的应用。学校通常会对学生组织月考、期末考等多种考试,并对学生的成绩进行统计,所以学校可利用计算机数据挖掘技术通过学生月考的成绩来对徐而生期末大概的考核成绩进行预测,这样教师就能够根据预测的结果在期末考试前对学生进行针对性的辅导,提醒学生重点复习的内容。通过这种预测,既能够掌握学生的学习情况,同时也使学习与复习更加具有针对性。同时,学校和教师可充分利用计算机挖掘技术的对大量的数据整合的功能,将相关学习资料经筛选整合后在校园网上发布,在为学生提供方便的资料查找的同时,也能够实现学校教育方式的与时俱进,与新信息技术相结合,提高了教学质量。大学校园还利用数据挖掘技术的调节功能来调节学生选课情况。此外,学校可将计算机数据挖掘技术用于学校的管理,如食堂整理食堂仓库的数据等,进而及时的补给短缺的食材、保障营养均衡,并最大的限度下满足学生饮食习惯。

3.4 电子商务的应用

电子商务的重点在于网站浏览量、点击率以及客户成交单子的数量。而这三个问题也是电子商务午企业需要解决的核心问题。因此,电子商务企业可利用计算机数据挖掘技术来对用户的一系列情况进行数据整合与分析,包括客户网页浏览时物品收藏情况、成交记录情况等,进而为用户进行物品的推荐。通过这种数据分析来进行物品的推荐,即便客户没有购买这些推荐的产品,但也会极大的增加点击量与浏览量,增加企业在该行业的竞争力。

3.5 煤矿类企业的应用

煤矿企业通常都需要对地下资源进行科学合理的挖掘,但在实际生产过程中,很多问题都不仅仅是依靠工作人员自身力量就能够解决的,为此煤矿类企业工作人员就需要利用数据挖掘技术来进行相应的勘测,对获得数据进行整合分析并为后续生产提供依据,对自然资源进行科学合理的利用。同时煤矿企业通过计算机数据挖掘技术的应用还能够对企业的后期发展进行合理的预测,即在利用新型媒体技术基础上,对煤矿企业经营的过程的数据进行保存,实现对后期经营的合理判断。

3.6 军事领域的应用

随着社会的信息化发展,科学技术水平的不断提高,军事领域不再只关注以往的焦点,也注重了新兴媒体技术的利用,来对所需的数据进行收集、分析和整理。通过数据挖掘在掌握本国军事实力的同时,对外国敌对势力的部分情况视线里有效的监管。在高科技利用下,实现对于敌对势力的经济、政治和军事上一定程度的总体的把握,进而掌握主动权,为取得可能发生战争的胜利奠定基础。通过数据挖掘技术的应用人们对军事的理解也从传统层面上升到新的高度,在对敌对的势力进行精准数据分析的前提下,做出针对性、科学性的准备与部署。数据挖掘技术在军事领域的应用,既需要高能力的计算机人才,也更是需要具备国家荣誉感的人士,只有在清楚把握住敌人情况下,才能做出正确的作战方式,由此计算机数据挖掘技术在军事领域中的作用最不容忽视。

此外,计算机数据挖掘技术在互联网中的应用主要有两个方面:一是研制新的更好的索引系统,二是利用已有索引(搜索)系统开发更高层次的发现(搜索)系统。

4 结束语

利用计算机进行数据挖掘技术已经在人们的社会生产、生活中以及不同领域中发挥着巨大的作用,包括太空领域、气象领域、教育领域、电子商务、企业生产、金融领域、医学领域、生物领域和军事领域等。为此深入对数据挖掘技术的理论研究和技术开发,倍加重视以应用带动理论和技术创新,才能使之更好的为国家和社会服务,提高我国的综合国力。

猜你喜欢
网络数据挖掘大数据
基于并行计算的大数据挖掘在电网中的应用
油气集输系统信息化发展形势展望
基于网络的信息资源组织与评价现状及发展趋势研究
基于网络的中学阅读指导
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究