大数据挖掘技术应用研究

2019-05-13 10:15冯晓媛
数字技术与应用 2019年1期
关键词:挖掘大数据应用

冯晓媛

摘要:近年来由于计算器技术和信息产业的快速发展,促使了相关的数据量也产生了极大的增长。然而面对这些庞大且杂乱的多维数据集,我们无法快速且有效的找到我们所需要的信息。因此我们必须要使用数据挖掘技术以从数据集中去提取我们所需要的资料,并且进行分析与处理。在本中,将介绍大数据挖掘分析软件 Rapidminer,并且与其他旧有的数据挖掘分析软件来做一个功能性的比较。

关键词:信息;Rapi;dMiner;大数据;挖掘;应用

中图分类号:TP393 文献标识码:A 文章编号:1007-9416(2019)01-0127-02

0引言

透过线性回归、类神经网络、判定树和支持向量机,说明应用Rapidminer进行大数据挖掘分析的运作流程,并介绍Rapidminer的操作接口跟分析方法。本篇论文采用Rapidminer的原因,主要是因为它拥有非常便捷的图形化接口,而且使用者在操作上不需要再额外去学习其它的程序语法,只需要透过选取组件以及设定参数的方式就可以完成。而且在分析结果的显示上也非常的多样化,可以让使用者自行选择要观看哪一种图形显示分析的结果。

1 数据探勘流程探讨

1.1 资料清除

是过滤掉数据当中的那些噪声和无法判别的资料跟不一致的数据,保留可用的且有效的数据。

1.2 数据的整合

不一定都来自相同的一个数据库,所以必须做数据的整合,将来自不同数据库的数据整合处理完后处理在我们的数据仓储。

1.3 数据选择

在数据探勘中是一个相当重要的环节,选到有用的数据可以提高分析预测的准确度,但是选到无用的数据却可能会拉低分析预测的准确度,所以在做数据的选择时必须先对这些数据有一定的认识,才能做出正确的选择。

1.4 数据转换

由于人类和计算机的沟通的语言不同,所以当我们要让计算机来处理事情时,必须先将手头的数据转换成计算机可以识别的资料格式,或合并成数据探勘所需的数据形式来让计算机判读,像是执行汇总与聚合。

1.5 数据探勘引擎

数据探勘系统在数据探勘中算是非常重要的一个环节,因为它包含了探勘工作所需要的功能,像是特征化、相关系数与相互关系分析、判别、预测、群组分析、分群、离异值分析与演化分析等等。

1.6 样式评估

样式评估根据某些有趣度量,来辨认代表知识的有趣样式,也可以说是评估数据跟数据之间的关联性是否是有用的、重要的、是否正确。

1.7 用户接口

这个模块让用户可以与数据探勘系统进行沟通,他允许使用者透过设定数据探勘查询或工作与系统进行互动、提供讯息来帮助搜寻,对暂时数据探勘结果进行探索性数据探勘。

2 数据探勘工具

2.1 Rapidminer

Rapidminer开源式框架,支持各种类型的数据挖掘像是文本、网络、图像或是链接开放式的数据挖掘[1]。透过它复杂的图形用户接口,数据挖掘的過程可以更加的简洁且快速,直观地实现和执行,并且不需要额外的程序语言编辑技术。

2.2 Weka

WEKA用于数据挖掘任务的算法的集合,算法可以直接应用在数据集上,也可以从自己设计的Jave代码调用[2]。Weka它包含了数据的预处理、分类、回归、聚类、关联规则和可视化的工具也就是图形接口,Weka可以算是最古老,且最成功的开元数据挖掘库和软件,随后被集成为Rapidminer和R的扩充软件,也因为Rapidminer和R的出现,它们提供了使用者更加舒适且便利的使用环境,使得Weka的用户开始大幅的下降。

2.3 KNIME

KNIME图形接口的自由开源信息汇整系统,它具有杰出的数据统合能力,并且可以运用在数据查询(DataMining)、数据处理、数据分析、流程绘制以及流程规划与管理(Workflow)等等各方面。

3 数据探勘工具比较

Rapidminer:独立平台;使用者:学习者、高级用户、专业用户、企业用户;用户接口:主要是透过图形接口来做流程的设计,也可以同时开启多个窗口来做操作;功能:大于500种,可透过扩展来新增额外的功能,且可扩展WEKA和R作为它的扩充元件,并进行协同工作;操作接口:简洁易懂的操作接口,不需要额外的学习程序语言的编辑能力,使用者只需要透过拉取所需的原件并且将其连接起来即可使用,使用者可自由配置操作接口;支持的输入格式:CSV、Excel、XML、Access、AML、ARFF、XRFF、SPSS、SASDatabases、JDBC....;支持输出模型格式:模型可以导出为不同的档案格式,像是bmp、jpg、pdf、PostScript、raw、XML等各种文件格式。

WEKA:独立开发平台;使用者:学习者、一般用户;用户接口:图形接口;功能:约500种;操作接口:有四种模式可供使用者选择使用,每种模式都各有其优缺点,使用者需挑选最合适的使用模式使用;支持的输入格式:ARFF、CSV、C4.5、BSI、Localfile、URLs、JDBC..;支持输出模型格式:不支援。

KNIME:Java平台;使用者:学习者、一般用户;用户接口:可在同一时间开启四个不同的视窗,用来做不同的功能;功能:约100种;操作接口:简洁易懂的使用接口,可以让使用者很容易得学会,也可以自由配置操作接口;支持的输入格式:ARFF,CSV,PMML,localfiles,URLs、JDBC..;支持输出模型格式:可以将档案汇出成压缩文件(ZIP),只有从KNIME导出的模型才可以再次汇入到KNIME中。

4 结语

现今是个信息科技的时代,几乎所有事情都是可以用数字和数据来解释的,每件事情的发生都会有它的前因后果,所以我们可以从这些数据当中找出这些因果关系,并且加以利用就可以预测出我们所要的结果,单单只有一大堆的数据是没用的,需要使用Rapidminer这个数据挖掘分析软件,来从这些杂乱的数据库中萃取出我们所需要的信息,也就是从数据进行知识发掘,并且找出他们的相对应关系为我们使用。

参考文献

[1] 胡可云.数据挖掘理论与应用[M].清华大学出版社,2008.

[2] 郑茹菁.数据挖掘开源平台性能分析[J].天津理工大学学报,2015,31(04):33-38.

Abstract:In recent years, due to the rapid development of the calculator technology and the information industry, the amount of related data has also been greatly increased. However, in the face of these huge and messy cubes, we cannot quickly and efficiently find the information we need. Therefore, we must use data mining technology to extract the data we need from the data set, and analyze and process it. In this article, we will introduce the big data mining analysis software Rapidminer, and make a functional comparison with other old data mining analysis software.

Key words:information;Rapi;dMiner big data;mining;application

猜你喜欢
挖掘大数据应用
关注数学思考 提升数学本质