数据挖掘中的数据预处理

2022-04-29 22:13许辉
电脑知识与技术 2022年4期
关键词:数据挖掘

摘要:该文讲述的是如何从现有的数据中获取新的知识,但是现有的数据中会存在不集中、杂乱,甚至还不完整数据。虽然使用数据挖掘机模型进行微调和开发还会出现一些杂音,但仍然可以从中获取到有用的数据,保证数据的质量。主要数据挖掘流程:获取数据、清洗数据、探索数据、建模数据、转换数据。

关键词:数据挖掘;数据预处理;获取数据;清洗数据;探索数据;建模数据

中图分类号:TP311        文献标识码:A

文章編号:1009-3044(2022)04-0027-02

1 数据挖掘

1.1数据挖掘模型的介绍

数据挖掘是获取知识的经过,数据挖掘模型是从种种数据源来获取所需要的数据,然后再将这些数据转换成知识,把这些知识再提供给所需要的区域。数据挖掘的流程是从需求的开始到需求的满足,意思就是将所挖掘的数据的精华知识以数据源形式发送到人们的手中。

1.2提前处理数据

提前处理数据的目的是使数据能够更加容易地进行挖掘处理。提取数据的质量对数据挖掘模型可能会产生很大的影响,比如应景设置了数据和特点能够获取的最大上限,但是数据挖掘模型也只是近似于上限。如果提升对各种数据的提前处理技术,那么不论是数据的要求、质量还是预测目标的相关性都会得到很大的提高,而且可以使模型能够得到更好的优化[1]。

1.3通常数据的缺陷

从现实生活中获取的数据格式往往是不正确的,这样就会引起数据库出现各种各样的问题,所以这就需要我们研究对各种数据的预处理技术,现在的数据预处理技术还不是很完善,但是解决一些小问题和提升一些技能还是可以的。

1.4数据缩减技术

数据挖掘模型如果输入量较多,它们就会有较多的维度和巨大的数量,这样会使数据挖掘模型传送数据的时候会遇到前所未见的困难。这时候我们就要通过数据缩减技术来进行维度缩减或者对数据进行缩减采样和选择这些技术来减少以上带来的问题[2]。

2 数据挖掘的过程

2.1数据挖掘的流程

数据挖掘的流程就是把需要挖掘数据的任务中所有数据集中一起。尽管它们的大多数据都存在数据库或者其他存放数据的数据源中。为了让人们更加明白,更加容易理解我们使用模型把里面的数据挖掘出来展示给人们。数据挖掘的主要流程是获取数据、数据清理、数据探索、数据建模,知识可视化(如图1所示)。这个流程在现实世界中不是一次性的过程,而是长久性的任务[3]。因为清理数据和数据建模必须进行不断地测试和改进,获取的数据必须适应不同类型的数据源。数据的可视化和解释也必须不断地改变,不断地调整,从而满足人们的需求。

2.2数据的获取

获取数据挖掘的基本做法就是获取所需要的数据。因为所需要的数据中本身就有自己所需要的知识数据资源。大多数据来源就是从数据库和数据仓库中获取的,也可以使用语言来查询结构化数据,数据仓库就是用来组织数据,理解和利用数据而形成的,它们一般和运营数据库是分离的系统,为的是让后续分析工作更容易一些,而且大多数的数据都很重要,这样也不会容易丢失。可以将获取到的数据存放到一个文件夹中,以便后续的过程中用到它。它们可以一起存储到数据库和数据仓库中,为以后数据挖掘任务做备用。有一组有起点和有终点的有序数据我们称它数据流的概念,数据流的概念比收集数据更重要。数据流可以很好地开发在线运行的模型和算法,数据收获的不再是数据集,而是实际输入源[4]。

3 数据的清洗

3.1数据清理的步骤

数据清理和数据的预处理都属于数据清洗,把数据再进行一遍审查和校验一遍。目的就是把重复的、错误的信息删除掉,提供一样的数据。

3.2发布清理技术

有时在科学研究所得到的数据格式不准确,有一些问题影响模型的误差结果,比如说,离群值会使数值分布但实际上失真值影响聚类算法。如果不处理问题将无法通过模型来解析数据。为了解决这个问题科学研究所发布了数据清洗技术来处理失真值的处理和离群值的检测[5]。

3.3缺失值的处理

缺失值是数据集中一种常见的不完整的一种典型。这些缺失值不能用来做比较、分类和算数。所以,必须要推算数据挖掘模型之前处理掉这些缺失值。缺失值的处理办法很简单,就是把整个样本删掉。如果缺失值有的数据不能忽略或者缺失值的属性的比例不同,我们可以减少数据集的数量,删掉没有利用价值的信息。还可以利用其他方法来填补缺失值。比如可以通过得数值来表示缺失、统计信息、预测属性值和分配所有的可能值。用数据集来补充缺失值是最好的技术了,忽视缺失值的样本来分配所有可能值表现得技术也不错,根据数据集的不同要求,缺失值技术也大有不同。大部分的数据都需要数据挖掘任务来进行实验,来进行检测。

3.4异常值的检测

和大部分的样本数据巨大差距的数据样本就是离群值,虽然这种离群值出现的概率很小,但它不一定会出错,一半的错误异常值是通过错误的测量和错误的记录组成的,所以它不会带来很大的影响。虽然有些模型会对异常值出现冲突,但是在数据处理工作中仍然需要使异常值来测试。离群值检查算法是最常见的算法之一,在一般的情况下分布是未知的,正态分布就是最好的替代,可以从它的平均值和误差来估算马氏距离是两个样本的中间和标度的距离无关我们可以利用马氏距离来和每个样本的平均值来确定异常值。

平均值和误差来估算方式:

4 数据的转换

4.1 数据转换的优势

不同属性的数据表示不同的形式,有的数据分类,有的是不分类的。对于分类的数据值被称作标称值;对于不分类的数据可以根据不同的统计特征来算平均值和误差。但是,不是所有的数值都可以通过模型的需求。数据之间的差别还会对模型的工作带来麻烦,数据转换可以使数据挖掘机让算法更容易成功。

4.2数字化

分类自然界中用得最多的数据,比如计算组之间的熵,它就可以在分类数据上完成,但是还是有一半的数据不适合用于分类数据,因此就将分类数据编码数据,采用编码数据来进行数据,比如一键编码、顺序编码、定制编码来编辑这些数据,它也不会在设计上花费很多的精力。

4.3归一化

不同的属性用的单位制也不同,它们的平均值就会有差距也会有误差,但是数值上的差距会比更重要,而它没有属性这种数值会对某些数据制造麻烦,比如KNN:大一些的数值会影响距离的比较,这就要考虑模型的属性是倾向大一些的数值。除此之外,神经元网络模型就对梯度优化就产生了不好的影响,被迫使用较小的学习率,为了解决这些问题还发布了很多标准化的方法比如Min-max规范化(1)、Z分数归一化(2),还有十进制缩放规范化(3)等,在各种情况下有不同的属性有相同和相似的单位,比如数据预处理的RGB彩色成像就没必要进入标准化。如果不能对单位系统保证,还是建议进行数据挖掘模型来进行标准化。

4.4数值变换

其他数据的属性也可以在数据集上变换,通过转换得到的数据和其他数据挖掘出最优的数据拟合(比如神经网络)可能这些都不重要。可是,对于简单的参数较少的数据模型(比如线性回归),转换后的是数据就很好地帮助模型获取更优的数据,它们之间的属性转换关系对科学发现和对机器的控制是必不可缺的。

5数据的建模

数据建模通常在挖掘任务当中会将数据分为训练集和测试集,再从中获取新的数据集上对数据模型的正确性进行评分。数据模型中包括超参数,比如KNN模型K的选择就创建了验证集并获取了最好的超参数集。大多数的数据挖掘模型都是要定损失含义的。一般,数据挖掘模型质量是优损失函数值就低,它都有特殊的功能,比如凸度,它就比梯度算法得到的结果就好。经过训练得到的参数在进行模型训练步骤来调整参数,使它的训练数据损失更低。数据挖掘模型的复杂性也各个都不相同:简单的模型仅有少量的参考数,少量的参考数会将训练的步骤降低,复杂的数据挖掘模型数据有上百万个参考数,要是训练它们需要巨大的数据集,但是复杂并不是代表它 们更好,应该根据数据挖掘模型任务来评测目标,数据集的大小,数据的类型等来确定模型,有的是时候一个数据集可以运行多个不同的数据模型,并且还能找到最适合数据挖掘模型。

6结束语

数据挖掘技术是从数据集中发现更多的信息,从中获取自己所需要的数据资料。相对于以前的传统数据分析方法,有了数据挖掘技术不但可以采集海量的信息,还可以提高学习方法。从获取数字、到清洗数据、再到探索数据、再到建模数据、再到挖掘知识可视化这几个步骤缺一不可,因此每個基础方法都需要学习。

参考文献:

[1] 解二虎.数据挖掘中数据预处理关键技术研究[J].科技通报,2013,29(12):211-213.

[2]张治斌,刘威.浅析数据挖掘中的数据预处理技术[J].数字技术与应用,2017(10):216-217.

[3] 董师倢.数据挖掘中的数据预处理技术[J].信息与电脑,2016(19):144-145.

[4] 梁婷.券商经纪业务发展现状及转型浅析[J].当代经济,2020(5):35-37.

[5] 赵阳,江雅文.金融科技赋能证券经营机构财富管理转型研究[J].金融纵横,2019(10):36-45.

收稿日期:2021-08-18

作者简介:许辉(1979—),女,江苏镇江人,副教授,工程硕士,研究方向:软件技术。

猜你喜欢
数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议