机器学习在数据挖掘中的应用研究

2021-09-10 12:24黄心依

信息记录材料 2021年8期

黄心依

（安徽科技学院信息与网络工程学院安徽滁州 233100）

1 引言

随着互联网的快速发展，存在于互联网中的数据量大幅增长，故需要有更快的信息数据处理速度才能够对海量信息数据进行处理。从当前信息数据处理实际情况来看，传统的信息数据处理算法已经不能够满足大规模数据的处理[1]，因此需要对数据进行深度数据挖掘。机器学习作为一种能够从数据中进行学习的算法，能够更加快速地处理数量巨大的数据信息，解决好数据问题。

2 数据挖掘及机器学习概述

2.1 数据挖掘

数据挖掘是当前一种新兴的研究领域，主要是以新的方式方法以及新的理论来挖掘数据中潜在价值。在数据挖掘中，主要通过以下4个步骤来完成数据的分析和处理：（1）选择或者构造具有一定格式以及内容的数据集，这样能够方便之后的数据处理；（2）信息数据的预处理，这一步骤主要是为了将选择或者构造的数据集处理成为统一的内容格式，主要的处理内容有数据集成、清洗、离散化等；（3）数据建模和筛选，这一步骤主要通过对数据需求和模型等因素进行考量，选择出相对最优特征集；（4）形成结论，这一步骤能够促使数据反馈出一些有价值的信息，在这些有价值信息的基础上，工程师可以得出结论。

2.2 机器学习

机器学习是一门涉及多个领域的交叉学科，包括统计学、算法、概率学等。在大规模数据中，机器学习能够在异构数据中进行规律总结，找到不同数据之间的联系，从而实现对数据的深度挖掘。机器学习的主要任务包括以下几个方面：（1）对不同的数据进行分类；（2）对数据进行回归分析；（3）通过模型建构完成对数据的回归分析；（4）对数据进行关联规则；（5）将不同的数据集合到一起，实现聚类。机器学习系统结构图，见图1。

图1 机器学习系统结构图

3 机器学习的相关算法

3.1 朴素贝叶斯算法

在通常情况下，朴素贝叶斯算法主要包括以下几步：（1）通过选取操作来获取关于信息数据的完成样本集合，同时对集合中的元素进行标记，保障元素的提出。（2）对样本集合进行统计，以此来获得样本集合中所有类别出现的概率，并以此为基础获得分类器。（3）将需要分样的分样本导入到分类器中，通过分类器获得样本的结果。整体来看，朴素贝叶斯算法在性能方面缺陷较多[2]，比如朴素贝叶斯算法认为分类的样本特征本身和其他特征的值不相关，因此不会计算不同特征之间的相关性。但是朴素贝叶斯算法本身有着计算方便的特点，因此也具有一定的优势。

3.2 K-近邻法

K-近邻法在机器学习算法中是一种有着较高普及度的算法之一。相较于其他算法，K-近邻法的操作更加简单，性能也更为优秀。K-近邻法从本质上来看，是一种基于集中样本特征以及区分样本特征，通过距离度量这一计算方式来进行训练的算法。所以，在数据集中的情况下，如果样本的数量越多，K-近邻法出现错误率的概率就会越低。因此，相较于其他算法，如果数据集中的训练集趋向于无限大，K-近邻法就会有更加优秀的分类性。

3.3 决策树算法

决策树算法以及其本身的变种算法都是一种对输入空间进行分割，形成不同区域，并且其中的每一个区域都有不同的独立参数的算法。决策树算法主要是以树形模型为基础来进行计算，在树形模型中，每一个根节点到叶子节点都是一个分类的路径规则，同时每一个叶子节点都是一个判断类别[3]。在决策树算法中，主要是先将样本进行分割，促使样本分为不同的样本子集，在此之后再进行分割的递推，最终促使每一个样本子集都能够得到相同类型的样本。之后，再从根节点开始，直到每一个叶子节点，形成路径规则，最终得出预测类别。决策树算法相较于其他算法，其优势在于整体结构较为简单，同时数据处理也更加高效。

4 机器学习在数据挖掘中的应用原理

机器学习有着较为广泛的分类，涉及了很多领域，在下面的内容中主要是通过对当前机器学习涉及的3个领域来介绍机器学习算法中的应用原理。

4.1 神经网络

机器学习在神经网络领域中，主要的原理是通过算法来进行数据建模，从而实现对人大脑的神经进行模拟，分析出其中每一个神经中的作用以及位置，进而分析出神经在脑中的工作过程。在实际构建中，机器学习通过对不同的神经单元进行处理，创建出层级序列。在这一过程中涉及到的逻辑原理为：以算法为基础接受模拟刺激，在网络接收到信号刺激之后，通过数据的分析、处理以及总结等过程得到结果。

4.2 向量机

机器学习还可以在向量机上做出相应的研究。在向量机领域中，首先需要以数学处理思维为基础，通过回归算法对数据问题进行处理。在这样的基础上，能够实现对所有未知结果进行推测。通过算术之间的相互结合以及三维空间进行多维度分析，从而实现算法的推演。

4.3 推荐算法

在机器学习中，还存在一种电子商务领域喜欢的算法，即推荐算法。这一种机器学习算法能够以用户本身的浏览信息为基础，分析出用户所喜欢的内容。比如，在淘宝这一电子商务平台中，用户在浏览各种商品的过程中，算法就可以根据用户所浏览过的商品和浏览同类商品的频率来计算用户喜欢的商品类型。再比如在今日头条中，算法能够检测到用户浏览了哪些信息等，之后算法就会根据这些信息进行计算，为用户贴上一定的标签，然后用户再次进入到今日头条之后为用户推荐那些用户喜欢的信息。

5 机器学习在数据挖掘中的应用

5.1 机器学习中向量机的应用

机器学习中向量机的应用，主要是通过支持向量机的定位原则来将数据信息进行分类，实现区域化选择。具体步骤为：（1）对一定区域内的经纬度进行第一次定位，在确定位置之后对该位置进行划分，促使该位置实现栅格化。（2）在进行划分之后，区域还需要按照经度和维度分为两个部分[4]。在这两部分中，都需要进行计算，但是所使用的计算方式不同，其中一部分需要将该部分之内的所有待测样本以及向量进行科学计算，另一部分则是需要通过回归函数逻辑思维进行计算。通过不同的计算能够得出不同的定位方案是否可行。在应用向量机的过程中需要严格遵守最小化原则[5]。另外，向量机在数据样本的采集中，只要把握好多维度的点积计算，就能够解决很多非线性的问题。向量机通常应用于人脸识别和汽车发动机故障检测中。以人脸识别为例，在人脸识别过程中，由于人脸图像属于高维样本，如果将人脸图像直接进行处理识别，其计算难度将大大提高，所以需要采用向量机进行图像预处理，图像经过小波分解后达到降维目的，然后经过向量机算法中的核函数确定将图像进行分类，最终与人脸数据库中的图像进行对比，确定图像信息。

5.2 机器学习中的卷积神经网络的应用

机器学习中的卷积神经网络，能够通过算法学习来处理大量信息数据，同时还能进行精确的自我学习。相较于一般性的神经元，卷积神经网络的基本组成和一般性神经元相一致。具体来说，卷积神经网络在计算层级上先是通过对数据输入的求和，再通过函数进行计算，从而实现对数据的输出，进而实现神经网络建模。在应用过程中，还需要注意卷积神经网络中3个参数，具体为数据区域大小、神经元之间的联系以及神经元的数量[6]。在实际应用过程中，需要修订其中的权值，主要使用的方法是充分利用计算过程中所产生的误差，进行初始化。同时，在对不同层级的误差进行计算时，要锁定不同神经元的权值。总的来看，机器学习中卷积神经网络的应用主要是通过建立神经元模型，再通过该模型来对数据的特征进行观察分析，最终得到精确分析结论。卷积神经网络主要在计算机视觉以及自然语言处理中得以应用，其中在计算机识别中，卷积神经网络主要能够进行光谱建模和光谱特征可视化。作为深度学习方法之一的前馈神经网络CNN，可以使用没有经过光谱预处理的原始光谱进行建模，改进了光谱分析的流程，比如卷积神经网络可用于分析实验室中山羊角水解过程中的拉曼光谱。除了计算机视觉和自然语言处理以外，卷积神经网络还在大气科学、物理学以及遥感科学中有所应用。

6 结语

综上所述，在互联网时代，要想更好地掌握数据信息，数据挖掘是必不可少的，因此机器学习显得十分重要。在大数据时代，信息呈现出指数级增长趋势，使得很多数据挖掘应用不断出现，很多数据问题更加复杂和难以把控。当前机器学习在数据挖掘中的应用主要是机器学习中向量机以及卷积神经网络的应用，但是这样的应用对计算机性能要求很高，不过相信在未来计算机性能会不断提升，逐渐打破限制，从而更好地应用到不同的领域之中。