基于大数据背景的数据挖掘技术算法研究

2020-12-27 13:47
通信电源技术 2020年16期
关键词:数据挖掘聚类分类

龙 妤

(广东网联天下科技有限公司,广东 东莞 523000)

1 数据挖掘概述

数据挖掘(Data Mining,DM)又经常被称作知识发现(Knowledge Discovery in Database,KDD),其通过深入分析海量存在噪声的不完整随机数据,在表面分析认知的基础上得到隐藏的有价值信息,并将这些隐藏的、容易被人们忽略的信息应用到生产实践的指导中,是一个完整过程和体系。数据挖掘技术和其他技术一样也在不断发展,在发展过程中将机器学习、人工智能、大数据、数理统计以及神经网络等新的理论和方法融入其中。目前,数据挖掘成为各国研究的热点,被引入到不同领域中并进行延伸,在得到广大学者关注的同时也得到通信行业关注[1-2]。

2 数据挖掘技术的功能体现

在大数据的背景下充分利用数据挖掘技术,能够更加快速便捷地发现实际问题,并及时采取针对性措施进行解决。数据挖掘技术的作用和功能逐渐凸显,具体体现在如下5个方面。

2.1 对数据进行多维度描述

对于数据挖掘技术,其实质是提取和识别特征数据和指标。而无论是对事物的认知还是对事物的分析中,都需要对事物进行必须观察,了解其特征,在特征提取和分析基础上了解数据和事物差异性。

2.2 对数据实现规律性处理

数据挖掘的过程实际是数据的重新整理与分类以及特征提取分析的过程。通过整合分析数据能够发现一些特征数据,这些数据呈现出一定的规律性,对事物分析具有一定的价值和指导意义,能够为实际的企业发展和建设提供一定的理论指导和数据支持。

2.3 分类预测

在数据挖掘过程中能够提取和分析相关数据及其特征,有效区分数据分类,对不同分类数据进行分别分析,确定不同类型数据的发展规律,结合数据和客观事实发现数据规律预测未来发展趋势,对未知问题解决具有重要指导意义。

2.4 聚类分析

在进行数据挖掘和数据分析中,若出现未知信息建议考虑引入聚类分析,实现数据重新分类。以建筑工程为例,建筑工程种类呈现多元化、新型化特征,传统建筑工程数据分析方法在新型建设出现的情况已经不能完全适用,不能实现对新型建筑建设情况、具体分类的有效分析。采用基于聚类分析的数据挖掘技术,能够在传统数据采集和分析的基础上结合建筑工程位置和建筑工程类型进行聚类分析,并在分析的基础上进一步明确工程类型的差异,为新建筑工程建设提供科学完善的资料。聚类分析技术在数据挖掘中的应用越来越广泛,尤其是在未知向已知的过渡阶段具有良好应用性。

2.5 离群点分析

离群点分析是当前大数据技术应用和发展的关键。离群点分析是利用数据分析和采集技术发现数据中的异常点和不合规点,即通过离群点分析确定白噪声和异常情况,基于分析基础上确定故障部位、分析故障内容。离群点分析在目前工程建设的特殊问题处理中具有极强优越性。

3 大数据环境下的数据挖掘技术算法

3.1 K-means聚类算法

K-means聚类算法属于典型迭代型聚类算法,相对较简单,其机理内涵如下。数据库中两个距离较短的数据必有一定相似性,一般距离越近相似性越高,对数据库中距离非常近或重合的数据作为数据簇。在挖掘技术应用中,不仅包括单一数据挖掘,还应该涵盖对数据簇的挖掘与分析。目前,K-means聚类算法已经在数据挖掘中广泛应用,具有极强的迭代特性和动态特性。K-means聚类算法在数据挖掘应用中,首先准确定位数据库并进行分类,对其中异常值进行必要调整、修改,分类基础上进行下一步迭代,直到准则函数出现极强收敛信号。该算法基本应用流程如图1所示。

图1 K-means聚类算法应用流程图

K-means聚类算法的具体流程:

(1)利用该算法在数据库中采用随机调取的方法选择K个数据,并将这K个数据作为数据挖掘的初始数据备用;

(2)分析选取的K个数据,按照就近原则进行数据分配,将其分配到相应数据簇;

(3)进一步分析数据簇并得到相应的平均值,然后根据平均值分类数据队形,将其分配到相近的数据簇;

(4)分类后重新评定数据簇的平均值;

(5)进一步明确K-means聚类算法的准则函数,并通过计算确定最终的准则函数E;

(6)分析准则函数,该值收敛时,则可以输出该值。

K-means聚类算法在数据分析中最终经准则函数判定,能得到最优解,即全局最小值,其是数据平方差变化最小轨迹。该算法中还引入了迭代更新算法,并通过该算法实现对数据的循环分析与挖掘。K-means聚类算法和迭代更新算法的综合运用保证了最终参照点切近数据簇中心。这要求K-means聚类分析中结合迭代算法,简化目标函数,保证最终得到精细化的准确数据。

3.2 层次聚类算法

层次聚类算法作为数据挖掘技术中的另一重要算法,通过层层分解实现了数据的挖掘,最终找到最佳数据。为构建出最佳层次聚类算法模型需要构建一个聚类数,基于从下到上的原则层层分解数据。目前,依据分层进行分类的方法可以分为分裂分类法和凝聚分类法两种。AGNES算法作为层次聚类算法中凝聚分类法的典型代表,目前在数据挖掘中的应用十分广泛。DIANA算法作为分裂分类算法的代表,在数据挖掘中的应用也较为广泛。和分裂分类算法相比,凝聚分类算法的应用范围更广[3]。在凝聚分类算法的应用中需要综合考虑不同数据簇之间的邻近度和相似度问题,可采用邻近度矩阵进行数据处理和分析。

凝聚分类算法在数据挖掘技术中应用时,主要涉及到如下3个步骤。

(1)通过数据分析对数据进行初步分类,保证初始数据簇的形成。

(2)在就近原则的基础上分析相应数据,实现不同数据簇之间的数据合并。

(3)数据簇合并后能够形成新的数据簇,进行新数据簇的数据挖掘。通过循环迭代,最终能够满足数据挖掘的实际需求。

4 基于大数据背景的数据挖掘技术算法应用流程分析

基于大数据背景的数据挖掘技术算法应用流程如图2所示。

图2 基于大数据背景的数据挖掘技术算法应用流程

4.1 问题定义与主题分析(以通信服务为例)

先明确实际需求,在确定目标后分析实际市场,并在结合市场分析和消费者分析的基础上定位科学业务。同时,确定通信公司的现有资源,整合分析现有资源和客户需求,确定科学、能有效执行的目标。不同客户在通信质量、资费等通信服务方面具有不同要求,因此需要对客户需求进行挖掘,以确定不同客户的实际需求,即明确问题[4]。

4.2 选择有效的数据挖掘工具

为保障最终结果的准确性和有效性就需要强有力的工具支持,即需要选择科学合理的数据挖掘方法。明确问题和任务目标基础上,统筹协调数据描述、数据关联、数据估值、数据分类等过程,确定变量,引入数据挖掘算法结合变量将问题转化,构建满足要求的数据挖掘模型。在实际数据挖掘工具确定中必须要结合实际情况确定合适的数据挖掘算法和工具,常用的包括聚类算法、迭代更新及相关性分组等。

4.3 数据准备

为保障数据挖掘进程的进行,必须做好数据准备工作。为模型构建整合数据源,广泛收集数据的同时,核实数据的准确性和有效性。这要求相关工作人员在进行数据工作中,必须严于律己做好这一工作。

4.4 建立模型

做好数据整理和算法准备工作之后,根据实际情况和具体问题匹配数据挖掘技术,确定基础模型框架。然后,对模型技术框架进行一定的调整和优化,保证最终确定的模型具有实用性。同时,在进行模型建立的过程中应该尤为注重过程及模型类型,确保数据挖掘的优势真正凸显。

4.5 模式评估

利用建立好的模型进行数据挖掘,最终能够得到问题及解决问题的相关结果及规律,对于最终的结果需要进行评估,包括有效性和价值性,通过结果的评价明确模型是否科学适用。保证模型和结果的科学性之后,利用结果去解决实际问题。以通信用户服务为例,通过数据挖掘技术明确了通信用户的实际需求之后,能够根据这一结果给用户提供针对性服务,能够提高客户的满意度,对留住客户、加强客户关系管理、提升服务水平具有重要意义[5]。

5 结 论

大量数据的有效分析需求催生了数据挖掘技术,该技术在隐藏数据挖掘、数据深入分析等方面具有良好应用性,其很好地融合了计算机软件技术、人工智能技术以及数据处理技术。可以预见,在未来大数据背景下的数据挖掘技术发展中必将更加深入。

猜你喜欢
数据挖掘聚类分类
改进支持向量机在特征数据挖掘中的智能应用
分类算一算
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
面向WSN的聚类头选举与维护协议的研究综述
教你一招:数的分类
说说分类那些事
基于高斯混合聚类的阵列干涉SAR三维成像
软件工程领域中的异常数据挖掘算法
基于Spark平台的K-means聚类算法改进及并行化实现