多尺度数据挖掘概述

2023-02-19 12:25咸阳师范学院计算机学院张璐璐
数字技术与应用 2023年1期
关键词:基准数据挖掘尺度

咸阳师范学院计算机学院 张璐璐

多尺度数据挖掘应用领域广泛,是一个跨学科课题,其在数据挖掘基础之上,利用多尺度理论,多层次、多方位对数据进行分析,学习更全面的信息。多尺度数据挖掘在不同学科、不同领域有着不同的应用,针对一般数据集而言,主要集中在多尺度关联规则、多尺度聚类和多尺度分类。为了便于理解,从概念、步骤和分类三方面对多尺度数据挖掘研究进行了简要的阐述以及分析。

数据挖掘旨在从大量的数据中搜索隐藏于其中的信息[1]。随着多尺度科学的发展和实际需求的增加,单纯利用数据挖掘算法获取知识有时难以达到理想效果。将多尺度理论引入数据挖掘领域,便于拓宽知识学习的深度和广度。多尺度数据挖掘涉及学科广泛,是一个典型的跨学科课题,融合了地理、图像、生态等不同领域知识,且表现形式各不相同。目前,多尺度数据挖掘已取得一定成果。以一般数据集为例,对多尺度数据挖掘研究进行简要的阐述以及分析。

1 多尺度数据挖掘概念

多尺度数据挖掘以数据挖掘算法为基础,结合多尺度理论知识,对数据的尺度特性进行操作,便于知识转换,提高挖掘效率。简单来说,多尺度数据挖掘就是采取智能手段获取信息的过程。

多尺度数据挖掘是指从多个尺度剖析数据,构建多尺度数据集,使用数据挖掘算法获取知识,采用合适的尺度转换方法进行知识转换,推衍得到其他尺度知识的过程。其主要包含两部分内容:数据的多尺度转换和知识的多尺度转换[2]。前者是指发掘数据的尺度特性,将单一尺度数据变化为不同尺度数据;后者是指挖掘某一尺度数据信息,对得到的知识采取一定转换机制,得到其他尺度信息。其核心思想在于“一次挖掘,多次利用”。

2 多尺度数据挖掘步骤

如图1 所示,多尺度数据挖掘主要分为3 步:构建多尺度数据集、基准尺度选择和知识尺度转换。

图1 多尺度数据挖掘步骤Fig.1 The steps of multi-scale data mining

2.1 构建多尺度数据集

在利用多尺度数据挖掘方法获取数据之前,需要先对数据进行预处理,得到不同尺度数据,便于进行信息提取。通过明确尺度含义,利用尺度特性,采取尺度划分方法,对数据进行尺度化操作。多尺度数据集是指结合数据特点,根据尺度层次关系,得到不同尺度具有偏序关系的数据集的集合。

基于数据属性的尺度特征,将数据集多尺度化。目前,构建多尺度数据集有很多方法,例如概念分层、粒计算等价类划分和概率密度估计离散化计算等。需要注意,在构建多尺度数据集时,不仅要考虑到尺度特征的复杂性,还要思考尺度划分后数据复杂程度的变化。采用数据熵[3]对数据多尺度进行评价,其公式如下所示:

式中,m表示尺度层次,Nm表示m层数据划分块数,Pij表示数据j在第i块中出现的概率。通过公式可以看出,选择数据熵的尺度越高,建立的多尺度数据集覆盖度就会越大。

2.2 基准尺度选择

基准尺度是指首次进行数据挖掘,获取信息的尺度,常位于上下层尺度之间。利用基准尺度信息,可以得到其他尺度信息。基准尺度选择面向对象主要有2 种:带标签数据和不带标签数据。针对带标签数据而言,用尺度划分后数据能与原始数据最大程度的保持一致性作为衡量基准尺度选择的标准。基于粒计算最优尺度选择思想[4],可以利用待决策域随尺度变化情况确定基准尺度。随着尺度增长,当待决策域不再变化时,选取基准尺度。针对不带标签数据而言,不同尺度下数据表现信息量不同,即每当数据尺度被转换时,都会改变少许信息量,因此可以利用信息熵进行选择[5]。根据信息熵衰减结果,选择转换后信息熵衰减少、信息损失低的尺度作为基准尺度。

2.3 知识尺度转换

在前两步基础之上,对获取的知识进行尺度推衍。知识尺度转换是指根据现实需要,针对数据集特点和挖掘结果,采用转换方法进行知识推衍,从而得到其他尺度上的信息。根据转换方向不同,尺度转换主要分为尺度上推和尺度下推,如图2 所示。在获取某一尺度知识后,根据尺度转换,可以推断其他尺度知识。知识尺度转换效率较高,但由于尺度效应[6]的存在,一般情况下,不同尺度之间进行知识或结论推衍时很难达到无差别转换。为了降低尺度效应带来的影响,可以采取合适的尺度转换方法,减少信息损失。目前,常用的尺度转换方法有克里格法、斑块模型、小波变换等。不同转换方法侧重点不同。实际操作过程中,可以根据需求灵活进行选择。

图2 尺度上推、尺度下推示意图Fig.2 The inference map of upscaling and downscaling

3 多尺度数据挖掘分类

多尺度数据挖掘从多层次、多角度对数据进行分析,有利于获取信息的全面性,目的在于利用尺度转换得到不同尺度知识。其在不同学科、不同领域有着不同的分类,针对一般数据集而言,主要集中在多尺度关联规则、聚类和分类挖掘。

3.1 多尺度关联规则挖掘

多尺度关联规则挖掘是指基于多尺度理论构建多尺度数据集,使用关联规则方法获取基准尺度数据集中的知识,利用尺度转换得到目标尺度数据集知识的过程。

对于多尺度关联规则挖掘而言,目的在于得到不同尺度下数据对应的关联规则,而关联规则可由频繁项集推导生成。因此,在进行多尺度关联规则挖掘过程中,核心在于获取对应尺度频繁项集。首先,对数据进行尺度划分,得到多尺度数据集,挖掘基准尺度频繁项集;然后,将频繁项集作为转换对象,采取合适的尺度转换方法,得到其他尺度数据中频繁项集;最后,利用频繁项集推导关联规则。

3.2 多尺度聚类挖掘

多尺度聚类挖掘是指通过尺度化手段构建多尺度数据集,使用聚类挖掘方法获取基准尺度聚类结果,利用尺度转换得到目标尺度聚类结果的过程。

针对多尺度聚类挖掘而言,尺度上推和尺度下推侧重点略有不同。对于尺度上推而言,是从小尺度到大尺度信息转换,常表现为减少簇的个数、平滑信息。在尺度上推过程中,以簇心为转换对象,通过计算基准尺度簇心相似度,获取目标尺度簇心。对于尺度下推而言,是从大尺度到小尺度信息转换,常表现为增加簇的个数、细化信息。此时,如果继续单纯以簇心作为转换对象,难以保证获取信息的正确性。在尺度下推过程中,通过计算样本间相似度,利用插值方法,得到目标尺度聚类结果。

3.3 多尺度分类挖掘

多尺度分类挖掘是指结合尺度特性构建多尺度数据集,使用分类挖掘方法获取基准尺度分类模型,利用尺度转换得到目标尺度分类模型的过程。

挖掘的目的在于得到不同尺度分类模型,对数据进行分类。不同分类模型具备特点不同,在进行尺度转换时,涉及转换对象也有所差异。例如利用决策树进行学习,主要表现为属性值与对象值之间的映射关系转换;在支持向量机训练中,主要表现为支持向量转换;而对于神经网络模型而言,则表现为神经元转换。多尺度分类挖掘核心在于获取基准尺度数据知识后,确定转换对象,通过知识推衍得到上下层尺度分类模型。

不管是多尺度关联规则、聚类还是分类,均是对基准尺度信息进行操作,获取目标尺度信息。

4 结语

多尺度数据挖掘本质在于对不同尺度下的数据集进行全面系统的分析,利用数据之间的关联性,最终得到对应尺度信息。本文从多尺度数据挖掘概念入手,在此基础上,展开介绍多尺度数据步骤,给出多尺度数据挖掘分类,指出不同挖掘方式的特点和过程,对多尺度数据挖掘的研究进行了简要的阐述。

引用

[1] WU X D,ZHU X Q,WU G Q,et al.Data Mining with Big Data[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(1):97-107.

[2] 柳萌萌,赵书良,韩玉辉,等.多尺度数据挖掘方法[J].软件学报,2016,27(12):3030-3050.

[3] 张煜睿.基于多尺度数据挖掘的数据尺度划分方法[J].电子技术与软件工程,2020(21):144-145.

[4] HAO C,LI J H,FAN M,et al.Optimal Scale Selection in Dynamic Multi-scale Decision Tables Based on Sequential Threeway Decisions[J].Information Sciences,2017,415-416:213-232.

[5] 张昉,赵书良,武永亮.面向多尺度数据挖掘的数据尺度划分方法[J].计算机科学,2019,46(4):57-65.

[6] 赵祎骅,田伟.多尺度数据挖掘方法的应用研究[J].电脑编程技巧与维护,20186):129-131.

猜你喜欢
基准数据挖掘尺度
财产的五大尺度和五重应对
基于并行计算的大数据挖掘在电网中的应用
宇宙的尺度
明基准讲方法保看齐
一种基于Hadoop的大数据挖掘云服务及应用
滑落还是攀爬
9
巧用基准变换实现装配检测
基于GPGPU的离散数据挖掘研究
Imagination率先展示全新Futuremark 3DMark OpenGL ES3.0基准测试