基于极小数据结构的不确定频繁模式挖掘算法分析

2021-02-14 08:24王鹏宇

信息记录材料 2021年12期

王鹏宇

（山西应用科技学院山西太原 030000）

1 引言

在网络技术不断发展下，各种新型IT设备不断涌现，导致大量数据不断产生，这无疑加大了人们对海量数据的处理难度。而不确定频繁模式挖掘算法的出现和应用可以很好地解决以上问题，该算法综合利用了极小数据结构，不仅可以提高数据处理效率和效果，还能保证挖掘精确度，完全符合不确定数据库处理需求。因此，为了从海量数据中分析和挖掘出有用的信息，在极小数据结构的应用背景下，如何科学地分析和应用不确定频繁模式挖掘算法是相关人员必须思考和解决的问题。

2 不确定频繁模式挖掘

2.1 频繁模式挖掘概述

频繁模式挖掘主要是指从大量的指定数据库中分析和挖掘有价值的信息数据。在正式进行数据挖掘处理之前，需要设置相应的最小支持度，用于实现对最小阈值的精确衡量。换而言之，一旦发现某一模式的支持度远远超过最小阈值，说明该模式属于人们比较感兴趣的频繁模式。例如：在使用FPGrowth这一挖掘算法时，由于该算法充分利用了树结构频繁模式，不仅可以保证搜索内容的深度和广度，还能提高数据挖掘效率和效果，确保树结构存储大量的有价值的压缩数据，从而极大地提高了用户的搜索体验。FPGrowth这一挖掘算法流行的主要原因是该算法突破了Apriori的局限性，当演变为FP-Tree时，可以实现对海量压缩数据的安全存储和管理，不仅降低了计算时间成本，还有效地节约了数据存放内存。在这之后，出现了多种类型的FPGrowth变形算法。例如：通过借助附加数列，可以最大限度地提高算法处理速度，同时，还能降低扫描次数，降低操作复杂度。随后，又出现了一种新型、先进的LP-Growth算法，该算法所存储的信息数据主要以数组元素为主，具有较高的数据挖掘效率，为保证数据挖掘结果的精确性和可靠性产生积极的影响。由此可见，为了进一步提高不确定数据库处理效果，需要确保所提出的不确定频繁模式挖掘算法能够快速、科学地处理不确定数据，从而实现对多种不确定频繁模式的挖掘和利用，为充分发挥和利用极小数据结构的应用优势，有效地满足不确定数据库处理需求打下坚实的基础。

2.2 不确定频繁模式挖掘

当出现不确定频繁模式挖掘概念后，多种相关挖掘算法不断涌现。与普通数据相比，不确定数据通常会附带相应的数据概率。Apriori作为首次出现的不确定频繁模式挖掘算法，在具体的运用中，主要借助了Apriori基础方法，因此，其算法处理性能较低，难以远远超过Apriori算法。此外，Apriori不确定频繁模式挖掘算法主要是在MBP算法的基础上发展而来的，该算法通过综合利用模糊统计技术，可以极大地提高运算效率和效果。紧接着，出现了一种IMBP算法，该算法主要是在MBP算法的基础上进行改进后形成的，与MBP算法相比，其运算效率得以显著提升，有效地降低了内存消耗量。但是，该算法的精度较低，尤其是在处理高密度数据库时，其算法精度越来越低，同时还表现出一定的不稳定性。总之，IMBP和MBP两种算法尽管都能实现对数据库的多次扫描，并形成相应的候选集，但是由于这两种算法均使用的模糊技术，难以保证最终挖掘结果的精确性和全面性。

3 基于极小数据结构的不确定频繁模式挖掘

在极小数据结构的应用背景下，为了充分发挥和利用不确定频繁模式的应用优势，现提出一种新型、先进的挖掘算法。为此，在充分介绍不确定频繁模式问题描述相关内容的基础上，对不确定频繁模式数据结构进行深入分析和研究，最后对挖掘算法进行详细化、全面化描述。

3.1 不确定频繁模式问题描述

根据给定的D（不确定数据库）和minSup（用户最小支持度），对UFPs各个集合进行挖掘处理，确保用户从不确定数据库中挖掘出多种算法模式[1]，从而起到支持minSup的作用。

3.2 不确定模式数据结构

通过构建相应的新型数据结构，可以确保挖掘算法的有效性和针对性。此外，不确定频繁模式挖掘算法在具体的运用中，需要借助CUFP-Tree型结构，实现对多种不确定信息数据的获取和处理[2]。在此基础上，还要根据树型序列路径长度，对CUFP-Tree序列进行增加处理，一旦处理操作不当，挖掘算法会在最短时间内停止工作。由此可见，通过利用本文所提出的不确定频繁模式挖掘算法，可以有效地避免出现过长序列路径问题[3]。

3.3 详细的算法

在极小数据结构的应用背景下，为了更好地了解和把握不确定频繁模式挖掘算法详细内容，现对算法第1次扫描流程和第2次扫描流程进行全面介绍。第1次扫描算法流程图见图1，从图1中可以看出，该算法在具体运用中，首先要做好对指定数据库的首次扫描工作，在此基础上构建数据结构模型[4]。同时，为了进一步提高数据库扫描效率和效果，还能为数据库内各项数据设置相应的expSup，然后筛选并去除小于minSup的值。此外，还要根据其他项目特点，构建相应的关键值降序序列，当降序列长度远远超过给定值s时，需要删除该序列[5]，并将最终处理结果存储于栈底中，在此基础上，为栈中其他序列进行编号操作。

图1 第1次扫描算法流程图

第2次扫描算法流程图见图2，从图2中可以看出，该算法在完成第1次扫描的基础上，对给定数据库进行第2次扫描。然后，根据已构建好的关键值完成对表序名的一一构建，同时，对构建好的表序名进行再次扫描处理[6]。另外，对多对K-list进行编码处理，从而形成多种算法模式。最后，通过对各种数据结构的全面检查，对搜索时间进行缩短处理，只有这样才能最大限度地提高挖掘效率和效果。

图2 第2次扫描算法流程图

4 实验结果

本次实验中所使用的Window10操作系统型号为Intel（R）Core（MT）i5-5200，CPU大小为2.31 GHz，内存达到了4.0 GB。同时，通过利用基础数据库和合成数据库，构建相应的多维图谱，此外，还要借助不确定函数f（0，1），得到大量的不确定数据[7]。在此基础上，从算法执行时间、算法精度两个方面入手，对以下8种挖掘算法进行对比和分析，结果见表1。

表1 实验结果比较

从表1中的数据可以看出，通过利用IMBP挖掘算法，所消耗的时间最长，而执行时间最短的是VBG挖掘算法。同时，IMBP挖掘算法精度最高[8]，而VBG挖掘算法精度次之。由此可见，根据以上实验对比结果，不难发现本文所提出的不确定频繁模式挖掘算法具有处理时间短、算法精度高等优点。

5 结语

综上所述，在极小数据结构的应用背景下，提出一种新型、高效的不确定频繁模式挖掘算法，该算法通过构建不确定数据结构模型，可以实现对不确定数据的科学分析和挖掘，并挖掘出有价值的信息数据，从而进一步提高信息数据的利用率。同时，通过利用该算法，还能降低算法处理时间，提高挖掘精确度，完全符合不确定数据库处理需求。因此，本文所提出的不确定频繁模式挖掘算法具有非常高的应用价值和应用前景。