应用于音乐节目分类的Apriori挖掘算法设计

2019-10-14 03:18李臻
现代电子技术 2019年19期
关键词:音乐节目关联规则

李臻

摘  要: 传统Apriori挖掘算法需多次扫描数据库、多次连接频繁项集,导致挖掘效率较低,为此对Apriori挖掘算法加以改进,设计一种新的Apriori挖掘算法用于音乐节目分类。改进的Apriori挖掘算法采用莱特准则对音频数据进行野值与噪声平滑处理,改进Apriori挖掘算法的音频数据库映射令两个线性表分别负责音频数据存储和对应项存储,音频数据库扫描次数降为一次;改进Apriori挖掘算法的连接次数无需对不具备交运算能力的元素进行交运算操作,减少频繁项集连接次数。基于改进频繁项集Apriori挖掘算法挖掘频繁项集、生成音频数据关联规则,基于关联规则集构建分类器,实现音乐节目分类。实验结果显示,改进Apriori挖掘算法用于音乐节目分类的效率优势突出,准确度高。

关键词: 音乐节目; 节目分类; Apriori挖掘算法; 分类器构建; 频繁项集; 关联规则

中图分类号: TN911.1?34; TP301.6                  文献标识码: A                  文章编号: 1004?373X(2019)19?0090?05

Abstract: Traditional Apriori mining algorithm needs to scan database and connect frequent itemsets many times, which results in low mining efficiency. To improve the Apriori mining algorithm, a new Apriori mining algorithm is designed for music program classification. The Wright criterion is used in the improved Apriori mining algorithm to smooth the outliers and noises of audio data, and improves the mapping of the audio database of Apriori mining algorithm, so as to make the two linear tables responsible for the storage of audio data and corresponding items respectively, and the scanning times of the audio database reduced to one time. The improved Apriori mining algorithm does not need to operate the connection times of the elements that do not have the ability of intersection operation. Row intersection operation reduces the number of frequent itemset connections. Based on the improved Apriori mining algorithm of frequent itemsets, frequent itemsets are mined and audio data association rules are generated. A classifier is constructed based on association rules to realize music program classification. The experimental results show that the improved Apriori mining algorithm has prominent efficiency advantages and high accuracy in music program classification.

Keywords: music program; program classification; Apriori mining algorithm; classifier establishment; frequent itemset; association rule

0  引  言

Apriori算法是一種高效、准确的数据挖掘算法,用于挖掘数据库频繁项集、生成关联规则,得到的关联规则符合置信度与支持度最小原则[1]。基于生成的关联规则可完成数据挖掘,从海量数据中获取目标数据。基于关联规则集构造分类器进行数据分类已经取得良好成效。因此,Apriori挖掘算法在海量数据处理方面具有广泛的应用前景,目前涉及医疗、教育、电子商务等热门行业,实现经济效益与社会效益双丰收[2]。待挖掘数据库中的海量数据往往存在噪声和缺失部分,为保障挖掘精度和效率,需对数据库进行过滤处理,降低数据关联规则挖掘难度[3]。本文设计一种应用于音乐节目分类的Apriori挖掘算法,对传统Apriori挖掘算法加以改进。待挖掘数据为音乐节目的音频数据,首先基于野值处理与噪声平滑处理方式清理音频数据,其次采用改进的Apriori挖掘算法挖掘音频数据间的关联规则,该关联规则的支持度与置信度最小。基于改进Apriori挖掘算法获取的关联规则提取音乐节目音频数据间的关联关系,最后实现音乐节目分类。

2) 扫描音频数据库即可获取全部1?候选项集的音频标识,继而扫描[Bk],[Hk],生成其余候选集,上述过程只进行一次音乐节目音频数据库扫描。

1.3.2  连接操作改进

定义如下情况,[L3={{]1,2,3},{1,2,4},{1,2,5},{1,2,6},{1,2,7},{2,3,4},{2,3,5},{2,3,6},{2,3,7}},此时支持度最小值已知,求取[H4]数值。采用Apriori挖掘算法求取时,生成的[H4]候选集包括16个候选子集,生成的候选项冗余内容占比较大,降低了音频数据挖掘效率、提升了数据挖掘难度,若想获取频繁项集挖掘的最终结果需经过数次连接操作。

通过优化交运算改进Apriori挖掘算法中的连接操作,减少连接操作的次数,节约数据挖掘时间[9]。采用Apriori挖掘算法挖掘关联规则过程中,频繁项集生成候选集时,在音频数据集生成新音频数据集过程中进行交运算[10]。候选项集支持度通过音频数据模与音频数据数量集得到,任意频繁项集中的[xi]与[xj]不具备交运算的能力时,无需对[xi]与[xj]之后的元素进行交运算操作,节约连接次数,提升算法效率。

1.3.3  分类器构建

根据改进Apriori挖掘算法生成高质量的音乐节目分类关联规则,构建音乐节目分类器。基于改进Apriori挖掘算法得到关联规则集,定义为[S],[M]表示训练音频数据集。分类器构建原理为:查找具备覆盖数据集[E]能力的规则集命名为[V?S],查找范围是[S],根据[S]中不同的规则排序情况选取[L]中的规则,此时默认类别存在[V]中。由此完成分类器构建,实现音乐节目高效分类。

2  实验分析

基于本文设计的改进Apriori挖掘算法进行音乐节目分类实验,验证本文算法用于音乐节目分类的优越性。实验采用的音乐节目音频数据由某权威数据平台提供,包括流行、美声、古典、民族、说唱5个音乐节目类别,数据总规模为500 MB,依據测试实际情况划分成不同大小的小规模音频数据库,分别命名为数据库A、数据库B、数据库C、数据库D、数据库E。

2.1  音频数据规模与运行时间的关系

设定支持度最小值为定值,研究音频数据规模与运行时间的关系,当本文算法的最小支持度设定为8%,15%,22%时,音频数据规模与运行时长的关系如图2所示。

分析图2能够看出,音乐节目音频数据规模与本文算法挖掘频繁项集用时成正比,两者为同时增长趋势。数据规模相等的情况下,最小支持度越小,算法挖掘用时越长,这是因为本文算法最小支持度增加,而符合条件的支持度值相应减少,减少了算法运算步骤与用时,算法挖掘效率有所提升。

由此可知,本文算法挖掘音乐节目音频数据过程中,挖掘效率受数据库规模与算法最小值支持度的影响。

2.2  支持度最小值与运行时间的关系

设置25 MB,50 MB,75 MB三种规模的音乐节目音频数据库,采用本文算法完成音乐节目分类中的关联规则挖掘,得到最小支持度与算法挖掘用时关系,如图3所示。

分析图3能够看出,音频数据库规模为75 MB,50 MB,25 MB时,算法运行最大用时出现在最小支持度为8%时,分别为21 s,15.8 s,8.8 s,三种规模数据库运行曲线均为下降趋势,即随着算法最小支持度的增加,算法运行时长降低,此现象与2.1小节结论一致。图中数据显示,音频数据库规模越大,算法运行时间越长,这是因为数据库规模大,扫描数据的用时较长,导致算法运行效率降低。上述实验结果表明,改善本文算法挖掘关联规则效率的方法是减少音乐节目音频数据库扫描次数。

2.3  不同挖掘算法用于音乐节目分类

采用传统Apriori挖掘算法、IM?Apriori挖掘算法作为对比算法进行测试,测试三种算法在音乐节目分类中的应用情况,记录三种算法进行音乐节目分类的时间开销情况,不同算法时间开销如表1所示。

由表1能够看出三种算法用于音乐节目分类的效率,其中,本文算法时间开销最短,在4.4~6.5 ms之间,传统Apriori挖掘算法与IM?Apriori挖掘算法时间开销分别在14.1~22.3 ms之间,本文算法呈现较优的挖掘效率。这是因为本文算法在传统Apriori挖掘算法基础上对音频数据库映射和连接操作加以改进,数据库映射改进后包含两个线性表,分别负责音频数据存储、对应项存储,只需进行一次音频数据库扫描,大大节约了算法挖掘时间。此外,判断频繁项集的交运算能力,对于不具备交运算能力[xi]与[xj]之后的元素无需进行交运算操作,节约了连接次数,提升了本文算法效率。

三种算法进行音乐节目分类结果如表2所示。

分析表2能够看出,本文算法进行音乐节目分类误差较小,低于2.5%,传统Apriori挖掘算法与IM?Apriori挖掘算法的分类误差均在5%以上,因此,本文算法精度最高。同时,三种算法的分类误差均随音乐节目音频数据库规模的增加而增加,证明数据库规模影响算法进行关联规则挖掘的准确度,影响音乐节目分类误差。

3  结  论

本文对传统Apriori挖掘算法进行优化,设计一种新的Apriori挖掘算法用于音乐节目分类。本文算法改进体现在两个方面:音频数据库映射改进和连接操作改进。一方面,数据库映射改进后存在两个线性表,分别负责音频数据存储、对应项存储,扫描数据库次数由多次变为一次,提高了算法挖掘效率;另一方面,通过判断频繁项集的交运算能力,终止任意频繁项集中不具备交运算能力的元素进行交运算操作,减少连接次数,提升算法效率。本文算法改进后,挖掘音频数据关联规则的效率大大提升,进一步提升了音乐节目分类效率。

参考文献

[1] 郑银环,王嘉珺,郭威,等.基于特征旋律挖掘的二阶马尔可夫链在算法作曲中的研究与应用[J].计算机应用研究,2018,35(3):849?853.

ZHENG Yinhuan, WANG Jiajun, GUO Wei, et al. Research and application on second?order Markov chains based on feature melody mining in algorithmic composition [J]. Application research of computers, 2018, 35(3):849?853.

[2] 李涛,林陈,王丽娜.一种改进的相关项对挖掘算法研究[J].计算机仿真,2016,33(8):223?228.

LI Tao, LIN Chen, WANG Lina. An improved algorithm research on mining correlation pairs [J]. Computer simulation, 2016, 33(8): 223?228.

[3] 徐开勇,龚雪容,成茂才.基于改进Apriori算法的审计日志关联规则挖掘[J].计算机应用,2016,36(7):1847?1851.

XU Kaiyong, GONG Xuerong, CHENG Maocai. Audit log association rule mining based on improved apriori algorithm [J]. Journal of computer applications, 2016, 36(7): 1847?1851.

[4] 魏玲,魏永江,高长元.基于Bigtable与MapReduce的Apriori算法改进[J].计算机科学,2015,42(10):208?210.

WEI Ling, WEI Yongjiang, GAO Changyuan. Improved apriori algorithm based on Bigtable and MapReduce [J]. Computer science, 2015, 42(10): 208?210.

[5] 黄文成,贾立,彭道刚,等.基于Apriori的关联规则算法及其在电厂中的应用[J].系统仿真学报,2018,30(1):266?271.

HUANG Wencheng, JIA Li, PENG Daogang, et al. Apriori?based association rule algorithm and its application in power plant [J]. Journal of system simulation, 2018, 30(1): 266?271.

[6] 杨俊瑶,蒙祖强,蒋亮.一种基于拓扑信息的物流频繁路径挖掘算法[J].计算机科学,2015,42(4):258?262.

YANG Junyao, MENG Zuqiang, JIANG Liang. Logistics frequent path sequence mining algorithm based on topological information [J]. Computer science, 2015, 42(4): 258?262.

[7] 黄俊杰,谭波,陈孝明,等.用Apriori关联规则挖掘算法发现湖北电网雷击灾害的时空分布规律[J].应用科学学报,2017,35(1):31?41.

HUANG Junjie, TAN Bo, CHEN Xiaoming, et al. Spatiotemporal distribution of lightning disasters of power lines in hubei province using data mining based on Apriori association rules[J]. Journal of applied sciences, 2017, 35(1): 31?41.

[8] 孙学波,石飞达.基于Hadoop的Apriori算法研究与优化[J].计算机工程与设计,2018,39(1):126?133.

SUN Xuebo, SHI Feida. Research and optimization of Apriori algorithm based on Hadoop [J]. Computer engineering and design, 2018, 39(1): 126?133.

[9] 朱付保,白庆春,汤萌萌,等.基于改进Apriori算法的铁路轨道质量分析与评价[J].微电子学与计算机,2015,32(10):159?162.

ZHU Fubao, BAI Qingchun, TANG Mengmeng, et al. Quality analysis and evaluation of tracks based on improved Apriori algorithm [J]. Microelectronics & computer, 2015, 32(10): 159?162.

[10] 赵学健,孙知信,袁源.基于预判筛选的高效关联规则挖掘算法[J].电子与信息学报,2016,38(7):1654?1659.

ZHAO Xuejian, SUN Zhixin, YUAN Yuan. An efficient association rule mining algorithm based on prejudging and screening [J]. Journal of electronics & information technology, 2016, 38(7): 1654?1659.

猜你喜欢
音乐节目关联规则
新媒体时代广播电视音乐节目制作创新研究
浅谈融媒体时代广播音乐节目的内容转型
新媒体时代背景下创新广播电视音乐节目制作的路径
新媒体环境下广播音乐节目内容的转变与融合
新媒体时代广播音乐节目的困境与出路
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于关联规则和时间阈值算法的5G基站部署研究
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
广播音乐节目的样式分析以及创新方法