基于群智优化神经网络的音乐风格分类模型研究

2019-04-12 00:00:00温赞扬
现代电子技术 2019年21期

摘" 要: 针对用户音乐检索问题,传统采用人工标注的音乐风格分类方法已经无法满足实际需求,提出一种基于群智优化神经网络的古典音乐风格分类模型。首先,采用Skyline主旋律提取算法对音乐文件进行特征提取;然后,对基于BP神经网络的分类器训练和分类流程进行分析,并构建4层BP神经网络结构;最后,采用果蝇群智优化算法对BP神经网络的初始化权值参数进行优化,以便提高全局搜索能力。仿真实验结果显示,与已有的成果相比,提出的分类模型具有更好的准确率,准确率可达81%,能够实现音乐风格自动分类。

关键词: 音乐风格分类; 自动分类; BP神经网络; Skyline主旋律; 果蝇算法; 群智优化

中图分类号: TN911.1⁃34" " " " " " " " " " " " "文献标识码: A" " " " " " " " " " " " 文章编号: 1004⁃373X(2019)21⁃0082⁃04

Abstract: To solve the problem of user music retrieval, a classical music style classification model based on swarm intelligence optimization neural network is proposed because the traditional music style classification method based on manual annotation has been unable to meet the actual needs. Skyline′s main melody extraction algorithm is used to extract the features of music files. The training and classification process of classifier based on BP neural network are analyzed. Thefour⁃layer BP neural network structure is constructed. The drosophila swarm intelligence optimization algorithm is used to optimize the initial weight parameters of BP neural network, so as to improve the global search ability. The simulation results show that, compared with the existing results, the proposed classification model has higher accuracy which can reach 84%, and can achieve automatic classification of the music styles.

Keywords:music style classification; automatic classification; BP neural network; Skyline main melody; drosophila algorithm; group intelligence optimization

0" 引" 言

随着互联网时代的来临和多媒体技术的发展,传统的唱片业已逐渐没落,数字音乐行业得到蓬勃的发展[1⁃3]。人们已经逐渐习惯于通过网络来获取高质量的音乐文件,例如腾讯音乐、千千音乐、酷狗音乐等网络音乐平台。虽然音乐获取途径十分方便,但是广大用户想要简单快速地检索到自己要的音乐却有点困难。为了方便人们检索,各大平台通常将所有的音乐文件按照风格特征进行分类,以便提高用户搜索的效率。但是,现阶段多数平台的分类工作仍处于人工操作的阶段,也就是说使用人工标注的方法进行分类[4]。虽然分类准确率很高,但是人工手动分类耗时耗力,已经无法应对规模巨大的音乐文件数据库。此外,人工分类操作受主观影响大,要求工作人员的音乐修养较高。因此传统人工分类已经不能应对如今对音乐风格正确分类的需求。

近来,一些研究人员提出了基于内容的音乐自动分类技术,通过计算机机器学习自动对输入的音乐文件内容采用客观的统一的标准对音乐自动分类,极大地提到了分类的效率[5]。如今,利用人工智能进行音乐风格分类已经成为音乐信息检索领域的研究热点[6⁃10]。文献[6]提出一种基于文本挖掘与神经网络的音乐风格分类建模方法,该方法运用机器学习中的BP神经网络使得音乐风格分类的准确率达到80%。文献[7]提出基于马尔可夫模型的音乐分类方法,并从三个方面对模型的参数进行了优化。文献[8]提出一种基于BP神经网络的音乐分类模型,克服了单一特征提供信息简单的局限性。

群体智能优化方法越来越引起人们的关注,如粒子群算法、蚁群算法等。文献[9]提出基于粒子群优化BP神经网络的话题趋势预测方法,充分利用粒子群算法全局寻优的良好性能,解决了BP神经网络模型易陷入局部最优值的问题。因此,本文对基于BP神经网络的音乐风格分类模型问题开展研究,并提出采用群体智能优化方法中较为新颖的果蝇算法[10],对BP神经网络中的初始化权值参数进行了优化。采用相似度和准确度指标对该模型的准确率进行验证,并将实验结果与现有的方法进行比较。仿真实验结果显示,提出的分类模型的分类能力更强,验证了其有效性和可行性。

1" 文件特征提取

音乐文件自动分类的基础是文件中音乐信号特征的提取,其中主旋律是音乐的主线,也是进行音乐风格判断的关键因素。通常情况下,大部分乐曲的主旋律的音调比伴奏的旋律要高,因此,本文主要通过较为简单的Skyline主旋律提取算法对音乐文件进行特征提取,其步骤如下:

1) 对音乐文件原始信号进行遍历。针对具有复调关系的两个音符,删除其中音调最高的音符之外的所有音符。复调关系的音符定义如下:

式中:[ST1]和[DT1]分别表示音符1的起始时间和持续时间;[ST2]和[DT2]分别表示音符2的起始时间和持续时间。

2) 在执行步骤1)后,按起始时间从早到晚进行排序,如果两个相邻音符符合如下条件:

2" 提出的音乐风格分类模型

2.1" 分类器设计

分类模型的目标是对乐曲进行分类,因此设计了基于BP神经网络的分类器。该分类器包括两个阶段:监督训练和分类。在监督训练阶段,分类器的训练集是音乐文件特征,代表其风格标签,具体训练流程如图2所示。在分类阶段,将待分类乐曲的多个特征输入到网络模型中,得到相应的多个风格标签输出,选择占比最大的标签作为实际输出标签,具体训练流程如图3所示。

2.2" BP神经网络的建立

采用4层BP神经网络构建音乐风格分类器[8]。该BP神经网络具体包括:输入层、变量层、隐含层和输出层,如图4所示。

2.3" 参数优化方法

如文献[9]所述,BP神经网络收敛的主要手段为均方误差梯度下降,因此BP神经网络对初始化参数中的连接权值十分敏感,常常出现局部最优值,导致无法得到全局最优值,此外,收敛速度不理想。具有较强全局搜索能力的群体智能优化方法越来越引起人们的关注,如粒子群算法、蚁群算法等。其中,基于果蝇觅食行为自然演化的果蝇优化算法是一种较为新颖的群体智能优化算法。

为了得到最优的连接权值,采用果蝇优化方法对其进行优化,以便提高BP神经网络的分类准确率,采用的优化步骤如下[10]:

1) 设置果蝇种群的数量和迭代次数均为100,果蝇群体的初始化位置随机分布在[0,2]范围内,飞行范围为[-10,10]。

2) 初始化连接权值[W]、最佳位置([Xbset],[Ybset])和果蝇个体飞行范围。

3) 计算味道浓度数值[S],计算方式如下:

4) 采用均方根误差构建自适应度函数[Di]以便判定味道浓度数值[S],即[Di=F(Si)]。

5) 寻找味道浓度最高的果蝇个体位置,重复执行步骤3)~步骤5),并比较当前和迭代前的最佳味道浓度,若前者大于后者,则执行步骤6),否则继续迭代。并将具有最佳味道浓度数值和相应的坐标进行保存。

6) 判断当前迭代次数是否达到最大迭代次数,如果是,则该最佳味道浓度数值就是得到的最优连接权值[W]。

3" 实验结果与分析

在音乐风格分类方法的Matlab实验中,对本文提出的蝇优化BP神经网络音乐风格分类模型进行验证分析,并与典型BP神经网络分类模型[8]和PSO⁃BP神经网络分类模型[9]进行对比。实验所用的音乐文件来自千千网络音乐平台的1 200首乐曲,共包含6类风格,每类风格有200首。800首用于训练集数据,另外400首用于测试集数据。

实验参数为:2.4 GHz双核CPU、8 GB内存、300 GB硬盘、GTX960显卡,仿真环境为Matlab R2016a。

3.1" 评估指标

为了对提出分类模型的性能和乐曲特征提取效果进行量化分析,选用2种常用的评价准则[11⁃12]:相似度和准确率。

相似度[Similarity]的计算公式为:

式中:[NNn]为音符总数量;[mo]和[mn]分别为提取出来的主旋律音符数和标准主旋律音符数;[lev(⋅)]表示莱文斯坦距离计算。相似度[Similarity]的数值越大,表示模型的主旋律提取效果越好。

3.2" 分类结果分析

由于BP神经网络结构中网络隐含层节点数对输出性能有较大的影响[8],因此首先就隐含层节点数对BP神经网络分类模型的影响进行分析,以便确定最佳节点数。设训练迭代次数为20,第3层网络隐含层节点数对整个网络训练分类结果的影响如图5所示。

由图5可以看出,随着网络隐含层节点数的增加,训练分类的错误率(100%-准确率)不断降低。但是考虑到时间成本,较大的网络隐含层节点数也会导致运行效率大大降低,因此综合考虑本文将第3层网络隐含层节点数设为100。

在隐含层节点数设为100的条件下,本文分类模型、典型BP神经网络分类模型[8]和PSO⁃BP神经网络分类模型[9]在测试集上的准确率对比结果如表1所示,可以看出本文训练出来的分类模型具有更好的准确率,均值超过81%。这是由于与文献[8]不同的是,本文采用Skyline方法有效地把乐曲的伴奏和主旋律进行了分离并取出主旋律特征。此外,采用果蝇优化方法对BP神经网络进行优化,提高了全局寻优能力。结果说明,相比PSO⁃BP神经网络模型,果蝇优化BP神经网络模型在乐曲风格分类上效果更好。

4" 结" 论

本文提出一种基于果蝇算法优化BP神经网络的古典音乐风格分类模型,并在包含6种风格的实际古典音乐数据集上进行了分类训练和测试。实验结果显示,提出的分类模型能够得到理想的效果,而且相比典型BP神经网络分类模型和PSO⁃BP神经网络分类模型,具有较高的分类准确率。但是由于BP神经网络的迭代限制,该模型的训练和测试时间较长,后续将考虑使用RBF神经网络来实现分类。

参考文献

[1] IORDACHE M D, BIOUCAS⁃DIAS J M, PLAZA A, et al. MUSIC⁃CSR: hyperspectral unmixing via multiple signal classification and collaborative sparse regression [J]. IEEE transactions on geoscience amp; remote sensing, 2014, 52(7): 4364⁃4382.

[2] RAO P, ROSS J C, GANGULI K K, et al. Classification of melodic motifs in raga music with time⁃series matching [J]. Journal of new music research, 2014, 43(1): 115⁃131.

[3] DAIMI S N, SAHA G. Classification of emotions induced by music videos and correlation with participants′ rating [J]. Expert systems with applications, 2014, 41(13): 6057⁃6065.

[4] HUANG Y F, LIN S M, WU H Y, et al. Music genre classification based on local feature selection using a self⁃adaptive harmony search algorithm [J]. Data amp; knowledge engineering, 2014, 92(4): 60⁃76.

[5] HU X, CHOI K, DOWNIE J S. A framework for evaluating multimodal music mood classification [J]. Journal of the association for information science amp; technology, 2016, 68(2): 108⁃117.

[6] 张键锋,王劲.基于文本挖掘与神经网络的音乐风格分类建模方法[J].电信科学,2015,31(7):80⁃85.

ZHANG Jianfeng, WANG Jin. Musical style classification mo⁃deling method based on text mining and neural network [J]. Telecommunications science, 2015, 31(7): 80⁃85.

[7] 肖晓红,张懿,刘冬生,等.基于隐马尔可夫模型的音乐分类[J].计算机工程与应用,2017,53(16):138⁃143.

XIAO Xiaohong, ZHANG Yi, LIU Dongsheng, et al. Music classification based on hidden Markov model [J]. Computer engineering and applications, 2017, 53(16): 138⁃143.

[8] 刘明星.基于BP神经网络的音乐分类模型[J].现代电子技术,2018,41(5):136⁃139.

LIU Mingxing. Music classification model based on BP neural network [J]. Modern electronics technique, 2018, 41(5): 136⁃139.

[9] 马晓宁,王惠.基于PSO优化BP神经网络的话题趋势预测[J].计算机工程与设计,2018,39(9):215⁃219.

MA Xiaoning, WANG Hui. Topic trend prediction based on BP neural network optimized by PSO [J]. Computer engineering and design, 2018, 39(9): 215⁃219.

[10] DAS K N, SINGH T K. Drosophila food⁃search optimization [J]. Applied mathematics amp; computation, 2014, 231(11): 566⁃580.

[11] REN J M, WU M J, JANG J S R. Automatic music mood classification based on timbre and modulation features [J]. IEEE transactions on affective computing, 2015, 6(3): 236⁃246.

[12] SONG Yanyan, LU Ying. Decision tree methods: applications for classification and prediction [J]. Shanghai archives of psychiatry, 2015, 27(2): 130⁃135.