人工智能技术在粤剧唱腔分析中的应用

2025-01-11 00:00:00赵裕坤戚家源
发明与创新·中学生 2025年2期
关键词:粤剧流派唱腔

本期点评专家

张平柯" 湖南第一师范学院教授、湖南省青少年科技教育协会常务副理事长、中国发明协会中小学创造教育分会副会长、中国青少年科技教育工作者协会教师教育专业委员会委员、中国教育学会科学教育分会理事。

一、选题背景

我们平时喜欢听各种类型的音乐。一次偶然的机会,我们接触了粤剧并了解到,传统的粤剧音频数据是依靠人工进行分类管理的。专家凭借个人经验对粤剧唱腔流派进行整理分类,这不仅对相关工作者的专业素养和业务水平提出了更高的要求,还耗时耗力。同时由于个人主观因素的介入,难以保证分类结果的客观性。

因此,我们认为,对如何利用人工智能技术分析粤剧唱腔进行研究,是一个很有意义的课题,它不仅可以保护和传承粤剧这一重要的传统文化形式,同时也展示了科技在文化领域的潜力和作用。

二、研究意义

粤剧是以粤语演唱的广东传统戏曲剧种,具有浓郁的岭南文化特色。然而,在多元文化产业方兴未艾的大背景下,粤剧却没能很好地抓住机遇,其发展面临着观众和从业人员减少、市场萎缩的困境,必须尽快开展传承和保护工作。

随着智能化时代的到来,利用人工智能技术挖掘、整理、保护和传播传统文化成为当今非物质文化遗产保护的方向。因而采用人工智能技术和数字化手段整理粤剧数据库,实现粤剧文化的数字化、科学化和规范化,具有重要的意义。

三、研究内容

(一)整理和构建科学的粤剧数据集

目前尚没有公开的、针对粤剧唱腔流派分类的统一数据集可供研究使用。因此,在进行分类研究之前,我们基于粤剧网、戏剧网、广东省艺术研究所等线上线下平台,收集了粤剧原始音频数据,整理并构建了一个科学、规范的粤剧音频数据集。

综合多方面因素,我们收集了以白驹荣、何非凡、红线女、罗家宝、马师曾为代表的五类唱腔,分别表示为Bai、He、Hong、Luo、Ma,并且进行了时域和频域的增广变换来丰富实验数据标签。共得到包含24部粤剧的WAV格式文件,每段音频文件的时长不等,音频采样率为44 100 Hz,均为粤剧唱段原始音频信号。通过在该数据集上进行训练与验证来观察模型的分类性能。

(二)音频信号预处理

在研究音频或音乐风格分类时,通常以相应的音频文件为输入数据。考虑到原始音频文件大小、时长等不一致,先对音频信号进行分析,包括音频信号的切片、分帧、加窗。

(三)特征工程

在粤剧中,艺术家独具风格的唱腔代表着某一流派的特点,而人的发声具有稳定性和个性特点,即声学特征。其中音色最能反映一个人的声腔特点,反映在波形图中即显现不同的振动形状。

声音可以通过图像来表示,信号随时间变化会产生不同的声音,其组成频率也会随时间而变化,因此可以将音频信号转化为二维图像,即声谱图。其中X轴是时间,Y轴是频率,颜色代表在离散坐标下振幅的真实值。由于声谱图能提供的信息数据要远远大于只有时域或频域提供的信息数据,通过声谱图可以获取指定频率段的能量分布情况,提取相应的时频特征。

将不同唱段的声谱图作为卷积神经网络(CNN)的输入,然后通过多个卷积层和池化层的组合网络,从底层特征迭代提取更复杂的特征,经处理后获取粤剧唱腔的深度特征。通过分析对比各流派唱腔的声谱图来感受不同流派唱腔的差异,进而实现粤剧唱腔流派的分类。

(四)基于CNN的粤剧唱腔分析分类模型

1.问题定义

在粤剧唱腔流派分类任务中,样本空间为粤剧数据集,唱腔流派标签集合为{Bai、He、Hong、Luo、Ma},最终的模型分类将会通过5维向量来返回识别到的音频信号文件属于哪个标签的概率。

2.模型描述

本研究提出了用于粤剧唱腔分析分类的基于CNN的深度学习模型,该模型由五个卷积块、一个展平层以及两个全连接层构成,模型的输入采用融合特征,其结构如图4所示。

每个卷积块使用相同的结构:3×3感受野、1×1步长的卷积层,激活函数为线性整流函数,采用2×2最大池化层对特征参数降维,并使用0.25概率的“dropout”防止过拟合。卷积层后连接一个展平层“Flatten”,将二维卷积展平为一维作为从卷积层到全连接层的过渡,并连接一个0.5概率的“dropout”层。最后,使用两个全连接层,第一个全连接层为256个隐藏单元,激活函数为线性整流函数,并连接一个0.25概率的“dropout”层。第二个全连接层作为输出,根据处理后数据集的需要,设置输出的单位为Num-genres,激活函数为Softmax,并得到分类结果。

四、实验分析

(一)实验设置

本研究的相关软硬件环境细节如表1所示。

网络模型在训练过程中以每批16条数据进行批训练,其中的学习率先设为0.001,选择最小均方误差作为损失函数,采用Adam优化器加速收敛,既能适应稀疏梯度,又能缓解梯度振荡的问题。在实验训练前,将音频数据集分别随机打乱,并分为训练集和验证集,所占比例分别为80%与20%。神经网络的输入大小为(128,128)。实验里选择的训练轮次为10次。

该部分实验采用精确率P(Precision)、召回率R(Recall)以及F1值(F1 measure)进行可行性评估,如下式所示。

式中,P为精确率,R为召回率,TP为真实的正样本数量,FP为虚假的正样本数量,FN为虚假的副样本数量。

(二)数据准备

实验数据集的相关信息依照粤剧数据集的内容进行设置,而在数据的预处理上,原始的粤剧曲目经切片操作后转换为多个等时长(4 s)的粤剧片段作为模型样本集,以80%和20%的占比划分训练集和验证集,音频片段均为WAV格式。其中涉及的参数如表2所示。

(三)实验结果

通过上文提到的CNN网络模型和粤剧音频数据集,比较模型在训练集与验证集上的分类性能表现,如表3所示。在训练集上按照上文所述的实验参数对粤剧唱腔分析分类网络模型进行训练后,又利用验证集对模型的分类性能进行评价。

由表3可知,使用频谱作为模型的特征输入,整体分类精度较高,部分类别达到90%以上。具体在训练集表现上,Luo、Hong的P值和F1值略低,但其整体平均的精度、召回率和F1值分别达到了86.63%、86.7%和 86.63%。而在验证集上,对应的表现平均值分别下降了3.59%、3.59%和 3.61%。这样小幅度的性能下降表明了模型具有较强的泛化能力,能够适应相似特征空间分布中采样的新数据。

五、研究体会和感受

这次研究使我们深刻认识到科技与传统文化的交融之美。通过探索人工智能技术在粤剧唱腔分析中的应用,我们不仅学到了人工智能相关技术知识,也更加理解传统文化的珍贵之处。尽管在研究中遇到了各种挑战,但通过努力探索,我们不仅提升了自身的技能,还培养了解决问题的能力和耐心。(指导老师:叶苑芬)

专家点评

粤剧唱腔丰富多样,如何对它们进行分类目前并没有统一标准。作者把它们分为以白驹荣、何非凡、红线女、罗家宝、马师曾为代表的五类唱腔,将其作为粤剧唱腔分类的一种尝试,有一定的创新性。

作者采用的卷积神经网络虽然算不上最新的技术,但作为中学生能够尝试用它来解决生活中的现实问题,值得肯定。

然而,该研究没有给出具体的样本数量,如果样本数量较少,结论就缺乏参考意义。建议增加对表3中训练集、验证集的样本数的说明,这样得出的针对“Bai、He、Hong、Luo、Ma”五个集的P、R、F1值才有意义。

猜你喜欢
粤剧流派唱腔
SINGING THE CHANGES
汉语世界(2021年4期)2021-08-27 05:47:54
“任派”唱腔——忆任哲中
当代陕西(2020年23期)2021-01-07 09:25:24
经典唱腔 适才做了一个甜滋滋的梦
黄梅戏艺术(2020年1期)2020-05-14 13:48:54
优秀唱腔《徽匠神韵》
黄梅戏艺术(2019年4期)2019-12-30 06:11:06
粤剧排场与粤剧传承
戏曲研究(2018年1期)2018-08-29 01:18:48
容轩读印——明代流派印(下)
艺术品(2018年5期)2018-06-29 02:15:04
1949—1951年粤剧“戏改”
戏曲研究(2018年4期)2018-05-20 09:38:52
粤剧传承中的“变”与“不变”
戏曲研究(2018年3期)2018-03-19 08:47:42
小戏唱腔之“体” 略说
戏曲研究(2017年2期)2017-11-13 03:10:30
海洋玉髓鉴赏收藏的“十大流派”
宝藏(2017年7期)2017-08-09 08:15:15