基于深度学习的电子音乐信号辨识系统研究

2020-07-31 07:01李立

现代电子技术 2020年15期

李立

（黄淮学院，河南驻马店 463000）

0 引言

电子音乐是使用电子乐器以及相关技术制作的音乐，使用的电子乐器通过相应的数字接口、合成器、音序器和计算机实现音乐数据交换[1]。随着计算机技术的发展，对计算机视听觉信息处理做更细致而深入的研究，通过人工智能技术能够使计算机听懂音乐。而以往的电子音乐信号辨识系统已经不能满足现在的需求，虽然传统系统中利用音频识别软件可以实现电子音乐信号辨识，但是对于存在过多转调的电子音乐，系统解码需要的时间过长[2]。为了解决传统的电子音乐信号辨识系统中存在的问题，本文设计了一个深度学习的电子音乐信号辨识系统。

人工智能技术是目前主流发展技术，它是由计算机科学技术发展来的，以生产出一种新的以人类智能相似的方式对事物做出反应的智能机器为目的，应用领域非常广泛，对于不同的领域，应用技术有所不同[3]。对于电子音乐信号辨识系统，使用深度学习领域中的相关技术，通过构建具有隐含层和海量训练数据来建立和模拟人脑，布置能分析学习的神经网络，模仿人脑的工作机制而解释数据，达到辨识电子音乐的目的。

1 深度学习的电子音乐信号辨识系统硬件设计

1.1 总体结构设计

电子音乐信号辨识系统由硬件和软件构成，其中，硬件部分主要由音频采集模块、音频处理模块、存储模块以及电源模块组成[4]。硬件整体结构如图1 所示。

人类能够听到的声音信号范围在20 Hz～20 kHz 之间，是一种模拟信号，在音频采集模块中，设置声音传感器，传感器起到的作用类似于话筒，用来接收电子音乐音频信号[5]。利用接口将接收到的信号传输至音频处理模块，经过模数转换、信号放大等过程处理音频信号，处理完成后存储至存储模块中，同时，通过音频设备接口传输至计算机中，通过软件部分辨识电子音乐[6]。

图1 系统硬件结构图

1.2 音频处理模块设计

在电子音乐信号辨识系统中，音频处理模块的核心是DSP 微处理器，由DSP 核心芯片支撑，音频采集后的集中处理在该模块中实现。从实际出发，综合系统的实际功能需求，选择使用TI 推出的TLV320AIC23 芯片，也被称为AIC23 芯片，它是一种支持MIC 和LINE IN 两种输入方式的芯片，并且对于音频的输入和输出，具有可编程增益调节。芯片内部高度集成了数模转换和模数转换，有助于提高音频处理速度[7]。另外，采用先进的过采样技术，在8～96 kHz 的频率范围内提取16 bit，20 bit，24 bit和32 bit的采样，其中ADC的信噪比可以达到90 dB，DAC 信噪比可以达到100 dB。同时，该芯片具有极低的能耗，工作频率在15～25 mW 之间。相关实物图如图2所示。

图2 相关硬件实物图

采集的音频在音频处理模块中的处理过程有缓冲放大、模数转换以及程控增益[8]。其中，缓冲放大是将音频信号提升至模数转换入口的幅度要求，同时，还能够防止音频信号放大失真。时间连续的模拟信号不能直接数字化处理，利用AD7888 模数转换器将其转换为数字信号，再传输到计算机上识别电子音乐。程控增益是为了用户更好地控制调整音频信号，实现在线参数修改，用户与程序增益功能的交互是通过编码开关来实现的，用户可根据自己的需求调整开关到合适的挡位，使用户选择的增益比例精度更高，满足更精准的控制要求[9]。

2 深度学习的电子音乐信号辨识系统软件设计

2.1 音频信号预处理

为了消除口唇辐射和声门激励所带来的的影响，消除低频干扰，对音频信号执行预处理操作，提升电子音乐信号辨识更为有用的部分，使音频信号的频谱变得更平坦[10]。将音频信号通过一阶的数字滤波器处理：

设未经处理的音频信号为s( )t ，经过处理后结果为：

式中：H( z )表示传递函数；ω 表示数字频率；z 表示极点；c( t )表示t 时刻的输出；s( t )表示t 时刻的输入；c(t-1)表示上一刻的输出。

经过数字滤波处理后，采用可移动的汉明窗执行加窗分帧处理，使音频特征始终保持稳定[11]。分帧处理采用帧与帧之间交替重叠的方法，其交替部分就是帧移，其目的是使帧与帧之间平滑过渡，保持连续性。

在保证帧与帧之间平滑过渡，减小音频的截断效应后，进入端点检测步骤，端点检测是电子音乐信号辨识的关键，对后续特征提取有很大影响[12]。从带有噪声的音频中准确地找出某个单音的起始点和终止点，抑制无声段的噪声干扰，同时减少数据量和运算量，减少处理时间。

音频预处理完成后，利用倒谱参数提取电子音乐特征参数，转化为特征向量，以此为基础辨识电子音乐。

2.2 提取电子音乐特征

电子音乐音频特征的提取，可利用人工智能技术中的机器学习，利用提取的特征建立神经网络模型，同时训练单音样本作为输入，与待辨识的音频进行对比[13]。电子音乐信号辨识系统需要提取其音频特征，从原始音频信号中提取音频特征，因不同的电子音乐类型存在各方面的差异，如电子乐器的不同或电子机械技术的选择不同等，导致产生的音频信号不同。采用倒谱参数MFCC 提取特征，其核心思想是利用人耳的感知特性，能够反映音频信号的能量在不同频带的分布，不同单音的音频信号能量集中在某个固定频带上的情况是一种描述电子音乐中单音的有效手段[14]。MFCC 参数是按帧计算的，首先通过FFT 得到经过预处理的音频帧信号的功率谱，将其转换为Mel 频率下的功率谱。转换公式如下所示：

式中s表示频率。

得到功率谱后，计算功率谱通过N 个滤波器后得到的功率值，取自然对数，得到预备音频信号特征，经过离散DCT 变换，得到MFCC 参数。获得了每个单音的特征参数后，由于每个单音的长度各不相同，而神经网络上的输入节点是固定的，每个单音的特征参数需要经过时间和幅度的归一化处理[15]。最后得到的单音特征就是提取的音频特征，将其视为一维向量，作为神经网络的输入，用于电子音乐信号辨识。

2.3 基于深度学习的电子音乐信号辨识

人工智能技术涵盖的技术范围过于广泛，网络结构过于丰富，首先需要确定系统中使用的网络结构。假设获得的单音信号特征是60 维特征，则神经网络的输入层节点数就是60，隐含节点数为单音分类数设为15，隐含层节点数与输出层节点数相同，则神经网络的结构确定为60⁃15⁃15。在网络隐含层设置一个固定为1 的偏置，连接各个输出节点，参与权值训练。设置输出层到隐含层之间为全连接，无需给定权值，可直接计算。每个单音对应一个训练样本，也就是15 个训练样本，将其作为质心集输入，确定隐含层每个节点的函数形式，得到每个隐含节点的输出。再根据已知的输出层信息使用线性最小二乘法计算出隐含层到输出层之间的连接权值，建立起完整神经网络模型，作为电子音乐信号辨识的分类器。神经网络结构如图3 所示。

图3 神经网络模型结构

分类器确定后，将训练集中的单音输入其中，每输入一个单音数据的60 维特征矢量，就可以得到经过隐含层和输出层计算后的每个单音的可能性大小，该值介于0～1 之间，取值最大的就是输出的结果，将其与输入的MFCC 特征对应的音符比较，判断是否相同，输出最后结果，完成电子音乐信号辨识。

3 系统性能测试

3.1 测试文件处理

本次测试主要针对存在过多转调的电子音乐，使用设计的深度学习的电子音乐信号辨识系统，测试音频文件解码时间，同时，引用传统的电子音乐信号辨识系统获得测试结果，对比分析。为了使测试的文件满足测试要求，选择文件大小超过100 MB的音频文件，利用Matlab软件截取部分音频信号，其波形如图4 所示。

图4 原始待测音频信号波形图

该音频文件中转调比较少，利用Adobe Audition 软件重新编辑音频，使该音频文件存在不同的转调，编辑完成后，通过Matlab 软件截取相同部分音频信号，获得的波形如图5 所示。

图5 处理后的音频信号波形图

使用处理后的音频文件作为输入，测试其在不同的电子音乐信号辨识系统下所需的解码时间。

3.2 测试结果及分析

使用不同的电子音乐信号辨识系统测试的结果如图6所示。

图6 不同辨识系统测试结果

其中，图6a）是使用传统的电子音乐信号辨识系统测试的结果，其解码速率为1 345.79 Kb/s，完成时间为76.28 s。图6b）是使用设计的基于人工智能的电子音乐信号辨识系统获得的结果，解码速率为2 836.47 Kb/s，解码时间为36.11 s，两者相比，解码速率提高了2 倍以上，说明该系统有效地解决了传统系统中存在的问题。使用建立的神经网络模型，通过分布式并行信息处理的方法，依靠内部大量节点之间的关系，达到快速处理的目的。

4 结语

深度学习的电子音乐信号辨识系统对电子音乐的发展具有十分重要的作用，该系统不仅能辅助专业的等级考试，而且也适用于非专业人员学习音乐。该系统在硬件设计中加入了程控增益功能，更好地控制精度，为后续提取音频特征提供了一定的帮助，同时，使用人工智能技术建立神经网络模型，将其作为分类器，实现电子音乐的辨识。经过对比测试，证明了本文系统克服了传统辨识系统的缺点，对于转调过多的文件，缩减了系统的解码时间，适合应用在实际生活中，方便各行各业学习和了解电子音乐，为电子音乐的发展做出一份贡献。