相空间重构和支持向量机的信号识别研究

2021-06-30 01:43首都医科大学附属北京妇产医院

电子世界 2021年11期

首都医科大学附属北京妇产医院刘婷

1 音乐信号识别的背景和意义

计算机来模拟人类识别音乐的过程一项较难的工作，而且，随着因特网的大兴其道，数字音乐也大量的产生，随之而来的是如何储存并建立合理的音乐检索方法，传统的音乐文件检索都是在知道音乐名称的基础上完成的，而如何建立基于内容的检索成为一个新兴的领域，这不但要求检索过程可以从音乐的任何一段开始，而且还要求对输入的错误有一定的纠错能力，因为有时使用者的输入并不一定与某些音乐对象相匹配，这就要求系统能够找出类似的样式来，另外，除了有效性，还应该尽可能得节省储存空间，因此，必须用一种合理的方式表达和储存原始音乐信号，而和弦作为音乐中的重要载体，包括三个或三个以上同时发声的音符，能够表达音乐中的重要信息成分，利用和弦储存音乐信息可以减少对冗余信息的存储，从而能够节约储存空间，提高储存效率。

2 主流的音乐信号识别方法

音乐信号识别算法大致可以分成三类：一类是利用时频分析的方法进行音乐识别，第二类是基于和声（harmonic）的和弦识别方法，第三类方法则是利用模式识别的方法，下面就通过一些具有代表性的具体方法来展示这些算法的特点。

2.1 基于时频分析的和弦识别

将时频分析应用到和弦识别当中是较为传统的一种方法。Zheng Cao等人利用针对频率域的手段提出了音符与和弦的识别方法，而在整个过程中应用小波变换的工具。音乐信号是典型的时频分布形态，并且具有短时稳定的特性，因此我们我们可以通过时频分析的方法进行音乐信号识别。

2.2 基于和声（harmonic）的单声道和弦识别方法

Chuan-Wang Chang等人提出了一种基于和声（harmonic）的单声道音乐和弦识别方法，该方法可以将单音旋律的音乐识别为相同的和弦效果，也就是用和弦来表示若干音符的效果。随着网络和数字音乐的兴起，如何高效地存储音乐资料是个热门的研究内容，其中，以和弦表示音乐资料可以大量减少存储空间，并可以提高容错的效果。

2.3 基于模式识别的和弦识别

对于专业的音乐人士，能够通过听力来进行音乐和弦种类的识别，而在信号分析识别领域，人们希望让计算机也具备这样的能力，从音乐和弦信号中提取出新的特征参量，并利用支持向量机进行和弦识别，其中具体的技术包括：

（1）相空间重构。随着混沌、分形等非线性理论的发展，在信号处理领域，非线性特征参量越来越多的被应用到信号分析、检测和识别当中，本文利用相空间重构提取音频信号的非线性特征用来构造分类器，并作为识别实验中的特征量。

（2）自适应信号分解。相关的研究表明，对音乐和弦信号直接识别并不能得到较好的准确率，因此，需要对音频信号进行预处理，再提取特征参量，本文将获取后的和弦音频利用EMD和NSP的方法分解成包含若干特征信息的子信号，然后对子信号进行相空间重构，从而得到和弦信号的非线性特征参量。

（3）支持向量机。支持向量机(SVM)是数据挖掘中的一种方法，能非常成功地处理回归问题和模式识别等诸多问题。在音乐和弦识别方法中，利用相空间重构后的非线性特征参量进行SVM分类器的构造，并进行相应的和弦识别实验。

基于上述技术建立的和弦识别的具体算法，可以较为准确地对不同种类的和弦进行识别。

3 利用相空间重构提取音乐信号

在音乐识别过程中，音乐信号中包含大量的信息，甚至是噪声，而其中很多信息是冗余的或者与识别无直接作用的，因此，在分类器构造和识别前要对音乐信号提取特征参量，既要能够反映出音乐因素的本质特征，同时也要去除对识别无关紧要的多余信息，以及降低噪声对识别的影响。

传统的识别方法是基于线性理论的，假设音乐信号随时间的变化是缓慢的，在这一理论下，大多数的方法是采用时频分析的手段，将音乐信号的时频特征作为分类器构造和识别的主要依据。尽管这种方法得到了广泛的研究和应用，但随着混沌和分形等理论的不断发展，语音信号的非线性本质特征逐渐被人们所认识和应用。研究表明，混沌的信号是由确定性系统产生的随机性的信号，具有时域不规则性和频域宽频谱的特征，在区分这两种信号方面，传统的时频方法效果不明显，而在语音识别过程中，对语音信号和随机信号，特别是噪声的区分是至关重要的。

近年来，混沌和分形等理论不断地发展，语音信号的非线性特征开始应用到信号处理和信号识别当中，其中，相空间重构（Reconstructed Phase Space，RPS）方法是提取语音信号非线性特征的有效手段，利用RPS提取音乐信号的非线性特征后，用于分类器的构造和识别中，可以产生很好的效果。在实际的相空间重构中，有两个参数是至关重要的，一个是延迟时间τ，还有一个是嵌入维m。在Takens的理论中，对于没有噪声影响的无限长时间序列，这两个参数可以取任意值，但是，在实际的应用中，大多数信号都会被噪声所干扰，因此，延迟时间τ和嵌入维m不能取任意值，需要通过一定的方法来确定，否则，会对重构后的特征矩阵产生严重的影响。

4 支持向量机的多类分类

支持向量机的多类分类有四种：一对一分类，一对多分类，有向无环图分类，基于二叉树的多类分类。其中主流的多类分类是有向无环图分类，基于二叉树的多类分类。

4.1 有向无环图分类

有向无环图（Dircted Acyclic Graph，简称DAG）算法在训练样本构造分类器时，和一对一算法相同，但在分类阶段将所有k(k－1)/2个两类分类器组成一种两向有向无环图的节点，k个类别是底层的“叶”，如图1所示。

图1 有向无环图分类法

当对未知样本训练时，从根结点开始分类，只需k－1步即可完成分类。和一对一分类算法相比，在分类过程中，减少了重复操作，很大程度上提高了分类的速度，这种分类方法的缺点是没有考虑样本不平衡数据对分类速度的影响，而且一旦在分类过程中出现分类错误就会产生错误的传递效果。

4.2 基于二叉树的多类分类

基于二叉树的分类方法首先把k类中最相近的k－1类看作是一类，把余下的一类看作另一大类，建立一个两类的支持向量机分类器，然后再在那k－1类中，取出最相近的(k－1)－1类看作一个大类，把那k－1类中余下的一类看作另外一大类，建立另外一个两类的分类器，依此类推，直到最后两类，其结构如图2所示。

图2 基于二叉树的多类分类法

对于k类分类问题，一共需要构造k－1个两类的分类器，基于二叉树的算法还可以克服以上几个算法中无法识别的阴影区域，而且重复训练的样本量少，可以提高训练和分类的速度。

结语：音乐信号是由混沌音组成的，存在着混沌机制，近年来很多研究人员都应用非线性理论处理相应的语音信号，其中相空间重构就是一种非常有效的方式。支持向量机是一种基于统计学习理论的机器学习方法，该方法在模式识别、回归分析和函数拟合等问题中得到较为广泛的应用，阐述了各种多类分类方法的优缺点，为识别信号实验打下了基础。