艺术嗓音的基频参数估计方法研究

2013-04-29 00:44:03杨美萍尚海燕周静

音乐天地 2013年8期

杨美萍　尚海燕　周静

艺术嗓音是衡量歌手歌唱水平的重要指标，在选拔和培养歌手的过程中对艺术嗓音的评价占据着重要的位置。特别是艺术院校，在招生和教学、考核环节对艺术嗓音进行客观和公正的评价更为重要。

在选拔与培养歌手的过程中，对嗓音的评价非常重要。传统的评价方式是通过几位评委来给歌手评价，这种方法主观性强，难以做到对每一个歌手客观、公正地评价。客观定量的评价嗓音、艺术嗓音的报道随着计算机在各领域的开发与应用而日渐增加。平野实1990年在《人类声音的客观评价》一文中指出目前发声机能检查的其中一个目的就是为了评价发声机能（平野实，人类声音的客观评价[J]，临床方面，国外医学耳鼻咽册，1990，14（5）：274.）；胡维平、王修信等1998年《嗓音客观评价的探讨》中得到正常成人/a/音的频域呈稳定的分布（胡维平，王修信，嗓音客观评价的探讨[J]，听力学及言语疾病志，1998，6（04）：193-195.）。这些研究都说明了可以利用科学手段客观评价艺术嗓音。

声乐教学是复杂的系统工程，目前采用的是教师个人面对面的技艺传授形式，如果能辅以利用计算机对歌唱信号的共振峰、基频、音域、平均能量等声学参数进行定量的分析，以稳定可靠的科学手段观察、测量、分析人发音时的各种影响因素，给歌唱者以客观的评价，并通过上述参数定量反映学生嗓音发声机能的状态、嗓音发挥是否理想，并探索其中存在的规律性，将大大改善声乐教学的质量。同时利用计算机技术可以将声音以图形的方式显示，从而间接地了解声道的变化。歌唱者不仅能听到自己的声音，还能通过计算机看到自己的声音，并通过声谱样板进行比较，来发现自身的不足，从而进行自我强化训练，提高自己的歌唱水平。

本文通过采集艺术嗓音的声学信号，用三种不同的方法分析提取基频参数，并分析基频参数的变化规律及其对艺术嗓音评价的量化影响，然后将结果应用于声乐教学中，取得了很好的效果。

一、评价艺术嗓音的声学参数

评价艺术嗓音的声学参数包括基频、共振峰、平均能量和音域等，在研究这些参数与歌唱水平的关系之前，研究这些参数的正确提取与估计方法是十分重要的。共振峰主要用来评价歌手的音质、音域，反映歌手的发声能力，是艺术嗓音研究的重要指标；平均能量主要用来反映在相同环境下歌声信号的大小。基音是每个乐音中频率最低的纯音，其强度最大，基音的频率即为基频，决定整个音的音高，在艺术嗓音评估时是非常重要的一个参数。本文主要研究艺术嗓音声学信号的基频参数的估计方法，并将研究成果在声乐教学中进行验证。

1、基频定义

基频是发浊音时声带振动的基本频率；除与声带本身的基本特征（长度、质量、张力等）有关外，还受环甲肌、甲杓肌及声门下压的调节。由于发声器官生理方面的差异，男性和女性的基频范围不同，一般地，成年男性的基频范围为50～250Hz；成年女性的基频范围为120～500Hz。

2、基频提取原理

基音是指发浊音时声带振动所引起的周期性，而基音周期是指声带振动频率的倒数。语音信号处理中基频的提取和估计可以分为三类：时域的方法、频域的方法和统计的方法。频域的方法一般采用倒谱法来提取，即：将语音信号变换到频域或者倒谱域来估算基音周期，基音周期的倒数就是基音频率，简称之基频。时域方法主要包括过零率、自相关函数法、峰值率和平均幅度差函数法等，本文在相同的歌唱信号采样样本基础上分别采用倒谱法、过零率、自相关函数法和平均幅度差函数法来提取语音信号的基频并将结果进行比较。文中以音高/do/为基准来提取基频，采样样本中所唱的最低的音高是|do|。

3、倒谱法

语音信号可看做是音高基准信号通过不同的发声系统而产生的输出，将发声系统看作线性时不变系统，语音信号就卷积信号。为了能用线性方法对其进行后续处理，先用卷积同态系统对其进行加工分解。设原语音序列为x（n），根据时域卷积定理时域卷积相当于频域乘积，故首先对原序列取傅立叶变换，再取对数，将输入与系统关系以线性叠加关系描述出来，再经过傅立叶拟变换恢复为时域序列。这样经过卷积同态系统后输出的是伪时域序列，称之为原序列的“复倒频谱”（王晓亚，倒谱在语音的基音和共振峰提取中的应用[J]，无线电工程，2004，34（1）：57-61.），用x（n）表示。它的定义式表示如下：

歌手在歌唱发浊音时，设声门发出的是一有限长冲激序列，它是以基音周期为周期的序列，经过求倒谱得到的伪时间序列也是一个周期冲激序列，并且周期不变。由定义可知倒谱的伪时间序列的衰减速度比原序列要快。另外，由于倒谱是复倒谱的偶对称分量，它具有与复倒谱相同的基音周期，由于计算方便而更容易精确获得，基音周期的倒数就是待估计的基频。

4、过零率法

过零率是通过观察语音信号的波形重复自己的频率来估计出基频（张杰，龙子夜，张博等，语音信号处理中基频提取算法综述[J]，电子科技大学学报，2010，39（4）：99-101.）。这些方法的理论依据是，如果语音信号是周期的，那么事件就会随着时间不断重复出现，将单位时间内的发生次数统计出来，就能估计出基频。简单的说，过零率就是单位时间内波形通过零点的次数。基频是过零率的一半，过零率求出来之后再除以2就能得到基频。但是这样的方法提取基频有一定的误差，如果信号的能量都集中在基频的附近，那么一个周期内它将两次穿过零。但是如果信号包含了高频能量，在一个周期内它穿过零的次数将大于2。所以如果使用过零率检测基频，要先滤掉高频成分。确定滤波器的截止频率，尽可能多地去掉高频成分，得出的结果才更接近真实值。

5、自相关函数法

以两个信号之间的相关函数来度量它们之间的相似性，如果两个信号波形开始时间的延迟发生变化则相关函数的结果也将发生改变。自相关函数是信号自身的相关函数，以自相关函数度量信号自身的相似性。对于无限长的离散信号x（n），自相关函数的定义为：

其中y为信号的延时。若x（n）为长度为N的离散信号，则自相关函数的定义为：

若x（n）是周期函数，则自相关函数也是周期性函数，并且在基音周期的各个整数点上有很大的峰值。因此只要计算出自相关函数峰值的周期，再取周期的倒数就能得到基频。

6、平均幅度差函数法

平均幅度差函数法的计算公式为：

这种方法与自相关函数法相同，对于周期性的函数，平均幅度差函数也呈现周期性，不同点在于自相关函数法的结果在基音周期的各个整数点有很大的峰值，而平均幅度差函数法在基音周期的各个整数点有谷值。

二、基频参数的估计

1、艺术嗓音声学信号的采样

本文使用的艺术嗓音声学信号的采集在专业录音棚中进行，分别请一个班30位男女歌手唱出不同音高，不同元音声音信号，以44100Hz为采样频率对歌声信号进行采集，文件以wav形式存贮。

2、倒谱法基频估计

倒谱法估计基频属于频域方法。利用倒谱算法提取基频的步骤如下：首先读入歌手的语音信号序列并截取所需的信号段，然后对其进行傅立叶变换，取幅度谱的对数后再做傅立叶逆变换。估计的目的是求得基频信号，最后一步傅立叶逆变换得到伪时间序列，其具有与原时间序列相同的基音周期，求得周期也就得到了基频。从信号处理角度而言，在频域估计伪时间序列的基频信噪比更高，估计更为准确。因此，倒谱估计基频的过程中，不再进行最后一步的傅立叶逆变换，直接在频域估计基频信号。根据先验知识，女性基频信号的范围为120～500Hz，因此在此频段搜索伪时间序列的最大值，它所对应的频率位置就是所求的基频。

下面对女歌手Md_yang的歌声信号应用倒谱法估计基频，歌唱为小字一组do的/a/持续时间波形如图1所示，总持续时间约5.6秒。按照上述求倒谱步骤，利用每1秒钟的数据计算基频，结果如表1所示。

每秒钟的基频最大相差约10Hz，这5.6秒数据的基频均值为266.20Hz。图2第一组为0-1秒时间数据的傅里叶变换频谱图，其中纵坐标根据倒谱定义取幅度谱的自然对数；图3为第一组4-5秒时间数据的傅里叶变换频谱图，其中纵坐标定义同上；对比图2和图3。图2的表现谐波性更强，声音更加的干净。图3信号的傅立叶变换的频谱更加的丰富，声音信号中也可以听出来略有颤音。每组各时间段基音频率的估计值都在合理的范围之内。虽然利用不同的时间段估计基频值略有不同，但结果也是合理的，因为发声的声腔本身也是时变的，但对于一个音高来说，应该是越稳定越好。该歌手依次3组录音，由第二组和第三组的基频估计值来看，不同时间段基频的差异越来越小，声音信号渐渐稳定的。由同一音高上不同的三组数据估计的基频数值也非常接近，这三组数据估计的基频均值为264.89Hz。

3、过零率法基频估计

过零率法假设语音信号是周期的，通过估计波形的重复率计算基频，即统计单位时间内的语音波形的重复发生次数。此方法比较简单，属于时域估计方法，实用中只要统计出单位时间内波形的过零率，过零率就是单位时间内波形通过零点的次数。如果信号的能量都集中在基频的附近，那么一个周期内它将两次穿过零，基频等于过零率的一半。为提高估计精度，首先要滤除信号中高频分量，可根据歌手特征分别设计低通滤波器，也可以根据所有歌手的统一声音特征设计低通滤波器。仿真中采用配合歌手特征设计低通滤波器，通带频率为500Hz，截止频率选为600Hz，衰减40dB。采用时域相关原理可以很容易计算出单位时间内波形穿过零点的次数，估计出语音信号的基频。

下面仍采用歌手Md_yang歌声信号，应用过零率法估计基频。估计结果如表2所示。

三组数据的估计结果的趋势与倒谱法具有一致性。第二组与第三组数据估计基频的稳定性较好，三组数据过零率法提取的基频均值为291.21Hz。

4、自相关函数法基频估计

此方法属于时域的方法，同样是通过观察语音信号的波形重复自己的频率来估计出基频。如果语音信号是周期的，那么自相关函数也呈周期性，并且在基音周期的各个整数点上有很大的峰值。在自相关波形中找出几个峰值算出基音周期，取倒数后就得到基频，由于自相关函数的峰值非常显著，这种方法对低信噪比信号更为有效。仍对歌手Md_yang声音信号利用自相关函数法进行基频估计，估计结果如表3所示。

图4是从原语音波形中截取0-1秒数据进行自相关波形，放大自相关波形的峰值，可见是周期性变化的，峰值周期的倒数就是基频值。自相关函数法对三组信号进行基频估计的均值为265.01Hz。由图4可以看出，由于自相关信号处理方法，增强了信噪比，图中信号的周期性十分的明显，信号估计精度会较过零率法更高。

5、平均幅度差函数法基频估计

此方法也是时域的方法，与自相关函数法相类似，不同点在于自相关函数法的结果在基音周期的各个整数点有很大的峰值，而平均幅度差函数法在基音周期的各个整数点有谷值。应用这种方法对歌手Md_yang进行基频估计，估计结果如表4所示。

图5为平均幅度差波形的放大图。从图中可以看出波形是周期性变化的，求得谷值周期，其倒数就是基频，表4中平均幅度差法估计的基频均值为263.98Hz。

三、结果分析与总结

将30个歌手的数据进行分析，将三组数据的四种基频估计方法求得的基频平均值与方差总结于同一表格中，方便进行比较，并表5所示。由方差可以看出，平均幅度法的方差最小，基频估计值最为稳定，过零率法的方差最大，估计最不稳定。同时从程序的计算量角度来说，四种方法中，过零率法计算量用时最少，因为运算方法简便，而平均幅度差法的计算用时最多。

将四种方法基频估计的平均值再一次平均，得到基频值为271.27Hz，方差为13.30。如果不包含过零率方法，将另外三种方法进行平均，则得到基频值为264.63Hz，方差为0.56。即四种方法中，除过零率方法外，三种方法的估计方差非常小，说明三种方法基本相当。另外三种方法均值与总均值的相对误差分别为：0.10%，0.14%，0.25%。因此综合基频估计方差和三种方法均值的相对误差及编程的计算量来看，倒谱法与自相关法比较适用。

艺术嗓音是职业歌手的第二生命，在选拔与培养歌唱人才的过程中，对嗓音的评价占了非常重要的位置。因此对艺术嗓音正确客观地评价是十分重要的。利用现代计算机和声学知识原理对艺术嗓音信号进行分析与评价，是一种评估歌唱信号的有效方法，具有无侵入性、数字化、形象化、科学化等优点。对艺术嗓音信号基频正确稳定的估计，必会对嗓音评价打下坚实的理论基础。