李昊璇, 师宏慧, 乔晓艳
(山西大学 物理电子工程学院, 山西 太原 030006)
融合声门波信号频谱特征的语音情感识别
李昊璇, 师宏慧, 乔晓艳
(山西大学 物理电子工程学院, 山西 太原 030006)
为了提高语音情感识别的准确率, 本文针对新的声门波信号频谱特征抛物线频谱参数(parabolic spectralparameter,PSP)和谐波丰富因子(harmonic richness factor,HRF)进行了研究, 并将其应用到语音的情感识别中. 提取6种不同情感(生气、 害怕、 高兴、 中性、 悲伤和惊奇)语音信号的发音速率和短时能量、 基音频率、 前3个共振峰、 12阶Mel频率倒谱系数(MFCC)的最大值、 最小值、 变化范围和平均值等常用特征构成一个特征矢量, 并利用主成分分析方法降维; 提取声门波信号的频谱特征PSP和HRF, 并分析了PSP和HRF的情感表达能力; 采用深度学习栈式自编码算法对只有常用特征以及融合了声门波信号频谱特征后的特征进行分类. 结果表明: 融合声门波信号频谱特征后识别率更高.
声门波信号; 抛物线频谱参数; 谐波丰富因子; 栈式自编码; 语音情感识别
语言作为人们之间交流最快最自然的方式[1], 被最早地应用于人机交互领域. 近50年来, 众多学者和公司在语音识别和合成领域取得了丰硕的研究成果, 但距离自然的人机交互依然很遥远, 因为机器还不能准确地理解人类的情感. 所以, 语音情感识别已经成为众多学者关注的一个研究方向[2]. 语音情感识别是依靠语音情感特征进行识别的, 通常语音情感特征包括韵律特征、 音质特征和谱特征. 一般来说, 韵律类特征主要反映了不同情感下语气的变化, 包括发音速率、 能量和基音频率等. 音质类特征主要与激励源和声道模型有关, 音质特征有共振峰和频谱能量等[3]. 谱特征是一种能够反映语音信号的短时功率谱特性的声学特征参数, 如LPC(Liner Prediction Coding)和MFCC(Mel Frequency Cepstrum Coefficient)等, 其中MFCC是最能反映语音信号的特征, 被广泛应用于语音情感识别.
近年来, 有关声源[4,5]的一些新的音质特征被应用于语音情感识别. Moore等人应用声门开闭时间及声门闪动信号, 实现说话人情感状态的识别[6]. 西北工业大学的白洁等人采用了一种新的语音情感特征NAQ, 以元音段的NAQ值的均值、 方差、 最大值和最小值为特征, 分别用GMM方法和k-近邻法对6种情感进行识别, 结果表明NAQ特征可以作为语音情感识别的有力特征之一[7]. 四川大学的何凌等人采用声门波信号幅度最大值时刻、 信号幅度最小值时刻、 声门关闭时刻、 声门打开时刻、 开商和闭商6个特征, 利用高斯混合模型进行识别, 结果表明声门波特征要优于传统的基音频率和共振峰特征[8]. 由此可见, 声门波特征对语音情感的识别具有很重要的作用, 但目前很多学者对声门波特征的研究是基于时域特征的, 提取声门波的时域特征(如开商、 速度商和闭商等)需要精确测量声门波的开启和闭合时刻, 而目前想要精确的测量声门波的开启和闭合时刻还有一定的难度, 这就使得时域特征的表达能力受到一定的限制, 因此, 在本文中采用了声门波信号频谱特征抛物线频谱参数(PSP)和谐波丰富因子(HRF), 对PSP和HRF分析表明: PSP和HRF对情感具有一定的表达能力, 融合声门波信号频谱特征识别率更高.
1.1 发音速率
发音速率是指发音音节个数与发音持续时间的比值, 在汉语语音中, 一个音节是指一个汉字. 研究表明发音速率与情感有很大的联系, 当人的情绪比较激动时, 发音速率会加快, 当人的情绪比较低落时, 发音速率会降低.
1.2 短时能量
语音信号的短时能量分析是反映语音信号幅度变化的一个参数, 它与情感有很大的关联. 对于信号{x(n)}, 短时能量的定义如下
式中:En表示在信号的第n个点开始加窗函数时的短时能量;x(n)是语音信号;w(n)是窗函数;N为窗长.
1.3 基音频率
语音信号是短时平稳的, 尤其是在发浊音的时候, 声带周期性的振动使得语音信号在短时间内是周期性的, 研究表明情感与基音频率有很大的联系. 本文采用准确率高并且鲁棒性强的基于残差信号谐波和的基音检测算法进行基频的提取[9].
1.4 共振峰
共振峰是反映声道的一个很重要的特征参数, 人在说话的时候, 声源激励中包含丰富的频率信息, 当声源激励通过声道的时候, 声道会对声源激励中丰富的频率产生共振, 使某些频率加强, 某些频率减弱. 通常用LPC方法估计共振峰, 它认为声道滤波器幅频或相频极点即为共振峰所在.
1.5 Mel频率倒谱系数(MFCC)
耳朵处理声音的方式相当于一个滤波器, 其效果在1 kHz以下是线性的, 在1 kHz以上是对数尺度. MFCC是根据人耳处理声音信号机制, 变换到Mel频谱上, 然后转换到倒谱域上.
2.1 主成分分析原理
运用语音信号处理技术得到多维的特征向量, 但维数过多的特征向量相关程度大, 冗余性高, 并且容易造成维数灾难. 主成分分析方法是一种能够有效减少相关性和冗余性的一种特征降维方法[10].
主成分分析方法[10]的基本思想是从特征矢量中计算出一组不相关的特征向量, 根据方差贡献率选择贡献率较大的特征向量作为新的特征方向, 将原始特征投影到低维特征向量空间.
假设原始特征维数为m维, 共有n个样本, 将其构建成一个m*n的矩阵, 则主成分分析过程为:
1) 对数据进行零均值和方差标准化预处理, 计算公式为
2) 计算样本矩阵的协方差矩阵:
3) 计算矩阵COVm*m的本征值和本征向量, 每个本征值对应一个本征向量, 组成多个本征向量对(γi, ei),将本征值从大到小排列, 使γ1≥γ2≥…≥γm.
4) 根据本征向量的方差贡献率选取前k个本征值所对应的本征向量作为主成分方向, 构造成一个m*k维的本征向量矩阵A, 方差贡献率计算如下
方差贡献率一般选取75%~95%.
5) 将样本按照式(6)投影到低维空间, 将此投影作为新的特征样本.
PCA(x)=ATX.
2.2 主成分分析结果
采用CASIA汉语情感语料库中情感表达能力比较强的一男一女发言人的语音数据, 选取每句语音的发音速率、 短时能量、 基音频率、 共振峰、 12阶MFCC系数的统计特征共69维特征, 此69维特征如表 1 所示.
表 1 常用特征
采用主成分分析方法对69维特征进行分析, 选取85%的方差贡献率的特征向量作为新的特征方向, 最终选取了29维特征向量作为新的特征方向. 此29维特征向量的本征值及方差贡献率如表 2 所示.
表 2 主成分分析结果
语音的产生一般分为调音和发音两部分, 调音主要是指由发音器官协调作用形成不同的声道形状, 从而产生共鸣合成不同声音; 发音主要指声门开启时释放出来的空气流, 其中浊音的声源是一准周期的声门波, 清音是无规则的白噪声. 一般采用基音同步迭代自适应逆滤波(PSIAIF)[11]算法对声门波进行提取. 如图 1 为浊音‘a’用不同情感演绎时的语音信号原始图以及提取到的声门波图.
图 1 不同情感下浊音‘a’的原始语音信号图和声门波信号图Fig.1 The original speech signal and the glottal waveformof unvoiced ‘a’under different emotions
由图 1 分析原始语音信号可知, 不同情感的语音信号幅度有很大差别, 生气、 高兴和惊奇的幅度整体比害怕、 中性和悲伤的幅度大. 分析声门波信号可知, 生气和惊奇的声门波信号幅值整体比较大, 也就是在生气和惊奇状态下声带振动时通过的气流要大, 其次是高兴和中性, 悲伤和害怕声门波信号幅值比较小. 惊奇和高兴状态下原始语音信号幅值接近, 但声门波信号却有很大的差别, 这说明不同情感状态下声门波信号是有区别的, 可以反映在声门波信号的频谱上, 其频谱的衰减程度以及谐波能量是有差别的. 本文采用可以反映声门波信号频谱衰减程度的抛物线频谱参数和谐波丰富因子这两个特征进行研究.
3.1 抛物线频谱参数(PSP)
图 2 图中蓝线为声门波的频谱, 红线为拟合频谱的抛物线函数Fig.2 The blue line in the figure is the spectrum of glottal waveform, the red line is the parabolic function of fitting spectrum
声门波具有低通的特性[12], 其频谱幅度随频率的增大而减小. 通过研究声门波对数频谱发现, 在低频部分(主瓣)的波形与抛物线极其相似, 如图 2 所示, 通过设计一个抛物线函数能够很准确地匹配声门波对数频谱的低频部分.
3.1.1 抛物线频谱参数
抛物线的表达式为Y(k)=ak2+b, 参数a决定抛物线的形状, 可以反映声门波频谱的衰减程度. 值得注意的是声门波频谱范围很大, 仅通过一个抛物线函数来匹配是不可能的, 只能用抛物线去匹配一定范围内声门波频谱波形(主瓣), 这个范围指从0 Hz到上限频率. 对于每个声门波来说, 其上限频率是不一样的, 上限频率是由声门波原始频谱和抛物线模型之间的误差所决定的, 逐渐增大频率值, 当平方误差超过一个阈值时的频率为上限频率.
在上述提到的参数a中, 包含有基频F0的信息, 所以采用将参数a归一化以消除基频影响后的PSP参数. 在归一化的过程中, 选用了频谱衰减最大的一个函数, 称这个函数为DC函数, 它的频谱函数为Sa函数的平方. 对DC函数的频谱进行抛物线匹配, 得到的衰减参数记为amax, 归一化就是声门波频谱衰减参数a和DC函数频谱衰减参数amax的比值, 其计算公式为
3.1.2 衰减参数最优化
在抛物线参数的最优化过程中, 使用最小化平方误差的准则. 在算法中, 将得到的声门波离散频谱表示为X(k), 用来匹配X(k)的抛物线函数表示为Y(k), 抛物线函数表达式可以表示为Y(k)=ak2+b. 平方误差是指声门波频谱X(k)与抛物线函数Y(k)差值的平方, 用E来表示, 它的计算方法为
最优化抛物线参数是使E对系数a和b的偏导数为0
由式(10)可得对参数b的最优化估计为
).
将由式(11)得到的参数b代入式(9)可得对参数的最优化估计
图 3 PSP特征图, 分别为浊音‘a’的原始语音信号、 声门波信号和PSP特征值Fig.3 PSP characteristic figure, the original speech signal, the glottal waveform and the PSP characterof voiced ‘a’
由式(12)可知a值依赖于N的选择,N为抛物线函数匹配声门波频谱的频率上限,N的值越大, 抛物线匹配声门波频谱的范围就越大, 表明抛物线匹配声门波频谱的结果越好. 最优的N值由归一化平方误差NE所决定, 最优的N值与最优频谱衰减参数a的计算由下面的迭代步骤来实现:
1) 初始化值N为3.
2) 由式(12)和式(11)分别计算参数a和b.
3) 计算归一化平方误差NE,NE由式(13)计算得到
4) 如果NE<0.01则将N值加1, 重复步骤2)~4), 直到退出循环.
如图 3 是浊音‘a’的原始语音信号、 声门波信号和PSP特征值.
图 4 PSP特征均值图Fig.4 Average ofPSPcharacter figure
3.2 PSP特征分析
采用CASIA汉语情感语料库, 计算每句语音浊音段对应的PSP特征均值, 如图 4 所示.
由图 4 可以看出对于不同的情感其对应的PSP是有差异的, 其中, 惊奇的PSP值最大, 然后依次是生气、 高兴、 平静、 悲伤和害怕, 害怕的PSP值最小. 由此可见, PSP特征与情感是有一定联系的.
3.3 HRF特征提取
谐波丰富因子(Harmonic richness factor,HRF)是反映声门波谐波频谱谐波能量的一个参数[13]. 在语音信号中, 低于第一共振峰的谐波对声音质量是重要的, 这是由于在这些谐波中蕴含着比较高的能量. HRF由式(14)定义
式中:Hi是指第i个谐波的幅值;H1是指基音频率的幅值.
图 5 为浊音‘a’的原始语音信号、 声门波信号和HRF特征值.
3.4 HRF特征分析
采用CASIA汉语情感语料库, 计算每句语音浊音段对应的HRF特征均值, 如图 6 所示.
由图 6 可以看出, 不同情感的HRF值有很大差别, 平静的HRF值最大, 接下来依次是悲伤、 害怕、 高兴、 惊奇和生气. 由此可见, HRF特征与情感具有一定的联系.
图 5 HRF特征图, 分别为浊音‘a’的原始语音信号、 声门波信号和HRF特征值Fig.5 HRF characteristic figure, the original speech signal, the glottal waveform and the HRF character of voiced ‘a’
4.1 栈式自编码
栈式自编码由稀疏自编码网络级联一个softmax分类器构成[14]. 其中, 稀疏自编码网络用于学习特征, 隐含层神经元即为学习到的特征, 可以采用多个稀疏自编码网络构成一个多层的特征学习网络. Softmax分类器是一个非线性分类器, 可以有效建立特征与标签之间的联系. 栈式自编码器具有如下特点:
1) 网络由多层构成, 多层的网络设计使得栈式自编码算法能够挖掘更多的信息.
2) 栈式自编码的传递函数可微, 一般采用Sigmoid函数或Than函数作为传递函数, 因此采用梯度下降法进行训练.
图 7 栈式自编码网络模型Fig.7 Stacked autoencodermodel
3) 栈式自编码采用自编码网络, 能够自动提取特征, 提取到的特征存放在隐含层. 并且在自编码网络中加入了稀疏性限制, 使得网络更接近人脑的信息传递规则.
4) 采用softmax回归模型作为分类器, 它是一个非线性的分类器, 能够更好地建立特征与分类结果之间的关系.
5) 栈式自编码是一个多层网络, 采用逐层贪婪算法每次只训练网络的一层[15,16]. 当所有层都训练完成后, 各层单独训练得到的权重被用来初始化多层网络的权重, 然后采用反向传播算法同时对所有层的参数微调, 避免陷入局部最优和防止产生梯度弥散问题.
如图 7 是一个包含两个隐含层的栈式自编码网络模型, 其中, 第一个隐含层是输入为样本的稀疏自编码网络学习到的隐含层特征Feature Set 1, 第二个隐含层是输入为Feature Set 1的稀疏自编码网络学习到的隐含层特征Feature Set 2, 将Feature Set 2作为softmax分类器的输入, 输出为样本所对应的类别.
4.2 识别结果
4.2.1 情感语音数据
采用由中科院自动化所模式识别国家重点实验室人机语音交互课题组录制的汉语情感语料库, 由2男2女分别用6类不同的情感(生气、 害怕、 高兴、 中性、 悲伤、 惊奇)对50句文本进行演绎而得到, 16 kHz 采样, 16 bit量化. 采用情感表达最准确的一男一女发音人的语音数据作为实验数据, 采用60%的数据(360句)作为训练数据, 40%的数据(240句)作为测试数据.
4.2.2 栈式自编码识别
采用训练样本训练一个包含两个隐含层的栈式自编码网络, 将测试特征集输入到训练好的栈式自编码网络中, 将测试数据判别为softmax分类器概率值最大的一类. 整个识别过程分为两部分, 第一部分只对29维常用特征进行分类, 第二部分融合声门波信号PSP和HRF特征的均值和方差进行分类.
将网络平均激活度设为0.05, 稀疏自编码和softmax分类器迭代次数设为200, 微调迭代次数设为400次. 对于只有常用特征的分类, 经过调整参数, 当两个隐含层包含13个节点, 稀疏惩罚因子设为2, 权重衰减项设为8×10-4时, 分类效果最佳, 分类结果如表 3 所示.
表 3 栈式自编码常用特征分类结果
对于融合声门波特征的分类, 经过参数调整, 当两个隐含层包含17个节点, 稀疏惩罚因子设为2.4, 权重衰减项设为2×10-3时, 分类效果最佳, 分类结果如表 4 所示.
表 4 栈式自编码融合声门波特征分类结果
由表 3 和表 4 可以得知, 只有常用特征时, 栈式自编码的平均准确率为89.17%; 融合声门波特征后, 栈式自编码的平均准确率可达91.25%. 融合声门波特征后, 栈式自编码的分类正确率提高了2.08%. 由此可见, 声门波信号PSP特征和HRF特征对于情感具有一定的表达能力.
本文将声门波信号频谱特征PSP和HRF应用到语音的情感识别中, 结果表明PSP和HRF对情感具有一定的表征能力. 采用深度学习栈式自编码算法分别研究了只有常用特征与融合声门波特征后的分类效果, 结果表明: 融合声门波频谱特征PSP和HRF比只有常用特征的分类效果要好.
[1] Vogt T, Andre E, Wagner J. Automatic recognition of emotions from speech:a review of the literature and recommendations for practical realization[J]. Affect and emotion in HCI, 2008, (4686): 75-91.
[2] Ververidis D, Kotropoulos C. Emotionspeech recognition: resources, features, and methods[C]. Speech communication, 2006, 48(9): 1163-1181.
[3] 张石清, 李乐民, 赵知劲. 人机交互中的语音情感识别研究进展[J]. 电路与系统学报, 2013, 18(2): 440-451. Zhang Shiqing, Li Lemin, Zhao Zhijin. A survey of speech emotion recognition in human computer interaction[J]. Journal of Circuits and Systems, 2013, 18(2): 440-451. (in Chinese)
[4] Iliev A I, Scordilis M S, Papa J P. Spoken emotion recognition through optimum-path forest classification using glottal features[J]. Computer Speech & Language, 2010, 24(3): 445-460.
[5] Sundberg J, Patel S, Bjorkner E. Interdependencies among voice source parameters in emotional speech[J]. IEEE Transactions on Affective Computing, 2011, 2(3): 162-174.
[6] Moore R, Clements M A, Peifer J W, et al. Critical analysis of the impact of glottal features in the classification of clinical depression in speech[J]. Biomedical Engineering, IEEE Transactions on, 2008, 55(1): 96-107.
[7] 白洁, 蒋冬梅. 归一化振幅商在语音情感识别中的应用[J]. 计算机仿真, 2009, 26(2): 183-186. Bai Jie, Jiang Dongmei. Normalized amplitude quotient feature in emotion recognition[J]. Computer Simulation, 2009, 26(2): 183-186. (in Chinese)
[8] 何凌, 黄华, 刘肖珩. 基于声门特征参数的语音情感识别算法研究[J]. 计算机工程与设计, 2013, 34(6): 2147-2151. He Ling, Huang Hua, Liu Xiaoheng. Speech emotion detection based on glottal signal features[J]. Computer Engineering and Design, 2013, 34(6): 2147-2151. (in Chinese)
[9] Drugman T, Alwan A. Joint robust voicing detection and pitch estimation based on residual harmonics[C]. Proceedings of the Annual Conference of the International Speech Communication Association. 2011: 1973-1976.
[10] 张学工. 模式识别[M]. 北京: 清华大学出版社, 2010.
[11] Alku P. Glottal wave analysis with pitch synchronousiterative adaptive inverse filtering[J]. Speech Communication, 1992, 11(2/3): 109-118.
[12] Alku P, Strik H, Vilkman E. Parabolic spectral parameter-a new method for quantification of the glottal flow[J]. Speech Communication, 1997, 22: 67-79.
[13] Childers D G, Lee C K, Vocal quality factors: analysis, synthesis, and perception[J]. Acoust. Soc. Amer., 90(5): 2394-2410.
[14] Lu Yaping, Zhang Li, Wang Bangjun, et al. Feature ensembel learning based on sparse autoencoder for image classification[C]. 2014 International Joint Conference on Neural Networks, 2014, Beijing, China.
[15] Geoffrey E. Hinton, Simon Osindero, Yee-Whye Teh. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.
[16] Yoshua Bengio, Pascal Lamblin, Dan Popovici, et al. Greedylayel-wise training of deep networks. Proc of the 12th Annual Conference on Neural Information Processing System[J]. Vancouver and Whistler(CA), 2006: 153-160.
Speech Emotion Recognition Combined with the Spectrum Feature of Glottal Waveform
LI Haoxuan, SHI Honghui, QIAO Xiaoyan
(College of Physics and Electronics Engineering, Shanxi University, Taiyuan 030006, China)
In order to improve the accuracy of emotional speech recognition, the parabolic spectral parameter(PSP) and harmonic richness factor(HRF)which are frequent domain features of the glottal waveform are analyzed, and they are applicated in speech emotion recognition. First of all, acquisition the pronunciation rate and the maximum, minimum, range and average of pitch frequency, first three formant parameters, 12 order Mel frequency cepstrum coefficients(MFCC) of six different emotions speech signals(angry,fear,happy,neutral,sad, surprise) to construct a feature vector, And use principal component analysis (PCA) method to reduce the vector dimension; Then, extract PSP and HRF of the glottal waveform, and analyze the emotional expression ability of PSP and HRF; Finally, using the stacked autoencoderclassifier aims to classify the features which are traditional and have the characteristics of the glottal signal. The results show that it can achieve a higher recognition rate to combine with thethe spectrum feature of glottal waveform.
glottal waveform; parabolic spectral parameter; harmonic richness factor; stacked autoencoder; speech emotional recognition
1671-7449(2017)01-0008-09
2016-11-10
山西省回国留学人员科研资助项目(2014-010); 山西省自然科学基金资助项目(2013011016-2)
李昊璇(1982-), 男, 讲师, 博士, 主要从事语音信号检测与处理方面的研究.
TN912.3
A
10.3969/j.issn.1671-7449.2017.01.002