基于语谱图的老年人语音情感识别方法

2018-12-10 09:13张若凡黄俊古来
软件导刊 2018年9期
关键词:维纳滤波卷积神经网络

张若凡 黄俊 古来

摘要:针对老年人的语音情感识别问题,提出一种基于语谱图的老年人语音情感识别方法。首先采用一种改进的基于先验信噪比的维纳滤波算法,针对老人语音情感库EESDB进行语音增强,选取合适的语音情感库,对语音进行语谱图特征提取与规范化,然后分析卷积神经网络(CNN)的结构并选定Cifar10网络对语谱图进行分类,最后采用3种方案进行对比实验。实验结果取得了较高的情感识别率,表明了该方法的有效性和可行性。

关键词:老年人语音情感识别;语谱图;维纳滤波;卷积神经网络

DOIDOI:10.11907/rjdk.181094

中图分类号:TP301

文献标识码:A文章编号文章编号:16727800(2018)009002804

英文标题Speech Emotion Recognition for the Elderly Based on Spectrogram and CNNs

--副标题

英文作者ZHANG Ruofan,HUANG Jun,GU Lai,XU Ermin,GU Zhixing

英文作者单位(School of Telecommunications and Information Engineering,Chongqing University of Posts and Telecommunication,Chongqing 400065,China)

英文摘要Abstract:To solve the problem of speech emotion recognition for the old people,a method of speech emotion recognition based on spectrogram is proposed.Firstly,the method used an improved Wiener filtering speech enhancement algorithm based on the prior SNR to remove the background noise and enhance the EESDB emotional database,merging the old emotional database EESDB and the Chinese emotional voice database together and extracting the spectrogram feature and standardizing the spectrogram.Then the convolutional neutral network was analyzed and the cifar10 iss chosen for the classification of spectrogram.Finally,the performance of this method was accessed by computer simulations and a higher recognition rates was achieved.The results show that the proposed method in this paper is effective.

英文关键词Key Words:speech emotion recognition for the old people;spectrogram;Wiener filter ;convolutional neutral networks(CNNs)

0引言

情感识别一直是情感计算领域的关注热点,主要通过计算机对用户的生理信号进行分析与处理,得出用户的情感状态。语音作为人类交流最重要的方式之一,不仅能传达丰富的信息,还携带了说话者大量情感因素。因此,如何让计算机自动从语音中识别出说话者的情感状态一直是情感识别领域的研究重点[13]。随着我国人口老龄化的加剧,老年人的养老问题日益突出。语言表达是反映老人精神状态好坏的一个重要方面,关注老人的精神生活状态,首先要关注老年人的语音情感状态。

寻找智能、高效的老年人语音情感识别方法(Speech Emotion Recognition System)是智慧养老的关键问题之一[4]。国内外针对语音情感识别的研究已有20多年历史[5]。20世纪80年代后期,麻省理工大学情感计算研究人员借助采样识别人类情感,并让机器对不同情感作出响应[6]。2000年,美国Picard等[7]证明了声学特征参数与情感的关联;2004年,我国东南大学赵力[8]首先针对语音中包含的情感信息进行研究,采用GMM(高斯混合模型)识别方法对4种情感进行识别,识别率最高可达95%;2009年,慕尼黑工业大学Schuller等针对情感识别框架提出了许多构想。

本文在已有方法的基础上,针对老年人的语音进行情感识别。该方法流程主要包括语音样本预处理、情感特征提取、情感识别3部分[9]。语音样本预处理以选取的数据集作为基本输入,通过语音增强、数据集融合获得去噪后的纯净数据集;情感特征提取通过分帧、加窗、FFT获得语谱图图像特征;情感识别则采用目前使用较广的卷积神经网络对情感信息进行分类识别。

1语音情感识别方法整体流程

本方法的整体思路是对选取的数据集进行预处理[10],在此基础上通过变换得出语谱图图像特征,最后将规范化的语谱图作为卷积神经网络的输入,配合分类器进行情感识别与分类,如图1所示。

2语音情感数据库准备

本文首先选取老人语音情感库EESDB[11],EESDB是針对老年人建立的情感语料库。考虑到捕捉自然情感的老人语音库较少,该语料库取自反映老人生活的电视剧《老人的故事》。首先从电视剧中截取包含情感的语音数据,志愿者再对其进行情感标定。共截取语音992条,采样率为44kHz,并进行16bit量化,情感类型包括高兴、伤心、中性、生气、害怕和惊奇6种。

本文同时选取中国科学院自动化所汉语情感语料库CASIA[12]作为语音情感数据库的补充。CASIA汉语情感语料库由中科院自动化所制作,由4个专业发音人(2男2女)对500条语句进行录制,情感类型也包括高兴、伤心、中性、生气、害怕和惊奇6种。CASIA语料库以16kHz采样,并进行16bit量化,经过筛选,最终保留9 600句。表1为不同语料库对比。

3语音样本预处理

语音样本预处理是训练识别前的准备工作,包括针对EESDB语料库的语音增强和语料库融合,如图2所示。

CASIA是由专业录音人员在无背景噪声的理想实验室录制,而EESDB则取自于电视剧,来源于真实环境,因此存在背景噪声。不同的语音情感数据库在录制过程中,声学条件会因为混响、背景噪音以及所使用录制设备的声学属性而产生变化,进而导致在语音情感识别系统中提取的情感特征失准。目前的语音情感识别大多是在理想实验室条件下进行,因此提取的特征和识别得到的结果都是在单个纯净的语料库上得到的。针对EESDB存在背景噪声的情况,采用一种改进的基于先验信噪比的维纳滤波算法对语音进行去噪。

4情感特征提取

情感特征提取算法步骤为:①对语料库进行分帧、加窗、傅里叶变换(FFT,Fast Fourier Transform)生成语谱图[13];②对语谱图进行尺度一致化调整为256*256的RGB圖;③将语谱图转换为LMDB格式;④求语谱图均值。情感特征提取算法流程如图3所示。

4.1分帧

语音信号在一个很短的时间段内可看作稳定状态。通常将语音信号进行分帧[14],每一帧长度是20ms~30ms,在该时间段内,语音信号可视作稳定状态。

4.2加窗

分帧之后原本的语音信号变为了有限信号,在调用傅里叶变换函数时将导致高频部分泄露,因此可通过加窗处理降低泄露[15]。信号加窗使用最多的窗函数有矩形窗与汉明窗。

矩形窗:

w(n)=1,0≤n≤(N-1)0,其他(1)

汉明窗:

w(n,α)=1-α-αcos(2πnN-1)0,其他(2)

其中α是系数,取值一般为0.46。

4.3语谱图特征提取

语谱图(Spectrogram)是可以反映语音频谱随时间变化的二维可视平面图。语谱图中包含了大量有用信息,如语音基频、清音、爆破音等,因而被广泛应用于语音研究中。语谱图的横坐标表示时间,纵坐标表示频率。每个像素的灰度值表示某时刻对应频率的信号能量密度,信号能量密度强弱用相应点灰度或颜色深浅表示[16]。通过对语音样本进行分帧加窗、快速傅里叶变换(FFT,Fast Fourier Transform)得出语谱图,样本语谱图如图4所示。

5CNN训练识别

卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,由于该网络不需要对图像进行复杂的前期预处理,近年来被广泛应用于模式识别领域,尤其是人脸检测、语音监测、文字识别等领域[17]。不同于大多数采用全连接的深度神经网络,卷积神经网络采用部分连接的网络模型,极大地提高了学习效率。

典型的卷积神经网络基本结构包括卷积层、降采样层和全连接层,如图5所示[18]。卷积层直接对输入样本(如语谱图)进行卷积操作。卷积核大小可自主设置,通过不同卷积核进行卷积后,在每一层产生特征映射图,特征映射图中每组像素再进行求和、加权及加偏置操作。卷积核之间共享相同的权重矩阵和偏置项。

非线性降采样层也称为池化层,在卷积层之后,对卷积层输出进行空间和特征类型压缩,减少参数与计算量。实践证明,池化不仅可以降低输入特征维数,还可以改善结果。其具体操作与卷积层操作基本相同,区别在于降采样层的卷积核只取对应位置的最大值(最大池化,Max Pooling)或平均值(平均池化,Mean Pooling)等。全连接层是指输入的每个神经元与本层的每个神经元相连,即连接所有特征,再将输出值直接输送给Softmax分类器。

6实验与分析

实验环境采用Ubuntu系统,8G内存,软件为Matlab 2012b,并采用Caffe框架[19]。语音样本选取中科院自动化所CASIA汉语情感数据库与EESDB老人语音情感库的数据。实验随机选取EESDB中相同发音的40句共800条语音,CASIA相同发音的50句共1 200条语音作为实验数据,总共2 000条语音,其中1 200条为训练数据,800条为验证数据。

目前语音情感识别算法中常用的分类器有隐马尔科夫模型、K近邻分类、Softmax分类器与支持向量机(SVM,Support Vector Machine)等[20] 。实验选取Softmax分类器,核函数使用识别效果好且参数比较容易设置的多项式核函数。

CNN在Caffe框架下搭建,采用的结构与图5结构相同。第一组卷积核设置为5个,大小为8×6,降采样层大小为1×4;第二组卷积核设置为10个,大小为6×4,降采样层大小为1×3。两层采用平均池化方法,全连接层节点数为500。

采用跨库训练方案,更改CASIA和EESDB在训练集和测试集中的比例[21]。选用的实验方案包含以下3种:①选用EESDB全部语句共800条,CASIA中240条语句作为训练集,剩余960条语句作为验证集进行训练;②选用CASIA全部语句1 200条作为训练集,EESDB全部语句800条作为测试集进行训练;③选用CASIA中600条语句、EESDB中600条语句,共1 200条作为训练集,CASIA剩余600条语句作为测试集。表2是基于3种方案的识别率。

7结语

本文提出一种基于语谱图的老年人语音情感识别方法。首先选取合适的语音情感库,对其进行预处理,提取语谱图情感特征对语谱图进行尺度一致化调整,将语谱图转换为训练学习要求的格式,然后输入CNN进行训练,将识别结果输入分类器进行分类,最后得出情感识别结果。本文提出的利用语谱图特征进行语音情感识别的方法为研究老年人语音情感提供了新思路,语谱图图像特征可作为一类新特征进一步增强语音情感识别系统的性能。

参考文献参考文献:

[1]NWE T L,FOO S W,SILVA L C D.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603623.

[2]AYADI M E,KAMEL M S,KARRAY F.Survey on speech emotion recognition:features,classification schemes,and databases[J].Pattern Recognition,2011,44(3):572587.

[3]薛文韬.语音情感识别综述[J].软件导刊,2016,15(9):143145.

[4]席恒,任行,翟绍果.智慧养老:以信息化技术创新养老服务[J].老龄科学研究,2014(7):1220.

[5]NWE T L,FOO S W,SILVA L C D.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603623.

[6]PICARD R W.Affective computing:challenges[J].International Journal of Human Computer Studies,2003,59(1):5564.

[7]PICARD R.Computers that recognize and respond to user emotion[J].IBM Systems Journal,2000,39:705719.

[8]赵力,钱向民,邹采荣,等.语音信号中的情感特征分析和识别的研究[J].电子学报,2004,32(4):606609.

[9]韩文静,李海峰,阮华斌,等.语音情感识别研究进展综述[J].软件学报,2014,25(1):3750.

[10]徐濟仁,陈家松,徐屹.语音信号预处理技术综述[J].信息化研究,2001,27(6):2627.

[11]王坤侠.语音情感识别方法研究[D].合肥:合肥工业大学,2015.

[12]刘志勇,杨关,冯国灿.基于 Gabor 小波和局部二值模式的步态识别[J].中山大学学报:自然科学版,2014,53(4):17.

[13]李富强,万红,黄俊杰.基于MATLAB的语谱图显示与分析[J].微计算机信息,2005,21(10X):172174.

[14]苏伟博.一种语音端点检测方法及装置[P].CN102097095A,2011.

[15]钟林鹏.说话人识别系统中的语音信号处理技术研究[D].成都:电子科技大学,2013.

[16]陶华伟,査诚,梁瑞宇,等.面向语音情感识别的语谱图特征提取算法[J].东南大学学报:自然科学版,2015,45(5):817821.

[17]李彦冬,郝宗波,雷航.卷积神经网络研究综述[J].计算机应用,2016,36(9):25082515.

[18]蔡娟,蔡坚勇,廖晓东,等.基于卷积神经网络的手势识别初探[J].计算机系统应用,2015,24(4):113117.

[19]JIA Y,SHELHAMER E, DONAHUA J,et al.Caffe:convolutional architecture for fast feature embedding[J].Computer Vision and Pattern Recognition,2014:675678.

[20]朱永生,张优云.支持向量机分类器中几个问题的研究[J].计算机工程与应用,2003,39(13):3638.

[21]金赟,宋鹏,郑文明,等.半监督判别分析的跨库语音情感识别[J].声学学报,2015(1):2027.

责任编辑(责任编辑:黄健)

猜你喜欢
维纳滤波卷积神经网络
多级维纳滤波器的快速实现方法研究
自适应迭代维纳滤波算法
基于维纳滤波的超声增强实现方法
基于多窗谱估计的改进维纳滤波语音增强
基于维纳滤波器的去噪研究
基于卷积神经网络温室智能大棚监控系统的研究
基于深度卷积神经网络的物体识别算法
一种因果维纳滤波器的推导方法