陈颖,肖仲喆
离散标签与维度空间结合的语音数据库设计
陈颖,肖仲喆
(苏州大学光电信息科学与工程学院,江苏苏州 215006)
建立了一个将离散情感标签与维度情感空间结合起来的汉语情感语音数据库。该数据库由16名母语为汉语的说话人对情感语音进行表演型录制。语音样本是根据中性、愉悦、高兴、沮丧、愤怒、哀伤,以及悲伤等七种离散的情感标签采集而得,每名说话人有336条语音样本。随后由三名标注人在维度空间上对每条语音样本进行标注。最后,根据标注所得的数据来研究这七种情感在维度空间的分布情况,并分析了情感在一致性、集中性和差异性方面的性能。除此以外,还计算了这七种情感的情感识别率。结果显示,三名标注人对该数据库标注的一致性都达到了80%以上,情感之间的可区分度较高,并且七种情感的情感识别率均高于基线水平。因此,该数据库具有较好的情感质量,能够为离散情感标签到维度情感空间的转化提供重要的研究依据。
离散情感标签;维度情感空间;汉语;情感识别
语言是人类交换信息最方便、最快捷的一种方式。人类之所以能够通过聆听语音,捕捉到对方的情感状态,是因为语音不仅包含有语义信息,还携带了人类所要传达的情感信息[1]。情感语音数据库是实现情感语音识别和合成的重要基石,因此,越来越多的研究者们开始致力于对情感语音数据库的研究。如何建立一个情感自然、表达流畅的情感语音数据库逐渐成为了国内外的研究热点。在国外,已经有很多机构建立了相关的情感语音数据库[2],如:德语电视谈话节目“Vera am Mittag”现场录制保存的语料库(The Vera am Mittag Corpus, VAM)[3],面向自然人机交互和人工智能研究的Semaine 数据库[4],柏林工业大学录制的德语情感语音库 (The Berlin Emotional Speech Database, Emo-DB)[5],以及由Queen大学Cowie R和Cowie E录制的Belfast情感数据库[6]等。近些年,国内的众多高校也建成了大规模的情感语料库。例如北京航空航天大学建立的双模情感语音数据库[7]、东南大学建立的实用情感语料库[8]、清华大学的面向情感变化检测的汉语情感语音数据库(Chinese Emotional Speech Database, CESD)数据库[9]以及中国科学院自动化研究所所录制的汉语情感语音数据库(The Chinese Academy of Sciences’ Institute of Automation Corpus, CASIA)[10]等。上述语料库的情感收集、诱发方式、规模大小以及情感状态各不相同,以满足不同的情感研究。
依据情感描述模型的差异,情感描述方式被大致分为离散和维度两种形式。前者是用离散的情感标签(如高兴、悲伤、生气等)来描述情感,目前的离散情感语料库较多,如Emo-DB,Belfast,CESD,CASIA等;而后者以连续的实数坐标值来表示情感,它认为不同情感之间的转换是平滑的、逐渐的,可以使用不同的情感在维度空间的距离来表示其相似性和差异性[11],目前维度情感数据库只占少数,如VAM,Semaine等。
不同的语料库采用的情感标签也各有不同。例如宋静等[12]建立的情感语料库包含了高兴、惊奇、悲伤、生气这四种不同的情感;陈浩等[13]建立的情感语料库包含正常、喜悦、忧伤、愤怒等情感;黄程韦等[8]设计了包含烦躁、紧张、喜悦、平静这四种情感的语料库。上述的离散情感数据库包括的情感类型都具有单一、易辨识的特点。而生活中的自然情感往往是多样、复杂且模糊的,人们对某一情感的表达可以有若干程度的体现,例如对于悲伤情感,人们可以表现为郁郁寡欢、愁眉不展甚至是痛哭流涕。维度情感空间更能对自然状态下模糊、复杂的情感进行描述和区分,可以更加直观、精确地展现出语音所包含的情感信息以及各情感间的联系与区别[14]。
为探索离散情感标签与维度空间模型之间的联系,本文建立了一个将离散情感标签与维度情感空间结合起来的汉语情感语音数据库。该语料库将除中性情感以外的三种情感(愤怒、高兴、悲伤)分别设定了强弱两类,共包含七种情感的语音样本。其录制过程是采用离散情感标签进行表演型录制,但情感的标注工作是标注人将其对语音样本的听觉感知转化为效价度/唤醒度(Valence/Arousal, VA)空间中某个具体的坐标值。因此,本文设计的语料库不仅从离散的角度描述了情感类型,还从维度情感的角度来分析了语音库中的情感内容,为以后的研究提供了重要的参考依据。
在人们的日常交流过程中,语音包含了丰富的情感信息。但有些情感状态应用得更加广泛、更具有研究价值,这样的情感被归结为基本情感类别[2]。
在情感语音早期研究中,Ververidis D等[15]对早期的32个情感语音数据库进行了回顾,这32个数据库涉及的语言类型广泛,包括英语、德语、日语、荷兰语、西班牙语、丹麦语、希伯来语、瑞典语、汉语,以及俄语等,并且每个语音库包含的情感类别以及数量各有差异。对这32个情感数据库中的情感使用情况总结如表1所示。
表1 数据库中的情感使用情况
Table 1 The usage of the emotions in these databases
并且此后出现的数据库[16-18]包含的情感类型都与其类似。因此本文选择了中性情感以及使用数量最高的三种情感状态,分别为生气(Anger)、悲伤(Sadness)、高兴(Happiness),并将这三种情感分为强弱两类,以分析强弱不同的情感在连续维度空间上的联系。表2所示为所使用的七种情感类型。
表2 情感状态
Table 2 Emotional states
语音的录制由 16 名在校大学生(8 名男性,8名女性)参与完成。这些学生的年龄在20~24岁之间,并且都是非表演专业的人士。参与录制的说话人均以汉语为母语,普通话流利,发音清晰,没有咽喉疾病,且录音当天没有患感冒等影响发音的疾病。说话人根据所给定的情感标签,用相应的情感朗读指定的文本语料从而获得语音样本,因此该数据库属于表演型情感语音数据库。这种方法录音的好处在于:一是操作的可行性,该实验不需要在专业的录音棚进行操作,在安静的环境下,说话人便可参与语音的录制;其二是情感易于分类,因为语音样本是由说话人根据给定的情感标签,对固定的语料文本进行朗读采集而得,所以情感区分度更高。
对于文本语料的选择,应遵循以下几点原则:
(1) 选择的录音语句不带有情感倾向,说话人能对其施加不同的情感进行朗读;
(2) 录音语句采用口语化的陈述句,并且语句统一采用普通话,不能带有方言[19];
(3) 录音语句的长度要选择适当,每个句子的时长,按正常的语速读,要大于1 s,小于5 s;
(4) 所有的句子集中起来,基本涵盖汉语拼音中的所有声母和所有韵母,四声经常出现,轻声也在一部分句子中出现。
我们选择的16句文本语料如表3所示。
表3 文本语料
Table 3 Text corpus
录音地点是在一间空旷的教室里。为了使外界的干扰达到最小,录音时间基本选择在周末,以减少人员走动及喧哗产生的杂音。录音使用的设备包括:戴尔Inspiration N4110笔记本电脑一台、铁三角AHT-SR5头戴式耳机一副、铁三角AT2020麦克风一个[20]。
录音程序采用Matlab软件编写。录音采用44.1 kHz的采样频率、16 bits的量化精度、单声道采样的音频格式。录制的语料保存为.WAV格式。
情感录音实验容易受到设备状态、说话人心理变化的干扰。为了采集到表达流畅、情感自然的语音样本,说话人需要熟悉录音的文本内容以及整个录制的流程。在正式录音前,说话人需要对所朗读的文本内容进行了解,并进行模拟录音实验。说话人根据模拟实验所得到的录音来调整自己的情感状态、音量大小,以获得最佳的发音状态,随后开始正式的录音。
说话人根据图1录音界面上的情感标签对文本进行朗读,即完成该条语音的录制。每录完一条语音样本,说话人都需要对该条语音进行回放,以检查语音是否有噪声,是否为所期望表达的情感,以实现对语音的及时补录。每位说话人需要录制的语音样本由表3中16句文本内容所组成,每句文本需要以7种不同的目标情感状态进行表演录制,一共录制三遍,共计16×7×3=336条语音样本。因此整个数据库共包括16×336=5 376条语音样本,并且每种情感有16×16×3=768条语音。考虑到在不同的录音顺序下,说话人情感表达会受到影响。因此将这三遍设为不同的录音顺序,它们的区别为:
第一遍:每句文本依次录制7种情感状态,录完后进行下一句;
第二遍:每种情感状态依次录制16句文本,录完后进行下一句;
第三遍:随机顺序。
图1 录音界面
维度论认为多维情感空间基本能够描述生活中存在的、任意的情感状态,也就是说,任一情感状态都对应于情感空间中的某一点,并且该点的坐标值大小能反映该情感在各维度上的强弱程度[1]。目前使用得较为广泛的情感空间包括效价度/唤醒度(Valence/Arousal, VA)空间与效价度/唤醒度/控制度(Valence/Arousal/Dominance, VAD)空间。
本文的标注工作是在VA空间上进行操作的,如图2所示。其中,水平轴是效价度,又称为愉悦度,体现主体的情感正负面程度,“Positive”表示愉悦,如高兴,“Negative”表示厌恶,如愤怒;垂直轴是唤醒度,也称为激活度或能量度,它是用来度量情感激烈程度的,“Active”表示激活度高,如愤怒,“Passive”表示激活度低,如低沉[21]。标注在Valence和Arousal两个情感维度上进行,实现了离散情感标签到维度情感坐标的转变。这样,标注者标注的VA空间坐标与说话人录制的情感所在的目标象限的差异情况将被用于情感发出者的情感表达愿望与听者感知差异方面的研究。
图2 VA空间
由于不同的人对同一情感语句的认知可能不同,因此本实验选择三名未参与录音的人员对语音进行标注,标注界面如图3所示。
图3 标注界面
标注者通过聆听随机播放的情感语料,再根据自身的主观判断评价所听到的语音样本,将自己对情感的判断数值化,即标注为VA空间中某个具体的坐标点。在标注完成后,每个标注人所得的标注结果中都包含了5 376个情感标注文件。情感标注文件指的是每个语音样本对应的二维坐标值。我们将标注人对第种情感样本的标注结果表示为
为了分析这七种目标情感在VA空间的分布情况以及评估该语音库的情感质量,对2.1节得到的标注结果,分别进行了三个方面的研究:(1) 情感分布;(2) 标注人之间的一致性;(3) 情感的集中性与差异性。
2.2.1 情感分布
标注完成后,可得到每种情感样本的坐标点在VA空间中所处的范围,对于距离大面积分布区域较远的散点,将忽略不计。如图4所示,使用闭合的椭圆曲线来包围每种情感的坐标值,每个椭圆的长半轴表示该情感数据的分布方向。
图4 情感分布
观察图4得到,高兴与愉悦基本都处于VA空间的第一象限,因为它们的愉悦度高,激活度高;此外,与高兴成纵坐标对称的是愤怒,愤怒的唤醒值与高兴相近,但在效价维度上离高兴较远;哀伤在VA空间中基本处于第三象限,但比哀伤情感较强的悲伤却跨越了第二和第三象限,这是因为表达悲伤情感时,有的人情绪会比较激动,而有的人会处于低沉的状态,从而导致悲伤在唤醒度上有较大的浮动范围;沮丧的情感分布与悲伤相似,同样跨越了二、三象限,但其愉悦度比悲伤高;中性情感的坐标值基本都处于原点附近。研究发现,相对于强烈情感而言,微弱情感的坐标更靠近于原点。除此以外,不同情感的分布范围存在着相互交叠的部分,如高兴与愉悦,哀伤与沮丧等。这是由于存在交叠的两种情感在表达上具有一定的相似性,因此在情感识别的应用中,容易对存在交叠的这两种情感产生误判。
2.2.2 标注人之间的一致性
若三名标注人的标注结果具有一定的正相关性,则说明三名标注人对同一条语音的理解具有一致性。因此,两名标注人之间的相关系数越接近于1,则这两个标注人之间的相关程度越高,该语音库的一致性越好;反之,则说明该语音库的一致性越差。本文计算了这三名标注人标注结果之间的相关系数,计算公式如下:
三名标注人之间的相关系数如表4所示。
表4 标注人之间的一致性(相关系数)
Table 4 Consistencies between the three annotators (correlation coefficients)
无论在效价维还是在唤醒维,任意两名标注人之间的相关系数都在0.80以上,甚至标注人1和标注人 3 之间的相关系数在效价维度上达到了0.955 6。综合来看,三名标注人之间的相关性都较好,即听者感知的一致性较好。这表明三名标注人在标注同一条语音时理解较为一致,因此该语音库的情感质量较高。同时,效价度上的相关系数均高于唤醒度上的相关系数,表明情感在效价度上的一致性更好。
2.2.3 情感的集中性与差异性
通过选择类内标准差来描述这七种情感的集中性。类内标准差反映的是一个数据集的离散程度,它是各数据偏离平均数的距离的平均数。类内标准差越大,代表大部分数值和其平均值之间的差异越大;类内标准差越小,代表这些数值越接近平均值,集中性越好。
同类情感坐标分布的标准差反映了该情感的离散程度,计算公式为
由于语音样本的坐标是二维的,因此计算得到的标准差也是二维的,分别属于效价维和唤醒维。得到这七种目标情感的标准差如图5所示。各种情感的标准差都处于0到1之间,相比较而言,标准差越接近于0,表明该情感在相应维度上的离散程度越小,如中性情感在效价度上的标准差最小,则中性情感在效价度上的离散程度最小;反之,标准差越接近于1,则该情感在相应维度上的离散程度就越大,如悲伤情感在唤醒度上的标准差最大,则其在唤醒度上的离散程度就最大。并且除高兴情感以外,其余六种情感在效价度上的标准差均比在唤醒度上的标准差小,说明情感在效价维度上的离散程度更小,集中性更好。这与2.2.2节中情感在效价度上一致性更好的结论一致。李嘉等[23]针对生气、高兴、悲伤和平静这四种情感,提取了其唤醒度和效价度上对应的情感特征,发现效价度上的情感特征对语音识别具有重要作用,这也与本文结论一致。
图5 情感标准差
图6 每种情感的椭圆面积
由于情感表达的集中性不同,因此得到的椭圆面积大小也不同。面积越小,说明该情感的集中性越高;反之则说明该情感的集中性越差。计算得到每种情感的椭圆面积结果如图7所示。
图7 情感对应的椭圆面积值
研究发现中性情感的椭圆面积最小,为0.214 9;其次是愉悦情感,其面积值为0.380 2;而情感椭圆面积最大的是悲伤,面积达到了1.122 9。这说明中性情感的集中性最高,其具有明显的情感特征;其次是愉悦;而悲伤在这七种目标情感中集中性最差。东南大学的罗武骏等[24]对高兴、伤心、害怕、惊讶、生气和中性六种情感状态进行了听辨性实验。实验得出悲伤的识别错误率最高,中性情感的识别错误率最低,原因在于中性情感的情感特征较为鲜明,这与本文的结论一致。
另外,为了分析不同情感样本标注结果的差异性,采用单因素方差分析方法来评判情感因素对标注结果的影响程度。单因素方差分析方法能够分析多组数据样本之间是否具有共同的均值,即确定多组数据之间是否具有显著的差异性[22]。不同列的数据表示某一因素的变化情况。本文将同一情感样本的标注结果表示为一列数据,即不同列的数据代表为情感因素E的变化情况,如矩阵:
单因素方差分析中计算了每一列数据均值相等时的概率,从而判断这一因素是否对结果有显著的影响。的值越小,表示这个因素对观测结果的影响越显著[25]。
由于标注人对语音的主观辨听以及对语音在VA空间中情感表现力的评价,一定程度上会受到主观情感的干扰,因此主观标注并不能真实、客观地反映该数据库中语音质量的高低。因此,本文还进行了客观分析,通过分析这七种情感语音的基频、短时能量、前三个共振峰以及前12个梅尔倒谱系数(Mel-Frequency Cepstrum Coefficient, MFCC)及其一阶差分的相关统计值,包括均值、标准差、最大值、最小值以及中位值,用这145维特征参数来对情感进行分类。特征参数的具体内容如表5所示。
表5 特征统计值
Table 5 Characteristic statistics
图8 情感识别率
本文录制了一个汉语情感语音数据库。该数据库由16名说话人对文本语料进行表演录制而得,共包含5 376条语音样本。通过从离散情感标签到维度情感坐标的转变,介绍七种情感在二维坐标空间上的变化。然后从情感的一致性、集中性、差异性以及情感识别率这四个方面来分析该数据库的情感质量。研究表明,该数据库的情感一致性较高,并且情感之间具有较明显的可区分性。
虽然这个语音情感数据库能满足基本的情感研究,但仍有些不足之处,后期将会利用与该数据库相同的说话人来建立一个自然情感语料库,与该表演情感语料库进行比对。
[1] 韩文静, 李海峰, 阮华斌, 等. 语音情感识别研究进展综述[J]. 软件学报, 2014, 25(1) : 37-50.HAN Wenjing, LI Haifeng, RUAN Huabin, et al. A summary of the progress of recognition of emotional speech[J]. Journal of Software, 2014, 25(1): 37-50.
[2] 韩文静, 李海峰. 情感语音数据库综述[J]. 智能计算机与应用, 2013, 3(1): 5-7.HAN Wenjing, LI Haifeng. Overview of emotional speech databases[J]. Intelligent Computer and Application, 2013, 3(1): 5-7.
[3] GRIMM M, KROSCHEL K, NARAYANAN S. The Vera am Mittag German audio-visual emotional speech database[C]//IEEE International Conference on Multimedia and Expo. IEEE, 2008: 865-868.
[4] MCKEOWN G, VALSTAR M F, COWIE R, et al. The SEMAINE corpus of emotionally coloured character interactions[C]//IEEE International Conference on Multimedia and Expo. IEEE, 2010: 1079-1084.
[5] BURKHARDT F, PAESCHKE A, ROLFES M, et al. A database of German emotional speech[C]//INTERSPEECH 2005-Eu- rospeech, European Conference on Speech Communication and Technology, Lisbon, Portugal, September. DBLP, 2005: 1517-1520.
[6] DOUGLAS-COWIE E, COWIE R, SCHRÖDER M. A new emotion database: considerations, sources and scope[C]//ISCA Workshop on Speech and Emotion. 2000: 39-44.
[7] 景少玲, 毛峡, 陈立江, 等. 汉语双模情感语音数据库标注及一致性检测[J]. 北京航空航天大学学报, 2015, 41(10): 1925-1934.JING Shaoling, MAO Xia, CHEN Lijiang, et al. Marking and consistency detection of chinese dual-mode emotional voice database[J]. Journal of Beijing University of Aeronautics and Astronautics, 2015, 41(10): 1925-1934.
[8] 黄程韦, 金赟, 赵艳, 等. 实用语音情感数据库的设计与研究[J]. 声学技术, 2010, 29(4) : 396-399.HUANG Chengwei, JIN Yun, ZHAO Yan, et al. Design and establishment of practical speech emotional database[J]. Acoustic Technology, 2010. 29(4): 396-399.
[9] 徐露, 徐明星, 杨大利. 面向情感变化检测的汉语情感语音数据库[J]. 清华大学学报(自然科学版), 2009, 49(s1) : 1413-1418.XU Lu, XU Mingxing, YANG Dali. Chinese emotional speech database for emotional change detection[J]. Journal of Tsinghua University (Science and Technology), 2009, 49(s1): 1413-1418.
[10] CASIA. Database of Chinese emotional speech[DB/OL]. Beijing. Chinese Linguistic Data Consortium, 2008. http://www. chi-neseldc.org/ resource_info.php Rid=76.
[11] 王志良. 人工心理[M]. 北京: 机械工业出版社, 2007.WAN Zhiliang. Artificial psychology[M]. Beijing: Machinery Industry Press, 2007.
[12] 宋静, 张雪英, 孙颖, 等. 基于模糊综合评价法的情感语音数据库的建立[J]. 现代电子技术, 2016, 39(13): 51-54.SONG Jing, ZHANG Xueying, SUN Ying, et al. Establishment of emotional speech database based on fuzz comprehensive evaluation method[J]. Modern Electronic Technology, 2016. 39(13): 51-54.
[13] 陈浩, 师雪姣, 肖智议, 等. 高表现力情感语料库的设计[J]. 计算机与数字工程, 2014, 42(8): 1383-1385.CHEN Hao, SHI Xuejiao, XIAO Zhiyi, et al. High Performance Emotional Corpus[J]. Computer and Digital Engineering, 2014, 42(8): 1383-1385.
[14] 宋静. PAD情绪模型在情感语音识别中的应用研究[D]. 太原: 太原理工大学, 2016. SONG Jing. Application of PAD Emotional Model in Emotional Speech Recognition[D]. Taiyuan: Taiyuan University of Technology, 2016.
[15] VERVERIDIS D, KOTROPOULOS C. A state of the art review on emotional speech databases[C]//Proc 1stRich media Conference Lausanne, Switzerland, 2003: 10-119.
[16] 宣守盼. 多模态情感数据库的研究与建立[D]. 上海: 华东理工大学, 2013. XUAN Shoupan. Research and establishment of multi - modal emotion database[D]. Shanghai: East China University of Science and Technology, 2013.
[17] 王宝军, 薛雨丽, 于适宁, 等. 多模情感数据库的设计与评价[J]. 中国科技论文, 2016, 11(2): 214-218.WANG Baojun, XUE Yuli, YU Shining, et al. Design and evaluation of Multi-mode Emotion Database[J]. Chinese Scientific Papers, 2016, 11(2): 214-218.
[18] 曾光菊. 普通话语音情感声学特征数据库的建立[D]. 成都: 电子科技大学, 2012. ZENG Guangju. The Establishment of Mandarin Speech and Emotional Characteristic Database[D]. Chengdu: University of Electronic Science and Technology, 2012.
[19] 陈雁翔. 汉语情感语音数据库的设计与测试[C]//全国人机语音通讯学术会议. 2011.CHEN Yanxiang. Design and testing of Mandarin emotional speech database[C]//National Conference on Human-Computer Phonetics. 2011.
[20] 德讯铁三角有限公司. Audio-Technical AT2020录音室心形指向电容话筒[J]. 世界专业音响与灯光, 2005, 3(4): 76-76. DEXUN Triangle Limited Company. Audio-Technical AT2020 Studio heart pointing condenser microphone[J]. International Professional Audio and Lighting, 2005, 3(4): 76-76.
[21] 安秀红. 基于特征参数的语音情感识别[D]. 太原: 太原理工大学, 2011.AN Xiuhong. Speech emotion recognition based on characteristic parameters[D]. Taiyuan: Taiyuan University of Technology, 2011.
[22] 何仁斌. MATLAB 6工程计算及其运用[M]. 重庆: 重庆大学出版社, 2002. HE Renbin. MATLAB 6 engineering calculation and its application[M]. Chongqing: Chongqing University Press, 2002.
[23] 李嘉, 黄程韦, 余华. 语音情感的维度特征提取与识别[J]. 数据采集与处理, 2012, 27(3): 389-393.LI Jia, HUANG Chengwei, YU Hua. Dimensional features extraction and recognition of speech emotions[J]. Data collection and processing, 2012, 27(3): 389-393.
[24] 罗武骏, 黄程韦, 查诚, 等. 越南语语音情感特征分析与识别[C]. 全国信号处理学术年会及产业发展大会. 2013.LUO Wujun, HUANG Chengwei, ZHA Cheng, et al. Analysis and recognition of Vietnamese speech emotional characteristics[C]. National Conference on signal processing and industrial development. 2013.
[25] 石博强, 赵金. MATLAB数学计算与工程分析范例教程[M]. 北京: 中国铁道出版社, 2005. SHI Boqiang, ZHAO Jin. MATLAB mathematical computation and engineering analysis[M]. Beijing: China Railway Press, 2005.
Design of discrete tags and dimensional space combined emotional speech database
CHEN Ying, XIAO Zhong-zhe
(School of Optoelectronic Information Science and Engineering, Soochow University, Suzhou 215006,Jiangsu, China)
This paper establishes a Mandarin emotional speech database thatcombines discrete emotion tags with dimensional emotion space. The database is recorded for 16 Chinese native speakers in performing Chinese emotional speech. The speech samples are acquired from seven discrete emotion tags, such as neutrality, pleasure, happyness, frustration, anger, sorrow, and sadness. Each speaker receives 336 utterances. Then, each of the speech samples is annotated by three annotators in dimensional space. Finally, according to the obtained data, the distributions of these seven emotions in the emotion space are studied, and the performances in consistency, concentration and difference of these emotions are analyzed. Besides, we calculate the emotion recognition rates of these seven emotional speech. The analyses show that the consistencies of the three annotators for the database are more than 80%, and these emotions can be distinguished, in addition, the recognition rates of these seven emotions are all higher than baseline level. Therefore, the database has a good emotional quality, and can provide important research basis for the transformation of discrete emotion tags to dimensional emotion space.
discrete emotion tags; dimensional emotion space;Mandarin; emotion recognition
TP392
A
1000-3630(2018)-04-0380-08
10.16300/j.cnki.1000-3630.2018.04.015
2017-05-11;
2017-09-24
江苏省基础研究计划(自然科学基金)青年基金项目(BK20140354)
陈颖(1994-), 女, 贵州安顺人, 硕士研究生, 研究方向为情感语音的分析与处理。
肖仲喆, E-mail: xiaozhongzhe@suda.edu.cn