融合上下文短时谱特征的汉语重音检测研究

2014-04-29 00:44:03赵云雪张珑郑世杰

智能计算机与应用 2014年4期

关键词：重音

赵云雪　张珑　郑世杰

摘要：重音是语言交流中不可或缺的部分，在语言交流中扮演着非常重要的角色。本文基于ASCCD朗读语篇语料库，使用MFCC算法提取每个语音段的融合上下文子段拼接短时谱信息，构建基于MFCC算法的上下文短时谱特征集；并选用NaiveBayes分类器对这类特征集进行建模，而且将具有最大后验概率的类作为该对象所属的类，这种分类方法充分利用了当前语音段的相关语音特性；融合上下文的MFCC短时谱特征组在ASCCD上能够得到83.6%的汉语重音检测正确率。实验结果证明，融合上下文子段拼接特征规整方法可以用于汉语重音检测研究中。

关键词：重音；上下文；短时谱特征；重音检测

中图分类号：TP319 文献标识码：A文章编号：2095-2163（2014）04-0036-03

Abstract：Accent is a critically important component of spoken communication， and plays a very important role in spoken communication. This paper selects from ASCCD corpus and conducts accent by using MFCC algorithm to extract each voice segment of short-time spectrum based on context sub-segment splicing information. After that， the paper builds integration context short-time spectrum feature sets based on MFCC algorithm， and chooses NaiveBayes classifier to model the two feature sets. NaiveBayes is to choose the classes with maximum a posteriori probability as the object's class. This classification method makes full use of the related phonetic features of speech segment. Integration context short-time spectrum of MFCC feature set respectively achieves 83.6% accent detection accuracy on ASCCD. The experimental results indicate that integration context sub-segment splicing feature structured method of MFCC can be used in Chinese accent detection study.

Key words：Accent； Context； Short-time Spectrum Features； Accent Detection

0引言

汉语重音检测技术是韵律特征研究领域的一个重要组成部分。韵律特征主要包括重音、语调和声调等，重音在语言交流中起到非常重要的作用，研究韵律特征可先从“重音”入手。

重音可以使人们的语言听起来抑扬顿挫，而不是平铺直叙。另外，重音还有避免歧义和加强语义的作用。比如句子，“我在准备考试了”，重音落在“我”和“考试”上，强调的内容是不一样的。再比如，“我想明天去游泳”，如果重音落在“明天”和“我”上，虽然语义相同，但说话人强调的内容却是不同的。

汉语重音检测是指通过对语音信号的分析处理，提取影响重音的语音特征或建立相应的语音模型，用来确定某个音节是否是重音。本文主要研究融合上下文的子段拼接MFCC特征，构建了用于汉语重音检测的融合上下文的短时谱特征集。

1研究状况

胡伟湘等人[1]利用音长和音高声学相关特征集，采用基于分类回归树结构的区分度模型，在韵律标注语料库ASCCD上能够达到80%的重音检测正确率。邵艳秋等人[2]则利用神经网络对声学相关特征、语言学相关特征和混合特征进行汉语重音检测，能够得到78.4%、83.2%和84.3%的正确率。同时，陈楠等人[3]又提出了基于动态帧长的基音同步能量和基音同步峰值特征的英语重音检测，联合使用新特征与传统特征，可使误识率下降6.65%。更进一步地，陈楠等人[4]使用非线性加权能量特征以及与传统特征的特征组合对英语进行重音检测，非线性加权能量特征比传统特征鲁棒性更高，联合使用新特征与传统特征，可使系统误识率下降3.58%。而且，陈楠等人[5]还从听觉模型的角度出发，利用能同时表征瞬时频率和强度信息的基音同步幅度峰值特征进行重音检测。李坤等人[6]即根据听感知特性，引入半音程和响度特征，并以归一化的音节最高值代替其平均值，系统正确率达到78.7%，漏检率为9.37%。在此基础上，也陆续提出了基于掩蔽效应的突显度模型，系统正确率提高到83.4%，漏检率下降到5.72%。相应地，倪崇嘉等人[7-8]亦对汉语重音检测开展了进一步的研究，利用声学相关特征以及词典语法相关特征对汉语重音进行检测，并采用Boosting集成分类回归树对当前音节的声学相关特征以及词典和语法相关特征进行建模，其后更对词典和语法相关特征采用条件随机场方法进行了建模，最后，再将Boosting集成分类回归树模型和条件随机场模型通过加权组合而获得识别率更高的混合模型，在ASCCD语料库上随即获得76.3%重音检测正确率。此外，李心广等人[9]研究基于重音与韵律的英语句子客观评价系统，通过提取语音的能量特征，对英语句子进行重音划分。

现有的重音检测方法一般都采用基于整个音节提取当前音节级的声学特征及其统计特征。本文提出了一种针对NaiveBayes输入特征规整的改进方案，即融合上下文子段拼接方法的短时谱特征（语音帧级特征），子段拼接的短时谱特征是以每个音节的语音段为单位，将每个汉字的所有语音帧平均分为多段，相当于将时长、强度、声母和韵母进行了细分。由此看来，融合上下文子段拼接的短时谱特征包含更多的信息，可以更细致地刻画语音的细节，对汉语重音检测也更具力度。

ASCCD朗读语篇语料库（Annotated Speech Corpus of Chinese Discourse）由语篇语料、语音数据和语音学标注信息组成，适用于语言语音研究、语音工程开发和基础汉语普通话教学等领域。语料文本是18篇叙事体、议论体语篇，每篇3-5个自然段，每个自然段500-600个音节，总计9 000个音节，共10个发音人，5男5女，分别记为M001、M002、M003、M004、M005、F001、F002、F003、F004、F005，使用标准普通话，以自然的方式，标准的语速，流畅地朗读语篇。所有语音都经过标注，音段采用SAMPA-C标准标注[10]，韵律采用C-ToBI韵律标注系统标注，具体标注了音节拼音、声韵母、声调、韵律边界等级以及语句重音信息[11]，标记了每个韵律单位的重音，共分0、1、2、3级，汉语的重音也是与韵律结构对应的层级结构。韵律词中最重音节重音标为1，次要韵律短语中最重音节重音标为2，主要韵律短语中最重音节重音标为3，0则表示不重读，即正常读音。在本文研究中，需将音节分为正常读音和重音，而并不细分音节之间的差别，为此则将韵律词重音和次要韵律短语（MIP）重音看做正常读音，却只将主要韵律短语（MAP）重音看作是重读。ASCCD语料库中重音的分布如表1所示。

梅尔频率倒谱系数MFCC充分利用了人耳的听觉感知特性，并将该特性与声音产生机制结合，即更好地模拟了人耳对语音信号的处理过程，其提取的特征也更能真实反映听觉系统的独特性质。因此，融合上下文子段拼接的 MFCC短时谱特征集在汉语重音检测研究中都能取得较好的识别率。实验结果也证实了这一推想。

4结束语

本文详细阐述了融合上下文子段拼接的MFCC短时谱特征集。然后，采用NaiveBayes分类算法在ASCCD朗读语篇语料库上对当前音节的短时谱特征进行建模，NaiveBayes即选择具有最大后验概率的类作为该对象所属的类，这种分类方法则充分利用了当前语音段的相关语音特性。实验结果也进一步表明融合上下文子段拼接的MFCC短时谱特征有着很高的识别率。下一步，就要对所用的特征进行简化，或改进MFCC算法，旨在提取最少的特征得到更高的识别率。

参考文献：

[1]胡伟湘，董宏辉，陶建华，等. 汉语朗读话语重音自动分类研究[J]. 中文信息学报，2005（6）：80-85.

[2]邵艳秋，韩纪庆，刘挺，等. 自然风格言语的汉语句重音自动判别研究[J]. 声学学报，2006（3）：203-210.

[3]陈楠，贺前华，王伟凝，等. 基音同步帧长特征在英语词重音检测中的应用[J]. 计算机应用，2008（6）：1533-1536.

[4]陈楠，贺前华. 非线性加权能量特征在英语词重音检测中的应用[J]. 声学学报（中文版），2008（6）：520-525.

[5]陈楠，贺前华，李韬. 基于听觉模型的特征在英语重音检测中的应用[J]. 计算机工程，2009（8）：26-27，30.

[6]李坤，刘加. 基于听感知特征的英语句子重音检测[J]. 清华大学学报（自然科学版），2010（4）：613-617.

[7]倪崇嘉，张爱英，刘文举. 基于声学相关特征与词典语法相关特征的汉语重音检测[J]. 计算机学报， 2011（9）： 1638-1649.

[8]倪崇嘉，刘文举，徐波. 基于互补模型的汉语重音检测[J]. 计算机工程，2011，23：20-23.

[9]李心广，王桂珍，杨思哲. 考察重音与韵律的英语句子客观评价系统研究[J]. 计算机工程与应用，2013，（8）：105-109，150.

[10]CHEN Xiaoxia， LI Aijun， SUN Guohua， et al. An application of SAMPA-C for standard Chinese[C]//Proceedings of the International Conference on Spoken Language Processing. Beijing， China， 2000：652-655.

[11]LI Ai jun. Chinese prosody and prosodic labeling of spontaneous speech[C]//Proceedings of the Speech Prosody 200.Aix-en-Provence， France， 2002：39-46.