基于多特征组合的普通话塞音识别

2019-05-09 06:47冯沛白静薛珮芸张雪英
现代电子技术 2019年8期
关键词:塞音信息熵特征参数

冯沛,白静,薛珮芸,张雪英

(太原理工大学 信息工程学院,山西 太原 030024)

0 引言

语言是人类传递信息的重要方式之一。人机交互时代,如何让计算机准确快速地识别语音一直是研究的重要内容。语音识别的关键问题之一是提取有效的特征参数,目前常用的语音和声学特征有MFCC参数、韵律特征和共振峰参数等特征。MFCC具有良好的识别能力和抗噪能力,韵律特征描述了语音的超音段信息,共振峰参数可以反映出人在发音时声道的形状和尺寸。这些特征在语音识别中都有广泛的应用,也取得了较好的识别效果;但因普通话塞音存在发声持续时间短、不稳定、易混淆等缺点,以上特征对普通话塞音还不足以精细刻画。塞音作为普通话声母中一类重要的发音,在计算机辅助语言学习、发音音素错误检测和构音障碍者康复治疗[1]等方面都有广泛的应用。

根据以上所述汉语塞音的发音特点和识别研究的重要性,为提高普通话塞音的识别性能,本文通过在常用语音和声学特征的基础上加入其他特征参数来实现其识别率的提高;并具体阐述了提取的特征参数,包括嗓音起始时间(Voice Onset Time,VOT)、音轨方程、发音器官运动轨迹位移、速度和加速度的运动学特征;还将提取的语音特征、声学特征和运动学特征进行融合形成不同的特征组合,对特征组合预处理后分别将其进行主成分分析(Principal component analysis,PCA)和特征参数的信息熵计算。最后把两种处理后的特征组合分别作为SVM识别网络的输入,通过网格搜索法5折交叉验证来对比测试不同特征组合的识别性能。本文实验整体系统框图如图1所示。

图1 实验系统框图Fig.1 Block diagram of experimental system

1 特征参数提取

1.1 韵律特征参数

韵律特征又称为超音段特征,用来描述语音在音高、语调、节奏和轻重音等方面的特征,传递重要的副语言学信息[2]。本文提取的韵律学特征有短时能量(Energy)、基音频率(Pitch)、过零率(Zero-crossing)和语速(Speed),以及短时能量和基音频率的统计学特征,包括最大值、最小值、平均值和变化率的最大值、最小值、平均值,共计14维基本特征参数。

1.2 MFCC参数

人的听觉系统是一个特殊的非线性系统,根据不同频率信号的不同灵敏度,不仅能提取出语义信息,还能提取出说话人的个人特征。MFCC就是模拟人类这种听觉特性来提取语音的特征参数。提取MFCC特征[3]时,首先,对语音进行预处理,包括端点检测、预加重和加窗分帧,本文使用的窗函数是汉明窗;然后,对窗函数进行256点短时傅里叶变换,得到能量谱;再将能量谱通过一组三角带通滤波器,计算其对数能量。本文取24个三角带通滤波器进行离散余弦变换,可得到MFCC系数,实验结果得到MFCC的60维特征,包括偏度、中值、均值、方差峰度。

1.3 共振峰参数

共振峰是声音频谱中能量相对集中的区域,与发音部位有密切的关系,反映了语音的音质特征。从共振峰参数能推断出声腔的物理特征,而且不同发音的共振峰参数有一定的分布范围,能较好地区分不同语音。本文共提取24维共振峰频率特征,包括第一共振峰、第二共振峰、第三共振峰,以及各共振峰的一阶差分最大值、最小值、均值和方差。

1.4 VOT和音轨方程参数

普通话塞音是辅音,辅音是声腔受阻发出的音;塞音是所有辅音中发声器官形成阻碍最大的发音方式。当发声系统的声源产生激励时,气流经过喉部和声带,此时声带处于紧绷状态,阻碍气流到达口腔;当气流冲破阻碍,声带稳定振动时,气流在双唇聚集遇到口腔外空气时发出的音即为辅音。嗓音起始时间VOT就定义了发音从发音器官除去阻碍到声带稳定振动的时间差[4],描述了辅音发音受阻过程的时间特征。本文利用Praat语音分析软件提取出塞音的VOT参数。

在实际语境中,辅音(Consonant,C)较少离开元音(Vowel,V)单独使用,大多数情况以CV音节的形式出现,对于普通话塞音,其后接元音是固定的。通过计算塞音所有CV音节第二共振峰起始值F2oneset到目标值F2target的转移程度,又称“过渡音征”,可求出最佳拟合直线,即音轨方程y=kx+b,利用参数k和b对塞音分类比单纯依靠判断音征走势更加有效。音轨方程参数在考察发音部位分类研究[5]和协同发音中都有广泛的应用。本文提取的塞音/b/和/d/的音轨方程如图2所示。

图2 塞音/b/,/d/的音轨方程Fig.2 Audio track equations of plosives/b/and/d/

1.5 运动轨迹特征参数

目前的语音识别研究大都依靠提取的语音和声学特征,结合运动学特征的相关研究较少。运动学特征通过电磁发音记录仪(Electromagnetic Articulography,EMA)记录发音器官运动数据提取,具有较高的速率和精度。Konstantin等将运动学特征结合MFCC特征后,利用HMM网络识别日语[6]。结果发现,单独使用运动特征的识别效果不佳;结合语音特征后,识别率比单独使用运动特征和语音特征有明显提高。蔡明崎等将运动学参数通过HMM模型预测中文发音动作参数[7]。受技术设备和人力所限,现今国内将运动学特征应用到汉语语音识别的相关研究较少。

本文提取的运动学特征包括发音人嘴唇和舌头运动轨迹在z轴方向的位移、速度、加速度,以及其各自的最大值、最小值、均值和标准差共计24维特征。

2 实验数据与方法

2.1 实验数据采集

实验语音和发音器官运动数据通过德国Carstens公司的AG501仪器采集,音频采样频率为250 Hz,单通道,16 bit采样精度,记录发音器官运动轨迹数据的传感器数目选择11个,记录的主要位置为上下唇、左右嘴角、舌尖、舌中和舌后。在运动轨迹数据采集前,为将运动数据从空间坐标转换到参考平面坐标,需进行传感器校准和发音人头部校准。实验发音人为22名母语为汉语的学生。本文对所有的汉语塞音采集2遍共264句语料。实验数据采集的主要步骤如图3所示。

图3 音频与运动轨迹数据采步骤Fig.3 Acquisition procedure of audio and motion track data

2.2 特征参数分析方法

2.2.1 信息熵计算

熵用来描述体系的混乱程度,根据信息论可知信息的度量可以用信息熵来表示。对于一个系统来说,信息熵表征系统不确定因素的混乱程度,如果系统的信息熵值较高,说明系统混较乱,随机性大;反之,熵值越小,表示信息的属性越相近,越有利于归类,在数据分类识别中经常用到信息熵。邵朝等在支持向量机中利用熵值计算特征向量权重提高了分类的准确率[8];李文君等通过计算熵表征的聚类因子来评判聚类的效果优劣[9],提高了信号的分选速度;还有研究计算特征的信息熵,如小波包熵、功率谱熵[10]等信息熵作为特征识别的样本。

设系统X可能有几种不同的状态:x1,x2,…,xn,qi代表状态xi出现的概率,则该系统的信息熵。本文根据此式计算出每类特征的信息熵,得到的熵值分布在一个区间,如表1所示。

表1 特征的信息熵区间Table 1 Information entropy intervals of characteristics

2.2.2 主成分分析

主成分分析(Principal Components Analysis,PCA)是一种简化数据集的统计学分析方法。为了排除信息中相互重叠部分,消除数据间冗余性,该分析方法通过线性变换将有相关性的变量降成维数低于原变量的数据集[11],却不会改变原数据的分布特性。当数据经过主成分分析后作为机器训练和识别的输入集时,可以缩短训练耗时、降低存储内存、提高机器的识别效率。

本文在进行主成分分析前,对每维数据{}X1,X2,…,Xn进行归一化处理,以消除数据集的计算误差和量纲差异影响;然后计算出特征向量Xi和特征值λi,得到向量主成分的累计贡献率。根据累计贡献率,也就是阈值,确定主成分的维数m(m≤n)。其中,n为原特征的维数。因为不同阈值提取出的主成分维数不同,为防止数据丢失较多的信息,通常将阈值设置为80%以上,本文设置阈值为97%。

3 实验

3.1 实验设置

对得到塞音语音和发音器官运动轨迹数据进行标注,并提取其上述5种特征参数,然后将特征参数融合,形成不同的特征组合,构成识别网络的数据集。测试实验训练语料为186句,测试语料为78句。

本文选用的分类器是支持向量机,构造支持向量机的核函数选择径向基核函数,C和γ是径向基核函数重要的两个参数,实验通过网格搜索法5折交叉验证确定C和γ的值。

3.2 实验结果与讨论

将单组特征和特征组合的直接识别结果和经PCA后的识别结果分别列于表2、表3。表2中用VOT参数代表VOT和音轨方程参数。为了简洁特征组合书写,用编号1,2,…,5分别代表特征MFCC、韵律特征、共振峰特征、运动学特征和VOT参数。表3中用“+”表示将上述不同特征进行拼接组合。

表2 单组特征识别结果Table 2 Recognition results of single features

表3 识别率排名Top-10的特征组合识别结果Table 3 Recognition results of feature combinations whose recognition rates rank in TOP-10

从表2中可以看出,单组特征经主成分分析后明显减少了特征维数,但识别率保持基本不变。将5种单组特征进行组合共有26组特征组合,分别对每组特征组合进行识别。经测试,将识别率排名Top-10的特征组合的识别结果列于表3,且按顺序记特征组合的组别为1,2,…,10。

从表3可以看出,Top-10特征组合的识别率相对单组特征都有提高,说明部分特征组合可以弥补单组特征信息的不足。Top-10特征组合经主成分分析后有5组识别率提高了1%,4组识别率保持不变,1组识别率下降了1%;表明经主成分分析后的特征组合识别结果可以保持稳定,与此同时降低了特征参数的维数,可以提高机器的识别效率。从Top-10特征组合中单组特征出现的频次可以看出,MFCC和运动学特征参数出现的频次最高为9,次之为VOT参数为6,韵律特征和共振峰特征为5;表明MFCC、运动学特征和VOT参数在语音塞音识别中和其他特征的互补性较好,对塞音语音有较好的识别效果。与文献[12]相比,本文主成分分析后的特征组合最高识别率为97.45%,高于其96%的识别结果。

图4列出了通过SVM识别特征组合、PCA处理后识别特征组合、计算特征信息熵后识别特征组合的3种识别率对比结果。图4中横坐标为识别率Top-10特征组合的组别,纵坐标为特征组合的识别率。从图中可以看出,特征组合信息熵识别率排名Top-10的特征组合与表3一致,表明特征组合对塞音识别的稳定性;熵计算后的Top-10的特征组合识别率也均高于单组特征识别率,说明熵计算后的特征组合对塞音语音识别的有效性。

图4 Top-10特征组合的3种识别率对比Fig.4 Comparison for three recognition rates of Top-10 feature combinations

4 结语

本文提出用语音特征、声学特征和运动学特征的特征组合识别普通话塞音,并通过两种处理方法包括主成分分析和信息熵计算处理特征组合,最后通过支持向量机识别,验证了特征组合的识别性能。实验结果表明,Top-10特征组合经过3种SVM识别后,识别率都比单组特征有明显提高,表明本文特征组合对塞音识别的有效性和稳定性;同时进行主成分分析和特征熵计算后特征组合都降低了特征维数,提高了机器的识别效率。总体看,Top-10特征组合的识别率在塞音的识别效果中表现满意,可以应用到实际塞音语音识别中。

猜你喜欢
塞音信息熵特征参数
普通话塞音的声学分析
基于信息熵可信度的测试点选择方法研究
故障诊断中信号特征参数择取方法
基于特征参数化的木工CAD/CAM系统
汉语母语者英语塞音习得的实验研究
基于PSO-VMD的齿轮特征参数提取方法研究
基于信息熵的实验教学量化研究
一种基于信息熵的雷达动态自适应选择跟踪方法
基于信息熵的IITFN多属性决策方法
统计特征参数及多分类SVM的局部放电类型识别