基于发声模型的腭裂语音高鼻音自动检测算法

2015-12-23 01:02:04张桠童
计算机工程与设计 2015年6期
关键词:基音鼻音腭裂

张桠童,何 凌,张 婷,尹 恒,李 杨

(1.四川大学 电气信息学院,四川 成都610065;2.成都航空职业技术学院 国有资产管理处,

四川 成都610100;3.四川大学 华西口腔医院,四川 成都610041)

0 引 言

腭裂语音的主要表现有共振异常、过高鼻音、鼻漏气和代偿性构音等[1]。临床上,由结构性腭咽闭合功能不全引起的高鼻音的诊断最为重要。但是,目前高鼻音的诊断主要是针对高鼻音存在与否的判定,没有对高鼻音等级进行详细的区分。此外,判定的方式大部分是通过语音师的主观评估,这种方式受到语音师的主观因素和周围环境的客观因素影响,会给判定结果带来一定的影响。因此,高鼻音自动识别算法的研究在临床上具有重大意义。

腭裂语音序列治疗最早由英国的Copper医师提出,此后,唇腭裂的治疗及诊断发展迅速。高鼻音作为腭裂语音评估和辅助治疗的主要因素,引起了国内外广泛的关注[2-5]。Talkin等[6-7]从时域和频域角度对基音频率的提取进行了一系列研究,发现基音频率在语音信号处理方面具有实用意义;Maier等[8]将声调特征值、24 维Mel倒谱系数 (MFCC)和Teager能量算子作为特征参数,结合隐马尔科夫模型 (HMM)进行了腭裂儿童的高鼻音识别,获得了70%的识别率。

本文基于语音发声模型,对腭裂语音高鼻音特性进行分析。腭裂语音中高鼻音的产生,是由于腭咽闭合不全,导致口腔气流溢入鼻腔。因此,高鼻音特性主要来自语音的口鼻腔,即语音信号的辐射模型,故设想包含辐射模型的特征参数在腭裂语音高鼻音等级的识别中具有优势。针对此,本文分别提出了基于激励模型、声道模型和综合声学参数 (基于辐射模型)的特征参数,并进行了实验验证。实验结果表明,高鼻音等级识别率最高的是基于综合声学参数的MFCC高鼻音识别算法。

1 语音信号的数学模型

通过对发音器官和语音产生机理的分析,将语音生成系统分为了3个部分:激励系统、声道系统和辐射系统[9]。

1.1 激励模型

该模型由浊音激励和清音激励组成。当发浊音时,声带的不断闭合产生间歇的脉冲波,其数学表达式如下所示

式中:N1——斜三角波上升部分的时间,N2——下降部分的时间。

单个斜三角波的z变换的表达式如下所示

式中:c——常数。

整个浊音激励表示如下所示

由此可以看出,浊音激励波是一个以基音周期为周期的斜三角脉冲串。

1.2 声道模型

声道模型常见的有两种:声管模型和共振峰模型。共振峰模型把声道看作一个谐振腔,共振峰即为这个腔体的谐振频率。谐振腔可以改变原本语音的频谱特性,在谐振频率上能量加强,其它频率上能量衰弱,有一定的滤波作用。能够决定元音的音质,也反映了声腔的频率特性。

一般情况下,元音用前3 个共振峰表示,辅音用前5个共振峰表示。

元音因发音的口腔相对稳定,可以全极点模型来模拟,其传输函数如下所示

式中:N——极点个数,G——幅值因子,ak——常系数。

辅音因发音时,口腔有一定的突变,故用零极点模型来模拟,其表示如下所示

1.3 辐射模型

该模型与嘴型有关,一般情况下,表达式如下所示

综上,语音信号的数学模型可以用激励模型、声道模型和辐射模型串联起来表示,如图1所示。

图1 语音信号数学模型

其传输函数如下所示

该模型为 “短时模型”,本文利用该模型与人体语音产生的相关性,分别提取了基于该模型特性的腭裂语音高鼻音特征参数,进行高鼻音等级的自动识别。特征参数分别为基音 (激励模型);共振峰 (声道模型);短时能量和Mel倒频谱系数 (综合声学参数)。

2 腭裂语音高鼻音等级自动识别系统

本文的腭裂语音高鼻音等级自动识别系统分为训练阶段和识别阶段两部分。训练阶段主要是提取数据库中腭裂语音的基音、共振峰、短时能量、Mel倒频谱系数特征参数,分别得到各自的训练模型参数集。识别阶段,利用K-最近邻算法进行高鼻音等级的自动识别和判定。本文的系统框架如图2所示。

图2 高鼻音自动识别系统流程

2.1 预处理

腭裂语音信号的预处理是指通过预滤波、A/D 转换、预加重和分帧加窗等处理,得到干净的短时平稳数字语音信号。本文实验数据来自于专业的语音室,通过coolpro2软件剪辑得到待处理的数字语音信号,通过汉明窗进行分帧加窗。

2.2 特征参数提取

腭裂语音高鼻音特征参数的提取是将不同高鼻音程度的腭裂语音特征信息提取出来,为等级自动识别系统提供级别特征相对稳定的识别参数。其作为腭裂语音高鼻音等级自动识系统中最重要的一环,提取参数的优劣很大程度上决定了系统识别率的高低。本文高鼻音特征参数分别是基于语音数学模型的参数。

2.2.1 基于激励模型的特征参数

本文针对语音信号的激励模型,提取了基音频率作为高鼻音特征参数。基音频率的检测使用的是倒谱法。首先,对分帧后的腭裂语音信号进行线性预测分析,得到线性预测系数ai,并将ai构成逆滤波器A(z);然后由逆滤波器对原分帧语音信号谱特征进行处理,便得到预测余量信号ε(n);再对预测余量信号进行DFT 变换、取对数,并将高频分量置为零;最后进行IDFT 变换,得到原信号的倒谱。即根据倒谱中的基音信息检测出基音频率。

该算法具有较强的鲁棒性图3 为成人 (Female)不同高鼻音等级腭裂患者同一语音段 “吃蛋糕”的基音频率图。

2.2.2 基于声道模型的特征参数

本文针对语音信号的激励模型,采用LPC 线性预测法提取共振峰,作为高鼻音特征参数,具体步骤:

(1)对原始信号进行加窗分帧,帧长为20ms,帧移为10ms。再对分帧后的语音信号进行重采样,减小采样率,方便对信号的后期处理。

图3 不同高鼻音等级基音频率

(2)通过对预处理后信号求取12阶线性预测滤波器系数,得到基于声道模型的全极点滤波器传递函数。其公式如下所示

式中:G——线性系统的增益,ai——线性预测滤波器系数,p 代表线性预测滤波器阶数。

(3)采用牛顿-拉夫逊算法对传递函数的分母多项式求根,得到共振峰的值,如式 (9)所示。再将求得的根从小到大依次排列,依次为F1、F2、F3、F4、F5

式中:θi——极点的相位角,T——采样周期。

图4为成人 (Female)不同高鼻音等级腭裂患者同一语音段 “跷跷板”的线性预测器频谱包络图,包络中的极值所对应的频率即为共振峰频率。

2.2.3 基于综合声学参数的特征参数

考虑到腭裂最直接影响的是语音信号的辐射模型,故本文在辐射模型的基础上,提取了两种基于综合声学参数的特征参数,即短时能量和Mel倒频谱系数。

(1)短时能量:短时能量是语音信号处理中最基本的短时参数,它反映了各个等级下的高鼻音语音信号的时域特性[10]。本文的具体步骤:

1)通过预处理,得到了每20ms一帧的腭裂语音信号x (n)。

2)利用式 (10)求解每一帧的能量

式中:x(n)——加窗分帧后的语音信号,w(m+n)——窗函数,M——帧长。

图4 不同高鼻音等级共振峰

3)采用补零的方法将不同帧数的语音进行统一帧数。

最终,得到了统一帧数的不同等级的腭裂语音信号的短时能量模型参数。图5为成人 (Female)不同高鼻音等级腭裂患者同一段语音 “爬楼梯”的能量图。

图5 不同高鼻音等级能量

(2)Mel倒频谱系数

Mel频率倒谱分析基于人耳的听觉特性[11],在高鼻音等级识别中相对其它特征参数具有优势。本文的具体步骤:

1)利用汉明窗对腭裂语音信号进行分帧,得到分帧后的语音信号x(n)。

2)将加窗分帧后的语音信号进行离散傅里叶变换。因FFT 变换点数过大会增大运算复杂度,过小会降低频谱分辨率,故本文选取882点。即得到每帧语音信号的线性频谱,如下所示

式中:N——FFT 变换点数。

3)将上面得到的线性频谱通过32个具有三角形滤波特性的Mel频谱滤波器组,得到Mel频谱S(l),如下所示

每个带通滤波器的传递函数如下所示

其中,l=1,2,…,L,L 代表滤波器组中滤波器的个数。k代表频谱,kbi代表带通滤波器的边界频谱值。

4)对滤波器组的输出依次作对数变换、离散余弦变换,最终得到MFCC系数,如下所示

综上,便得到了不同等级的腭裂语音信号的32阶Mel倒频谱系数模型参数。图6为成人 (Female)不同高鼻音等级腭裂患者同一段语音 “爸爸”的MFCC参数图。

图6 不同高鼻音等级MFCC

2.3 模式识别

K-最近邻算法是一种经典的模式识别方法,它在解决不平衡数据集的分类问题方面具有很大优势[12]。其基本思想是:测试样本 (未知样本)确定时,在该样本的模式空间中寻找出最接近本测试样本的K 个训练样本 (已知样本),然后通过对寻找到的K 个最近的样本进行统计和分析,找到数量最多的类或相似度最高的类,即把测试样本判决给相似度最大的类。

腭裂语音高鼻音数据集含有M 类 (本文高鼻音等级只有4类:正常、轻度、中度和重度),每一类分别记作Ci(1≤i≤M),所有样本都有N 个属性。

(1)计算测试样本与所有训练样本的距离,如下所示

式中:X——测试样本,Y——训练样本。

(2)在训练样本中寻找K 个最近邻样本。

(3)利用式 (16)分别计算上面找到的K 个训练样本与本测试样本的相似程度

(4)计算各类最近邻与测试样本的总相似度,如下所示

(5)将测试样本按式 (18)判决为相似度最大的类

3 实 验

3.1 腭裂语音数据库

实验数据来源于四川大学华西口腔医院唇腭裂外科语音治疗中心。该中心具有近十年的唇腭裂序列治疗经验,收集了大量的腭裂语音数据,建立了 “四川大学华西口腔医院语音矫治室普通话构音测量表”,形成了成熟且完善的评估流程与评估机制。根据统计学原理,为确保高鼻音等级自动识别的准确性,本次实验选用数据共80个病例,分别为成人 (male)40 人,高鼻音等级正常、轻度、中度、重度各10人;成人 (Female)40人,高鼻音等级正常、轻度、中度、重度各10人。每个病例使用了测量表中的前42个词汇进行了识别,即21个辅音每个有2个词汇。

3.2 实验结果及分析

分别对本文的4种腭裂语音高鼻音等级识别算法进行高鼻音等级识别,高鼻音等级分为正常、轻度、中度、重度4个等级。4 种算法腭裂语音高鼻音等级识别结果见表1,识别率见表2。

表1 4种算法腭裂语音高鼻音等级识别结果

通过表2可以看出,高鼻音等级识别率最高的算法是MFCC,依次是能量、共振峰、基音。成人 (Female)MFCC识别率比能量高30.86%,比共振峰高37.11%,比基音高46.95%;成人 (male)MFCC 识别率比能量高26.83%,比共振峰高35.91%,比基音高41.84%。基于综合声学参数的特征参数MFCC 和能量的识别率均比基于激励模型和声道模型的要高。

表2 4种算法高鼻音等级识别率

4 结束语

本文通过对语音信号发声模型的分析,提取了基于不同发声模型阶段的腭裂语音高鼻音特征参数,利用K-最近邻算法进行高鼻音等级自动识别。实验结果表明,与临床意义一致,腭裂语音高鼻音主要影响发声的辐射模型,故本文最高的识别参数是包含辐射模型的短时能量和MFCC特征参数。基于MFCC 参数的高鼻音等级识别率高达87.40%,具有重要的临床实用意义。在以后的研究中,还可以针对多种腭裂语音的病理表现,如鼻漏气、辅音缺省、代偿构音等,建立全面的腭裂语音识别系统,实现临床应用。

[1]CHEN Renji.The state and consider about speech therapy of cleft palate in China [J].International Journal of Oral Medicine,2012,39 (1):1-6 (in Chinese). [陈仁吉.中国腭裂语音治疗的现状与思考 [J].国际口腔医学杂志,2012,39(1):1-6.]

[2]Orozco JR,Uribe JA,Vargas JF.Operador de everglade Teager para la detección de hipernasalidad en nios con labio y paladar hendido[J].Rev Tecno Lógicas,2011 (2):27-45.

[3]Murillo S,Orozco JR,Vargas JF,et al.Automatic detection of hypernasality in children [G].LNCS 6687:Springer Ber-lin/Heidelberg,2011:167-174.

[4]Little M,Costello D,Harries M.Objective dysphonia quantification in vocal fold paralysis:Comparing nonlinear with classical measures[J].J Voice,2011,25 (1):21-31.

[5]Arias-Londoo JD,Godino-Llorente JI,Sáenz-Lechón N,et al.Automatic detection of pathological voices using complexity measures,noise parameters and mel-cepstral coefficients [J].IEEE Trans Bio-med Eng,2011,58 (2):370-9.

[6]Stephen A Zahorian, Hu Hongbing.A spectral/temporal method for robust fundamental frequency tracking [J].J Acosut Soc Am,2008,123 (6):4559-4571.

[7]Stephen A Zahorian,Princy Dikshit,Hu Hongbing.A spectral-temporal method for pitch tracking [C]//International Conference on Spoken Language Processing,2006.

[8]Maier A K,Honig F,Hacker C,et al.Automatic evaluation of characteristic speech disorders in children with cleft lip and palate[C]//9th Annual Conference on Speech Communication and Association,2008:1757-1760.

[9]ZHONG Linpeng.Studies on the speech signals processing of the speaker recognition system [D].Chengdu:University of Electronic Science and Technology of China,2013:10-12 (in Chinese).[钟林鹏.说话人识别系统中的语音信号处理技术研究 [D].成都:电子科技大学,2013:10-12.]

[10]LIU Qi.Analysis of short-time energy and amplitude of audio signal[J].Network Security,2011 (9):78-79 (in Chinese).[刘琦.语音信号短时能量及短时幅值对比分析 [J].网络安全技术与应用,2011 (9):78-79.]

[11]LI Yuding.Discussion for Mel cepstrum coefficient of speech signal feature extraction algorithm [J].Journal of Higher Correspondence Education,2012,25 (4):78-80 (in Chinese).[李玉鼎.语音信号特征提取中Mel倒谱系MFCC算法的讨论 [J].高等函授学报,2012,25 (4):78-80.]

[12]Gautam Bhattacharya,Koushik Ghosh,Ananda S Chowdhury.An affinity-based new local distance function and similarity measure for KNN algorithm [J].Pattern Recognition Letters,2012,33 (3):356-363.

猜你喜欢
基音鼻音腭裂
超声对孕早期胎儿腭裂的诊断价值分析
上了一年级的蚊子
家教世界(2022年13期)2022-11-10 13:13:23
到底谁是老师啊?
产前超声诊断单纯Ⅱ度腭裂1例
二维超声联合三维超声自由解剖成像技术在评价胎儿腭裂中的应用价值
基于基音跟踪的语音增强研究
普通话与前后鼻音的发音方法
国内腭裂语音治疗及评价方法研究现状
乐理小知识
小演奏家(2014年11期)2014-12-17 01:18:52
一种改进的基音周期提取算法