陈承义,高俊芬
CHEN Chengyi1,GAO Junfen2
1.柳州铁道职业技术学院,广西 柳州 545007
2.广西师范大学,广西 桂林 541004
病态嗓音的识别与研究
陈承义1,高俊芬2
CHEN Chengyi1,GAO Junfen2
1.柳州铁道职业技术学院,广西 柳州 545007
2.广西师范大学,广西 桂林 541004
通过分析嗓音的发音机理,提取正常与病态嗓音的传统声学参数:基频、共振峰、Mel倒谱系数(MFCC),以及非线性特征参数:计盒维数与截距,作为病态嗓音识别的特征矢量集。应用高斯混合模型(GMM)对156例正常嗓音与146例病态嗓音进行建模与识别。结果表明:非线性特征参数计盒维数与截距能很好地区分正常与病态嗓音,它们与传统声学参数基频和共振峰的组合,能够取得92.60%的识别率。
高斯混合模型;病态嗓音;计盒维数;截距
物体振动发出声音,声带是嗓音产生的主要振动体。声带的质量、韧性,覆盖粘膜的病变等均会影响其振动的频率、振幅和持续时间[1]。语音信号作为信息传递的重要载体,通过对病态嗓音信号的声学检测,分析嗓音信号的基频(F0)、共振峰、频率微扰、振幅微扰、Mel倒谱系数(MFCC)等各种声学参数,对异常嗓音特征作出定量分析。但它们在有效检测病态嗓音方面存在一定的局限。语音信号是一种非线性、非平稳的信号,而传统的声学参数的提取均是将语音信号近似为线性信号,这样就严重影响了特征的有效性。分形理论作为非线性信号的有效描述手段,能够有效地分析非线性语音信号。应用分形理论提取的计盒维数与截距,可以作为病态嗓音识别的特征参数。实验证明,计盒维数与截距比传统声学参具有优越性,它们与传统声学参数相结合时,用GMM进行建模和识别,取得较好的识别率,作为一种无损伤的检测方法,对喉病临床诊断具有一定的实用价值,给临床医生提供了可靠的参考。
实验数据来源于临床病例,采集数据时的环境要求在安静的室内进行;时间1.5~3.0 s;受试声样为汉语元音“a”,分别对正常人和患有各类喉科疾病的对象进行两次语音采样,采样频率为16 kHz和48 kHz。正常对照组156例,年龄18~40周岁,平均年龄25周岁,经询问近期无喉部疾病者;病态嗓音组146例,年龄15~50周岁,平均年龄27周岁,为前来医院就诊临床病例。实验时,将采样频率为48 kHz的语音降采样为16 kHz,在保证一个说话人的语音不同时出现在训练集和测试集的情况下,将数据库的156例正常嗓音和146例病态嗓音随机分割成两部分,其中取正常嗓音78例和病态嗓音73例作为模型训练集;其余部分作为测试集,分别为78例正常嗓音与73例病态嗓音[2]。
3.1 传统声学参数特征提取
传统的嗓音分析声学参数有很多,本实验选用在病态嗓音医学临床检测中广泛应用的基频、共振峰和Mel倒谱系数(MFCC)[3]这3个特征参数。基频是指声带振动的频率,共振峰表征了声道参数的特性,MFCC充分考虑人耳听觉结构和人类发声和接受声音的机理。当声带发生病变时,嗓音信号的这3个特征参数值就会偏离正常范围,从而可以区分正常与病态嗓音。
3.2 计盒维数与截距特征参数提取
假定上述极限存在,其中Nσ(F)在本文中定义为:覆盖F的边长为σ的最小立方体个数。
本实验中采用计算量较小的多点拟合来计算Db。具体过程如下:
(1)取M个σ值,记σi(i=1,2,…,M)。
(2)计算Nσi(F)。先将语音信号归一化到单位正方形区域[4],即
中南大学在2016级、2017级冶金、工管、能器、机械、临床等非计算机专业约840名学生的“数据库技术与应用”课程进行了连续两年交叉融合的教学模式的实践,课程共48课时,为期12周,获得了比对效果较好的应用数据。
F={s(t)|min(s(t))=0,max(s(t))=1,0≤t≤1}
s(t)表示为归一化后的语音信号,取最小正方形的边长为σ,易知在区间In=[(n-1)σ,nσ]内,覆盖F的最小正方形数为:Nn=[(maxs(t)-mins(t))/σ],t∈In
[X]表示不小于X的最小正整数,因此在[0,1]区间内覆盖F的总正方形个数为:
语音信号是一个复杂的非线性过程,其中存在着产生混沌的机制[4]。分形理论是描述混沌信号的一种有效的手段,是一种分析非线性语音信号的新方法。分形的度量有多种描述方法,常用的有计盒维数、容量维数、关联维数、Hausdorff维等。本文采用计盒维数。
定义(计盒维数)N维欧氏空间子集F的计盒维数Db定义为[5]:
(3)令xi=lg(1/σ),yi=lgNσ(F),分别计算点( ) xi,yi,按最小均方误差拟合一条直线y=kx+b,则此直线的斜率k为计盒维数Db,b为截距,即:
模式识别的方法有人工神经网络、隐马尔科夫模型、支持向量机等,本文采用高斯混合模型[6]。
混合高斯模型是一种多维的概率密度函数,采用M个高斯成员加权和来表示,即
其中 xk,k=1,2,…,n,为一组在高维(d维)空间的点,μ代表此密度函数的中心点,Σ代表此密度函数协方差矩阵,wi为混合权重,并满足:
则完整的高斯混合模型参数表示为:
训练之前,对混合高斯模型的参数λ进行初始化,一般假设w1=w2=…wm=1/M,并使用K-means算法来计算群聚中心点,作为μi的初始值。设定初始参数值λ={wi,μi,Σi}。
训练时,用EM算法不断迭代调整参数λ,重新计算参数为λ˜=(w˜i,μ˜i,Σ˜i),直到|λ-λ˜|小于某一个极小值的容忍值为止。
识别时,计算输入语音的特征在每个模型(正常与病态嗓音)下的概率,找出概率最大者,即可判断其为哪一类嗓音。
本文实验采用GMM模型作识别系统,在数据库156例正常嗓音和146例病态嗓音中,在保证一个说话人的语音不同时出现在训练集和测试集的情况下,随机分割,其中训练集包括正常嗓音78例和病态嗓音73例,测试集包括正常嗓音78例和病态嗓音73例。实验取特征参数:基频、共振峰、MFCC、计盒维数、截距;将特征进行编号为:1、2、3、4、5。
实验特征参数处理说明:语音帧长为512,帧移为256;基频、计盒维数和截距都是一维的数据,本实验共振峰取前3个F1、F2、F3,共三维;MFCC作为特征参数时,一般都加入能够表征语音动态特性的MFCC一阶差分参数,组成24维特征参数。
首先,研究GMM的混合数对识别性能的影响,本实验主要分两类问题,通过大量实验证明,本实验的最佳GMM混合数为2。其次,研究每一个特征对病态嗓音识别的贡献,所得到每个特征的GMM识别结果,按识别率从大到小排列,见表1。最后,根据表1的识别结果,按识别率从高到低逐渐增加特征个数,所得到的GMM识别率结果见表2。
表1 单个特征的GMM识别率从大到小排列
表2 根据表1逐渐增加特征组合的识别率
实验结果分析:从表1可以看出分形特征参数计盒维数和截距对GMM的识别率贡献较大,能够有效地区分正常与病态嗓音,分别取得87.34%和87.43%的识别率;传统的声学参数对GMM的识别率贡献较小。再看表2,分形参数计盒维数与截距的组合,所得到的GMM识别率为90.89%;传统的声学参数基频、MFCC和共振峰的组合,所得到的GMM识别率为69.91%。由此可见,本实验所选的传统声学参数在诊断正常与病态嗓音时不具有绝对的优势,而分形特征参数具有一定的优越性。当分形特征参数与传统声学参数相组合时,识别率有所提高,见表2,计盒维数、截距与共振峰组合时,所得到的GMM识别率为91.40%;当计盒维数、截距与共振峰、基频组合时,能得到最大识别率为92.60%。由此可见,分形特征和传统声学参数结合,提高了病态嗓音的GMM识别率,分形特征参数可以弥补传统声学参数的不足,提高了分析病态嗓音的能力。当继续增加MFCC特征参数进行组合时,识别率下降为69.91%。病态嗓音自动检测和评价时,提取特征参数的一般原则是尽可能把相关特征纳入特征集,其结果就很难避免各种特征的相关和冗余信息,对随后的识别率和检测带来负面影响,因此本实验剔除对识别率贡献较小的MFCC特征参数。
实验结果表明,本文实验提取的5个特征参数中,分形特征参数能够有效地区分正常与病态嗓音,弥补了传统声学参数的不足。当分形特征参数计盒维数、截距与基频、共振峰组合时,取得了92.60%的较高识别率。
分形理论是描述非线性信号的有力工具,是近年来处理语音信号的一个新的非线性分析方法。本文实验提取的分形特征参数计盒维数与截距,弥补了传统的声学分析参数的不足,提高了分析病态嗓音的能力,能有效地区分正常与病态嗓音,且与传统声学参数基频和共振峰组合,获得了92.60%的识别率,给临床医生提供了可靠的分析工具。
[1]胡维平,王修信,曾恩恩,等.噪音频域分析中的特征研究[J].广西物理,1998,19(1):30-33.
[2]龚英姬,胡维平.基于HHT变换的病态嗓音特征提取及识别研究[J].计算机工程与应用,2007,43(34):217-219.
[3]赵力.语音信号处理[M].2版.北京.机械工业出版社,2009:31-78.
[4]ThompsonC,Mulpur A,Mehta V.Tranditiontochaos in acoustically driven flow(acoustic streaming)[J].Acoust Soc Am,1991,90:2097-2103.
[5]韦岗,陆以勤,欧阳景正.混沌、分形理论与语音信号处理[J].电子学报,1996,24(1):34-38.
[6]于燕平,胡维平.病态嗓音特征的小波变换及识别研究[J].计算机工程与应用,2009,45(22):194-195.
1.Liuzhou Railway Vocational Technical College,Liuzhou,Guangxi 545007,China
2.Guangxi Normal University,Guilin,Guangxi 541004,China
By analyzing the mechanism of pronunciation,normal and pathological voice of traditional acoustic parameters:fundamental frequency,formant,Mel Frequency Cepstrum Coefficient(MFCC),and non-linear feature parameters:box-counting dimension and intercept,are extracted as feature vectors of recognition of pathological voice.156 normal voice samples and 146 pathological voice samples are recognized based on Gaussian Mixture Model(GMM).The results show that the nonlinear feature parameters of box-counting dimension and intercept can well distinguish between normal and pathological voice.The combination of box-counting dimension,intercept and the traditional acoustic parameters-fundamental frequency and formant can achieve a better recognition rate of 92.60%.
Gaussian Mixture Model(GMM);pathological voice;box-counting dimension;intercept
A
TP39
10.3778/j.issn.1002-8331.1108-0133
CHEN Chengyi,GAO Junfen.study and recognition of pathological voice.Computer Engineering and Applications, 2013,49(7):123-125.
广西自然科学基金(No.2010GXNSFA013128)。
陈承义(1959—),男,讲师,主要研究领域为信号处理;高俊芬(1987—),通讯作者,女,硕士研究生。E-mail:396372100@qq.com
2011-08-31修回日期:2011-12-30
1002-8331(2013)07-0123-03