余明强 周莉 徐新林 潘晗,2 庄佩耘
声带息肉患者持续元音及连贯言语声的倒频谱声学分析△
余明强1周莉1徐新林1潘晗1,2庄佩耘1
【摘要】目的探讨倒频谱声学分析法与连贯言语声学信号用于鉴别病理性声信号的价值。方法分别采集26例成人声带息肉患者(息肉组,男10例,女16例)及27例正常嗓音者(正常组,男13例,女14例)持续元音和连贯言语声信号,采用MDVP(multi dimensional voice program)软件分析各组持续元音频率微扰(jitter)和振幅微扰(shimmer),采用ADSV(analysis of dysphonia in speech and voice)软件分析各组持续元音和连贯言语的倒频谱参数:倒频谱峰值突出(cepstral peak prominence,CPP)、低高频谱能量比(the mean ratio of singnal energy below 4 000 Hz to the energy above 4 000 Hz,L/HSR)、CPP的标准差(STD CPP)、L/HSR的标准差(STD L/HSR)及发音障碍倒频谱指数(the cepstral/spectral index of dysphonia,CSID),分析扰动参数和倒频谱参数对鉴别病理声学信号的敏感性。结果正常组持续元音的jitter和shimmer值均小于声带息肉组(P<0.05);除STD L/HSR外,正常组持续元音的倒频谱参数值均高于息肉组(P<0.05);连贯言语的倒频谱参数中,男性声带息肉组的CPP、L/HSR均低于男性正常组(P<0.05),女性声带息肉组CPP值明显低于女性正常组(P<0.05)。男女性持续元音声信号的倒频谱参数CPP和CSID在ROC曲线下的面积与参考值0.5相比,差异有统计学意义(P<0.05);男性连贯言语声的CPP及L/HSR、女性CPP ROC曲线下的面积与参考值0.5的差异有统计学意义(P<0.05)。结论连贯言语声和持续元音的扰动参数和倒频谱参数均可用于区别正常与声带息肉患者的噪音声学信号,倒频谱参数CPP对区别正常和声带息肉患者嗓音信号有较好的特异度和灵敏度。
【关键词】倒频谱峰值突出;持续元音;连贯言语;声带息肉
网络出版时间:2015-12-2815:12
网络出版地址:http://www.cnki.net/kcms/detail/42.1391.R.20151228.1512.004.html
声学评估是嗓音客观评估中的重要部分,目前嗓音声学评估的声学信号样本包括持续元音和连贯言语(句子)。声学信号的分析方法包括基于提取稳定频率的扰动方法和基于频谱二次分析的倒频谱方法;扰动方法主要分析频率微扰(jitter)、振幅微扰(shimmer),该方法一般只能用于分析持续元音,而在分析不规则的声信号时,其提取的声学特性可能与原信号不相关,出现较大的偏差[1,2]。倒频谱方法主要分析:倒频谱峰值突出(cepstral peak prominence,CPP)、低高频谱能量比(the mean ratio of singnal energy below 4 000 Hz to the energy above 4 000 Hz,L/HSR)、CPP的标准差(STD CPP)及L/HSR的标准差(STD L/HSR),该方法在分析嗓音信号的频谱时,无需识别信号的稳定周期边界,对发音障碍严重程度的评估更加可靠,并且可以分析连贯言语声信号,而连贯言语声较元音声信号更能反映正常的发声功能[3]。Awan等[3]发现嗓音障碍的严重程度和连贯言语的倒频谱参数显著相关,并设计发音障碍倒频谱指数(the cepstral/spectral index of dysphonia ,CSID)作为评估发音障碍的一个指标[4,5]。本研究的目的在于研究扰动方法和倒频谱方法分析持续元音和连贯言语声学信号对于鉴别声带息肉和正常嗓音的应用价值,并探索各参数的敏感性和特异性。
1资料与方法
1.1研究对象声带息肉组选取2011年3月至2013年11月由厦门大学附属中山医院经频闪喉镜检查具有典型体征并最终经病理检查确诊为声带息肉的患者26例,男10例,女16例,年龄17~60岁,平均35.1±7.8岁。正常嗓音组选取志愿受试者27例,男13例,女14例,年龄20~50岁,平均31.2±5岁,正常组的入选标准为模拟视觉尺度定量评估(consensus auditory preceptual evaluation-voice,CAPE-V)为无声音嘶哑,嗓音障碍指数(voice handicap index-10,VHI-10)≤3分,频闪喉镜检查声带形态及运动正常,排除了听力异常、鼻部疾病、咽部疾病、呼吸系统疾病。
1.2研究方法
1.2.1嗓音声学信号采集持续元音声学信号采集:两组对象均于屏蔽室内,采取站位,口距话筒15 cm左右,麦克风与水平线成15°角,采样频率为44.1 kHz;嘱受试者舒适平稳的发/a/音2次,每次3~5秒,采用视频反馈控制声强在75±5 dB,收集声学信号。
连贯言语声学信号收集:两组对象在上述环境中以相同的发声方法诵读句子“我爱北京天安门”收集声学信号。
1.2.2嗓音声学信号的分析采用基于扰动方法编制的MDVP(multi dimensional voice program)软件Model5105分析持续元音声学信号的扰动参数频率微扰(jitter)、振幅微扰(shimmer)。
采用基于倒频谱方法编制的连贯言语(analysis of dysphonia in speech and voice, ADSV) Model 5109系统分析持续元音声学信号和连贯言语声学信号的倒频谱参数: CPP、L/HSR、STD CPP、STD L/HSR及CSID。
1.3统计学方法使用SPSS18.5版本软件对数据进行统计分析,差异比较采用独立样本t检验、两个独立样本的Mann-Whitney U非参数检验分析,各检测采用受试者工作特征曲线(receiver operating characteristic curve,ROC曲线)分析参数的诊断价值。
2结果
2.1正常组不同性别受试者持续元音和连贯言语声学信号分析结果正常组男性的持续元音声学信号的扰动参数jitter和shimmer低于女性,男女间shimmer的差异有统计学意义(P<0.05)(表1)。
正常组男性的持续元音声学信号的倒频谱参数CPP及L/HSR高于女性(P<0.05),其余各参数值的男女间差异无统计学意义(表1)。
正常组男性的连贯言语信号的倒频谱参数STD CPP高于女性,L/HSR高于女性(均为P<0.05),余参数值的差异无统计学意义(表2)。
2.2声带息肉组和正常组间持续元音和连贯言语分析结果正常组男性和女性持续元音声学信号的jitter、shimmer均小于声带息肉组(均为P<0.05)(表1)。
持续元音声学信号倒频谱声学分析显示正常组CPP、L/HSR值大于声带息肉组, STD CPP、STD L/HSR及CSID值小于声带息肉组,除STD L/HSR外,两组间的差异均有统计学意义(均为P<0.05)(表1)。
连贯言语声的倒频谱声学分析可见,男性声带息肉组和男性正常嗓音组之间STD CPP及STD L/HSR差异无统计学意义(P>0.05),男性声带息肉组CPP、L/HSR值均低于正常组(均为P<0.05);女性声带息肉组CPP值明显低于女性正常组(P<0.05)(表2)。
±s)
注:*与同组女性比较,P<0.05;△与声带息肉组同性别比较,P<0.05
±s)
注:*与同组女性比较,P<0.05;△与声带息肉组同性别比较,P<0.05
2.3持续元音和连续言语声学信号倒频谱参数ROC曲线分析结果持续元音声学信号的倒频谱参数ROC曲线分析,可见CPP和CSID在ROC曲线下的面积与参考值0.5相比,差异均有统计学意义(P<0.05)(图1)。
连贯言语声学信号倒频谱参数的ROC曲线分析,可见男性CPP及L/HSR曲线下的面积分别为0.22及0.14,女性CPP曲线下的面积为0.79,曲线下的面积与参考值0.5的差异有统计学意义,其余参数的曲线下面积与参考值0.8比较差异无统计学意义(图2)。
3讨论
研究认为连贯言语符合正常说话的习惯,在主观听感知评估与声学评估中使用连贯言语优于使用元音[6,7]。目前,中文连贯言语声评估多运用听感知评估方法[8~10],其在声学客观评估中的应用研究较少。本研究进行了元音及中文连贯言语的声学分析,中文连贯言语选择了中科院提供的句子“我爱北京天安门”,结果显示持续元音与连贯言语声的倒频谱声学分析参数可以很好地区分正常和声带息肉患者的嗓音,连贯言语声的倒频谱参数具有较好的敏感性,该结果与Lowell等[11]研究结果相似。
嗓音声学分析方法有很多,主要含频域方法、扰动方法和非线性方法,其中倒频谱分析是频域分析方法中的一种,是指对嗓音信号的频谱进行傅里叶逆变换,对嗓音信号进行两次分析的结果[12]。由于倒频谱是对嗓音信号的频谱进行频谱分析,并计算频谱信号的基频上的峰值和平均值的差值,因此,倒频谱分析较扰动方法(需要提取稳定F0分析对异常的嗓音信号进行鉴别)更加可靠,适用于分析连贯言语信号[13,14]。倒频谱分析参数主要为倒频谱峰值突出(CPP)、低频高频比值(L/HSR);CPP为倒频谱峰值的高度与倒频谱的其余分量的差值,表示除去噪声信号后和谐音的振幅幅度,嗓音信号中噪声成分越多,CPP值越低[15,16]。正常嗓音具有更多的周期性成分,CPP值较大,而声带疾病患者因嘶哑音的存在,嗓音信号中存在更多的噪声成分,其倒频谱的峰值将会降低[17]。文中研究结果证实,声带息肉组的CPP低于正常组,连贯言语声的CPP低于元音。L/HSR为嗓音信号中低于4 000 Hz的能量与高于4 000 Hz的能量的比值,正常嗓音信号的能量主要集中在4 000 Hz以下,异常嗓音信号中由于噪声成分(各个频率能量基本相同的声音信号)的增加,频率在4 000Hz以下的信号能量相对减少,L/HSR值变低,因此,不规则嗓音信号的L/HST更低。从文中结果看,正常组L/HSR高于声带息肉组,但差异无统计学意义,故L/HSR在嗓音质量评估中须慎重应用。
CSID是定量评估发音障碍的一个度量,它是根据声学的四个变量(CPP、STD CPP、L/HSR和STD L/HSR)的数值计算得来的嗓音障碍倒频谱指数[3~5]。文中结果显示正常组CSID明显低于声带息肉组,差异有统计学意义(P<0.05),表明CSID也可用于临床预估声带息肉患者发音障碍的严重程度。目前,国内尚没有根据中文句子的声学特性与主观评估相关性而计算CSID的公式,可作为下一步研究的方向。
图1 连续元音倒频谱参数的ROC曲线分析
a为男性,b为女性,其中男性声带息肉患者的CPP、STD CPP、CSID及女性声带息肉患者的CPP、STD CPP、CSID曲线下的面积与参考面积0.5相比,差异有统计学意义(P<0.01)
图2 连贯言语倒频谱参数的ROC曲线分析
a为男性,b为女性,其中男性声带息肉患者的CPP及L/HSR参数曲线下的面积分别为0.22及0.14,女性声带息肉患者的STD CPP曲线下的面积为0.79,与参考面积0.5的差异有统计学意义
文中结果显示正常组女性CPP值低于男性,与Balasubramanium等[18]的研究相似,可能是由于大约80%的女性发声时声门后端存在缝隙,因而与男性相比,女性发出的声音存在更多的气息音,导致其嗓音具有更低的CPP值[18]。
从文中结果看,ROC曲线分析显示元音与连贯言语声的声学分析参数在区别正常和声带息肉患者嗓音信号时都具有较好的特异性和敏感性。然而,与前期研究的扰动参数(jitter、shimmer在ROC曲线下的平均面积为0.96、0.86)[19]相比,倒频谱参数在ROC曲线下的面积更小,说明倒频谱声学分析方法并不比扰动方法的诊断价值更大,是否与使用的中文句子的合理性或者样本量大小有关,需要进一步研究,但由于倒频谱分析法可以分析连贯言语声信号,仍可以作为扰动分析方法的重要补充。
参考文献4
1Titze IR, Liang H. Comparison of F0 extraction method for high-precision voice perturbation measurements[J]. J Speech Hear Res,1993,36:1120.
2Packard NH, Crutchfield JP, Farmer JD, et al. Geometry from a time series[J]. Phys Rev Lett, 1980, 45: 712.
3Awan SN, Roy N. Toward the development of an objective index of dysphonia sverith: a four-factor acoustic model[J]. Clin linguist phon, 2006, 20:35.
4Awan SN, Roy N, Jette ME, et al. Quantifying dysphonia severity using a spectral/cepstral-based acoustic index:comparisons with auditory-perceptual judgements from the CAPE-V[J]. Clin Linguist Phon, 2010, 24:742.
5Awan SN, Roy N. Outcomes measurement in voice disorders: application of an acoustic index of dysphonia severity[J]. J Speech Lang Hear Res, 2009, 52:482.
6Mors C. Vowel- and text-based cepstral analysis of chronic hoarness[J]. Journal of Voice, 2012, 26:416.
7Lowell SY. The acoustic cssessment of voice in continuous speech[J]. Perspectives on Voice and Voice Disorders, 2012, 22: 57.
8王刚,于萍,徐文,等.嗓音主观听感知评估稳定性的研究[J].中华耳鼻咽喉头颈外科杂志,2011,46:485.
9李进让,孙雁雁,徐文,等.嗓音障碍主观听感知评估中标准化朗读文本的设计[J].中华耳鼻咽喉头颈外科杂志,2010,45:719.
10赵逸,王伟,郑宏良,等,嗓音障碍听感知评估汉语普通话朗读文本的设计[J],听力学及言语疾病杂志,2014,22:130.
11Lowell SY, Colton RH, Kelley RT, et al. Spectral- and cepstral-based measures during continuous speech: capacity to distinguish dysphonia and consistency within a speaker[J]. Journal of Voice,2011, 25: 223.
12韩德民,Sataloff RT. 嗓音医学[M].北京:人民卫生出版社,2007.132~136.
13Hillenbrand JM. A methodological study of perturbation and additive noise in synthetically generated voice signals[J]. J Speech Hear Res,1987, 112: 324.
14Watts CR, Awan SN. Use of spectral/cepstral analyses for differentiating normal from hypofunctional voices in sustained vowel and continuous speech contexts[J]. Journal of Speech, Language, and Hearing Research, 2011, 54:1523.
15Adrian F, 张家騄.嗓音质量评价与测量(2)[J].听力学及言语疾病杂志,2008,16:439.
16Heman-Acka YD, Michael DD, Goding GS. The relationship between cepstral peak prominence and selected parameters of dysphonia[J]. Journal of Voice, 2002,16: 20.
17Zhang Y, Jiang JJ. Nonlinear dynamic analysis in signal typing of pathological human voices[J]. Electronics Letters, 2003,39:1021.
18Balasubramanium RK, Bhat JS, Fahim S, et al. Cepstral analysis of voice in unilateral adductor vocal fold palsy[J]. J Voice, 2011, 25: 326.
19余明强,徐新林,张赛,等.非线性动力学方法在分析声带息肉、囊肿患者嗓音信号中的应用[J].听力学及言语疾病杂志,2013,21:244.
(2015-06-17收稿)
(本文编辑周涛)
·临床研究·
A Cepstral Analysis of Sustained Vowels and Continuous
Speech in Patients with Vocal Polyps
Yu Mingqiang*, Zhou Li, Xu Xinlin, Pan Han, Zhuang Peiyun
(*Department of Otorhinolaryngology, Zhongshan Hospital Affiliated
Xiamen University, Xiamen, 361004,China)
【Abstract】ObjectiveTo study vowels and related speech cepstral parameters, and to explore the role of identification between the voice of normal and vocal polyps using the vowel and speech cepstral parameters.MethodsMDVP and ADSV software were used to analyze vowels and sustained speech cepstral parameters of patients with vocal fold polyps and subjects with normal voice. The continued vowel acoustic signal disturbance, and sustained speech cepstrum parameters of acoustic signals were studied.ResultsIn the normal group, the continued vowel acoustic signal jitter disturbance parameters and shimmer value were smaller them those of in the vocal fold polyps group. The differences between the two groups had statistical significance (P<0.05). For sustained vowel's acoustic signal cepstrum parameters, the acoustic parameters for males and females, except STDL/H, had statistical significant differences of between the two groups (P<0.05). There were significant differences between the group of
△国家自然科学基金(NSFC81371080)、福建省卫生系统中青年骨干人才培养项目(2013-ZQN-JC-35)联合资助
1厦门大学附属中山医院耳鼻咽喉科(厦门361004);2厦门大学
the male vocal fold polyp and the normal males for the sustained speech cepstrum parameters except for the STDCPP and STDL/H parameters. There were differences between the female vocal fold polyp group and normal female group for the sustained speech cepstrum parameters in comparison. Only the CPP parameters had statistically significant differences (P<0.05).ConclusionThe continuous speech cepstrum analysis for vowels could be used to distinguish voices of the normal from patients with vocal polyps with a good degree of specificity and sensitivity.
【Key words】Cepstral peak prominence (CPP);Sustain vowel;Continuous speech;Vocal polyps
通讯作者:庄佩耘(Email:peiyunzhuang@yahoo.com)
作者简介:余明强,男,福建人,副主任医师,主要研究方向为咽喉疾病及嗓音医学。
【中图分类号】R767.4;R767.92
【文献标识码】A
【文章编号】1006-7299(2016)01-0015-05
DOI:10.3969/j.issn.1006-7299.2016.01.004