持续元音和连续语段用于病理嗓音识别的比较

2021-05-21 08:42浙江医药高等专科学校医疗器械学院赵祥欣
电子世界 2021年8期
关键词:嗓音语段元音

浙江医药高等专科学校医疗器械学院 邹 锋 赵祥欣

本文选用SVD嗓音数据库中的元音/a/音和连续语段,提取其的Mel频域倒谱系数(MFCC),支持向量机SVM的核函数采用高斯核函数,分别对各600例的正常者和病理嗓音患者的元音/a/音和连续语段进行训练和识别。识别分类结果表明,连续语段的结果优于元音/a/音,因此在病理嗓音自动分类研究中可以采用连续语段作为声学分析样本。

随着社会交往日益频繁和生活习惯的改变,嗓音疾病的发病率也逐年增高,嗓音疾病是喉科临床上的常见病、多发病,约占耳鼻喉科疾病的5%-10%。嗓音疾病会导致患者嗓音嘶哑、发声困难、严重可导致完全失声。更有甚者,声带小结和声带息肉若不及时治疗,可易造成突发癌变。

嗓音疾病诊断通过发音质量的主观、客观评估、电子频闪喉镜、气流动力学喉部功能评估、喉神经肌肉电功能评估等方面进行检查。其中的仪器检查都为诊断喉部病变情况、喉部肌肉和声带病变情况,属于侵入性的检查方式,对患者有一定的痛苦及损伤。正常和病理嗓音的声学参数是会有一定的区别,通过嗓音的声学参数分析,形成客观自动评估技术,为嗓音病理诊断提供了一种明确的、量化的分级方式,是一种快速、非侵入性的自动检测方法。该方法可去除传统方法在时间、空间上的限制,能够在病理早期就能做出诊断该评估方法降低了主观评估的偶然性,而且方便易用实现,降低了医生的负担。基于声学分析技术已成为人工智能医疗的一个热点方向。

病理嗓音的客观自动评估技术是提取病理嗓音声学客观参数,采用机器学习技术进行分类。提取方面,传统的扰动参数和频谱参数已广泛应用于分析病理嗓音的改变和描述嗓音质量在声学分析是嗓音客观评估中的重要部分,目前嗓音声学评估的声学信号样本包括持续元音和连贯言语。元音能较好地反映声带振动的实质,因此大多数的研究都专注于持续元音,而不是连续语段,实际上连续语段更能反映出病理特性。语音信号包含了静止的持续的元音,但它是随着连续时间变化的,许多嗓音问题在持续元音中不能完全展现。本研究拟将对持续元音和连续语段为声学样本的识别进行比较,从而进行嗓音客观评估中的声学样本的探索研究。

1 数据来源

本实验数据来源于SVD库,SVD库(Saarbruecken Voice Database,德国萨尔布吕肯公开数据库),它是由德国萨尔大学语音学院负责录制可自由下载的数据库。该数据库包含1-3s持续的元音[i,a,u]和连续语段(德语)“Guten Morgen,wie geht es Ihnen?”。数据库中所有录制的声音均以50KHz采样,采用16位分辨率。本实验从SVD库挑选正常和病理嗓音的元音/a/音和连续语段,提取12维Mel频域倒谱系数(MFCC)的声学参数,采用支持向量机(support vector machine,SVM)对正常和病理组进行分类识别。

2 特征提取

由于本研究只是比较持续元音和连贯言语为声学样本的识别,本研究采用语音识别中非常重要的音频特征MFCC作为单一声学特征参数。

图1 MFCC的计算过程

MFCC在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的研究成果,在有信道噪声和频谱失真的情况下具有较好的鲁棒。它是Mel标度频率域提取出来的倒谱参数,在语音识别中有很好的性能,还被用来检测发音器官(嘴唇、舌头)等在运动中微小的变化。

MFCC和实际频率的转换关系如下:

MFCC的计算过程如图1所示。

3 分类器

由于支持向量机(SVM)模型在小样本分类上方便可靠,病理嗓音患者的医学样本属于小样本,因此本研究采用支持向量作为分类器。

SVM是主要用于解决模式识别领域中的数据分类问题,属于有监督学习算法的一种。是一种典型的二分类模型,其主要思想是通过在特征空间中寻找最大区间来实现线性分类。当为线性不可分时,核函数将输入空间映射到高维特征空间。典型的核函数有多项式、RBF和Sigmoid。SVM为处理分类问题提供了强有力的机器,而其更好的泛化性能是基于结构风险最小化原则(SRM)。SVM对二分类问题可以得到很好的结果,病理嗓音客观识别的研究中,不少研究者都采SVM来区分正常与病理嗓音者。

4 实验及结果

本实验声音样本为元音/a/音和连续语段,其中连续语段为德语句子“Guten Morgen,wie geht es Ihnen?”。从SVD库挑选600例正常和600例病理嗓音作为实验样本,其中80%的数据作为训练集,20%的数据作为测试集。

为了解决样本长度不一致,采用补零法对齐法使得每个样本时长一致,其中元音/a/音的每个样本都为86帧数据,连续语段的每个样本都为117帧数据。提取声学样本的12维Mel频域倒谱系数(MFCC)为声学特征参数。支持向量机SVM的核函数选择高斯核函数,分别对元音/a/音和连续语段进行训练和识别。

从准确率(AC)、准确率(PR)、召回率(RE)和F1分数四个方面评价分类效果。准确率、精密度和召回率可以直接反映分类的表现,F1分数是精密度和召回率整合在一起的判断标准。元音/a/音和连续语段分类性能结果如表1所示。如表所示,连续语段较元音/a/音有较好的识别效果。

表1 元音/a/音和连续语段分类结果

5 讨论

连续语段是符合正常会话的模式,其比持续元音包含更多的嗓音信息,从实验结果发现其识别效果是较高的。然而,连续语段中间存在声音开始、结束、存在声带的振动频率的改变,意味要处理更复杂的声学参数,这是无意是个挑战。因此,基于连续语段的嗓音分类评估是一项在实践领域更有意义的工作。

猜你喜欢
嗓音语段元音
元音字母和元音字母组合的拼读规则
元音字母和元音字母组合的拼读规则
【重点】语言文字运用:语段压缩
浅谈低年级语段仿写的指导策略
黄绮珊:我的嗓音为什么是这样?
“世界嗓音日”——中央音乐学院嗓音研究中心在行动
2016年第七届友谊嗓音疾病诊治高级研讨班暨首期北京友谊医院嗓音检测和嗓音训练学习班通知
Playing with “ar”
八大特色嗓音
依存消解、一致性计算与浮现和语段计算理论