徐志京,张铁海
(上海海事大学 信息工程学院,上海 201306)
帕金森疾病(Parkinson′s Disease,PD)是一种常见的中老年人神经系统退行性疾病,患者在临床上主要表现为运动迟缓、运动量减少、肌僵直、肢体不自主的抖动和语音障碍等症状[1].研究发现,帕金森患者由于脑部多巴胺的缺失,使得神经元无法稳定控制发声器官,声音较正常人会发生变化[2].随着人工智能的发展,声纹识别技术也得到了一定的提升,使得基于声纹的PD检测成为可能,并且其具有非侵入性、便利等优势,得到了国内外相关领域学者的关注.
国内外学者针对基于声纹的帕金森检测做了一系列研究.2015年Benba等人提出通过获取音频的梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)利用支持向量机(SVM)进行帕金森患者的检测[3].2016年Benba等人继续研究了利用MFCC及其差分特征结合SVM不同的核函数进行检测准确率的探究[4].MFCC虽然可以很好的模拟人类的听觉感知,但是由于提取特征过程中时频转换方法和滤波器的限制,对音频细节信息和高频部分表征能力差,用作声纹识别方面存在一定的不足.并且SVM是一种浅层的机器学习分类器,对复杂函数的表示能力有限[5].2019年张颖等人利用加权MFCC结合DNN多层感知器进行帕金森患者的检测,准确率为87.5%[6],证明了利用深度学习方法进行PD检测的可行性.2019年王娟等人将音频信号转换成语谱图,然后利用改进的GAN网络和VGG16结合实现样本扩充与分类,为相关研究提供了新的思路[7].此外,为了准确定位语音部分并提取声纹特征,需要在特征提取前利用双门限端点检测方法[8]对音频进行静音剔除,该方法总是默认开始的前5帧为静音区,然而当音频开始部分为有声段时,识别效果不理想.2016年科大讯飞提出全序列卷积神经网络[9](DFCNN),通过识别处理经过傅里叶变换的语谱图进行音频中时域和频域特征的提取,完成语音处理及识别.
鉴于传统的双门限端点检测方法在静音剔除方面的局限,提出一种动态帧双门限端点检测方法,有效获取语音区.针对传统MFCC特征提取过程中的不足,本文将小波变换引入特征提取过程中并改进滤波器结构,提出高频梅尔倒谱小波系数(High Mel Frequency Cepstrum Wavelet Coefficient,HMFCWC)这一新的声纹特征,更好的反映音频中细节信息,最后针对该特征及分类目的,对全序列卷积神经网络重新设计,利用添加特征加权层的加权全序列卷积神经网络(Weighted Deep Fully Convolutional Necural Network,W-DFCNN)实现帕金森患者和健康者分类.
本文构建的PD患者检测模型如图1所示.该模型主要包括音频数据采集,静音区剔除,特征提取和分类识别.首先将数据音频中包含的静音区剔除,减少冗余信息,获取有效音频.然后对有效音频进行特征提取,最后将特征送入W-DFCNN分类器中进行分类,通过敏感性、特异性和准确性对模型性能进行评价.
图1 PD患者检测模型Fig.1 PD patient detection model
2.1.1 双门限端点检测
在帕金森患者的音频采集过程中,由于患者需多次发音,采集到的音频中会存在非语音区,需要采用端点检测进行静音区剔除,保留有声段.双门限检测法是常用方法,该方法通过短时能量和短时过零率进行相关阈值设定.其中短时能量是反映能量随时间变化的参数.对于语音x(n),第n帧的短时能量定义为:
(1)
其中h(n)=w(m)2,N为帧长,w(m)为窗函数,本文选取汉明窗.
短时过零率反映了每帧信号通过零值的次数.信号x(n)的短时过零率定义为:
(2)
其中sgn[]是符号函数.
双门限端点检测法共设定3个阈值,分别是高能量阈值、低能量阈值和过零率阈值.通过检测去除低于相关阈值的音频,完成静音剔除.该方法是一种源于实验室的方法,在低能量阈值设定时,总是默认开始的前5帧为静音区,取前几帧的能量均值作为较低能量阈值.然而在PD数据集中很多音频开始部分为非静音区,此时双门限端点检测方法无法准确检测静音区和语音区,错误剔除语音部分,造成有效音频的丢失.
2.1.2 动态帧双门限端点检测
针对以上问题,提出动态帧双门限端点检测方法,该方法能够动态精准寻找音频中的静音区,实现音频静音区的剔除.实现步骤如下:
计算各帧的短时能量E1,E2…En和短时过零率Z0,Z1,…,Zn.其中选取256个取样点为1帧,帧移为128个采样点.
设定较高的能量阈值.计算所有帧能量的总和,取总能量的2/3作为能量阈值的较高阈值EH,计算公式为:
(3)
其中Ei为第i帧的短时能量值,a为比例系数,本文取2/3.
设定较低的能量阈值.首先将短时能量进行从低到高排序为E(1),E(2),…,E(n),计算排序后各帧能量的中位数EM,计算公式为:
(4)
取能量值小于中位数EM的帧能量的平均值作为能量阈值的较低阈值EL,计算公式为:
(5)
其中E(l)表示能量值小于EM值的帧,N表示E(l)的个数.
设定过零率阈值.计算所有帧过零率的和,取总过零率的1/5为过零率阈值ZH,计算公式为:
(6)
其中Zi为第i帧的短时过零率,b为比例系数,本文取1/5.
3次帧循环完成端点检测.第1次帧循环,截取能量超过EH值的音频段分离出语音中的浊音部分.第2次帧循环,由上一次循环截取的浊音部分向两端扩展到能量超过EL值的帧,增加辅音部分,扩大有效音频范围.第3次帧循环在第2次循环的基础上,寻找过零率超过ZH的帧为清音部分.3部分合并为最终端点检测的有效音频.
图2 原始音频及两种端点检测方法的结果Fig.2 Original audio and the result of two endpoint detection methods
动态帧双门限端点检测方法通过将每帧能量按照升序排列,动态获取语音中能量相对较少或者为零的区域进行相关阈值设定,完成静音区的剔除.实验证明该方法能够精准获取有效音频.两种端点检测方法静音剔除效果如图2所示,各子图横轴为时间,纵轴为幅度.图2(a)为原始音频波形,开始部分为有声段,时长22秒;图2(b)为双门限端点检测截取的有效音频,时长2.8秒;图2(c)为动态帧双门限端点检测后的音频,时长12.8秒.可以看出,双门限法端点检测在对开始部分为语音区的音频进行静音剔除时,会将音频中的有声段去除,造成信息损失.而动态帧端点检测方法能够准确剔除静音区,减少冗余信息,同时保留有效音频部分,为特征提取提供可靠数据.
2.2.1 MFCC特征
Mel倒谱系数(MFCC)是语音识别系统中常用的特征[10],传统的MFCC[11]特征参数的提取过程是将端点检测后的音频通过傅里叶变换得到信号的频率,然后通过Mel滤波器组得到相应参数,最后将离散余弦变换(DCT)应用到对数滤波器组能量中,得到相应的系数.然而傅里叶变换具有一定局限性,它是将信号分解成不同频率正弦波的叠加,采用无限长的三角函数,具有单一性.能够很好的拟合平稳信号,但是对突变信号和非平稳信号拟合效果不佳.并且其基函数是全局性的,不能够刻画时间域上信号的局部性,无法确定相应频率出现的时间,难以区分拥有共同频率的信号,不具有多分辨率分析和局部信号分析的能力.
信号进行时频转换后,再通过滤波器进行信号滤波,Mel滤波器组中的三角滤波器在低频区域分布密集,高频区域分布稀疏.这种设计使得信号经过滤波器后能够保留低频部分信息,而高频部分的信息会有所损失,影响最终的分类准确性.
2.2.2 HMFCWC特征
针对以上MFCC特征的不足,本文提出在PD检测分类时提取高频梅尔频率倒谱小波系数(HMFCWC)特征.该特征的提取过程为:首先对语音信号进行一系列预处理,然后通过小波变换,实现时间和频率的局部化,经过H-Mel滤波器,更好的保留高频部分的细节信息,减少信息损失,最后通过取Log对数能量和DCT变换得到最终的HMFCWC特征,提取过程如图3(a)所示.鉴于原始滤波器的缺陷,将滤波器结构进行调整,减少高频部分滤波器的带宽和间隔,以此保证高频部分信息的有效获取[12].新的Mel-Hz对应尺度关系为:
(7)
改进后的滤波器组如图3(b)所示.
HMFCWC特征针对傅里叶变换存在的问题,将小波变换引入提取过程中,连续小波变换的表达式为:
(8)
其中f(t)为原始的时域信号,ψ(t)是基函数,参数a为尺度因子,b为平移因子.小波变换在傅里叶变换的基础上做了修改提升,通过基小波函数的伸缩和平移实现窗口的可变性,尺度因子与时频窗口的宽度成正比,与时频窗口的高度成反比.在检测高频分量时,尺度因子a<0相应变小;分析低频时,尺度因子a>0相应增加.通过改变尺度因子的大小,实现时频窗口自适应的变换,使小波变换具有可变的时间和频率分辨率,能够更好的拟合突变信号和处理非平稳信号[13],防止音频中特征信息的丢失.
图3 HMFCWC特征提取过程及H-Mel滤波器Fig.3 HMFCWC feature extraction process and H-Mel filter bank
小波基函数ψ(t)的选择会对结果产生不同影响,合理的基函数应该具有空间局域化,即函数在很小区间内为非零值.另外还需满足均值为零,即具有振荡性,有合适的消失矩和正则性,更好的对音频进行数据压缩和平滑信号.基于以上原则,本文选取Daubechies4为小波基函数.音频傅里叶变换和小波变换二维图如图4所示.其中各子图横坐标表示频率,纵坐标表示振幅.从图4中可以看出,小波变换变换相比傅里叶变换对音频信息更加敏感,能够反映更多细节信息.
图4 音频傅里叶变换和小波变换二维图Fig.4 Two-dimensional diagram of Fourier transform and wavelet transform
HMFCWC特征包含音频更多的信息,传统的机器学习是一种浅层结构算法,对样本深层特征学习能力不足,对复杂函数的表征能力有限[14],无法很好适应HMFCWC特征.为了更好适应PD患者采集的HMFCWC特征,本文在全序列卷积神经网络的基础上,设计了加权全序列卷积神经网络(W-DFCNN),结构如图5所示.W-DFCNN网络增加一个卷积池化单元,更好的提取HFMCWC特征中深层信息,考虑样本数量的影响,为了防止过拟合,在每一个卷积池化单元后增加Dropout层.由于同为健康人或者帕金森患者类别是来自不同个体的声音,因此提取的特征中存在个体差异的特征,为了使网络能够更好区分健康人和帕金森患者的特征,引入一个特征加权层,实现对关键特征的加权,降低其它特征的影响.
图5 W-DFCNN网络结构Fig.5 W-DFCNN network structure
W-DFCNN网络通过一个全连接层实现特征加权,特征加权矩阵为W,输入特征加权层的特征用I∈Rs×c表示,其中s×c表示输入的特征维度,用F={f1,f2,…fc}表示输入加权层的特征,经过特征加权层后的加权特征为:
G=δ(W*F+b)
(9)
其中G是加权后的特征,δ(·)是特征加权层的激活函数,b为偏置项.该层的特征输入为F,输出的加权后特征为G={g1,g2…gc},为了更好的学习特征矩阵,设计了一个约束函数进行权重学习,约束公式为:
(10)
1)卷积层.W-DFCNN网络中的卷积层实现进一步的特征提取,利用卷积核对输入的特征矩阵进行卷积运算,获取特征中的深层信息,实现特征的选择.输入xt经过卷积层的输出为:
y=W*xt+bt
(11)
其中W为卷积滤波器,bt表示卷积偏差.
2)池化层.经过卷积层处理后的特征矩阵进入池化层.池化层能够实现特征降维,将卷积得到的特征点进行整合,压缩数据,实现信息过滤.特征矩阵经过最大池化层的输出为:
ymax_pool=max(xt)
(12)
3)Dropout层.由于数据集数量较少,为了防止出现过拟合现象,在网络每两个卷积层后添加Dropout层,并设置失活率为10%,使得在网络前向传播过程中,让部分神经元停止工作,增强网络的泛化能力.对应的输出为:
ydrop=drop(xt)
(13)
经过四次卷积、池化、Dropout层处理后,最后特征矩阵送入设计的特征加权层.
4)特征加权层.该层实现对关键特征的加权,消除因个体差异造成的影响,对能够有效区分健康人和帕金森患者的特征进行加权,有效提高网络的识别率和准确率.
5)全连接层.特征加权后的特征输入全连接层,连接经过处理后的所有特征,全连接层通过Sigmoid函数[15]得到最终的输出,实现音频的分类.其中Sigmoid函数表达式为:
(14)
W-DFCNN网络的优化实质是不断减少损失函数的过程.本文最终的损失函数为:
L=Lo+λLc
(15)
其中Lo的表达式为:
Lo=-αyilog(hθ(x))-(1-α)γ(1-yi)log(1-hθ(x))
(16)
其中yi表示输入数据的正确类别,健康人别取值为1,帕金森患者取值为0.hθ(x)表示网络预测输出,本文α取值为0.25,γ取值为2,λ取值为0.02.
文章使用Sakar[16]等人收集的PD数据集.该数据集包括20例(6名女性和14名男性)PD患者和20例(10名女性和10名男性)健康人.PD患者的诊断时间介于0-6年之间,患者年龄在43岁-77岁之间(平均年龄为64.86岁,标准差为8.97).健康人的年龄在45岁-83岁之间(平均年龄为62.55岁,标准差为10.97).参与者所有的录音是通过Trust MC-1500的麦克风进行,麦克风被设置为96kHz和30dB,放置在离参与者15cm远的地方.文章使用了3种类型的录音,参与者(20例PD患者和20例健康人)被邀请在一个舒适的状态下持续发出3个元音/a/、/o/和/u/.所有的记录都为立体声模式并保存为wav格式的音频文件.
数据集共176个语音信号,首先通过动态帧双门限端点检测方法剔除数据集中包含的静音区,保留有效音频并剪切成每2秒一段的语音段.经过该过程后,共产生912个有效语音段,同时将数据集分成866个(95%)的训练数据和46个(5%)的测试数据两部分.音频的各项参数是采样频率为44100Hz,量化位数为16比特,双声道信号,帧长为256个采样点,帧移量为128个采样点.
本实验是基于64位Windows10操作系统,CPU型号为Inter(R)Core(TM)i7-7800X 3.50GHz,内存16GB,GPU型号为NVIDIA GeForce GTX 1080Ti,显存11GB的计算机完成的,系统基于Keras深度学习框架和TensorFlow后端实现.
为了对比特征提取中改变滤波器结构对分类精度的影响、调整为小波变换对分类精度的影响和不同网络对分类精度的影响.本文设计3组对比实验,第1组实验对照组利用传统的傅里叶变换和Mel滤波器提取MFCC特征,实验组采用傅里叶变换和H-Mel滤波器提取特征,检验修改后的滤波器对分类结果的影响.第1组实验特征提取的方式如表1所示.
表1 第1组实验设定Table 1 First group of experimental settings
第2组实验对照组采用傅里叶变换和Mel滤波器进行MFCC特征提取,实验组采用小波变换和Mel滤波器提取特征,验证改变为小波变换后对分类结果的影响.第2组实验特征提取的方式如表2所示.
表2 第2组实验设定Table 2 Second group of experimental settings
最后一组利用小波变换和改进的H-Mel滤波器结合的方式提取HMFCWC特征,验证新的特征在不同分类器中的分类效果.3组实验分别利用SVM[17]、DNN[18]、DFCNN、W-DFCNN 3种分类器对提取的特征进行学习分类,对比本文提出的网络在不同特征下的识别效果.
为了对比不同特征在不同分类器中的识别效果,利用准确性(ACC)、特异性(SPE)、敏感性(SEN)作为实验的评判标准[19].准确性表示准确检测识别两种人群的百分比,特异性代表检测PD患者的准确性,敏感性代表检测健康人的准确性.真正类(TP)表示被模型预测为健康人的健康人样本;假正类(FP):被模型预测为健康人的帕金森病人样本;假负类(FN):被模型预测为PD患者的健康人样本;真负类(TN):被模型预测为PD患者的PD患者样本.评判标准的计算公式为:
(17)
(18)
(19)
表3 第1组实验结果Table 3 First group of experimental results
第1组实验结果如表3所示,从表3中可以看出在同一分类器下,实验组的评价指标均高于对照组.由此可知,通过调整高频部分滤波器组后,使得提取过程能够保留音频高频部分更多的细节信息,在相同网络下,相比原始的滤波器有更高的准确率.SVM下提升了1.9%的准确率,DNN下提升了1.8%的准确率,DFCNN网络下提升了2.1%的准确率.W-DFCNN网络下提升了1.5%.在提取同一特征的情况下,W-DFCNN网络的总体识别效果最好.
表4 第2组实验结果Table 4 Second group of experimental results
第2组实验结果如表4所示.从表4中可以看出,在同一分类器的条件下,采用小波变换进行特征提取的实验组各项评价指标均高于对照组.结果表明:相比傅里叶变换,小波变换能够更好的拟合音频信号,适应音频信号非平稳性的特点,更充分的提取音频中包含的信息,有利于提高模型的准确率.SWM下准确率提高2.5%,DNN下准确率提高了2.6%,DFCNN网络下准确率提高了3.8%,W-DFCNN网络下准确率提高了3.1%,其他标准都有一定的提高.
第3组实验利用小波变换和H-Mel滤波器进行HMFCWC特征的提取,并在不同的模型下进行实验,实验结果如表5所示.
表5 HMFCWC特征的实验结果Table 5 Experimental results of HMFCWC features
通过表5和表3中的对照组结果相比可知,HMFCWC特征相比原有的MFCC特征,在SVM分类器下准确率提高了6%,敏感性提高了7%,特异性提高了5.5%;DNN分类器准确率提高了6.6%,敏感性提高了6.8%,特异性提高了6.4%;在DFCNN网络下准确率提高了9.3%,敏感性提高了9.2%,特异性提高了9.4%.本文设计的网络W-DFCNN准确率提高了9%,敏感性提高了8.7%,特异性提高了9.3%.
图6 W-DFCNN的训练和测试loss曲线Fig.6 Training and testing loss curves of W-DFCNN
最终W-DFCNN网络的损失函数如图6所示.其中实线表示训练loss曲线,虚线表示测试的loss曲线.从图6中可以看出loss曲线随着迭代次数的增加,数值逐渐减少,最终收敛于接近0值,表明该网络能够很好的学习到有效特征,有利于对PD数据集进行分类.
综上所述,本文提出的通过将小波变换和改进的H-Mel滤波器相结合的HMFCWC特征,在准确率、特异性和敏感性方面都有了显著提高.同时对比相同特征下的不同分类器的效果,表明本文的具有特征加权层的W-DFCNN能够对具有区分性的特征进行加权处理,获取有效特征,相比其他分类器更有优势.本文特征提取方法和分类器组合具有良好的效果.
PD患者音频数据中总是存在静音区,新的动态帧双门限端点检测方法通过合理设定阈值,能够快速精准剔除音频中的静音区,充分保留有效音频.HMFCWC特征通过小波变换很好拟合非平稳的音频信号,H-Mel滤波器有效的保留高频部分的细节信息,两者结合能够充分获取音频中的有用信息.实验表明HMFCWC特征在不同的分类器下各项评价指标都高于MFCC,更适合帕金森患者音频样本检测.同时通过对比实验证明,本文设计的W-DFCNN网络通过引入加权层,对有效区分两类的特征进行加权,减少无关特征的影响,在PD患者分类方面相比SVM、DNN和DFCNN分类器更具优势.未来的工作可以尝试采用多模态融合特征分类方法,以获得更高的识别准确率.