基于跨语种声学分析的帕金森病检测方法

2024-03-15 09:22王传瑜郑慧芬
电子与信息学报 2024年2期
关键词:源域语种帕金森病

季 薇 王传瑜 吴 迪 李 云 郑慧芬

①(南京邮电大学通信与信息工程学院 南京 210003)

②(南京邮电大学计算机学院 南京 210023)

③(南京医科大学附属老年医院 南京 210024)

1 引言

帕金森病(Parkinson's disease)患者往往患有不同程度的构音障碍[1,2]。持续元音能够很好地反映受试者声带和声道中各种肌肉的协调能力,从而有效评估受试者的发音能力[3,4]。然而,帕金森病患者的语音数据采集不易,标注成本高昂。已公开的帕金森病语音数据集大多来源于单一地域人群的语音,且存在数据容量不够大、受试者母语发音特点差异小等特点[5]。当模型需要进行跨语种场景下的帕金森病检测时,由于采集环境的不同、受试者母语语种的差异,将导致不同语种的语音数据集服从不同的统计概率分布[6],最终导致在单一语种的语音数据库训练的模型无法以同样高的准确率识别另一个语种的语音数据[7]。

当前跨语种场景下的帕金森病检测研究还处于探索阶段。文献[8]在韩语和美式英语的数据集上的实验发现:使用韩语和美式英语的帕金森病患者的语音在元音空间区域这一声学指标上存在差异。文献[9]研究发现与健康的日语使用者相比,患有帕金森病的日语使用者的语速较慢。文献[10]使用西班牙语、德语和捷克语数据集进行跨语种实验,通过在训练过程添加不同比例的多语种数据帮助模型学习跨语种分析的能力,结果发现越高比例的多语种语音数据加入到模型的训练过程中,越能够实现更加优秀的性能。文献[11]提出了一种英语、韩语和泰米尔语的跨语种帕金森病检测方法,该方法充分考量了语言差异带来的影响,实现了模型在每种语言语音数据上检测准确率的提升。尽管已有一些研究者开始探索帕金森病的跨语种语音分析,然而结合汉语语音数据集的跨语种分析还很少,还需进一步借助人工智能技术挖掘能够独立于语言的声学特征,以实现跨语种的帕金森病检测[12]。

迁移学习技术有助于解决传统有监督学习无法适应数据分布差异的问题[13]。它将源域数据和目标域的数据分别映射至公共特征空间,并进行特征分布差异度量,最小化这一差异,即可使得源域数据和目标域数据在公共特征空间实现分布对齐。文献[14]提出域自适应网络(Domain Adaptive Network, DAN),引入最大均值差异(Maximum Mean Discrepancy, MMD)的概念,在公共特征空间中对特征差异进行显式距离度量,并通过最小化源域和目标域特征的MMD来实现跨域的差异弥合。文献[15]在引入MMD进行差异度量的同时,也将标签信息纳入考虑,实现了更加细粒度的特征对齐,确保在每一个类别上对齐特征,帮助模型学得更好的可迁移特征。文献[16]将对抗思想引入迁移学习,通过鉴别器识别数据的来源,以实现对分布差异的隐式度量,隐式度量的方式能够在数据中自动学习适合于当前数据的分布差异度量函数。文献[17]将条件对抗学习技术引入迁移学习中,实现了特征-类别的联合分布对齐。

基于对抗思想的迁移学习方法能够从数据中学习更适合于当前数据集的分布差异度量函数,因此更适合于帕金森病的跨语种检测领域。但是,由于帕金森病患者的语音样本有其自身的特殊性,原始数据中的病理信息与数据的域信息往往纠缠在一起,使得跨语种的语音数据包含了更多的与病理无关的信息。这里,病理信息通常为受病情影响导致的语音变化,表现为波形毛刺现象多、异常停顿、高频能量增加等;域信息则为可能对受试者语音样本产生影响的一些非病理性因素(如语言、采集环境等),域信息将使受试者语音在许多声学特征指标上出现分布差异,也会导致语音时域波形和频谱的变化等。如果不能将域不变病理信息和域信息进行完整地分离,模型仍会因受到域信息(非病理性因素)的影响而出现误判。

为避免语种差异带来的影响,提升模型在跨语种场景下的检测性能,本文引入对抗迁移学习[16]和特征解耦[17]思想,提出一种跨语种的帕金森病检测模型。首先,将具备丰富标签信息和语音数据的MaxLittle帕金森病语音数据库(受试者母语为英语)作为源域数据,自采的帕金森病语音数据集(受试者母语为汉语)作为目标域数据。然后,通过一个参数共享的特征提取器将源域/目标域的数据进行高级特征提取,并进一步将其拆分为域不变的病理信息表征向量和域信息表征向量。接着,通过两个目标任务不同的对抗学习模块,对前述的两个向量进行解纠缠。随后,通过对解纠缠的两个向量进行正交约束,进一步促进信息的分离。最终,实现域不变病理信息和域信息的完整分离。通过利用表征域不变病理信息的特征向量,可以实现在跨语种场景下的帕金森病检测。本文在公开的MaxLittle帕金森病语音数据集以及自采的帕金森病语音数据集上,采用十折交叉验证的方法验证了所提方法的有效性。实验结果表明:所提模型在跨语种的场景中,仍能实现86.69%检测准确率;与传统机器学习方法以及现有的迁移学习算法相比,所提模型在准确率、敏感度和F1分数等方面均有明显提升。

2 本文方法

基于对抗思想的迁移学习技术[16],其目的就是找到那些既能够完成目标任务,又能够使域鉴别器无法确定其来自源域还是目标域的有效特征。为完成这一目的,往往需要一个特征生成网络和域鉴别网络进行博弈。理想情况下,当域鉴别网络无法识别特征生成网络的输出为源域还是目标域时,即实现了可迁移特征的提取。特征解耦思想[18]则是指从多个相关特征中提取出彼此独立、不相关的特征表示。特征解耦试图消除特征之间的冗余信息,使得每个特征能够提供独立的、互补的信息。解耦的目的是为了减少特征之间的相互依赖性,以便更好地捕捉数据的内在结构和特征之间的潜在关系。

基于上述两种技术,本文针对跨语种场景下的帕金森病检测问题,提出一种基于对抗迁移学习的帕金森病跨语种声学分析模型(Cross-Language Speech Analysis Model, CLSAM)。模型包含一个特征提取网络,两个目标任务不一样的对抗迁移学习模块,总体框架如图1所示。

图1 跨语种声学分析模型总体框架图

2.1 数据预处理

本文采用公开的MaxLittle帕金森病语音数据集[19]以及自采的帕金森病语音数据集进行跨语种声学分析研究。文中将前者作为源域数据,将后者作为目标域数据。

对源域数据作如下预处理:将每一条原始语音数据分帧,其中,帧长25 ms,偏移量10 ms;提取40维的Fbank特征序列,将其记为xi,s(1≤i ≤Ns),其中,s代表该数据来源于源域,Ns为样本数量;将xi,s对应的分类标签记为yi,s,若受试者患有帕金森病,则分类标签用one-hot向量[1,0]表示,否则用[0,1]表示;将xi,s对应的域标签记为di,s,若该样本来自源域,则域标签用one-hot向量[1,0]表示,否则用[0,1]表示;最终,组成源域样本对Di,s=(xi,s,yi,s,di,s)。对目标域数据也作类似的预处理,生成目标域样本对Di,t=(xi,t,yi,t,di,t),其中,t代表该数据来源于目标域,xi,t(1≤i ≤Nt)为目标域样本,yi,t为其对应的分类标签,di,t为其对应的域标签,Nt为样本数量。各参量具体表示方式同上述源域样本对。

2.2 特征提取网络

图1中的高级特征提取器 Te由基于多头自注意力机制的Transformer编码块[20]和多层神经网络级联组成。该高级特征提取器的 Te作用是通过学习一个变换函数来实现特征变换,将提取的Fbank特征[21](不论其来自源域还是目标域)映射至一个公共特征空间,使源域和目标域数据的分布差异得以弥合。

2.2.1 基于多头注意力机制的Transformer编码块

多头自注意力机制的引入,能够很好地捕获数据中的全局时序信息。基于多头自注意力机制的Transformer编码块的组成如图2所示。该编码块由多头自注意力机制模块(Multihead Self-Attention,MSA)和前馈神经网络模块(Feedforward Neural Network, FNN)组成。为加速网络的训练,还在每个块的输入前引入层归一化(LayerNorm, LN)进行数据的归一化处理,在每个块的输出后进行残差连接操作。

图2 基于多头自注意力机制的Transformer编码块

基于多头注意力机制的高级特征提取方式为

2.2.2 两层前馈神经网络

经过基于多头注意力机制的Transformer编码块完成特征的初步提取后,还将再通过两层前馈神经网络进行信息分离,其作用在于对编码块提取到的初步信息进行信息选择,以配合后续的模块进行对抗训练。具体实现为

其中,θFN为两层神经网络层的参数。最终,特征提取网络 Te输出两个同样长度的向量,即包含域不变病理信息的16维高级抽象表征向量p_vec,包含域信息的16维高级抽象表征向量domain_vec。

2.3 双重对抗迁移学习网络

由于帕金森病患者的语音样本的特殊性,从高级特征提取器 Te中提取的域不变病理信息和域信息往往是纠缠在一起的。如果不能将两种信息进行完整地分离,模型仍会因受到域信息(非病理性因素)的影响而出现误判。为了能够实现对信息的高效解耦,本文设计了一个双重对抗迁移模块,对不同的向量进行不一样的对抗学习。如图1所示,双重对抗迁移学习网络由两部分组成:一个是分类对抗网络,其目的是使得分类器E1基于域不变病理信息特征向量p_vec能够正确进行帕金森病检测,而域鉴别器D1无法识别p_vec来自源域还是目标域;一个是域对抗模块,其目的是使得域鉴别器D2基于domain_vec能够正确进行域鉴别,而分类器E2无法识别domain_vec来自健康人还是帕金森病患者。

2.3.1 分类对抗网络

2.4 损失函数

2.4.1 分类对抗损失

通过分类器E1和域鉴别器D1的对抗学习,提取可实现帕金森病检测的病理信息并排除域信息。本文将最小化分类器E1的损失,同时最大化域鉴别器D1的损失,目标函数为

其中,N代表样本个数,C代表类别数量,yic为符号函数,如果样本i的真实类别等于c,则yic取1,反之为0;pic为分类器将样本i预测为类别c的概率。域鉴别器D1也将采用上述损失函数。

2.4.2 域对抗损失

domain_vec通过分类器E2和域鉴别器D2的对抗学习,融合域信息并排除病理特征信息。本文将最小化域鉴别器D2的损失,同时最大化分类器E2的损失,目标函数为

其中,Le2为分类器E2的损失函数,Ld2为域鉴别器D2的损失函数,且皆为交叉熵损失函数。

2.4.3 特征正交约束

为进一步确保病理信息特征向量中排除了域信息,本文通过对两个特征向量施加正交约束[22]来定义差分损失,并将差分损失最小化以促进信息的解纠缠。这里,将差分损失同时用于源域和目标域,通过在每个域上的病理信息特征向量和域特征向量之间施加软子空间正交约束来定义损失函数。记矩阵Vse为由源域数据提取的病理信息特征向量作为行组成的矩阵,矩阵Vsd为由源域数据提取的域信息特征向量作为行组成的矩阵,矩阵Vte为由目标域数据提取的病理特征向量作为行组成的矩阵,Vtd为由目标域数据提取的域信息特征向量作为行组成的矩阵。差分损失的具体表达为

其中,[·]T表示矩阵转置,//·//2F为平方Frobenius范数。

为避免多个损失共同优化的过程中出现由于尺度不一致导致模型偏向大损失的方向优化,导致其他模块的性能下降。本文还预设了3个超参数λs,λd,λdi,通过对各个损失进行加权,减小尺度不一致对模型的影响。最终,模型的总体优化目标函数为

2.5 模型训练及测试

模型将根据总体优化目标函数采用随机梯度下降法(Stochastic Gradient Descent, SGD)优化方法[22]进行模型的优化与参数的迭代

基于对抗迁移学习的跨语种帕金森病检测算法流程如算法1所示。

3 实验

3.1 数据集

本文使用了两个不同语种的帕金森病语音数据集。第1个语音数据集为牛津大学学者MaxLittle与科罗拉多州丹佛的国家语音中心合作创建的帕金森病检测数据集[19],受试者以英语为母语。数据采集均在安静的室内环境进行,采集内容为持续元音/a/,受试者包括33名帕金森病患者和10名健康人,每人重复发声6次。经剪辑整理后,生成96条健康人语音数据和154条帕金森病患者语音数据,共计260条数据。MaxLittle 数据集的统计信息详见表1。

表1 MaxLittle数据集的统计信息

第2个语音数据集为本文研究团队与南京医科大学附属老年医院神经内科合作创建的自采帕金森病语音数据集,受试人群皆为汉语人群。数据集由该医院帕金森病及运动障碍专病门诊筛选出的68名患者和17名健康人的语音数据构成。采集内容为持续元音/a/,经剪辑处理后共计170个样本。自采帕金森病语音数据集的统计信息详见表2。

表2 自采帕金森病语音数据集的统计信息

算法1 基于对抗迁移学习的跨语种帕金森病检测算法

3.2 实验条件及设置

本文实验将使用MaxLittle语音数据集和自采的帕金森病语音数据集来验证本文所提方法的有效性。对所有的语音数据集提取[361,40]的Fbank特征。为了克服由于随机选择测试数据而存在的任何偏差,使用10折交叉验证进行方法可行性验证,90%的语音数据用于模型训练,剩余的10%语音数据用于测试。为了充分验证本文所提方法的有效性,度量标准除常用的准确率外,本文选择准确率(ACCuracy, ACC)、敏感度(SENsitivity, SEN)以及F1分数(F1-score)作为度量标准,衡量模型在跨语种场景下评估帕金森病情方面的性能。准确率表示准确区分帕金森病患者和健康人的概率,敏感度代表正确检测出帕金森病患者的概率,F1分数衡量模型的总体预测性能。

本文所提模型为深度神经网络模型,表3是模型各个模块的具体参数,以及训练过程中的实验设置。

3.3 实验结果分析

3.3.1 与传统机器学习模型的性能比较

为验证所提的跨语种声学分析模型的优势,本节将所提模型与传统的机器学习模型(随机森林(Random Forest, RF)和支持向量机(Support Vector Machine, SVM))进行性能比较。实验结果如表4所示,其中,模型名称后括号中的标号含义如下:s代表在MaxLittle数据集上训练及测试;t代表在自采数据集上训练及测试;t-s为在自采数据集上训练,在MaxLittle数据集上测试;s-t为在MaxLittle数据集上训练,自采数据集上测试;st为在联合数据集上训练测试。

表4 与传统机器学习模型的性能比较(%)

由表4可知,传统机器学习模型在跨语种数据集上性能都有下降,即使通过添加跨语种数据到训练数据集中,这种下降的趋势也未有改变。其根本原因在于,传统模型未能去除语种差异带来的影响。而本文所提的跨语种声学分析模型,则能够很好地在跨语种数据集上实现更加准确稳定的帕金森病检测。相较于传统的机器学习分类模型(RF, SVM),在跨语种数据集上的准确率分别提升了7%, 8%。

3.3.2 与现有的迁移学习算法的性能比较

本节将进行迁移学习域自适应算法之间的性能比较。为保证输入的一致性,对于每个域自适应算法,将其中的特征学习网络改为和本文所提模型一致的特征提取网络,达到去除影响模型性能比较的其他因素。参与比较的模型有:域自适应网络(Domain Adaptive Network, DAN)[14]、域对抗神经网络(Domain Adversarial Neural Networks,DANN)[16]、深度子域自适应网络(Deep Subdomain Adaptation Network, DSAN)[15]、条件对抗域自适应网络(Conditional Adversarial Domain Adaptation Network, CADAN)[17]、域分离网络(Domain Separation Network, DSN)[23]、可转移特征过滤网络(Transferable Feature Filtration Network, TFFN)[24]等。所提模型与上述各迁移学习模型的性能比较如表5所示。

表5 与迁移学习模型的性能比较(%)

从实验结果可知,本文所提模型在跨语种场景下的帕金森病检测性能相较于其它模型有更好的表现。根本原因在于,所提模型有效地排除了语种差异的影响,更好地分离了域信息和域不变病理的信息。相较于基于统计准则(采用MMD准则进行差异分布度量)的迁移模型(如DAN, DSAN),对抗学习的隐式距离度量方式基于当前数据进行自适应学习,更加适合当前的数据。而DANN, CADAN两种分类对抗结构由于没有对融合信息进行解耦,因而信息分离能力较差;相较于TFFN采用共享特征提取器和基于对抗学习的域鉴别器来提取和对齐可转移特征,本文采用的双重对抗迁移学习更能有效地捕捉“可转移的”病理信息。与同样具备信息分离的DSN模型比较,本文所提模型不仅同样对两种目标信息进行差异约束,还通过更具迁移学习能力的对抗迁移学习方式实现了信息分离。

3.3.3 消融实验

为进一步探究所提模型的性能,本节通过消融实验来检测所提模型中关键模块的作用,重点探索双重对抗网络的必要性,以及特征正交约束对模型的贡献。实验的详细结果如表6所示。

表6 消融实验(%)

实验结果表明:双重对抗训练能够更好地分离域不变病理信息和域信息,帮助模型实现更好的跨域分析能力。同时,本文中对域信息和域不变病理信息实施的正交约束也能够进一步确保信息的完整分离,再度帮助模型提升性能。在正交约束问题上,将本文方法与常用的希尔伯特-施密特独立性准则(Hilbert-Schmidt Independence Criterion,HSIC)[25]进行了对比。实验结果表明,后者性能略差,这是由于后者对样本容量要求较高,且无法较好地处理病理特征与非病理信息之间存在的复杂非线性关系。

4 结束语

本文针对当前跨语种场景下帕金森病检测模型易受数据分布差异影响而出现性能下降的现象,提出一种帕金森病跨语种声学分析的方法,用于实现跨语种场景下的帕金森病检测。通过在多语种的语音数据集上训练模型,采用双重对抗网络解耦数据中的域信息和域不变的病理信息。最终实现了从原始语音特征中提取跨语种声学特征,并在此基础上实现跨语种的帕金森病辅助检测,使得研究成果能够适用于不同地域、不同语种患者使用。本文工作主要在于通过迁移学习技术实现跨域分布差异弥合的领域适应问题,未来工作可以考虑将领域泛化技术引入帕金森病跨语种语音分析领域,使得模型能够在未见过某一语种语音的情况下仍然能够实现正确的语音分析,并准确的进行帕金森病检测。

猜你喜欢
源域语种帕金森病
多源域适应方法综述
手抖一定是帕金森病吗
《波斯语课》:两个人的小语种
基于参数字典的多源域自适应学习算法
帕金森病科普十问
“一带一路”背景下我国的外语语种规划
可迁移测度准则下的协变量偏移修正多源集成方法
帕金森病的治疗
中西医结合治疗帕金森病98例
走出报考小语种专业的两大误区