基于多头注意力机制的多模态帕金森病安全检测系统

2024-04-01 02:38季培琛
计算机测量与控制 2024年3期
关键词:步态注意力语音

季培琛,李 晨

(1.徐州市中医院,江苏 徐州 221000;2.徐州医科大学,江苏 徐州 221000)

0 引言

帕金森病(PD,parkinson’s disease)是一种常见的神经系统退行性疾病,目前该病发病机制尚未明确,主要受到遗传、环境、年龄老化以及氧化应激等诸多因素影响[1-2]。据统计,年龄在45岁以上和65岁以上人群中,PD的发病率分别为0.4%和1.7%[3],预计到2030年,我国PD患者将达500万,在全球排名第一,约占世界50%。通过众多病历的长期跟踪和数据统计结果显示,随着PD患者病情发展以及年龄的增长,患者各项身体机能将逐渐退化、行动也受到严重限制,导致其6年死亡率高达66%,要明显高于慢性心力衰竭(50.9%)、慢性阻塞性肺病(44.7%)、残血性心脏病(32.5%)、中风或短暂性脑缺血发作(52.5%)等疾病。而PD缺少明确的病理机制,早期症状隐匿,并存在非运动症状和相似神经系统疾病症状的干扰,导致PD早期诊断极为困难。

在大量的临床试验中[4-6],语音功能障碍和步态特征是PD患者临床表现中非常典型的症状。PD患者在语音特征上多表现为语速慢、停顿增多、音质颤抖及刺耳等症状,在步态特征上多表现为快速小碎步、拖把步、平衡性差等症状。众多学者利用PD患者与正常人的语音和步态特征差异,使用智能算法,开展了大量基于语音和步态数据的PD辅助诊断研究。例如,Little等[7]利用模式识别方法,对基于语音障碍的PD诊断进行分析,并建立了首个PD语音障碍数据集;Wroge[8]等使用深度神经网络监督分类算法,结合语音数据,完成PD的智能诊断,峰值准确率为85%;朱家英[9]等提出了基于多尺度特征和动态注意力机制的多模态循环融合模型,实现了对PD患者的识别与检测。

而在实际研究中发现,用于PD辅助检测的语音数据中,包含共振峰频率、音调、重音等可唯一识别个体的声纹特征[10-11]。同时,步态数据中也包含了步频、步长、步态周期、膝盖弯曲角度等可以唯一识别特定个体的运动学特征和姿势特征[12-13]。而在已有的相关研究中,众多学者往往忽略了对PD患者隐私安全的保护,极易在数据传输过程中发生隐私泄露,且很难实现PD的多模态辅助诊断准确性与隐私安全的动态平衡。为此,本文设计了一种鲁棒性高、成本低且操作便捷的基于多头注意力机制[14-15]的帕金森病多模态安全远程诊疗模型,通过语音和步态两模态数据特征的提取和识别,使PD诊断结果更加精准,也更具临床参考价值。同时引入基于余弦混沌的差分隐私噪声扰动方法,实现了对PD数据传输过程的安全保护,为PD早期远程辅助诊断和PD诊断临床决策支持提供了支撑。本文主要创新和贡献如下:

1)针对传统PD检测模型训练和测试数据存在的特征固定、模态单一问题,提出了基于多头注意力机制的两模态特征融合与识别模型,避免了单一模态数据噪声干扰、数据规模小导致的检测识别准确度低等问题,实现了基于两模态数据特征的PD智能检测。

2)针对现有PD智能检测识别研究多忽略数据主体隐私安全的问题,设计了一种基于余弦混沌的差分隐私噪声扰动方式,通过扰动随机拆分的数据编号,保证数据传输至系统智能检测识别模块的传输过程安全性,实现了PD检测准确率和隐私安全的动态平衡。

3)设计了基于多头注意力机制的多模态特征融合方法,在特征融合阶段,通过挖掘PD语音特征与步态数据特征的内在相关性,提高了模型的疾病表征能力,并具有较好的多模态特征融合扩展性,可满足更高模态特征融合与识别需求。

1 系统设计

基于多头注意力机制的多模态帕金森病安全检测系统整体框架如图1所示。

图2 基于多头注意力机制的多模态PD安全检测系统技术框架

1.1 系统结构及原理

系统主要由3部分组成,第一层为数据采集层,主要借助语音录入设备(如智能手机、树莓派、录音设备等)和步态数据采集设备(如摄像机、运动相机、智能平板等)来完成受试者语音数据和步态数据的采集,其中语音数据应确保为一段连续不间断的语音数据,便于更好记录受试者音色、音调等声纹特征的微小变化;步态数据应为连续不间断的视频数据,记录受试者完整的行走周期信息,以便于分析受试者步长、步频、步态等步态特征。第二层为数据处理和传输层,该层主要将采集后的数据进行清洗和处理,并使用基于余弦混沌的数据随机拆分编号加噪方式,打乱数据顺序,保证两模态数据上传过程安全。第三层为PD智能诊断层,接收到上传的数据后,进行数据编号逆向降噪,得到完整的两模态语音和步态数据特征,并将降噪和特征提取后的语音声纹特征和步态特征作为输入数据,使用融合多头注意力机制的卷积神经网络完成帕金森病的安全检测。

1.2 系统设计目标分析

为确保基于多头注意力机制的帕金森病多模态安全远程检测系统能够高效、精准且安全的实现PD远程辅助检测,为医生诊断PD提供临床决策支持,该系统设计应实现以下几个目标。

1)鲁棒性:指的是系统应能有效处理各种异常数据,如设备故障、信号干扰等,避免因个别异常数据导致系统崩溃或数据丢失;同时应保证网络、容错及恢复的鲁棒性,确保系统在网络故障、通信延迟等情况下,仍能保持多模态诊疗数据传输的稳定性和可靠性。在本研究中,要求系统提供更全面和准确地诊断信息,能够通过多模态数据融合降低单一数据源的误差,同时具有故障检测和恢复机制,当检测到异常或错误时,系统能够自动调整或切换到备用方案,确保服务的连续性和稳定性,从而提高系统鲁棒性。

2)安全性:指的是系统应采用严格的数据加密和访问控制机制,保证患者数据传输和存储过程的机密性和完整性;同时融合多因素身份验证和细粒度授权机制,保证只有经过授权的人员能够访问敏感数据或执行相关操作。在本系统中用于远程诊断PD的语音、步态等多模态数据中包含患者大量的隐私信息,在数据采集完成后,经过安全处理后上传智能辅助诊断模块;同时系统的应用需要建立明确的数据安全、网络保护与访问控制方案,保证PD多模态远程诊疗系统的硬件设备的物理安全,确保系统使用全流程可追溯和审计,避免出现隐私泄露,确保系统以及患者隐私安全性。

3)准确性:指的是系统在识别和判断疾病时的准确程度,是评估系统性能的重要评估指标之一。在该系统中,利用多头注意力机制,能够自动提取识别测试人员上传的与帕金森病相关的多模态特征,减少人为因素和主观判断对诊断结果的影响。同时借助深度学习技术,在借助大量训练数据进行模型训练的基础上,迭代和优化PD远程辅助检测算法模型,并通过临床验证完成系统的多轮更新和优化。

4)可扩展性:指的是系统在面对新型疾病和数据时,能够适应并快速进行自适应的扩展和改进,以适应新的需求。在本研究中,系统设计采用模块化方法,确保数据收集、处理、分析以及可视化板块的相互独立,保证各模块能够独立运行;同时系统应具备计算资源的动态分配和弹性配置能力,并满足持续开发、功能更新与迭代的扩展能力,满足多模态与跨模态检测PD的需求。

5)易用性:指的是产品、系统或服务对用户而言的易于理解、学习和操作程度。它包括界面设计的友好程度、操作的直观性以及用户完成任务的效率和满意度。在本文章,系统的设计应简单易用,方便测试人员、技术人员和医务人员的使用。同时界面设计简单大方,操作流程简单易懂,并提供丰富的交互反馈和引导功能,能够为医生临床诊断PD提供决策支持。

2 系统软件设计

该系统设计主要通过识别早期PD患者在语音和步态特征上异于常人的表现或障碍,来实现早期PD的安全智能检测。为提高PD智能检测精确度,降低单一模态数据辅助检测存在的噪声干扰、数据稀疏问题影响,使用语音、步态两模态数据辅助检测早期PD。为保证数据传输过程安全性,将采集的数据进行随机分组和编号,并使用基于余弦混沌的差分噪声添加方式,扰动数据编号,防止数据攻击和重组导致的数据隐私披露。数据上传后,分别进行语音和步态数据特征提取,并使用多头注意力机制完成两模态数据特征融合,特征融合后作为输入数据输入PD智能检测模型中,最终完成PD的智能检测。系统关键技术及算法模型设计如下。

2.1 相关技术简介

2.1.1 多头注意力机制

多头注意力机制(MHA,multi-head attention)是神经网络中的一种注意力机制。MHA能够使诊断算法模型在处理输入数据时从多个视角上关注不同模态数据的特征子集,帮助更加全面地理解和聚焦于疾病诊断的关键特征信息。通过MHA的应用,可以有效提升模型整合生理信号、文本、图像、视频等数据特征的能力,进一步提高复杂疾病的诊断准确性。目前MHA已广泛应用于肿瘤、神经系统疾病、心血管疾病等的辅助诊断和研究中,并取得了较好的研究效果。

2.1.2 差分隐私

差分隐私保护通过对数据加噪掩盖原始数据的真实值,确保攻击人员无法结合背景知识等推断出相关数据,从而达到隐私保护的目的。研究人员可以根据研究场景和需求自适应的设计噪声添加方式,以达到最大化准确率和安全性的目标。差分隐私的数学定义如下:

对于任意相邻的数据集D,D′∈Z,给定一个随机算法f:Z|→R,和任意输出结果S⊆R,则定义以下不等式:

(1)

若不等式(1)成立,则成算法f满足差分隐私定义[16]。其中ε为隐私预算,表示可以提供的随机化算法的保护级别,当ε越小时,表示隐私保护强度越强,即要求添加的噪声越大;反之ε越大,表示隐私保护强度越小,即要求添加的噪声越小。ξ为一个非零实数,通常是一个很小的数值,表示不满足上述不等式的概率。

2.2 基于多头注意力机制的多模态PD检测模型设计

由于早期PD患者在音调、音量、语速以及音质等语音特征异于正常人的表现[17-18],目前更多的是借助单一模态的语音信号开展PD智能辅助诊断研究。但由于语音信号易受到语音采集设备、外部环境噪音等干扰,导致基于单模态语音信号识别PD的辅助诊断结果存在不稳定和误差较大等局限。因此,为提升PD智能辅助诊断准确率,借助多模态数据开展PD智能辅助诊断是可行之路。

在现有研究中,使用卷积神经网络(CNN,convolutional neural networks)在全连接层进行双峰数据融合,来检测和识别早期PD是一种常见的方法[19]。但这种融合方法不利于多模态数据特征间的相关性信息挖掘和使用。为解决此问题,提出了一种融合多头注意力机制的MHA-CNN,来获取语音、步态等多模态数据间的相关信息权重,以更好的提取和融合高维特征表示。

在多头注意力机制中,引入多个注意力头,将输入的语音和步态数据分成多份,每个注意力头独立地学习并关注不同的语义信息,有效增强模型的表达能力与性能。基于多头注意力机制的多模态PD智能检测识别模型设计如下。

假设输入2-dimension模态为模型的输入数据。在MHA-CNN完成特征提取后,使用{X1,X2}分别表示语音和步态数据,使用{d1,d2}分别表示语音和步态数据嵌入,可得到:

(2)

(3)

在concat层将语音和步态数据特征向量进行拼接:

(4)

在全连接层,将嵌入的语音和步态数据进行融合,定义dconcat和Fconcat:

dconcat=dS+dG

(5)

Fconcat=WconcatFconcat+b

(6)

其中:Fconcat∈RN*d concat。

在多头注意力机制中,每个注意力头独立地学习并关注不同的语义信息,通过计算查询向量和键向量的相似度来获得注意力权重值,进而根据权重对值向量进行加权求和,得到最终的输出表示。

定义语音信号与步态数据间的相似度关系为r,不同PD患者语音和步态数据间的r通过计算公式可表示为:

(7)

使用softmax函数计算语音和步态数据两模态特征权重值为:

(8)

其中:Q、K、V的可表示为:

Q=[Q1,Q2,…,QN]∈RN*dconcat

(9)

K=[K1,K2,…,KN]∈RN*dconcat

(10)

V=[V1,V2,…,VN]∈RN*dconcat

(11)

研究中使用多头注意力机制改进CNN网络,增强MHA-CNN模型关注语音和步态两模态的能力,使分区不同的头相互集中,同时通过将输入特性划分为单独的分区来为其添加子空间,便于从语音和步态两模态数据特征子空间学习到更多不同信息。其中基于两模态数据的头部注意力度计算公式为:

(12)

经过独立计算头部注意力,将结果输出后连接,用来获取所有子空间的特征信息,并反馈到线性投影中获得最终的两模态特征融合模型维度,计算公式如下:

Multiheadfusion=Concat(head1,head2,…,headh)W0

(13)

两模态数据特征提取融合后,进一步使用多层感知机MLP[20]按照标记的PD患者语音和步态数据特征进行分类,并返回预测结果。整体过程如下:

算法1:基于MHA的两模态数据融合模型

输入:数据集D={(XS∈RN*dS,XG∈RN*dG),Y},注意力头数为H,学习率为η

输出:PD检测识别结果Dr

初始化模型参数W,b

for each roundt=1,2,…,ndo

Step1:两模态特征提取

从XS和XG中分别提取特征fS和fG

将提取后的特征连接FC=fS+fG

Step2:多头注意力模块

forh∈[H]:

计算每个头注意力输出值:

end for

连接所有头部注意力输出值

y=[y1,y2,…,yH]

Step3:PD诊断识别

Dr=MLP(y)

returnDr

end for

2.3 基于余弦混沌的PD数据随机拆分和数据编号扰动机制

考虑到用于智能辅助诊断PD的语音和步态数据特征包含识别数据主体的大量隐私信息,为保护数据主体隐私安全,系统设计过程中融合了一种基于余弦混沌的差分隐私噪声扰动机制。

在语音和步态数据采集完成后,测试人员将数据上传至系统,系统接收数据上传指令后,首先进行两模态数据的处理和噪声扰动,保证相关数据传输至系统辅助诊断模块的过程安全性,具体过程如下。

根据帕金森病智能检测所需的目标特征,对原始数据进行初步处理、标记和矩阵化,其中语音数据使用声谱矩阵的形式表示,行表示时间,列表示频率,矩阵中每个元素表示相应时间频率下的信号强度,通过此形式将语音信号转换为数值矩阵;对于步态数据,用类似的方式表示,将每一步的行走数据表示为一个矩阵,其中行表示不同的特征,如步长、步幅、频率等,列表示不同时间点的数据,通过此形式将步态数据转化为数值矩阵。语音和步态数据形式转换完成后,通过整合得到两模态特征矩阵C=[a,b,…,k],若将原始数据直接上传到系统中,则存在隐私披露风险。对此,首先将C处理成(k+2)×n的矩阵形式,其中矩阵第一行的所有数字为数据拆分后每列数据的编号,最后一行为干扰行,假设干扰初始值为δ,结果如公式(15);其次引入差分隐私扰动机制,对第一行数据编号进行加噪处理,为避免添加随机噪声而导致初始数据无法还原的问题,使用基于余弦混沌的噪声添加形式,其中余弦函数值域为[-1,1],为避免不同序号输入值x计算出相同的噪声值fnoise,定义fnoise的计算公式为:

fnoise={1…1}n→cosx

(14)

其中:x∈(nπ~(n+1)π],{1…1}n→cosx表示在噪声值y前添加n个1,例如当序号值为1时,1∈[0,π],则fnoise=cos1=0.540 3。

(15)

在上述基础上,将随机拆分后的每列数据上传,系统根据上述加噪方法逆向去掉噪声干扰,得到恢复后的原始语音和步态数据后进行PD的检测和识别。其中随机拆分的数据编号的降噪恢复过程是基于余弦混沌的噪声扰动的逆过程,见公式(16)。

(16)

整体过程如下所示:

算法2:基于余弦混沌的差分隐私保护算法

阶段1:数据分解加噪过程

输入:语音和步态特征矩阵M,待传输矩阵数n

输出:n列PD两模态数据矩阵

Step1:数据拆分

Step2:序号加噪

Step3:矩阵分解

阶段2:数据合并减噪过程

Step1:数据矩阵合并

Step2:序号降噪

Step3:数据恢复

3 实验结果与分析

系统设计完成后,为了验证和优化基于多头注意力机制的PD智能辅助诊断模型性能,进一步进行了测试和验证。

3.1 数据集

实验中使用来自mPower研究中的两模态语音和步态数据集。该数据集包括65 022个独特的任务,包括5 826个个体受试者,其中每条数据中均包含10秒的语音样本。步态数据集存储为JavaScript对象表示法(JSON)文件。在本实验中,PD智能检测模型的输入数据为处理和融合后的语音和步态特征数据。

3.2 实验环境设置

本实验在浪潮服务器中运行,使用的库和编程语言分别为Pytorch1.10.1和Python3.7.0。实验的硬件环境为64位Intel(R) Xeon(R) Sliver 4210R CPU@2.40 GHz处理器和32 GB RAM模拟环境来训练和测试MHA-CNN。在模型训练中,我们将实验数据按照8∶1∶1的比例分为训练集、验证集和测试集。

3.3 MHA-CNN性能评估指标

在本节中,分别使用准确率、F1-score、精确度和召回率[21-22]作为模型性能的评估指标。其中模型精度和召回率的计算公式为:

(17)

(18)

模型准确率的计算公式如下:

(19)

其中:TP表示PD被正确识别的样本数量,FP表示被误报的非PD样本数量,TN表示非PD被正确识别的样本数量,FN为被漏报的PD样本数量。

(20)

其中:F1-score是精度和召回率的加权求和平均值,精确度表示所有PD阳性样本中被准确预测为阳性样本的百分比,召回率表示所有PD阳性样本中被正确预测为阳性样本的检出率。

3.4 实验分析

为测试和验证MHA-CNN模型的性能,本节进行了两模态消融实验和模型性能对比实验,分别从精确度、准确率、召回率、损失值、F1-score等5个评估指标系统评估了MHA-CNN性能,具体实验结果如下。

3.4.1 两模态消融实验

图3是MHA-CNN在训练集中的训练结果。如图3(a~b)分别为模型AP曲线图和ROC曲线图,通过对比,添加多头注意力机制后的MHA-CNN模型AP曲线与ROC曲线下面积均大于未添加注意力的曲线,表明MHA-CNN模型性能更好;如图3(c),随着迭代轮次的增加,添加注意力的模型准确率快速上升,并趋于稳定,其中峰值准确率约为0.99;如图3(d)所示,随着模型训练轮数的增加,添加注意力的模型损失值下降速度更快,并快速收敛,损失值约为0.32,性能均优于未添加注意力机制的模型。

图3 MHA-CNN两模态消融实验结果

3.4.2 模型性能对比实验

为进一步验证MHA-CNN模型性能,研究中对MHA-CNN模型与传统的LWF模型的性能进行了对比,对比实验结果如图4所示。

图4 模型性能对比实验结果

图4(a~d)显示了MHA-CNN和LWF在测试集中的运行结果。MHA-CNN的Accuracy、Precision、Recall和F1-score分别为0.913、0.908、0.904和0.906,要明显高于LWF的0.643、0.50、0.321和0.391,在基于两模态数据的PD智能辅助诊断效果层面要明显优于LWF模型。图3(e)表明,随着测试次数的增加,MHA-CNN的准确率快速上升并收敛。实验结果表明,基于多头注意力机制的帕金森病多模态远程检测系统能够满足PD大规模早期安全筛查要求。

4 结束语

本文设计了一种基于多头注意力机制的帕金森病多模态安全远程辅助检测系统。研究中通过在卷积神经网络CNN后融合多头注意力机制,提高了卷积神经网络算法模型的多模态数据特征提取、融合和识别能力。同时考虑到PD患者语音和步态数据特征所包含的能够唯一识别数据主体的隐私信息,研究中使用了一种基于余弦混沌的差分隐私保护噪声扰动方式,在数据传输前将语音和步态数据随机拆分并编号,通过向编号中添加噪声的形式,保证数据传输过程的安全性。为了验证MHA-CNN模型的性能,本文进行了两模态消融实验和对比实验,仿真实验结果表明,MHA-CNN的准确率、精度等高于0.9,且模型的准确率和损失随着训练和测试的轮次增加,均快速收敛并趋于稳定。实验结果达到了PD检测识别的预期目标,在提高PD远程诊疗准确性和稳定性的同时,保证了PD数据的隐私安全性。

在后续研究中,将进一步融合用于PD临床检验的文本数据等,开展更高模态的PD智能辅助检测研究,持续提高PD早期检测准确率。同时,开展PD辅助检测过程的安全性研究,确保PD多模态远程检测过程的安全性,不断提升PD辅助诊疗结果对于PD临床诊疗的决策支持作用和价值。

猜你喜欢
步态注意力语音
小蚂蚁与“三角步态”
让注意力“飞”回来
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
基于面部和步态识别的儿童走失寻回系统
基于Kinect的学步期幼儿自然步态提取
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things