基于脑电多视图混合神经网络的时空半监督睡眠分期

2023-01-31 03:33刘虹梅彭才静
工程科学学报 2023年5期
关键词:脑电电信号视图

刘虹梅,彭才静,韩 芳,张 远✉

1) 西南大学电子信息工程学院,重庆 400715 2) 重庆市第九人民医院儿童呼吸科,重庆 400700 3) 北京大学人民医院睡眠研究中心,北京 100044

睡眠占据人生命时间的1/3,睡眠的质量对学习、身体恢复和新陈代谢有着深远影响[1].临床上,使用多导睡眠仪(Polysomnography,PSG)记录睡眠时的肌电(Electromyography,EMG)、脑电(Electroencephalogram,EEG)和眼电 (Electrooculogram,EOG)等电生理信号.技师根据美国睡眠医学会(American academy of sleep medicine,AASM)的睡眠分期准则[2],将PSG记录划分为30 s一个片段,并标记为清醒期(Wake,W)、非快速眼动1~3期(Non-rapid eye movement 1~3, N1、N2 and N3)和快速眼动期 (Rapid eye movement,REM).通常,一整晚PSG记录的时间约为7~8 h,技师标注一晚的PSG记录通常需消耗2 h.而近几年以深度学习为代表的方法仅需数秒钟就可完成自动睡眠分期.

深度学习在图像和信号领域都取得了巨大的成功,我们最近发表的文献[3],充分调研了深度学习在睡眠分期任务中的代表性成果.目前采用卷积神经网络(Convolutional neural networks,CNNs)[4-6],resnet-50[7],resnext-50[8]来提取时序内特征,用循环神经网络(Recurrent neural networks,RNNs)来提取时序间的特征[9-10],以及用CNNs + RNNs[11-14]结合的方法提取时序内特征和上下文关联的特征.但是用RNN模型提取时序间特征难以调优,Jia等[15]提出用注意力机制替换RNN来提取类间特征,并取得了优于RNN的准确率.目前,睡眠分期研究输入方式有一维信号输入[5,12],采用快速傅里叶变换(Fast Fourier transform,FFT)将一维信号转为二维时频图作为输入[10,13],以及将一维信号与时频图联合作为输入[16-17].Phan等[17]将两者联合作为输入,在Sleep-EDF数据集中,取得了83.9%的分类准确率,验证了联合输入可获得多角度特征.

上述工作能够很好地检测睡眠阶段,并取得76%~88%的睡眠分期准确率,但是现阶段所提出的模型大多为全监督学习,如: DeepSleepNet[12],DeepSleepNet-Lite[18], Mixed NN[19], Tsinalis et al.(CNN)[20].全监督学习的训练集和测试集都是带标签的数据,然而此类数据全部需要技师进行大量的人工标注,训练的模型准确率受限于技师标注数据的数量和质量.因此,学者提出用无监督学习进行睡眠分期,Zhang等[21]提出SleepPriorCL网络在Sleep-EDF(睡眠集-欧洲数据格式)数据集上取得了76.4%的准确率.Xiao等[22]提出的SleepDPC网络在相同的数据集上取得了76.4%的准确率.但是,没有标签信息,真实的分类结果是未知的.因此,我们提出用部分标签数据来辅助模型进行训练,从而提升睡眠分期准确率.

本文基于上述研究,将多视图输入方式、注意力机制和半监督学习相结合,构建端到端单通道脑电自动睡眠分期模型.该模型通过多通道视图时空域特征提取机制从标签数据和无标签数据中提取多视图的脑电特征,然后通过注意力机制对显著特征进行加强并提取,最后通过特征融合机制将多视图特征结合起来并输出预测的睡眠阶段.为了从无标签数据中学习到有用特征,模型采用半监督学习策略生成无标签数据的伪标签,从而构建与全监督学习策略相似的训练过程.本文提出的多视图混合神经网络模型能够从无标签脑电数据中提取特征并进行睡眠分期,且取得与全监督媲美的分类准确率.

本文的主要贡献有:

(1)提出多视图混合神经网络模型,其中,设计了多通道视图时频域特征提取机制、注意力机制和特征融合模块,实现了对时频域信号和空域信号的特征提取,从而提高睡眠分期的性能.

(2)采用半监督学习策略,实现了对脑电无标签数据的学习,解决了临床上脑电睡眠数据标注不足而导致睡眠数据未充分利用的问题,同时减少技师标注工作量.

(3)本文在三个公开数据集和一个私有数据集上对提出的睡眠分期模型做了充分的对比实验.半监督学习在仅使用40%的带标注数据情况下,取得了与全监督学习媲美的分类准确率.

1 材料和方法

1.1 数据集

本文用三个公开数据集和一个私有数据集来评估提出模型的性能.表1为数据集的介绍,图1为不同数据集的睡眠类别分布,详细描述如下:

表1 睡眠数据集情况Table 1 Summary of the sleep databases

图1 不同数据集中睡眠类别分布Fig.1 Distribution of sleep categories in different datasets

睡眠集-欧洲数据格式(Sleep-European data format,Sleep-EDF)[23]数据集包含197个整夜PSG睡眠记录,其中分为153条年龄在25~101岁的健康受试者睡眠记录和44名患有轻微睡眠障碍受试者的睡眠记录.每条记录包含2导脑电信号,1导眼电信号和1导肌电信号.所有信号的采样频率均为100 Hz.睡眠技师根据睡眠手册(Rechtschaffen and Kales,R&K)将数据以30 s为片段划分和标记.本文选用了40条患有轻微睡眠障碍受试者的睡眠记录和脑电的额极中线导联(Fpz-Cz).

公开睡眠集-健康人(Dreem open dataset-Healthy,DOD-H)[24]睡眠数据集包含25名健康受试者(18~65岁).每个人的PSG记录时长约为7 h,包含12导脑电信号,2导眼电信号,1导肌电信号和1导心电信号.所有信号的采样频率都为250 Hz.5名睡眠技师根据AASM手册将数据划分为30 s每段,并标注 (未得分: 1,W: 0,N1: 1,N2: 2,N3: 3,REM: 4).本文选用了该数据的脑电左额导联(F3_F4).

公开睡眠集-患阻塞性睡眠呼吸暂停的患者(Dreem open dataset-Obstructive,DOD-O)[24]睡眠数据集包含55名患有阻塞性睡眠呼吸暂停(Obstructive sleep apnea,OSA)的患者 (28~43 岁).每个人的PSG包含8导脑电信号,2导眼电信号和1导肌电信号.所有信号的采样频率都为250 Hz.睡眠阶段划分的规则与DOD-H数据集的规则相同.

私有数据集由重庆市第九人民医院采集,包含9名儿童受试者.每个人的PSG记录时长约为7 h,包含4导脑电信号,2导眼电信号和2导肌电信号.所有信号采样频率为128 Hz.根据AASM手册对睡眠阶段进行标注.本文选用了该数据的脑电左额导联(F3-M2).

1.2 方法

图2为脑电多视图混合神经网络睡眠分期框架.其中,先将原始脑电数据转换为时频图;然后如图3所示用伪标签半监督学习策略处理无标注数据;再联合一维信号和二维时频图作为模型输入,然后利用多通道时频域机制和注意力机制进行特征提取;最后进行特征融合并分类.

图3 半监督学习示意图Fig.3 Schematic diagram of semi-supervised learning

1.2.1 时空图数据生成

多视图指同一事物从不同的途径或不同的角度对其进行描述后构成的视角.多视图能使模型提取更多潜在的特征[17],时空图数据包含生成的时序数据和时频图数据.如图2(a)所示,一维信号通过FFT转为二维时频图.模型输入X={[(x1S,x1T),y1],...,[(xlS,xlT),yl]}, 1 ≤i≤l.其中l表示总的序列数量,i表示第i个样本.xiS∈R3000×C表示每个epoch以30 s为窗口提取脑电信号片段,采样频率为100 Hz,包含3000个样本点,C表示通道数.xiT∈RW×H×C表示每个epoch的时频图,W和H分别为时频图的宽度和长度.根据AASM手册,yi∈{0,1,2,3,5}代表睡眠分期中的 W,N1,N2,N3和REM期.

图2 多视图混合神经网络架构.(a) 时空数据; (b) 多通道视图时频域特征提取; (c) 注意力机制; (d) 特征融合Fig.2 Multi-view hybrid neural network architecture: (a) spatiotemporal data; (b) time-frequency domain feature extraction from multichannel views;(c) attention mechanism; (d) feature fusion

1.2.2 时空图数据生成

如图3所示,本文利用半监督学习策略[25]实现对无标签数据的特征提取,其中,空域对比损失函数原理如下: 对于模型无监督部分输出的特征数据,xs为无监督空域模态数据,xt为无监督时域模态数据,xss为 无监督空域增强模态数据,xts为无监督时域增强模态数据,相对应地,xsl为监督空域模态数据,xtl为监督时域模态数据,I(·)为指示函数, η 、T为判断常数,p(·|z)∝ esm〈·,z〉定义为在无监督时空图数据中关于原始对比模态数据z的采样分布,zs,zt分别为空域模态数据和时域模态数据,sm〈·,·〉为两个向量的SoftMax距离, θun(·)为模型无监督输出, θ (·)为模型原始输出,m为无监督数据总数,Lun为对比损失函数:

总的数据损失计算公式如式(3)所示.

其中,B表示监督模态数据总数,CE(·)为多分类交叉熵损失函数,用正则项来防止过拟合.

1.2.3 多通道时频域特征提取

根据AASM手册,睡眠分期类别判定是根据特征波种类及所占时长判定的.同一片段中,当存在多个特征波类别时,则根据时间占比判断.先前的研究用RNN来学习时序间的规则,但是RNN难以调优.

为了解决上述问题,我们设计了多通道视图时频域特征提取机制来抓取不同时长的睡眠特征波,如图4所示.多通道视图时频域特征由不同卷积核组成,用于抓取多尺度特征波.其中,特征向量输入到四条由不同卷积核组成的特征提取通道,然后将不同尺度卷积学习到的特征图串联起来,得到多通道的特征图:

图4 多视图时频域特征提取机制Fig.4 Multi-view time-frequency domain feature extraction mechanism

其中, C onv表 示卷积层,r为通道编号.Hr为每个通道输出的特征向量,再经过 C oncat进行连接,得到Xm为多通道卷积学习到的特征图.

为了使模型参数量减少,在每个尺度特征提取通道前,添加1×1卷积,减少特征向量之间的通道.同时,空域特征提取方式与时域特征提取方式相同.

1.2.4 注意力机制

为了对不同睡眠阶段特定的睡眠波特征进行加强,我们提出一种注意力模块,如图5所示.Q,K,V分别为不同核大小的卷积.

图5 注意力特征提取机制Fig.5 Attention feature extraction mechanism

注意力机制计算公式如下:

1.2.5 特征融合

如图2(d)所示,本文将前面提取的时域特征和空域特征通过 C oncat融合起来,并输入全连接层,再通过Softmax输出五分类的概率,取最大概

率作为睡眠分类中的一类.

2 实验

2.1 实验设计

实验选用的数据集采样频率和睡眠评分划分方式不同,为了减少实验误差,实验统一采样频率为100 Hz,并选用单通道脑电和10折交叉验证方式.训练集和测试集比例为7∶3,同时训练集中标签数据、无标签数据比例为4∶6.时域无标签数据采用滤波进行数据增强,空域无标签数据采用水平翻转和垂直翻转进行数据增强.

实验在Pytorch框架中实现,利用NVIDIA GTX 3090 GPUs进行模型训练.优化器为随机梯度下降,批次大小为128,学习率为0.001.S代表全监督,SS代表半监督.

2.2 实验评价

本文的实验用准确率(Accuracy,ACC)、F1分数 (F1-score,F1)、Kappa系数 (Cohen Kappa,K)、灵敏度 (Sensitivity,Sens.)、特异性 (Specificity,Spec.)和混淆矩阵等测量指标进行模型性能评估.具体计算如公式(8)~(14)所示.

其中,TP表示正类预测为正类的数目;FN表示正类预测为负类的数目,同理可得到FP和TN;PR表示预测为正类的样本中分类器预测正确的比重;RE表示实际为正类的样本中,分类器预测为正的比重.P0的值与ACC的值相等,Pe示对模型偏向性的惩罚.Sens.的值与RE相等.

3 结果与分析

本文在三个公开数据集和一个私有数据集上,将提出的模型与相关论文模型进行对比,包含全监督学习和半监督学习两种方式.表2~表5分别为 Sleep-EDF、 DOD-H、 DOD-O 和私有数据集上模型的实验性能.其中,S代表全监督,SS代表半监督.

表2 Sleep-EDF数据集实验结果Table 2 Experimental results of the Sleep-EDF dataset

表5 私有数据集实验结果Table 5 Experimental results of the private dataset

表3 DOD-H数据集实验结果Table 3 Experimental results of the DOD-H dataset

表4 DOD-O数据集实验结果Table 4 Experimental results of the DOD-O dataset

多视图睡眠网络(XSleepNet2、XSleepNet1)[17]:利用CNN 同时提取原始图像和时频信号片段内特征,再通过RNN提取片段间特征,实现睡眠分期.

多尺度睡眠网络(SleepStageNet)[14]:利用多尺度卷积神经网络提取30 s的单通道信号特征,再通过双向门循环单元(Gate Recurrent Unit,GRU)提取片段间特征,实现睡眠分期.

序列睡眠网络(SeqSleepNet)[10]:对原始信号进行时频图转换,再利用不同滤波的CNN 提取片段内特征,然后通过双向RNN 提取时序间特征,实现睡眠分期.

深度睡眠网络(DeepSleepNet)[12]:利用两种不同滤波的卷积对30 s脑电信号进行特征提取,再用双向长短记忆递归神经网络提取时序间特征,实现睡眠分期.

混合注意力时序网络(HATSN)[16]:利用GRU提取短时傅里叶变换后时频图的时序表征,再结合注意力机制提取片段间的时序上下文表征,实现睡眠分期.

睡眠卷积网络(Tsinalis et al.(CNN))[20]:利用CNN提取单通道脑电信号特征,实现睡眠分期.

混合睡眠网络(Mixed NN)[19]:利用CNN提取单通道脑电信号特征,再用RNN 提取时序之间的特征,实现睡眠分期.

自监督先验睡眠网络(SleepPriorCL)[21],利用4层卷积提取单通道脑电信号特征,再用对比学习提取无标签信号特征,实现睡眠分期.

自监督睡眠网络(SleepDPC)[22],利用CNN 和GRU 从单通道脑电中提取特征,再用对比学习学习正样本和负样本之间的差异,实现睡眠分期.

如表2~5所示,SleepStageNet模型的结果相对较低,因为该模型仅提取了单一维度片段间的特征.而XSleepNet2和XSleepNet1模型的ACC值等指标结果相对较好,因为二者的结构将时序信号和时频图作为输入,充分提取了时频域特征和空域特征,但是使用RNN提取片段间的特征,存在特征提取不充分和难以调优的局限性.此外,HATSN基于注意力机制结构充分提取了时频图中的片段内特征和片段间时序上下文信息,对比DeepSleepNet的RNN结构取得了更优的结果,但仍忽略了原始信号维度相关特征.本文模型采用多通道视图时频域特征提取机制提取时频域信号和空域信号片段内特征,再用注意力机制提取类间特征并扩大显著性差异,然后用半监督学习方式从无标签数据中提取特征,从而取得媲美全监督学习方式的实验结果.

4 讨论

对比所有数据集的实验结果,本文模型在DOD-O数据上取得的半监督学习睡眠分期结果仅达到79.2%.这是因为该数据集采集的是患有OSA病患者的睡眠数据集,而Sleep-EDF和DODH采集的是健康人的睡眠数据集,而Korkalainen等[26]证明患有OSA病人的睡眠分期准确率会随着患病的严重程度增加而降低.本文模型在私有数据集上取得的准确率较低,这是因为私有数据集采集的是儿童(3~12岁)的睡眠数据,N1期的数量仅占10%,而且儿童睡眠结构与成人的睡眠结构有很大差异,对模型性能产生了一定的影响.但总体上,本文的模型能够同时对健康人、患有OSA病患者和儿童的睡眠数据集进行睡眠分期,在仅使用少量标签的情况下,并取得75.0%~81.5%的准确率,证明了本文模型的稳定性和鲁棒性.

为了验证注意力模块对模型性能的影响,本文在私有数据集上做了消融实验,结果如表6所示.其中,多通道模型表示去除图2(c)中的注意力模块.结果表明,用注意力机制的方式,突出卷积提取到的显著性特征,然后间接将同频段不同时间域上的尺度信息链接起来,使得提取的特征含有丰富的时序之间的特征[27-29],同时扩大了不同源域类间边界的差异后,各项性能指标都有了显著的提升.

表6 私有数据集消融实验结果Table 6 Ablation experimental results of the private dataset

图6为多视图混合神经网络模型在各个数据集上睡眠分期的混淆矩阵.整体上,N1期相较于其他阶段识别率较低,这是因为如表1所示,N1期(从觉醒状态到睡眠的过渡期,特征是低振幅混合性脑电频率)的占比仅占7%,数据量相对较少,模型在对少量样本反复学习中,可能造成对N1期的过拟合,因此识别率较低.

图6 多视图混合神经网络混淆矩阵.(a) S: Sleep-EDF混淆矩阵; (b) S: DOD-H混淆矩阵; (c) S: DOD-O混淆矩阵; (d) S: 私有数据集混淆矩阵;(e) SS: Sleep-EDF混淆矩阵; (f) SS: DOD-H混淆矩阵; (g) SS: DOD-O混淆矩阵; (h) SS: 私有数据集混淆矩阵Fig.6 Confusion matrices of the multi-view hybrid neural network: (a) S: confusion matrix of supervised learning on Sleep-EDF datasets; (b) S:confusion matrix of supervised learning on DOD-H datasets; (c) S: confusion matrix of supervised learning on DOD-O datasets; (d) S: confusion matrix of supervised learning on private datasets; (e) SS: confusion matrix of semi-supervised learning on Sleep-EDF datasets; (f) SS: confusion matrix of semisupervised learning on DOD-H datasets; (g) SS: confusion matrix of semi-supervised learning on DOD-O datasets; (h) SS: confusion matrix of semisupervised learning on private datasets

5 结论

本文提出半监督多视图混合神经网络模型,用于原始单通道脑电信号的自动睡眠分期.其中,利用多通道时频域特征提取机制,提取不同长短时间特征波的时空域特征,然后再用注意力机制提取类间特征并扩大显著性差异,再将时空域特征融合起来进行睡眠分期.本文的模型在Sleep-EDF、DOD-H、DOD-O和私有数据集进行对比,分别取得半监督学习准确率: 81.6%、81.5%、79.2%和75.4%.本文提出的模型能够实现单通道脑电自动睡眠分期,未来将考虑融合多通道(如:心电、血氧)进行自动睡眠分期.

猜你喜欢
脑电电信号视图
基于联合聚类分析的单通道腹部心电信号的胎心率提取
基于Code Composer Studio3.3完成对心电信号的去噪
基于随机森林的航天器电信号多分类识别方法
5.3 视图与投影
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
现代实用脑电地形图学(续)
现代实用脑电地形图学(续)
现代实用脑电地形图学(续) 第五章 脑电地形图的临床中的应用