任晓霞
(张家口学院数学与信息科学学院,河北 张家口 075000)
心电信号数据作为一项重要的人体生理指标,能够有效辅助医生进行心脑血管相关病症的临床诊断和提前预警具有重大指导意义[1]。随着可穿戴式数据采集设备和无线传感技术的迅猛发展,围绕可穿戴式心电信号数据的采集与分析引起了业界关注[2]。
目前心电信号数据分析的临床应用方式主要借助心电图仪及配套分析软件进行可疑波段的初步筛选,然后依靠医生经验对心电图数据进行分析,从而对心血管相关病症进行诊断。24 h动态心电图一般包含10万个左右心拍的心电信号数据,可穿戴式心电监护设备更是要实时采集人体每天的大量心电信号,可见,心电信号数据初步筛选过程的准确性、筛选率、速度直接影响医生的诊断准确性,制约了可穿戴式心电监护设备和移动医疗的推广。
深度卷积神经网络DCNN(Deep Convolutional Neural Network)被认为是一种适合模式检测和分类任务的重要深度学习方法[3]。近年来,针对深度学习的理论研究获得了前所未有的关注,DCNN在诸如图像识别[4]、自然语言处理[5]、视频识别[6]和语音处理[7]等各种应用中取得了巨大突破。心电信号数据可以看作一类特殊的一维图像,研究者已经提出了基于卷积神经网络等深度学习方法的心电数据分类方法。金林鹏等基于导联卷积神经网络的临床心电图分类算法上提出多种策略,提升实际应用中的算法性能[8]。刘明等将卷积神经网络应用与心电信号的分类中,提出基于单心拍心房活动特征的房颤检测算法[9]。进一步,提出一种基于卷积神经网络的心电图T波分类算法,获得了在T波起始点未确定情况下较好的T波形态分类正确率[10]。另一方面,DCNN的过拟合(over fitting)也限制了其在具体应用中的性能,研究者针对过拟合提出了Dropout策略[11]。
心电信号数据的ST段形态分类能够有效辅助医生对于心血管相关疾病的诊断做出支持,但是,ST段波形的变化形态十分复杂,尤其病人个体之间的差异比较明显,提出针对病人个性化的ST段波形分类方法对于临床应用具有更高价值;另一方面,由于病人长期心电数据的采集分析相对滞后,训练集样本数量规模较小,导致DCNN训练得到的模型准确率降低。因此,有必要研究更加适合于临床应用的针对小规模训练样本集的ST段波形分类方法。
本文针对心电信号数据ST段波形分类问题提出一种基于Dropout DCNN的分类识别算法,解决DCNN在实际应用中的过拟合问题。第1节对基于ST段分类的心电临床诊断进行简要介绍,并从总体流程角度阐述了ST段波形分类算法的设计思想;第2节介绍心电数据预处理过程,包括基于小波转换的去噪算法和ST段候选段提取方法;第3节提出基于Dropout DCNN的ST段波形分类算法,通过与完整深度卷积神经网络对比阐述算法关键步骤;第4节通过仿真实验对算法的波形分类准确率、卷积核个数影响和Dropout对算法泛化能力影响三方面性能进行分析评价;第5节进行总结。
心电图目前仍然是针对心血管类相关疾病进行临床诊断的重要辅助手段之一,图1所示位正常心电图一个心拍的波形图。通过心电波形的变化,可以将其划分为P波、QRS波、T波等主要波段以及PR段、ST段、PR间期以及QT间期,并且单心拍过程中这些波段与心肌、心电传到束等组织的生理情况具有密切关系。
图1 正常心电图
正常心电图中的ST段位于等电位线附近,如果出现ST段改变现象则需要进一步分析原因,结合临床其他症状进行判断,比如ST段的改变常常被认为与心肌损伤以及老年人心绞痛或心肌梗塞有关。ST段改变的波形表现方式多种多样,在心电图上可能呈现水平压低、上斜型压低、弓背向下抬高、碑样抬高等不同类型时域特征[12],如图2所示。
图2 几种常见的ST段异常波形
临床应用的心电图仪以及迅速发展的可穿戴式心电监护设备一般采用某种心电数据分析算法从获取到的长时间多心拍的心电信号中快速筛选出一部分疑似异常心电波形进行波形绘制与初步判断,然后由医生结合经验进行人工判读与临床诊断。心电信号的分析筛选算法一般需要从十万个以上心拍中进行特征提取,筛选出尽量少而且准确的疑似波形,从而减轻医生人工判读负担,提高临床诊断的准确性。目前常用的方法包括小波特征、高阶统计量、功率谱特征、Lyapunov系数、Hermit系数、Shannon熵、Hermit多项式系数、线性预测误差特征等一系列数理特征提取方法,并配合时域特征、波形特征等统计分析方法[1]。
由于心电信号数据的复杂性和个体间差异性,目前没有一种适合所有波形以及病症的特征分类方法。本文提出了一种基于Dropout深度卷积神经网络的ST段波形分类算法,算法流程如图3所示。
图3 ST段波形分类算法流程
算法首先输入含有噪声和复杂冗余信息的原始心电信号数据,然后采用小波变换去除原始数据中的噪声干扰,并通过估算ST段起点和ST段间期长度进行心电数据ST段候选段筛选,完成心电信号数据预处理。基于预处理的心电数据,建立基于Dropout的深度卷积神经网络模型,并提出基于波段特性的ST段分类算法。
由于受到人体生物电信号以及外部环境干扰,心电图仪和可穿戴式心电监护仪采集得到的原始心电信号数据包含了大量的噪声信号,并且24 h监测获得的心电信号主要由正常心电数据组成,需要提取其中更有临床价值的疑似异常心电信号进行分析。因此,在心电信号数据的ST段波形分类之前首先需要进行心电数据预处理,去除其中噪声干扰因素,然后进行ST段候选段提取,作为进一步心电波形分类的输入数据。
采用小波变换法对原始的心电信号数据进行数据预处理,去除原始数据中的部分噪声。由于一个心拍的R波波峰是最为明显和容易识别的,因此在预处理过程中同时标注每个心拍的R波波峰位置。
由于心电信号受到工频信号、生物电信号以及其他外部噪声影响,原始心电信号数据中可能存在多种强弱和频率的不同类型噪声。为了提高对于不同类噪声的适应性和去燥效果,选用能够自动调节阈值尺度的自适应阈值小波变换法对原始心电信号数据进行去噪处理[10]。自适应阈值定义如式(1)所示:
(1)
通过小波阈值去噪处理,能够在一定程度减少心电信号数据中的低尺度高频干扰信号。然后对心电信号进行R波峰值提取。因为心电波形的能量大部分聚集于QRS波群,而R波峰值可以看作心拍波形的能量峰值。通过划分每个心拍的时间窗并在窗内寻找极大值点,从而标注得到每个心拍波形的R波峰值位置。
标注完成每个心拍波形的R波峰值位置之后,以R波峰值为基准点截取一定长度的心电数据作为ST段候选段,其中需要解决的核心问题包括ST段起点估算、ST段间期长度估算。
ST段起点的估算采用式(2):
(2)
式中:|RR|表示心电RR间期,即所有心拍R波峰值之间的时间间期平均值。
ST段间期长度采用式(3)进行估算:
LenST=φ·lg(10|RR|+0.03)
(3)
式中:φ表示ST段间期长度估算因子,取值0.14。
基于估算的ST段起点和ST段间期长度,可以将经过去噪的心电信号数据划分为每个心拍周期的ST段数据。为了进一步分析ST段改变情况,本文按照120个心拍一段的间期对心电数据进行划分形成样本,即每个心电数据赝本包含120个ST段波形。
深度卷积神经网络被认为是一种适合模式检测和分类任务的重要深度学习方法,近年来该方法已经成功应用于图像识别、自然语言处理、视频识别和语音处理等多个领域。完整深度卷积网络模型在各层神经元之间进行全连接,导致卷积过程易出现过拟合(over-fitting)现象,影响算法的泛化性能和鲁棒性[11];针对过拟合问题,最近有研究者借鉴进化算法中的自然选择思想,引入了Dropout概念,从概率角度随机减小DCNN各层神经元之间的连接数量,从而提高算法鲁棒性。本节首先介绍用于心电数据分析的完整深度卷积神经网络模型,然后结合ST段波形特点提出基于Dropout DCNN的ST段波形分类算法,力求在保证波形分类准确度的前提下加快分类算法的速度,并提高疑似异常ST段心电信号数据波段的筛选正确率。
深度卷积神经网络(DCNN)一般是由多个卷积层(Convolution layer)和池化层(Pooling layer)交替组成的多层神经网络模型。完整DCNN在相邻层神经元之间进行全连接,图4所示为拟应用于ST段波形分类的完整深度卷积神经网络模型,包含输入层、卷积层C1、池化层S1、卷积层C2、池化层S2和输出层。
图4 完整深度卷积神经网络
从完成去噪和ST段标注划分的样本集中随机选取200个样本构成训练集,作为DCNN的输入。根据前文所述,每个样本包含120个心拍,200个样本包含24 000个心拍,按照24 h动态心电数据包含约10万个心拍计算,训练样本采样率约为24%。
卷积层C1也称为特征提取层,在卷积神经网络中充当模糊滤波器的角色,接收输入层传来的特征向量,由卷积核进行卷积运算,经过激活函数计算得出卷积特征映射结果。卷积层的输出采用式(4)计算[10]:
(4)
池化层S1连接在卷积层C1之后,也称为下采样层,利用下采样函数实现数据抽样,使得特征保持不变性。池化层可以起到二次特征提取作用,一般通过下采样函数并进行偏置运算得到。
卷积层C2进行再次特征提取,设定卷积核大小为8,提取S1层经过下采样得到的特征值,经过卷积运算输出特征映射向量。池化层S2进行再次下采样运算,计算过程与S1类似。
输出层通过分类器及其参数描述心电信号数据的分类结果。设定输出层包含3个神经元,S2层包含16×8=128个神经元,输出层与S2层包含128×3=384个连接,可以看作用一个384维向量表示分类结果,对于心电信号数据的ST段波形分类具有较强的描述能力。
前文所述完整深度卷积神经网络具有两个卷积层和两个池化层,是一个结构相对简单的神经网络,但是可以看出卷积拟合过程已经比较复杂。在DCNN实际应用过程中,这种过拟合现象往往导致神经网络泛化能力大大减弱,训练时间过长限制了DCNN在心电信号数据分析临床应用的可操作性。
为了解决DCNN在心电数据ST段分类的过拟合问题,本文提出了基于Dropout DCNN的ST段分类算法。算法基于前文所述完整深度卷积神经网络模型,在训练过程中根据概率随机地舍弃某些神经元和相关连接,等价于同时训练多个子网络。图5所示为一个随机舍弃了若干神经元的Dropout深度卷积神经网络。
图5 Dropout深度卷积神经网络
相比于完整DCNN,基于Dropout DCNN的ST段波形分类算法通过概率形式约减了网络结构,能够一定程度提高神经网络的泛化能力,并且约减后的子网络相互之间共享权重,参数的数量级是O(n2)。已有相关研究指出这种基于Dropout的神经网络在样本训练时间和训练结果方面的表现具有更高的适用性和鲁棒性[11]。
为了验证本文提出的基于Dropout深度卷积神经网络的ST段分类算法性能,本节从波形分类准确率、卷积核个数影响和Dropout对算法泛化能力影响3个方面进行仿真实验。本文从QT数据库中选取2 600个长度为120个心拍的心电信号数据构建深度卷积神经网络的训练样本集和测试样本集进行仿真实验与分析,两个样本集的样本数量分别为20%和80%。QT数据库由MIT-BIH数据库和欧洲的ST-T数据库提供,每个心电信号数据记录包含头文件、信号文件和注释文件[10]。
波形分类准确率能够体现算法针对正常和多种异常ST段波形的识别准确性。本文针对2 600*80%=2 080个测试样本分别采用训练完成的Dropout DCNN算法和专家手工标注方法进行ST段波形分类,按照正常波形以及水平压低、上斜型压低、弓背向下抬高、碑样太高4种异常波形进行统计,分类结果如表1所示。
表1 波形分类结果
从波形分类的统计结果可以看出,采用Dropout DCNN算法得到的实验标注结果与专家手工标注结果从数量上接近,而且两者的重复率在正常与4种异常ST段波形分类上均达到98%以上,作为辅助医生临床诊断和心电信号数据初步筛选方法,认为其能够满足实际应用需要。
深度卷积神经网络的泛化能力和实际可用性很大程度上受到卷积运算速度制约,如前文所述,卷积核个数对卷积神经网络的训练速度和分类识别率起到关键作用。对4.2节提出了Dropout DCNN神经网络设置不同的卷积核个数进行仿真实验,比较其对于样本训练时间和测试集识别率的影像,实验结果统计如表2所示。
表2 卷积核个数对算法影响
从结果统计能够看出卷积核个数为4和6时测试集识别率在95%以下,卷积核个数为8和10时识别率达到了98%以上,同时样本训练时间也有所延长。相比而言,本文设定的ST段波形训练样本集比较适合设定卷积核个数为8,在样本训练时间和测试集识别率方面有较好的平衡。
表3 几种神经网络的性能比s较
从表3中4种神经网络对于相同训练样本集的训练时间和测试样本集的识别率结果可以看出:BP神经网络拥有相对较短的训练时间,但是识别率相对较低;RNN在训练时间和识别率两方面的性能表现相对居中;DCNN算法得到了最高的识别率,但是所耗训练时间最长;Dropout DCNN在相对较短的训练时间下得到了98.7%的识别率,一定程度上降低了DCNN的过拟合现象,提高了深度卷积神经网络的泛化能力。在实际应用中,需要权衡样本训练时间和识别率两方面性能,认为相比于BP、RNN和DCNN,Dropout DCNN能够在较短的训练时间前提下得到相对较高的识别率,具有更好的实际应用价值。
采用卷积神经网络解决心电信号数据的波形分类问题在临床应用和理论研究领域都具有重要意义。但是,深度卷积神经网络易于陷入过拟合现象制约了其在实际应用中的可用性。本文针对心电信号数据ST段波形分类问题,在卷积神经网络基础上提出一种基于概率随机舍弃建立子网络机制的Dropout DCNN算法。通过仿真实验与对比分析验证了算法在波形分类准确率、卷积核个数影响和Dropout对算法泛化能力影响3个方面的表现,与专家手工标注、BP、RNN和DCNN等神经网络等进行比较,分析了样本训练时间、测试集识别率等指标,实验结果表明Dropout DCNN相比于完整深度卷积神经网络能够提高神经网络泛化能力,在较短的训练时间前提下得到相对较高的识别率,使算法在实际应用的可用性得到了有效提升。