基于ARMA-APARCH模型和神经网络分类的心电数据挖掘

2021-06-30 09:16李琼
科技风 2021年11期
关键词:特征提取

摘 要:对ECG信号建议了基于ARMA-APARCH模型的特征提取新方法。经过对ECG信号进行预处理后,采用神经网络分类对MIT-BIH数据集的三种ECG信号进行数据挖掘,统计表明基于ARMA-APARCH模型和神经网络分类的心电识别精度较高。

关键词:ARMA-APARCH模型;神经网络分类;特征提取;心电数据挖掘

中图分类号:O212;TP18文献标识码:A

ECG Mining based on ARMA-APARCH Model

and Neural Networks Classification

Li Qiong

Department of Electronic Information,Huishang Vocational College,P.R.China AnhuiHefei 231201

Abstract:The new method of feature extraction of ECG signal is proposed based on ARMA-APARCH model.The new feature extraction method is used to cluster analysis of three kinds of ECG signals of MIT-BIH after preprocessing the ECG signal.Statistics show that the accuracy of clustering after feature extraction based on ARMA-APARCH model.

Key words:ARMA-APARCH model;Neural Network classification;Feature extraction;ECG Mining

一、緒论

ECG信号蕴含着富有价值的心脏和心室系统功能方面的信息,它是一种重要的医学辅助诊断技术。ECG信号的重构是诊断的主要过程,也是增强冠状动脉的主要任务。近些年来,关于ECG信号的分类涌现出许多方法。对于同一个病人来说,在一定程度上ECG波形可能会呈现出不同的图形,但是不同类型的心跳却是相似的,由于数据量过大,评价冗长且耗时,一般完成一次ECG模式和心跳变化信号的诊断,要花费几个小时。因此,在临床应用中需借助计算机辅助系统设计完成诊断,其中,最常用的是采用人工神经网络技术。

MIT-BIH数据库资料表明心血管疾病都伴随着心室性早期收缩(PVC)。医生需要从心电信号中找出心律失常的信号,而如何从心电信号诊断出心率失常具有十分重要的意义。MIT-BIH标准数据库中主要有以下几类ECG信号分类[2],具体为:正常窦性心律(NSR)、心室早期收缩(PVC)、室上性心动过速(SVT)、心室性心动过速(VT)、心房早期收缩(APC)和心室纤维性颤动(VF)。

本文建议采用ARMA-APARCH模型先对ECG信号序列进行了特征提取,为进一步ECG信号聚类和分类做好准备工作,利用提取的心电特征,再运用神经网络方法进行分类。

二、ARMA-APARCH模型

Fernández,Osiewalski和Steel(1995)提出了一种分布的推广方法,即在原有单峰分布中引入一个偏度参数,使得对称分布转变为有偏分布,若单峰分布f·关于0对称,且只含有一个变量,我们可以通过引入一个偏度参数λ∈0,SymboleB@,得到如下有偏分布族:

px|ξ=2ξ+1ξfxξI0,SymboleB@x+fξxI-SymboleB@,0x(1)

如果单峰分布取为标准化广义误差分布(或称为GED分布),其密度函数为:

f(x)=1λ·2-2/νΓ(1/ν)νexp-12xλν,-SymboleB@

式中,λ=2-2/νΓ(1/ν)Γ(3/ν)1/2为分布的尾部参数和Γ(·)是伽玛函数。ν可以反映分布尾部的厚薄程度。所谓分布的轻尾和重尾是相对于正态分布而言的,当ν=2时,GED分布退化为标准正态分布;当ν>2时,GED分布的尾部比正态分布要轻薄;当ν<2时,GED分布的尾部较厚重,由此可见,GED分布是更具灵活性、概括性的一类广义分布,能较好地捕获偏离正态分布的时间序列特征[5]。由公式(1)和(2)可得到广义有偏GED分布(或称为SGED分布)的密度函数。

定义 称ECG信号序列Xt,t=0,±1,…服从基于SGED分布的ARMA-APARCH模型,如果Xt如果可表示为:

Xt=μ+(1-θ1B-…-θqBq)εt1-φ1B-…-φpBp(3)

εt=σtzt,zt~i.i.d.SGED(ν,ξ)(4)

σ2t=ω+∑Qi=1αi|εt-i|-γiE|εt-i|2+∑Pj=1βjσ2t-j(5)

式中,φj(1SymbolcB@jSymbolcB@p)和θj(1SymbolcB@jSymbolcB@q)为实数,B表示滞后算子,有BiXt=Xt-i,0<α0<1,αi0,-1<γi<1,i=1,2,…,P,βj>0,j=1,2,…,Q,且1<αSymbolcB@2。(3)式为ARMA模型,(4)式称为APARCH(P,Q)模型[3]。关于APARCH模型的应用,武东和李琼(2017)利用APARCH模型研究了高频金融时间序列的风险度量[5]。

毛雪岷等(2012)和葛丁飞和李时辉(2004)利用ARMA(4,2)模型的系数作为ECG信号的特征指标,获得了较好的聚类效果,但聚类和分类精度不是太高[1-3]。鉴于此,为了更好地提取ECG信号的特征指标,将基于SGED分布的ARMA-APARCH模型得到的参数向量作为ECG信号的特征向量,令N=p+q+P+Q+3,则所有参数构成的向量记为:

πX=(φ1,…,φp,θ1,…θq,μ,α1,…,αP,β1,…,βQ,ν,ξ)T

=(πX1,πX2,…,πXN)T。

三、心电信号的特征分析

现从MIT-BIH数据库选取ECG信号数据作为研究对象,NSR信号取自“MIT-BIH Normal Sinus Rhythm Database”,PVC信号取自“MIT-BIH arrhythmia Database”,ST信号来自“MIT-BIH ST Change Database”,采样频率均为360Hz。NSR信号数据库包括18个样本,PVC信号数据库包括47个样本,ST信號数据包括28个样本,我们仅选取病患者的XLII信号的作为研究对象,总共93个观测样本。

不同种类的ECG信号有着不同的心跳率和RR周期。通常情况下NSR信号,其心跳率为60~100次/分。而PVC的RR间期比NSR的RR间期短,本文采用3000个采样点的数据,已经包括了几个周期的ECG信号信息。

在MIT-BIH数据库信号数据中,最高信号量是MLII,其由电极放入胸部获得的。正常的QRS信号在最高信号通常有峰态。因此正常的振动很难在最低信号中发现,而异常振动将经常变的有峰态。在诊所诊断时,心律失常探测器应该处理这些情况。

本文采用了ARMA(4,2)模型对ECG信号序列进行了拟合,再利用修正残差CUSUM检验(Modified residual CUSUM test)对拟合后残差序列进行异方差检验P[6]P。对ECG信号拟合ARMA模型后的残差序列进行拉格朗日乘子检验的结果表明,正常窦性心律(NSR)和心室性早期收缩(PVC)的MLII信号的拟合ARMA模型后的残差序列均具有ARCH效应。说明ECG信号可采用ARMA-APARCH模型对ECG拟合并进行特征提取。

四、心电信号的特征提取与分类研究

ECG信号的特征提取方法较多,主要有小波分析、ARMA模型等,本文提出了基于SGED分布的ARMA-APARCH模型的ECG信号特征提取的新方法。选取93个测试样本的MLII信号序列作为研究对象。为了计算方便,模型的阶数取为p=4,q=2,P=Q=1,即基于SGED分布的ARMA(4,2)-APARCH(1,1)模型,将ECG的XLII信号序列拟合后模型参数作为各自样本的特征指标,这样每个样品共含有12个指标。将模型的参数作为特征指标,结合神经网络方法对93个样品进行回判,所有样品的回判都是正确的。为了进一步研究ARMA-APARCH模型和神经网络组合方法的优越性,下面将神经网络分类方法与支持向量机分类、随机森林分类和Bagging分类进行比较。主要采用交叉验证法[7]对三种类型ECG信号进行交叉验证,利用ARMA-APARCH模型进行ECG信号的特征提取,再分别运用神经网络分类、支持向量机分类、随机森林分类和Bagging分类判别归类,神经网络分类法相对较优,表明利用ARMA-APARCH模型和神经网络组合方法在对ECG信号的特征提取和分类更为准确。

参考文献:

[1]毛雪岷,张婷婷,蔡传晰,李琼.基于ARMA模型的心电聚类算法[J].中国生物医学工程学报,2012,31(6):816-821.

[2]葛丁飞,李时辉.基于ARMA模型的ECG分类和压缩[J].浙江科技学院学报,2004,16(1):7-13.

[3]章洁,武东.基于机器学习方法的心电信号分类研究[J].科技风,2019(19):100-102.

[4]Ding Zhuanxin,Granger,C.W.J.,Engle,R.E.,A long memory property of stock market returns and a new model,Jornal of Empirical Finance[J].1993,1:83-106.

[5]武东,李琼.利率调整下调频金融时间序列的风险度量[J].商学研究,2017,4(3):102-104.

[6]Haejune Oh,Sangyeol Lee,Modified residual CUSUM test for location-scale time series models with heteroscedasticity[J].Annals of the Institute of Statistical Mathematics[J].2019,71(5):1059-109.

[7]吴喜之.应用回归及分类[M].北京:中国人民大学出版社,2016.

基金项目:安徽省高校优秀青年人才支持计划(gxyq 2019254);安徽省质量工程项目(2019xqsxzx84);校质量工程项目(yj2019jx10);安徽省自然科学重点项目(KJ2017A892)

作者简介:李琼(1983— ),女,汉族,安徽宣城人,硕士研究生,讲师,副教授,研究方向:数据挖掘。

猜你喜欢
特征提取
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
基于曲率局部二值模式的深度图像手势特征提取
基于数字形态学特征的植物叶片识别技术综述
基于KNN?SVM的垃圾邮件过滤模型
基于极限学习机的玻璃瓶口缺陷检测方法研究
一种针对特定无线电信号的识别方法
基于模糊K近邻的语音情感识别
音频比对技术在安全播出中的发展与应用
DNA序列特征提取与功能预测技术的探讨