王瑞荣 余小庆 王 敏 叶 杨
1(杭州电子科技大学生命信息与仪器工程学院,杭州 310018)2(杭州红十字会医院骨科,杭州 310003)3(杭州红十字会医院医务科,杭州 310003)
基于极限学习机的室性早搏判别算法的实现
王瑞荣1*余小庆1王 敏2叶 杨3
1(杭州电子科技大学生命信息与仪器工程学院,杭州 310018)2(杭州红十字会医院骨科,杭州 310003)3(杭州红十字会医院医务科,杭州 310003)
室性早搏是常见的心律异常疾病,给人的生命带来威胁,准确的心律异常诊断对于帮助人们预防心血管疾病起到重要的作用。以MIT-BIH心律异常数据库中的数据作为分析对象,提出一种基于极限学习机算法的诊断方法,主要包括信号预处理、特征提取和分类,实现心电信号室性早搏异常的判别。采用小波变换结合形态学算法,对信号进行预处理,去除干扰,得到纯净的心电信号。通过K-means聚类算法提取QRS波群等特征参数,根据这些参数建立正常窦性心律和室性早搏的正样本和预测样本,再结合极限学习机分类器进行样本训练匹配和分类识别。选取1 260个周期信号进行实验,结果表明,该算法能准确诊断出室性早搏异常,最终阳性平均检测率达到95%,平均灵敏度达到96%。该算法相比其他算法,在识别精度相当的情况下,可极大提高算法的实时性,具有很高的研究价值,同时在移动医疗和临床医疗方面也具有一定的实用价值。
极限学习机;室性早搏;心电信号;MIT-BIH
心血管疾病突发性高,且致死致残率极高,每年死于心脏病突发的人数占了总死亡人数的1/3。针对此类疾病的控制与预防,需要对心电数据进行长期的实时记录与监测,通过早期分析与干预才能达到良好的控制效果。若选择去医院做长期的检查,不仅就医过程繁琐,而且成本高昂,普通家庭难以承受。目前市场已有的家用式心电监测仪,依然存在体积庞大、不能进行本地诊断等不足之处。而基于移动平台的心电监测系统,不仅节省了设备的成本,缩小了设备的体积,而且能实现本地实时心电分析以及远程信息通信,将成为移动医疗产品的设计趋势。移动平台计算能力有限,在该平台上运行的分析算法时间复杂度和空间复杂度都不宜过大。
室性早搏作为一种常见的心律异常疾病,长期拖延会导致严重的心律失常、心绞痛、心衰甚至死亡。室性早搏的识别主要通过心电图分析,目前的心电图自动分析法是临床心电信息学的重要手段。室性早搏的自动诊断方法主要有神经网络法[1]、模板匹配法[2]和支持向量机聚类算法[3]等。传统的神经网络算法训练时间太长,导致计算效率较低,不适用于实时应用场合;支持向量机聚类算法样本依赖性高,需要大量良好的样本才能有较高的识别率;模板匹配法建立模板时需要的特征值较多,在一定程度上增加了错误率。近几年提出的深度学习算法[4-5],同样存在计算时间不够收敛的缺点。新加坡南洋理工大学黄教授提出的极限学习机[6],使得前馈神经网络的训练时间大大缩短,同时保持较高的识别准确度。实时心电检测算法要满足检测准确度高和算法时间短两个要求,而极限学习机算法同时满足了这两个要求。
在本研究中,采用小波变换结合心态学滤波对信号进行预处理,去除肌电干扰、工频干扰和基线漂移,突出QRS波群的特征部分。特征提取过程采用K-means聚类算法,获得QRS波群等特征值,根据室性早搏的特征建立训练样本,结合ELM算法对样本进行训练,得到预测模型,最后根据输入的特征进行匹配诊断。
1.1 材料
实验所用数据来自MIT-BIH心律异常数据库,该数据库是由美国麻省理工学院提供,共48组数据,存在41种心律失常,数据来自真实的病患。该数据库中的心电记录较为全面,一个心电记录由3个部分组成:头文件、数据文件和注释文件,其中头文件给出采样频率、数据存储格式等信息,数据文件存放心电数据,注释文件记录了心电专家对相应心电信号的诊断信息,因此该数据库作为验证本研究所提出的算法较为适合。
1.2 方法
ECG信号是心肌的电活动在身体表面上的表达,是重要的生命体征[7],也是检测心血管疾病的重要手段。ECG信号存在QRS波群、P波和T波等重要特征,这些特征的畸变与否是判断病患是否存在心律异常的重要条件。本研究提出的算法包括信号预处理、特征提取、诊断分类3部分(见图1),信号首先经过小波变换结合形态学滤波算法的预处理,再通过K-means聚类算法得到特征值,将特征值代入ELM分类器中进行训练和匹配,实现准确的室性早搏判别。
图1 本算法的主要流程Fig.1 The main flow of the algorithm in this paper
1.2.1 信号预处理
预处理过程需要去除工频干扰、肌电干扰和基线漂移3种主要的噪声,以提高信噪比。本研究采用Mallat[8],结合形态学滤波,对信号进行预处理,预处理过程主要分为以下步骤:
1)将信号进行4尺度分解,根据小波分解的特点,得到肌电干扰基本在1和2尺度上,工频干扰在2和3尺度上,心电信号在3和4尺度上;
2)将1、2、3尺度上的细节系数进行阈值处理,设置阈值来确定该细节系数是否置0;
3)将处理后的尺度系数重构信号,再进行形态学滤波,去除基线漂移;
4)最后得到滤波后的信号。
1.2.2 特征提取
如图2所示,室性早搏信号相比正常心电信号有比较明显的特点,N为正常,V为室性早搏。室性早搏的畸变主要有:宽大的QRS波,且提前出现;T波方向与主波方向相反;室性早搏后代偿间歇完全。
图2 存在室性早搏的心电信号Fig.2 The ECG with premature ventricular contraction
本研究采用 K-means聚类算法,对波形的斜率绝对值做聚类,实现 QRS 波群的检测,在QRS波群区域内定位R波波峰点和QS波谷点。准确检测QRS波群,特别是准确地检测出R峰,对于ECG信号分析是不可少的,尤其需要得到正确的心率(HR)和心率变异性测量(HRV)[9]。K-means 算法是聚类算法中常用的算法之一,其基本思想是一个反复迭代过程[10],目的是使聚类域中所有的样品到聚类中心距离的平方和最小。本研究将心电信号的斜率绝对值作为聚类数据集X={x1,x2,x3,…,xn},以及将要生成的数据子集数目K=2,得到子集C={c1,c2},c1和c2集合分别有各自的聚类中心u1和u2。计算该类内各个点到聚类中心ui的距离,若该点距u1的距离小,则属于c1,反之属于c2,归类结束后,分别计算各类的距离平方和,有
(1)
聚类结束的标志是各类总的平方和,达到最小值,即
J(C)=∑kJ(ck)
(2)
此时,可根据聚类中心值,得到最后的分类子集C以及分类结果V={v1,v2,v3,…,vn}。根据聚类结果,确定出各个QRS波群的边界,在该区域内检索到最大值,并且波峰的地方就是R波的位置,Q和S是R波的两边波谷位置。从图2中可知,室性早搏信号的T波出现倒置,导致S点比较难判断,本研究将倒置的T波代替S点,作为QRS波群中的特征点,而正常的信号还是原来的S点,因此室性早搏信号的QRS波群特征就更加突出。
1.2.3 极限学习机的分类
1.2.3.1 特征向量的选择
根据特征提取的结果,可以得到R波幅值和位置、Q波幅值和位置、S波幅值和位置,以及QRS波群起终点的位置等;根据这些特征,还可以扩展出Q点与S点值之差、R点与S点值之差、S波幅与R波幅的比、QRS波群宽度以及R-R宽度等特征。如图2所示,根据室性早搏的特征可知,R波幅值、Q波幅值等部分特征并不能区分出正常信号和室性早搏信号,而且多余的特征值增加了计算复杂度,因此本研究只选取QRS波宽、R波和S波点值之差以及R波和S波幅值之比3个特征值作为特征向量,即
(3)
1.2.3.2 极限学习机分类原理
极限学习机是一种单隐层前馈神经网络(single-hiddenlayerfeedforwardneuralnetworks,SLFN)学习算法,它的本质是隐含层参数不需要手动调节[11],而是随机产生,并且通过寻找最小二乘解得到输出权重,因此加快了计算速度,降低了时间复杂度。假设在训练集中有N个样本,有
(4)
式中,xj是一个p×1的输入向量,tj是一个q×1的目标向量,该样本的M个隐藏节点的ELM模型为
(5)
式中,wi=[wi1,wi2,wi3,…,wip]表示输入结点与i个隐藏结点的连接权重向量,g(x)是激活函数,βi=[βi1,βi2,βi3,…,βiq]表示第i个隐藏层结点与输出结点的连接权重向量,表示第i个隐藏层结点的偏移值。
式(5)也同样可以表示为
Hβ=T
(6)
其中
为了获得较小的非零训练误差,黄教授等人提出随机分配参数给wi和bi,从而使系统变成线性的,使得输出的权重可以通过公式估计得到,即
β=H+T
(7)
式中,H+为隐藏层输出矩阵H的Moore-Penrose泛化逆矩阵。
总的来说,ELM算法可以总结如下:输入训练数据的特征向量xi和已知结果向量tj;随机产生参数分配给wi和bi;将参数wi和bi代入激活函数g(x),计算隐藏层输出矩阵H,转为H+;根据式(7),计算输出权值向量β;得到完整的ELM模型,见式(5);将测试数据的特征向量xi代入式(5),得到目标向量tj。
2.1 特征提取结果
MIT-BIH数据库中的数据都是实际病患数据,存在各类异常,其中100、114、121等是正常心电,102、217等存在起搏心跳异常心电,109、111等存在左束支传导阻滞异常,124、212、231等存在右束支传导阻滞异样,119、200存在室性早搏异常,109、121等存在严重基线漂移。其中,室性早搏是本研究特征提取的重点,特征提取结果如图3所示。
图3 QRS复合波检测结果Fig.3 The result of the QRS complex detection
从图3中可以看出,室性早搏信号的QRS波宽、R波波峰和S点等特征相比正常信号非常突出。根据这些特征,可以准确区分出室性早搏异常信号。
为了验证本研究中特征提取的优势,将所提算法与其他方法进行检测对比。对比结果见表1,可用敏感度(Se)和阳性检测率(P+)来评估检测算法的可靠性。
从表1中可以得到,K-means聚类特征提取方法相比其他方法,兼顾了阳性检测率P+和灵敏度Se,两者最终检测准确度都达到99%以上。
表1 QRS检测准确度对比Tab.1 The comparison of QRS complex detection accuracy
2.2 分类诊断结果
选取MIT-BIH数据库中119、200、221、228等4组带有室性早搏的信号,根据本方法提取出QRS复合波,得到式(3)中的3个特征值。选取3个特征中的任意2个特征值的分类结果,如图4(a)~(c)所示,3个特征值的分类结果如图4(d)所示(见下页)。可以看出,任意两个特征值的分类结果存在少量重叠,3个特征值的分类结果能清楚地区分出室性早搏信号和正常搏动信号。经过多次实验对比筛选,最终选择这3个特征值组成特征向量,作为输入向量,代入极限学习机模型。
特征向量确定后,选取MIT-BIH心电数据库中含有较多PVC的几组心电记录作为训练样本和测试样本数据验证,如119、200、221、228信号。这4组信号中的5 min数据,共有1 260个的信号周期,其中存在289个PVC、971个Normal。在实验过程中,取160个PVC和 530个Normal作为训练样本,取4组信号的所有数据作为测试样本,测试结果如表2所示。采用敏感度(Se)和阳性检测率(P+)来评估检测算法的可靠性,其中Na表示实际PVC个数,Nd表示检测到的PVC个数,FP表示错检,FN表示漏检,TP表示正确检测。
图4 特征分类效果。(a)R波与S波点值之差、R波与S波幅值之比的分类结果;(b)QRS波宽、R波与S波点值之差的分类结果;(c)QRS波宽、R波与S波幅值之比的分类结果;(d)3个特征值的分类结果Fig.4 Classification results diagram of features. (a)The classification result based on difference between R wave and S wave and ratio of R wave and S wave amplitude;(b)The classification result based on width of QRS complex and difference between R wave and S wave;(c)The classification result based on width of QRS complex and ratio of R wave and S wave amplitude;(d)The classification result based on the three features
表2 测试结果Tab.2 Test results
从表2可知,PVC检测的Se和P+保持在96%波动,其中200和228两组信号的检测精度较低,造成这个现象的原因是噪声干扰和信号畸变严重。4组信号,共有289个PVC,本算法正确检测出279个,检测准确度达到96.54%。
目前,常用的分类算法有BP(back propagation)神经网络和支持向量机(support vector machine),为了验证ELM算法的优势,本研究进行了对比实验。同样取160个PVC和 530个Normal作为训练样本,以200号信号作为测试样本,在Matlab平台上实现3种算法。对比3种算法的训练时间、测试时间、分类准确度、ROC(receiver operating characteristic)曲线和AUC(area under curve)的值,对比结果见表3和图5。
表3 3种算法对比Tab.3 Comparison among three algorithm
图5 ROC曲线Fig.5 The chart of ROC curve
ROC曲线是机器学习领域中常用的分类性能评估曲线,AUC是ROC曲线和XY坐标形成图形的面积;ROC曲线越靠近左上角,表示分类器的分类效果越好,同时AUC的值也越大。从表3和图5可以看出,3种算法的分类效果都非常好,AUC值都在0.97以上,测试准确度都超过了95%,ELM算法的实时性优于BP算法和SVM算法。
2.3 算法实际应用结果
为了验证算法的实际运行效果,将算法移植到JAVA虚拟机上进行实验。本研究将MIT-BIH数据库中121号、280 s的信号作为测试数据,在JAVA虚拟机上实现算法,模拟诊断过程。运行环境参数为主频2.4 GB,运行内存4 GB。在此硬件环境下,本算法实现所需要消耗的资源以及运行时间如表4所示。
表4列出了整个过程中滤波、特征提取和分类占用处理器资源的情况,处理280 s的心电信号只需要104 ms运行时间,占用8%的CPU资源和6%的内存资源。图6表示在JAVA虚拟机上实现本算法所得到的诊断结果,得到心率等基本参数,并用数字5表示室性早搏,用1表示正常搏动。
表4 算法运行所占资源Tab.4 The resources required to run the algorithm
图6 JAVA虚拟机上室性早搏诊断的界面Fig.6 The interface of PVC diagnosis in JAVA virtual machine
自动判别诊断的目的是在准确提取信号特征的基础上,根据特征判别出这个心电周期属于正常窦性心律还是室性早搏,传统诊断需要人工观察心电图后给出诊断结果,而自动诊断过程不需要人工参与,便可得到诊断结果。心电图自动诊断方法主要集中在机器学习领域,常用的分类器有神经网络和支持向量机[15],并有了一定的研究成果。Lagerholm等采用神经网络对MIT-BIH心律异常数据库中的数据进行无监督学习分类,最后的错误率只有1.5%[16],比有监督学习分类和模板匹配分类的结果略好。在Shen等提出改进的SVM算法应用中,最终的平均检测精度达到98.92%[3]。笔者最初分别采用神经网络分类器和支持向量机分类实现室性早搏的判别,识别效果良好,但算法实时性都较差,对运行环境要求高。Liu等将ELM算法运用于实时HRV(heart rate variability)的诊断,发现ELM算法能在短时间内得到诊断结果[17]。因此,笔者采用相同的样本集做对比实验,将BP神经网络、SVM和ELM算法同时应用在室性早搏识别中,对比结果如表3和图5所示。
从表3中可以得到,ELM算法在检测精度上和BP和SVM算法差距不大,但是在实时性方面远优于BP和SVM算法。从图5中的ROC曲线和表3中AUC的值也可以看出,3种分类器在采用相同的特征值提取算法下,最终的检测结果都获得很高的准确度,原因是室性早搏与正常信号的特征差异明显,并且再次验证本研究中K-means聚类算法选取的特征也能很好地区分出两者。在分类效果都相当的情况下,需要考虑算法的实时性,ELM算法所消耗的时间是BP算法的1/10,是SVM算法的1/3,综合比较之下,ELM算法不仅具有优秀的检测结果,而且在算法实时性方面还远远优于常见的分类算法,因此ELM算法更加适用于实时室性早搏自动诊断。
MIT-BIH心律异常数据库中存在41种心律异常的类别,而实际生活中的心律异常种类远远超过41种,虽然目前终端设备处理能力飞速提升,但是要实现所有心律异常的诊断分类,对普通设备来说仍然非常困难,不断提升算法实时性是改善这个问题的有效方法。近几年提出的深度学习算法[5],同样存在计算时间不够收敛的缺点,只适用于理论研究或者是运行环境参数较高的设备上,而本研究提出的ELM算法,适用于便携式、家用式等需要实时分析的设备上。
心脏病是人们健康的巨大隐患,但病人长期住院治疗既浪费医疗资源,又带来极大的经济负担,家用式或便携式心电检测设备给心脏病患者带来福音。目前,心电信号处理算法已相对成熟,检测准确度已达到一定高度,降低算法的时间复杂度是当前心电处理算法考虑的重要因素。本研究提出基于极限学习机的室性早搏诊断算法,能准确诊断出最常见的心律异常疾病——室性早搏,且较其他算法具有更好的实时性。在本文中,介绍了诊断过程的算法流程,对比其他算法,体现出本算法的优势。今后,将本算法优化后移植到Android或者IOS等移动平台上,实现没有地点、时间限制的实时诊断,是继续研究的方向。
(致谢:感谢朱广明、王培力、高鹏、汪友明、许春璐、韩淼、鲍枫林等对本文撰写的帮助和支持。)
[1] Benali R, Reguig FB, Slimane ZH. Automatic classification of heartbeats using wavelet neural network[J]. Journal of Medical Systems, 2012, 36(2): 883-892.
[2] 杨波, 张跃. 基于多模板匹配的室性早搏判别算法[J]. 计算机工程, 2010, 36(16):291-293.
[3] Shen Chiaping, Kao Wenchung, Yang Yuehying, et al. Detection of cardiac arrhythmia in electrocardiograms using adaptive feature extraction and modified support vector machines[J]. Expert Systems with Applications, 2012, 39(9): 7845-7852.
[4] Hinton GE, Osindero S, Teh YW. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.
[5] Hinton G. A practical guide to training restricted Boltzmann machines[J]. Momentum, 2010, 9(1): 926.
[6] Huang Guangbin, Zhu Qinyu, Siew CK. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1): 489-501.
[7] 钟维, 黄启俊, 常胜, 等. 基于SOPC 的复合式生理信号检测系统设计[J]. 传感技术学报, 2014, 27(4): 446-451.
[8] 张杰. Mallat算法分析及C语言实现[J]. 微计算机信息, 2010, 26(9):229-230.
[9] Hasan MA, Ibrahimy MI, Reaz MBI. NN-Based R-peak detection in QRS complex of ECG signal[C]//4th Kuala Lumpur International Conference on Biomedical Engineering. Berlin: Springer-Verlag, 2008:217-220.
s[10] 何云斌, 张晓瑞, 万静, 等.基于改进遗传模拟退火 K-means 的心电波形的分类研究[J]. 计算机应用研究, 2014, 31(11): 3328-3332.
[11] Scardapane S, Comminiello D, Scarpiniti M, et al. Music classification using extreme learning machines [C] //2013 8th International Symposium on Image and Signal Processing and Analysis (ISPA). Trieste: IEEE, 2013: 377-381.
[12] Rodriguez R, Mexicano A, Ponce-Medellin R, et al. Adaptive Threshold and Principal Component Analysis for Features Extraction of Electrocardiogram Signals [C] //2014 International Symposium onComputer,Consumer and Control (IS3C). Taichung: IEEE, 2014: 1253-1258.
[13] Tekeste T, Bayasi N, Saleh H, et al.Adaptive ECG interval extraction[C]//2015 IEEE International Symposium onCircuits and Systems (ISCAS). Lisbon: IEEE, 2015: 998-1001.
[14] Mironovova M, BilaJ.Fastfourier transform for feature extraction and neural network for classification of electrocardiogram signals[C]//2015 Fourth International Conference on Future Generation Communication Technology (FGCT). Luton: IEEE, 2015: 1-6.
[15] Rojo-Alvarez JL, Camps-Valls G, Caamano-Fernández AJ, et al. A review of Kernel methods in ECG signal classification [M]//ECG Signal Processing: Classification and Interpretation. London: Springer, 2012: 195-217.
[16] Lagerholm M, Peterson C, Braccini G, et al. Clustering ECG complexes using Hermite functions and self-organizing maps[J]. IEEE Transactions on Biomedical Engineering, 2000, 47(7): 838-848.
[17] Liu Nan, Cao Jiuwen, Koh Zhixiong, et al. Analysis of patient outcome using ECG and extreme learning machine ensemble [C] //2015 IEEE International Conference on Digital Signal Processing (DSP).Singapore city: IEEE, 2015: 1049-1052.
Implementation of the Algorithm for Premature Ventricular Contraction Discrimination Based on Extreme Learning Machine
Wang Ruirong1*Yu Xiaoqing1Wang Min2Ye Yang31
(CollegeofLifeInformationScience&InstrumentEngineering,HangzhouDianziUniversity,Hangzhou310018,China)2(DepartmentofOrthopedics,HangzhouRedCrossHospital,Hangzhou310003,China)3(MedicalServicesSection,HangzhouRedCrossHospital,Hangzhou310003,China)
Premature ventricular contraction (PVC) is a common heart rhythm disorders, which threatens humanity’s health, therefore accurate diagnosis of abnormal heart rhythms plays an important role to help humanity prevent cardiovascular disease. This paper proposed a diagnosis method based on ELM (extreme learning machine, ELM) to realize the discrimination of PVC from normal ECG (electrocardiograph) using the data from the MIT-BIH database as analysis object, and process of the method includes signal preprocessing, feature extraction and classification. The first step was to apply the wavelet transform combined with morphological filtering method for signal preprocessing to get the relatively clean signal, Then extracted feature parameters of QRS complex by using K-means clustering algorithm. Meanwhile, the calibration samples and prediction samples were established according to the feature parameters, and finally the ELM classifier for sample training match and classification recognition was adopted. 1260 cycles of signal were chosen to do experiment, and the results demonstrated that this algorithm could accurately diagnose the PVC, whose positive detection rate was up to 95% and sensitivity was up to 96% on average. Compared with other algorithms in the condition of similar detection accuracy, this algorithm can improve the real-time performance of the algorithm, which has high research value and certain practical value in mobile medical treatment and clinical medical treatment.
extreme learning machine; premature ventricular contraction; ECG; MIT-BIH
10.3969/j.issn.0258-8021. 2017. 02.005
2016-05-26, 录用日期:2016-11-29
国家自然科学基金(61374005)
R318
A
0258-8021(2017) 02-0158-07
*通信作者(Corresponding author),E-mail: wangrr@hdu.edu.cn