杨青峰, 夏芳, 高海燕, 冯晓菊, 程顺达*
(1. 河北省中医院, 河北, 石家庄 050011; 2. 河北经贸大学, 河北, 石家庄 050011;3. 河北省中医药发展中心, 河北, 石家庄 050011)
伴随着人工智能与单片机采集、无线网络等技术的融合,研究者相继开发出基于生理信号的辅助诊断系统,如庞晓燕等[1]结合大数据和人工智能技术,开发了具有诊断推荐和治疗方案推荐的智能交互系统,从而为临床疾病的诊断提供了辅助功能;尹天露等[2]结合知识图谱技术,构建疲劳标志物对疲劳相关疾病潜在筛查价值模型,从而为患者潜在疾病诊断提供了新的途径。由此看出,基于智能算法的疾病诊断正在成为当前医学领域研究的热点。而对于心脏疾病的诊断,往往需长时间监测ECG信号,才能发现心脏可能存在的异常。因此,在实际诊断中,往往需要对ECG信号进行去噪和特征提取,最后再结合智能算法对ECG进行分类。目前,常用的分类算法中包括线性识别分析、K近邻分类器、决策树分类器、最小二乘支持向量机、支持向量机合并各种优化算法等。尽管这些算法大大提高了分类的精准性,但仍存在问题,如分类的效率不高,泛化能力不强。双子支持向量机凭借自身在运行速度、泛化能力上的优势,近两年被广泛应用与生物医学信号的识别中。对此,本研究提出一种改进LS-TWIN-SVM多分类器的心律诊断方法,并对该方法的可行性进行验证。
LS-TWIN-SVM即最小二乘双子支持向量机,是一种在传统SVM算法基础上衍生的一种基于最小二乘法和双子支持向量机的解决线性与非线性分类的算法。该算法将传统SVM的不等式约束转化为等式约束,从而极大降低了训练的复杂度,具有训练速度快的特点。LS-TWIN-SVM将不等式约束转化为式(1)[3]和式(2)[4]的等式约束,
(1)
(2)
式中,X1、X2表示样本的N维矩阵,K(·)表示核函数,c1用c1/2替代,e1、e2表示满足属性值全部为1的向量,ζ表示非负的松弛变量,μ、γ表示超平面参数。
将上述等式代入目标函数,由此二次规划问题变为
(3)
(4)
根据式(3)、式(4),求得两超平面参数:
(5)
(6)
式中,G=[K(X1,X)e1],H=[K(X2,X)e2]。
要对样本分类,只需计算超平面与测试样本的距离。
最终决策函数为
(7)
实践表明,LS-TWIN-SVM分类包括“一对一”和“一对多”两种策略。这两种分类策略在训练过程中计算复杂度会随样本增加而增加,进而造成训练时间长、类别数过多、分类准确率低等问题[5]。本研究是以可穿戴式设备采集到的患者ECG信号为样本进行智能诊断,通过分类找到ECG信号中存在的异常信号,进而判断患者心律是否异常。因此,随着样本的增多,维度必然增加,进而造成分类不准确的问题。为解决上述问题,结合杨伟敏[4]的研究,认为有向无环图的分类策略与传统的OVA-SVM、OVO-SVM、DTLS-TWIN-SVM等分类策略的计算复杂度相比,有向无环图的LS-TWIN-SVM分类策略的计算复杂度更低。因此,用有向无环图改进LS-TWIN-SVM,可解决数据多样性和多类别性带来的超平面维度多的问题,缩短训练时间,提高训练效率和正确率。
同时,SVM 核函数参数选择的好坏将直接影响最终的 SVM 分类器泛化能力的优劣。理论研究表明,参数的选择能很大程度地提高支持向量机的识别率。目前,参数寻优方法有网格寻优、交叉验证寻优、PSO 寻优等,传统的参数选取方法具有一定的不足,如人为选取参数取决于个人经验,受人为影响较大;交叉验证法选取参数一般计算量比较大,程序也复杂。而遗传算法具有很强的适应性,是一种全局最优化算法,具有很好的鲁棒性能和搜索能力,在诸多领域都有广泛应用。因此,引入遗传算法对SVM参数进行寻优,取最终测试集数据和预测集数据误差最小的c和g进行分类。
结合以上的分析,将有向无环图的LS-TWIN-SVM心律不齐诊断流程分为以下几步:
(1) 采用小波去噪处理心电信号,并对处理后的心电信号进行特征提取;
(2) 初始化基于有向无环图的LS-TWIN-SVM诊断模型,包括最大迭代次数、种群大小、模型惩罚参数、核参数等;
(3) 训练模型,并计算模型适应度函数;
(4) 判断是否满足迭代条件,若满足则获取模型的最优惩罚参数和核参数;反之则返回步骤(3);
(5) 对心电信号数据进行分类识别,并输出预测结果。
以上步骤可用图1示意。
图1 模型诊断流程
3.1.1 数据来源
本研究仿真实验数据来自美国麻省理工MIT-BIH心律失常数据库中标准12导联数据,包括左束支阻滞、右束支阻滞、正常心电图、室性早搏和房性早搏五类心律不齐记录。为使实验更具普遍性,研究从每类心律不齐数据中,选择50个具有代表性的心搏用于训练分类器,选择1 000个心搏用于测试分类器,并保证用于训练和测试的数据不重复。
3.1.2 数据预处理
(1) 数据预处理
ECG信号中包含大量的噪声,如肌电干扰噪声、运动伪影、基线漂移噪声等,这些噪声的存在会影响ECG信号的形态特征,进而降低智能诊断的精度。而对于临床用的心电图,通常采用50 Hz的陷波器滤除ECG信号中的工频干扰,用数学形态学、中值滤波等方式去除ECG采集信号中存在的基线漂移问题[6-7]。但ECG中的ST通常被认为是判断心律异常和心梗的一个重要指标,由于ST段频率不高的问题,往往会存在部分与基线漂移的频段存在重合的部分。另外在选择频率时,滤波器截止频率的选择应尽量不低于50 Hz,但又很难彻底去除高频干扰。基于以上分析,对工频信号的去除再用陷波滤波滤除,对ECG信号中的运动伪影采用阈值滤波,为防止基线漂移与ST段频率重叠问题,采用小波分解及小波自适应阈值进行处理。
(2) 特征提取
为准确反映心率异常,研究提取了数据样本的时间间期特征和形态特征两类特征的混合特征。其中,针对数据样本时间间期特征提取,研究提取了本次与前次心搏间期、本次与后次心搏间期、两个间期比值三个时间间期特征。针对数据样本形态特征提取,研究采用可有效保存窗口截断信号信息的最大熵功率谱对五类心律不齐心搏信号进行特征提取。通过上述操作,本研究提取到每个心搏132个特征作为训练样本和测试样本。
为评估提出的心律不齐诊断模型的识别效果,采用准确率、敏感性、特异性、阳性率4项指标进行评价。其计算公式如式(8)~式(11)[8-11]。
(8)
(9)
(10)
(11)
式中,Acc表示正确率,Sp表示特异性,Se表示敏感性,Pp表示阳性率,TP表示真阳性,FP表示假阳性,TN表示真阴性,FN表示假阴性。
3.3.1 分类器参数对识别效果的影响
由于分类器参数同样会对基于有向无环图的LS-TWIN-SVM诊断模型最终识别效果产生巨大影响,因此本研究采用交叉验证算法用于验证惩罚参数c和核参数σ对该分类器的影响。令C1=C2=C,c∈{10-8,…,104},σ∈{2-4,…,28},并使用300个训练数据进行训练,得到分类器5折交叉验证的分类结果如图2所示。由图2可知,高斯核函数参数σ对心电信号数据的分类结果影响较大;网格搜索方法可获得准确率较高的分类结果,最高分类准确率达到98.32%时,σ和c分别为23和10-8。
图2 模型参数对心电信号分类结果影响
3.3.2 不同SVM方法的诊断识别率
为了验证基于有向无环图的LS-TWIN-SVM心律不齐诊断模型对心电信号分类效果及其泛化能力,研究在有向无环图分类策略和同等实验环境及相同数据集上,对比标准支持向量机(SVM)及双子支持向量机(TWSVM)对心电信号诊断进行了测试。为简化运算,研究将TWSVM和基于有向无环图的LS-TWIN-SVM参数范围设置为10-8~104[12],测试结果如表1所示。由表1可知,基于有向无环图的LS-TWIN-SVM心律不齐诊断模型识别心律不齐异常症状的正确率为99.32%,标准SVM分类器识别正确率为94.12%,TWSVM模型识别正确率为98.03%;基于有向无环图的LS-TWIN-SVM的敏感性、特异性、阳性率3项指标均高于标准SVM模型和TWSVM模型。由此可知,本研究提出的基于有向无环图的LS-TWIN-SVM心律不齐诊断模型可准确识别心律不齐异常症状,且识别效果优于标准SVM模型和TWSVM模型的识别效果。
表1 不同模型识别结果
3.3.3 本算法与其他分类算法的比较
为了验证提出基于有向无环图的LS-TWIN-SVM诊断模型的可行性,研究使用同一数据集,对比PNN、MLP、BP神经网络对心电信号数据的分类效果进行了测试。测试结果如表2所示。由表2可知,基于有向无环图的LS-TWIN-SVM模型的分类准确率最高,达到99.21%;PNN分类准确率最低为65.98%。基于有向无环图的LS-TWIN-SVM模型训练时间最短为0.72 s;BP神经网络训练时间最长为268.36 s。由此说明,本研究提出的基于有向无环图的LS-TWIN-SVM模型分类准确率和效率较好,优于PNN、MLP、BP神经网络。
表2 不同机器学习测试结果
综上可知,本研究提出的面向社区家庭医生的基于有向无环图的LS-TWIN-SVM心律不齐诊断模型性能优于标准SVM模型和TWSVM模型,且其诊断正确率较高,达到99.32%,说明该模型可用于实际诊断心律不齐异常症状,具有实际应用价值,可促进对面向社区的家庭医生进行辅助诊断。此外,该模型将QPP问题中不等式约束问题转化为等式约束,有利于面向社区的家庭医生辅助诊断模型构建,进而提高了诊断的实时性和准确率。
心电信号等生物信号的分类识别是建立智慧医疗系统,构建面向社区的家庭医生辅助诊断模型的关键。本研究通过基于有向无环图的LS-TWIN-SVM分类算法,实现了对心电信号的分类识别及自动诊断。该算法具有计算复杂度低,较快获取分类结果等优势,可深入识别生物信号心电信号的特点,对心律不齐异常症状诊断正确率高达99.32%。由此说明,基于有向无环图的LS-TWIN-SVM分类算法对实现大数据辅助诊断心律不齐异常症状具有实际意义和应用价值,建立面向社区的家庭医生辅助诊断奠定了理论基础。