基于心电与光电容积脉搏波特征层融合的身份识别方法

2021-10-31 06:21李思卓李清华
电子与信息学报 2021年10期
关键词:特征向量类别分类器

肖 剑 李思卓 董 威 李清华 胡 芳

(长安大学电子与控制工程学院 西安 710064)

1 引言

生物识别技术是根据个体的生理和行为属性(如指纹、面部、声音、步态等[1])进行身份识别的方法。目前常用的生物特征识别技术要么识别度不高,要么容易被窃取,要么识别成本高得让人望而却步。因此利用心电信号(ElectroCardioGram,ECG)以及光电容积脉搏波(PhotoPlethysmoGraphy,PPG)信号这两种生物特征的识别方法受到了想要改进目前生物识别技术的专家学者的关注,基于ECG和PPG信号的身份识别技术具有识别度和安全性高、成本低等特点,并且ECG与PPG信号满足用于身份识别的生物特征4大要求:(1)普遍性;(2)唯一性;(3)稳定性;(4)可测量性。但在现实应用场景中,单一的生物识别系统存在若干问题,例如感测数据中的噪声、信号特征的类内变化、类间相似性、非普遍性和欺骗攻击等,都会对生物识别的准确性产生影响。

为了解决上述问题,研究人员着眼于多生物特征融合技术。信息的融合可以发生在特征级别、匹配级别以及决策级别[2—4]。匹配层的实现难度较小,融合中有一定量的特征信息,因此关于匹配层融合较为流行;决策层融合不关注特征的细节,而是将各自的输出按照一定的规则进行判断输出;特征层融合[5,6]存在特征不兼容的情况,融合难度较高,但是特征层的特征集包含丰富的生物特征数据信息,这些信息并不会在匹配层和决策层输出。因此,使用多特征融合技术用来提高生物识别的准确性成为科研人员的方向。

Gupta[7]提出了一种多融合系统,包括掌纹、掌背静脉和手部几何形状作为特征进行融合,采用串行匹配层融合方法,提高了系统的准确性和识别时间。Hammad等人[8]第1次利用卷积神经网络对心电信号和指纹进行融合识别,实验表明该文作者所提出的多模态系统比现有的多模态认证系统更加高效。Arteaga-Falconi等人[9]利用决策级融合方法对ECG和指纹进行融合识别,在等错误率方面有所改善。Bashar[10]对心电和脑电特征在特征级进行融合,与单个信号特征相比,融合效果有显著提高。杨宜蒙[11]提出了融合ECG信号与PPG信号的识别方法,作者从时域和频域中提取了ECG信号和PPG信号的生物特征,采用逐步筛选法和D-S证据理论进行融合,证明了将ECG信号与PPG信号融合的可行性。但是大部分的实验并没有考虑类内相关性对识别精度的影响,并且存在识别精度不高的问题。

本文在研究多模生物信号识别的基础上,深入探讨了判别相关性分析,提出了一种ECG信号与PPG信号特征层融合以及决策级K-最近邻(KNearest Neighbor,KNN)和支持向量机(Support Vector Machines,SVM)分类器融合的识别模型。该系统克服了单个系统的局限性,增加了对类内相关性的讨论,提高了整个系统的性能并增强了安全性。本文首先对心电和光电容积脉搏波信号进行预处理,采取巴特沃斯滤波器以去除信号中的噪声,利用小波变换获得可以用来融合分类的特征矩阵,再将两组初始特征矩阵进行组合,并利用判别相关分析(Discriminant Correlation Analysis,DCA)算法进行特征融合与提取,最后使用融合后的分类器完成身份识别。实验结果表明,本融合模型有效提高了身份识别的准确性,为多模生物身份识别提供了新模型。

2 背景:判别相关分析算法

近些年基于典型相关分析[12](Canonical Correlation Analysis,CCA)的特征融合分析引起多模态识别领域的关注,基于CCA的特征识别融合是使用两组特征之间的相关性来进行特征向量变换,使得变换的特征具备两个特征集的最大相关特性,且在每个特征集内部是不相关的[13—17]。

假设X∈Rp×n和Y∈Rq×n表示两个矩阵,每个矩阵包含来自两个不同模态的n个训练特征向量,令Sxx∈Rp×p和Syy∈Rq×q表示X和Y的内集协方差矩阵,Sxy∈Rp×q表示集合之间的协方差矩阵。CCA的目的在于找到线性组合X*=,最大化两个特征集之间的相关性,求解特征,找到变换矩阵Wx和Wy

然而这两个特征向量之间的相关性不一定遵循同一模式,从而使得该矩阵获得这两组特征向量之间的关系较为困难,如文献[18]所定义,CCA通过连接或求和特征向量进行特征级融合

其中,Z1和Z2称为典型相关判别特征(Canonical Correlation Discriminant Features,CCDF)。

上述特征融合方法存在两个问题,第1个问题是在样本数量小于特征数时(n<p或n<q),协方差矩阵Sxx和Syy奇异且不可逆,解决该问题的方法是在应用CCA融合数据前先降低特征向量的维数,故采用两阶段线性判别分析(Linear Discriminant Analysis,LDA)+CCA的方法。第2个问题是CCA对类内数据进行去相关处理,导致模型对样本中的类结构不敏感,但在分类识别中分离类是有必要的。基于LDA的降维方法通过找到能够区分开类别的投影解决该问题,但由于第1阶段LDA得到的特征不会在第2阶段CCA经过转换后保留,因此两阶段LDA+CCA将不是有效的解决方案。

而本文不仅需要最大化两个特征集之间的成对相关性,而且需要同时分离每个特征集内的类,因此提出通过判别相关分析法作为解决方案。

判别相关分析(Discriminant Correlation Analysis,DCA)是由Haghighat等人[19]在2016年首次提出,在人脸虹膜和指纹等数据集上取得了很好的效果,它是一种特征层融合技术,也是第1个在特征融合中考虑类结构的技术。该方法是用于最大化两个特征集上对应特征的相关性,以及属于每个特征集内的不同类的去相关特征,目的是消除类间相关性,并将相关性限制在类中。此外,它具有非常低的计算复杂度,可以用于实时应用。

本文采用DCA方法最大化两个特征集中的成对相关性,同时在相关性分析中加入类结构,如下所述:

假设数据矩阵中的样本是从单独类中采集的,数据矩阵的n列可以分为多个独立的组,其中ni列属于第i类,即。令表示对应第i类第j个特征向量。分别表示第i类和整个特征集中xij向量的均值,类间散布矩阵定义为

其中,P是正交特征向量的矩阵,而是按降序排序的实特征值以及非负特征值的对角矩阵。

Q(c×r)由来自矩阵P的第r个特征向量组成,其对应r个最大的非零特征值。因此有

X'是X在空间中的投影,I为类间散布矩阵,并且类是分开的。最多有c—1个非零广义特征值,因此,r的上限是c—1。r的其他上限是数据矩阵的秩,即r ≤min(c-1,rank(X),rank(Y))。用上述方法可以求出第2个特征集Y

X和Y已转换为X'和Y',其中类间散布矩阵被单元化,现在需要使一个集合中的特征仅与其他集合中的对应特征具有非零相关性。对变换后的特征集的集合协方差矩阵采用奇异值分解(Singular Value Decomposition,SVD)进行对角化,=X′Y ′T

通过对变换的特征向量进行连接或求和来进行特征级融合,如式(4)、式(5)所示。求和方法具有维数较少的优点,并且对识别结果的变化非常小。文中实验使用式(5)中的求和方法。

3 ECG与PPG特征层融合模型

ECG与PPG信号融合模型如图1所示,首先,分别对ECG信号和PPG信号进行预处理及特征提取,得到ECG信号与PPG信号的特征矩阵。然后分别对各自的特征矩阵进行特征标准化,利用DCA算法进行特征融合,对组合特征矩阵进行特征提取,获得最佳分类融合特征矩阵。在决策层上先对训练集进行处理,选取与测试数据最相近的K个样本,然后再用SVM训练K个样本得到分类超平面,以此来实现决策级的融合。下面详细探讨该融合识别模型。

图1 心电与光电容积脉搏波融合的身份识别模型

3.1 信号预处理及特征提取

ECG和PPG身份识别的流程一致,都分为信号预处理、特征提取与分类识别。ECG信号如图2所示,PPG信号如图3所示。ECG信号预处理一般是去除信号中的噪声,主要有:(1)肌电干扰;(2)基线漂移;(3)工频干扰。PPG信号受到的噪声有以下3种:(1)运动伪差;(2)高频随机干扰;(3)基线漂移。由于ECG信号与PPG信号都是非平稳的周期信号,本文在对它们进行去噪时选择巴特沃斯滤波器。

图2 心电信号

图3 光电容积脉搏波信号

文中采用小波变换检测ECG信号的QRS波段,各个波段峰值以及波段距离,PPG信号的P波特征点用作识别分类。实验中对ECG信号和PPG信号进行小波变换后,产生模极值对,信号的波形与这些模极值相对应,而奇异点就是极值中间的0点。所以可以将不同频率分段的波段通过设定相应的阈值以及取值窗口定位出来,最终定位QRS波、P波、T波以及P波和T波的起始点和终止点,如图4所示。同样通过该方法对PPG信号进行小波变换,对P波、V波及各自的起始点和终止点进行定位,如图5所示。

图4 ECG特征检测

图5 PPG特征检测

通过上述方法,定位出ECG信号的5个基准点,分别为P,Q,R,S,T。通过计算得出各个基点之间的距离和幅度,将它们组成特征向量如表1所示,得到的4个时间特征以及4个幅值特征组成大小为8×23的特征矩阵。

表1 小波变换提取到的信号特征

同样,通过该方法检测到PPG信号的P波和V波及其各自的起始点和终止点的位置,通过计算最终得到7个距离特征及4个幅值特征如表2所示,组成大小为11×23的特征矩阵。

表2 PPG信号的特征与描述

3.2 基于DCA算法的特征融合与识别

将ECG信号与PPG信号特征矩阵分别进行归一化处理后,采用DCA算法进行融合,由于两个特征向量维数不同,较低维的PPG信号特征矩阵用零补齐。去除每个特征集内部的相关特征,并且将类结构结合在特征层融合方法中,最大化两个特征集上对应特征的相关性,得到ECG和PPG的特征融合矩阵。

基于多集判别相关分析的ECG和PPG特征层融合识别流程图如图6所示。

图6 特征层融合识别流程图

融合识别算法步骤分为以下5步:

(1)对ECG信号特征提取后得到的特征向量组成第1个特征的样本空间X∈Rp×n;

(2)对PPG信号特征提取后得到的特征向量矩阵组成第2个特征的样本空间Y∈Rq×n;

(3)采用最大最小值法,对特征向量进行归一化操作,使得两组特征向量的数量级接近。

(4)由式(4)、式(5)计算类间散度矩阵Sbx和Sby,通过式(7)、式(8)计算出协方差矩阵的特征向量,由式(9)、式(11)得到变换矩阵Wbx和Wby。

(5)由式(13)对协方差矩阵进行奇异值分解,再由式(15)、式(16)获得转换特征集和最终变换矩阵,最后通过式(3)求和的方法进行特征融合,其优势在于维数较少。

4 决策层融合的实现

生物特征识别算法决策阶段是由一个分类器对来自识别系统中受试者存储的模板上进行训练,该分类器会对受试者和攻击者进行区分,在识别时输出正确的决策。常见的K-最近邻(K-Nearest Neighbor,KNN)算法的实现原理:为了判断未知样本的类别,以所有已知类别的样本作为参照,计算未知样本与所有已知样本的距离,从中选取与未知样本距离最近的K个已知样本,根据少数服从多数的投票法则(majority-voting),将未知样本与K个最邻近样本中所属类别占比较多的归为一类。K这个字母的含义就是要选取的最邻近样本实例的个数。本文中K选取5。

而支持向量机(Support Vector Machines,SVM)的基本思想就是在特征空间构造出一个最优的超平面,使得不同类距离超平面最远,从而达到较好的泛化能力。支持向量机的提出最开始是应用于二分类问题,而本文的应用场景为多分类问题,因此本文需要使用1对1法(One-Versus-One SVMs,OVO SVMs)法将SVM用于处理多分类问题。该算法的思想是假设一个样本训练集由k>2类别数据组成,分别选取2个不同的类别构成一个SVM的子分类器,这样k个类别共有k(k—1)/2个SVM子分类器。在构造一个类别i和类别j的SVM子分类器时,利用样本数据集中类别i和类别j的样本作为训练数据,并将类别i的数据标记为+1,类别j的数据标记为—1。多类别测试的过程中,将测试的数据对所有子分类器分别进行测试,累积各个类别的得分,选取最高得分的类别作为测试数据的类别。

之所以将SVM与KNN相结合是因为当使用1对1法分类时样本数量变大,所需要的子分类器就会增多,所需要的代价是很大的,因此在本文实验中采用了决策级融合,将KNN与SVM结合起来,在使用KNN处理训练集可以降低样本数量,再使用1对1法进行分类时所需要的子分类器数目变少,会大大提高系统分类效率。其主要实现过程为:首先对融合特征后的训练集进行初步处理,根据每个样本与其K个最近邻的标签的异同决定其取舍,在本文中K取5,然后再用SVM对使用KNN后得到的样本每两个类别进行训练得到分类超平面。本方法将KNN与SVM有效地融合在一起,当单一使用SVM分类器时,时间复杂度为O(N2),使用KNN处理训练集后再使用SVM进行分类时时间复杂度为O(N)。实验结果表明,使用KNN与SVM的融合分类器会比使用单一分类器如KNN或SVM准确率更高,并且大大提高系统效率。

5 实验设计与数据分析

5.1 生物电信号采集系统设计

生物电信号采集系统主要目的是实现心电信号和脉搏信号的同步采集,并将采集到的信号传输至上位机PC端。基于生物电信号的身份识别算法主要在上位机PC端进行研究,将采集到的ECG信号和PPG信号通过预处理、特征提取和分类识别实现身份识别。系统总体框图如图7所示。

图7 身份识别系统总体框图

心电信号采集选用AD公司的AD8232芯片,用于在复杂噪声环境下快速、精准地提取ECG信号。该芯片集成了仪表放大器、增益放大器、右腿驱动电路、休眠电路设计、基准电压缓冲以及导联脱落检测电路,能够方便有效地对信号进行预处理。同时导联检测功能能够时刻检测导联是否脱落,并提醒使用者将电极放置在受试者的双臂及右腿位置,保持周围环境安静,即可采集心电信号。实验结果表明所采集的心电信号能够表现出个体的心脏生理状况,能够清晰地找到主要用于识别的QRS波群。

在手指指尖上通过光电容积脉搏传感器实现PPG信号的采集,采用三轴加速度计获得实验对象的运动情况,将采集到的信号通过AD同步转换实现两种数据的同步采集,其数据采集过程如图8所示。

图8 数据采集过程

5.2 实验对象

本次实验一共采集了23个个体的ECG信号和PPG信号,其中男性15人,女性8人,他们的年龄范围为22~26岁,采样频率为500 Hz,采集过程中受试者均为坐着状态,每位受试者均采集20组ECG和PPG数据,每类数据时长为60 s,因此每个志愿者有40条数据,本次实验一共有920条数据。组成本文的实验数据库。实验所需的操作系统为64位Windows10,CPU为Intel奔腾G4560处理器,仿真平台利用Matlab 2016a,部分编程使用PyCharm,利用Excel对数据进行分析并绘制相应图。

5.3 实验结果与分析

实验中选择数据库中23个受试者的ECG和PPG信号,每个人的信号每30 s为一组,每个人20组信号组成测试集,通过改变匹配阈值的大小,对测试集中的类内匹配和类间匹配都进行测试,得到系统的拒识率、误识率和等错误率,绘制ROC曲线。

图9为ECG和PPG的双模特征层融合识别算法的ROC曲线,由图可以看到随着阈值的增加,误识率越来越低,而拒识率越来越高,在阈值为0.6188处拒识率与误识率相等,其等错误率为8.642%。在阈值较大时,虽然错误接受率比较低,但相应的错误拒绝率变大,导致用户识别过于严格,对用户进行识别带来不便。在阈值较低时,错误接受率变小,错误拒绝率增大,对于识别要求不是很严格,使得用户较容易进入系统。说明双模特征层融合识别算法在识别精度与算法性能方面均优于单模态生物识别。

图9 ROC曲线

此外,为了得到训练时间长短对算法识别性能的影响,实验中将采集到的每一个个体的ECG信号与PPG信号的前30 s信号作为训练样本,后30 s信号作为测试样本。又将训练样本的信号时间细分为前5 s、前10 s、前15 s、前20 s、前25 s、前30 s对其分别进行训练并测试其结果。

通过融合分类器对六组信号分别进行分类,匹配得到不同训练时间与识别正确率之间的关系,结果如图10所示,由图可知基于ECG与PPG的多模态融合特征进行识别的效果优于单模态特征识别效果,在训练时长超过15 s后融合识别的识别率对于ECG信号识别其优势并不十分明显,但在训练时长较短的情况下融合识别的识别率明显优于单模态特征识别,训练时长为10 s时融合识别的识别率可以达到90.6%。

图10 不同信号在不同训练时长下的识别率

本次试验对23名受试者分别从单一特征与单一分类器,单一特征与多分类器,多特征与单分类器和多特征与多分类器这4个方面进行验证,实验结果如表3所示。

表3以识别准确率作为性能参数,总结了本研究的实验结果。使用单分类器SVM对单信号ECG和PPG进行身份认证时,准确率分别为88.0%和81.0%。使用单分类器KNN对单信号ECG和PPG进行身份认证时,准确率分别为84.5%和74.5%。使用融合分类器KNN-SVM对单信号ECG和PPG进行身份认证时,准确率分别为91%和82.4%。使用单分类器SVM对融合信号ECG-PPG进行身份认证时准确率为96.1%。使用单分类器KNN对融合信号ECG-PPG进行身份认证时准确率为91.5%。而使用融合分类器KNN-SVM对融合特征ECG-PPG进行身份认证时准确率可以达到98.2%。实验结果表明,对信号在特征层进行融合并且对分类器进行决策层融合可以达到最优的分类结果。

表3 不同模式下识别准确率

6 结束语

本文在研究特征层融合时,结合判别相关分析最大化两个特征集的相关性的特点,提出了一种心电与光电容积脉搏波多模态生物识别模型。首先对心电信号与脉搏信号分别进行预处理和特征提取,将特征信号进行归一化处理后,利用DCA算法对特征融合,获得心电与光电容积脉搏波的融合特征矩阵,作为最终的识别特征,在决策层融合两个分类器(KNN-SVM),最终实现身份识别。实验结果表明,该模型降低了单模态生物识别出现注册失败的错误率,提高了用户验证身份的灵活性以及对欺骗攻击的抵抗性。在常规环境下能达到更高的正确识别率,是一种有效的融合识别方法,后续研究将着眼于融合模型的可扩展性层面,例如将使用大型数据库、多个通道和多个特征进行。

猜你喜欢
特征向量类别分类器
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
服务类别
论类别股东会
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别
中医类别全科医师培养模式的探讨