冯玉蓉 陈 玮 蔡光跃
指纹、人脸、掌纹、虹膜、视网膜等人体生理特征目前已经被广泛应用于商用生物识别领域,然而,这类特征同属“静态”特征,容易被复制、伪造。近年来,心电、心音等“动态”的人体生理特征已被证明可用于生物识别。其中基于心电生物识别的研究较为广泛,这得益于:心电在病理检测等领域的研究起步较早,研究也较深入,且心电信号比较容易采集、系统成本较低,最关键的是心电信号是“动态”特征,理论上很难模仿,不像指纹、人脸、掌纹等生理特征多为静态二维图像,而像心电、心音、脑电信号通常是动态的时间函数。
心电信号用于生物识别早在1999年由Biel等提出,此方法首先应用时域分析方法,再提取心电信号各阶段的持续时间、幅度、倾角等特征进行簇类独立软模型(Soft Independent Modeling of Class Analogy,SIMCA)分类,对20位受试者的心电特征信号进行了聚类分析,验证了心电信号可以应用于生物识别领域[1~2];Irvine 等于 2001年提出通过检测心率变异性作为特征信号进行人体识别[3];随后在2002年,Shen,Tompkins和Hu等联合使用模板法与DBNN(Decision-Based Neural Network)算法进行人体识别,并达到100%的识别率。Israel等于2005年在前人的基础上从心电信号标准波形中提取了15种时长作为特征向量,并分析了电极位置、心情状况等因素对识别性能的影响;2008年,Chanetal分别应用信号之间的残差百分比(Percent Residual Difference,PRD)、相关系数(Correlation Coefficient,CCORR)以及小波距离(Wavelet Distance Measure,WDIST)三种特征进行分类,实验结果表明,WDIST方法的分类准确率要优于前两种方法近10%,准确率达89%;2008年,Khalil and Sufi提出了多项式拟合参数距离(polynomial distance measurement,PDM)算法,该算法先检出心电信号的标准波形,并将其分为P波、QRS波、T波三段,对各段信号微分后进行多项式拟合,将三段曲线的多项式拟合参数合并后作为特征值,通过测量特征值之间的距离进行人体识别,结果表明,该算法所需的心电波形周期短,识别速度快,识别准确率高。与多数基于标准心电信号波形检测的生物识别系统不同,Plataniotis,Hatzinakos和Lee于2006提出了一种以ECG波形序列的离散余弦变换之间的自相差系数作为特征值的生物识别算法,该算法具有较低的错误拒绝率、错误通过率且识别准确率可达100%。另外,基于心电的人体识别技术也正在逐步走向应用研究[3~5],如 Sufi和 Khalil在 2008 将这一技术用于远程医疗系统中的病人识别;Bui,Agrafioti和Hatzinakos在2010将心电生物识别应用于网络安全认证。上述各类算法与应用中,分析心电频谱来提取生物特征的方法较为少见,多采用波形特征进行分析。
1)导联的选择:标准的心电图有12个导联,但是从已有的文献来看,大多采用一个导联的数据,也有使用全部12导联[1]。一方面,因为各个导联之间信号的相关性较大,选择的通道较多会产生冗余。从实用性来讲,过多的导联会使系统更加庞大复杂。
2)波形特征分析:心电的波形信息相对更多,几乎所有的心电识别方法都是从波形上来区分。经过对其他文献所使用的特征进行归纳[6~7],再结合临床上诊断所用的方法,预计可以尝试的心电特征有如下几种:
时间点:P波位置、Q波位置、S波位置、T波位置(以R波峰值为参考点,分别计算相对时间位置)。
时间间隔:P波间期、QRS波间期、T波间期、PR间期、QT间期、RR间期
其他:QRS波形面积、ST段斜率。
因为人的心率不是恒定的,所以在计算时间点的时候可以在每个心搏周期内归一化,计算后得到的是相对的时间或者百分比。
分析心电频谱来提取生物特征的方法较为少见。
图1 ECG信号的15个时域特征和6个幅值特征
通常,心音心电信号采集过程中电极或者听诊器的放置位置都有了固定的模式,如心电的胸导联和肢体导联,心音也有4个典型的位置(Aortic,Pulmonary,LLSB and Mitral)。因为心音传播的干扰比心电多,心音只能在心脏周围前胸和后背的区域采集。心电的采集区域要大一些,手腕、脚腕、肩部都能采到。所以我想,在采集心电的时候,除了标准的电极位置之外,还要考虑电极位置是否容易接触到,像手腕、腰部,甚至手指。听诊器的位置在每次实验时相对固定,如第X肋间,锁骨中线外(内)侧X厘米等等。
至于实验对象的姿势变化和身体状态是否会显著影响实验结果,现在还没从文献中找到答案。或许可以尝试在不同的条件下做实验,静坐、直立、平躺等姿势,和适度运动后半小时、一小时等等。
在做到尽可能多地从心音心电信号中提取得到信息之后,要选择可靠的学习和识别的算法来处理特征向量。
第二点,在进行动物养殖时,缺乏必要的免疫程序。全国范围内动物养殖的品种较为复杂,为了适应市场,很多区域拥有具有区域性的动物养殖方案,这则造成了动物养殖免疫程序的混乱。另外,很多乡镇农户文化程度较低,对于动物免疫程序毫无概念,往往错过了最佳的动物防疫时机,造成动物免疫效果不理想。
身份确认可用阈值判断的方法来实现。预先把处理得到的所有成员的特征信息求均值,每个成员用一个N维的向量表示,向量存储在数据库中。输入一个新的N维向量Xin,并且选择需要匹配的成员Mi,计算向量Xin与Mi的欧式距离,如果距离小于阈值,则认为结果匹配;反之则识别不成功。
身份识别是指输入一个识别特征,在数据库中寻找出特征与它最接近的成员。识别过程是学习和分类的过程。已有的样本数据组成一个训练集,把他们作为分类模型的输入信号,通过修改模型参数,使得输出的分类结果与训练数据所属类别最为接近。
BP神经网络的分类是把训练集的每个N维特征编码作为输入层,经过中间几个隐含层,按照不同权值计算,在输出层预测特征编码所对应的待识别个体。在不断的迭代计算过程中调整隐含层各个节点的权值,使预测的结果最优化。
SVM支持向量机是建立一个分类超平面作为决策曲面,使正例和反例之间的隔离边缘被最大化。首先通过非线性变换将训练集的N维特征编码变换成一个M维(M>N)的向量,然后在M维的空间中求取最优线性分类面,非线性变换的核函数包括内积函数、多项式核函数、径向基核函数等。最后,将需分类的样本数据也同样映射到这个平面,根据映射的结果预测样本的分类。
LVQ学习向量量化是用于训练竞争层的有监督学习方法的输入前向神经网络。输入一个训练特征编码,计算与它最近的竞争层神经元,从而找到与之相连接的线性输出层神经元,若输入的特征编码类别与线性输出层神经元所对应的类别一致,则对应的竞争层神经元权值沿着输入的方向移动;反之,若两者类别不一致,则对应的竞争层神经元沿着输入的反方向移动。
心电信号的消噪方法和心音信号的处理方法类似。心电信号的主要频率成分集中在0.1Hz~250Hz,其频率分布比心音信号更加广泛。原始信号的采样频率为1000Hz,信号以120s为一个单位。测试的数据来自随机选取的十三个测试者,在静息状态下记录他们5~9段心电图II导联信号。
信号的消噪仍旧使用小波分解和重构的方法。小波函数选用db5,调用Matlab函数’wavedec’对信号做9级小波分解。去除第1、2级高频噪音和第9级低频直流成分,调用Matlab函数’waverec’将剩余各级小波系数重构,得到消噪之后的心音信号。
上文已经提到,心电信号在时域上的信息量较多,如QRS波群的宽度,QT间隔,R波、T波的幅度大小等等[8,9]。所以,心电信号的特征主要从时域和波形上选择。
综合比较文献[1][10][11]所选用的特征,本文在此基础上又增加了关于T波的细节特征,最终选取23个心电信号特征,如下表所示。
表1 23个心电特征的列表
图2 心电特征在信号波形图上的对应关系
首先,对去噪的信号做微分运算,对微分的结果平方,再用移动窗口局部求和,找出信号变化最剧烈的位置。将区间内绝对值最大的点定位R波的顶点。再在两个R波之间检测T波的顶点。
标记完R波和T波,在R波前后各加一个窗口,区间内绝对值最大的点分别标记为Q波和S波的顶点。Q波起点、S波终点、T波的起点和终点用阈值法求的。Q波起点处附近信号的斜率逐渐增大,把斜率刚刚超过设定阈值的点标记为Q波起点。在S波终点附近,信号的斜率逐渐减小,把斜率刚刚小于设定阈值的点标记为S波终点。用同样的办法找出T波的起点和终点。阈值的设定需要根据信号的幅度做调整,初次分析测试者的信号时需要人工确认。
按照上述方法,计算每一个心电图波形的上述特征参数。再对同一个测试者同一段120s测试信号内的所有心电图特征参数分别求和,除以心跳次数,得到每个参数的平均值。把23个平均值合成为一个23维向量,表示一个样本片段。因此,每一段120s的心电图信号都生成一个23维向量,表示这一个样本片段。根据采样的数据,每个测试者分别对应5~9个向量。
接下去就是利用模式识别的方法对特征进行学习和分类。
图3 98个样本中,两个特征(RR间期和QRS宽度)的分布情况
我们采用支持向量机的方法来对特征进行学习和分类。
支持向量机(简称SVM)是一种监督式学习的方法,即已知训练点的类别,求训练点和类别之间的对应关系,以便将训练集按照类别分开,或者是预测新的训练点所对应的类别。
对于线性可分的情况,N维特征所在的空间中线性判别函数的一般式为g(x)=wTx+b,分类面方程是wTx+b=0。将判别函数归一化,使两类所有样本满足 | g(x ) |≥1,此时离分类面最近的样本的 | g(x)|=1,而要求分类面对所有样本都能正确分类,就是要求它满足 yi(wTxi+b)-1≥0,i=1,2,…,n。两类样本的分类空隙(Margin)的间隔大小:Margin=2‖w‖。
因此,最优分类面问题可以表示成如下的约束优化问题,求函数φ
SVM的主要思想可以概括为两点:一是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;二是它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定的上界。的最小值。为此,可以定义如下的Lagrange函数:
其中,ai≥0为Lagrange系数,我们的问题是对w和b求Lagrange函数的最小值。把上式分别对w、b、αi求偏微分并令它们等于0,得:
以上三式加上原约束条件可以把原问题转化为如下凸二次规划的对偶问题:
这是一个不等式约束下二次函数机制问题,存在唯一最优解。若 ai为最优解,则不为零的样本即为支持向量,因此,最优分类面的权系数向量是支持向量的线性组合。b*可由约束条件αi[yi(wTxi+b)-1]=0求解,由此求得的最优分类函数是:
若一个超平面不能把两类点完全分开时(只有少数点被错分),可以引入松弛变量 ξi(ξi≥0,i=),使超平面wTx+b=0满足:
当0<ξi<1时,样本点 xi仍旧被正确分类,而当ξi≥1时样本点xi被错分。为此,引入以下目标函数:
其中C是一个正常数,称为惩罚因子,此时SVM可以通过二次规划(对偶规划)来实现:
将每位测试者的数据分为两类,一类是学习数据,另一类是测试数据。在每位测试者的心电图片段中,随机选择两个23维向量作为测试数据,其余片段作为学习数据。这里使用libsvm工具箱的Matlab代码来进行测试。
经过训练识别和测试,12名测试者的24个样本中有21个识别成功,准确率为87.5%。下图是测试结果显示,横轴是样本编号,纵轴是样本类别。如图所示,24个样本中有3个样本的预测结果和实际结果不相符合。
图4 训练和测试结果
本文提出了一种利用心电心音特征作为生物识别的方法。对于得到的心电心音信号首先进行多重小波滤波去噪,得到较好的分类基础数据,再采用支持向量机做特征分类与识别,并选取了两组数据互为对比。通过实际的心电心音识别实验,表明了本文中所采用的方法有较好的识别效果,可作为生物身份识别的一种实际方法。
[1]Lena Biel.ECG Analysis:A New Approach in Human Identification[C]//IMTCi99.Proc.of the 16th IEEEInstrumentation and Measurement Technology ConJ,1999(1):557-561.
[2]Biel,Lena;Pettersson,Ola;Philipson,Lennart;Wide Peter.ECG Analysis:A New Approach in Human Identification[J].2001 IEEE Transactions on Instrumentation and Measurement,2001,50(3):808-812.
[3]Beritelli,F.A Multiband Approach To Human Identity Verification Based On Phonocardiogram signal analysis[M].Biometrics Symposium(Bsym),2008:71-76.
[4]Beritelli,F.,and Serrano,Biometric identification based on frequency analysis of cardiac sounds[C]//IEEE Transactions on Information Forensics and Security 2,2007:596-604.
[5]Biel L,Pettersson O,Philipson L,and Wide P,ECGanalysis:A new approach in human identification[C]//Proceedings of the 16th IEEE Instrumentation and Measurement Technology Conference,Vols.1-3,557-561.
[6]侯宏花,桂志国.人体心电心音信号定征分析系统设计[J].医疗卫生装备,2010,31(4):24-26.
HOU Honghua,GUI Zhiguo.The design of ECG and heart sound signal analysis system[J].Medical and health equipment,2010,31(4):24-26.
[7]熊狮.基于Android系统健康信息移动监测技术的研究[D].广州:华南理工大学,2013,19-29.
XIONG Shi.Research on health monitoring system based on Android system[D].Guangzhou:South China University of Technology,2013,19-29.
[8]Israel,Steven A.;Irvine,John M.1;Cheng,Andrew1;Wiederhold,Mark D.2;Wiederhold,Brenda,Brenda k..ECG to Identify individuals[J].Pattern Recognition:The Journal of the Pattern Recognition Society,2005,38(1):133-142.
[9]Shen,T.W.;Tompkins,W.J.;Hu,Y.H..One-lead ECG for identity verification[C]//In Proceedings of the 2nd Conference of the IEEE Engineering in Medicine and Biology Society,2002,1:62-63.
[10]Beritelli,F.A Multiband approach to human identity verification based on PhonoCardioGram signal analysis[C]//6th Biometrics Symposium(BSYM2008),2008:71-76.
[11]Beritelli,Francesco;Serrano,Salvatore.Biometric identification based on frequency analysis of cardiac sounds[C]//IEEETransactions on Information Forensics and Security 2,2007:596-604.