赵天夏,王新安,李秋平,邱常沛
(北京大学深圳研究生院 集成微系统科学工程与应用重点实验室,广东 深圳 518055)
心脏是人体最重要的器官之一,主要功能是为血液的流动提供压力,使血液能够输送到人体的各个部位。心电信号是临床诊断心脏功能的重要手段,人们可以从心电信号中评估心脏功能[1]。心律失常是一种常见的心脏疾病,围绕心电信号开展心律失常的研究具有重要意义。
心脏的正常心率是指在窦房结所激发的心率,称之为窦性心律。心律失常也称为异位心律,诱发的因素很多,如室上性心动过速、室性心动过速、室上性早搏、室性早搏、房颤、室颤等[2]。
心电信号的心率变异率(Heart Rate Variability,HRV)是指窦性心律在一定时间内,逐次心跳之间的微小变化。心率变异率分析是一种自主神经系统活动性及其调节功能的定量评估方法,它可用于评估交感神经和迷走神经的平衡性,其中,交感神经和迷走神经共同组成了自主神经系统。交感神经和迷走神经对心脏节律的双重调节存在相互制约,是心脏节律不规则性变化的主要原因。如交感神经兴奋时,会引起心率增加,迷走神经兴奋时,会引起心率降低[3-4]。
该文将心电信号的心率变异率分析方法用于研究心律失常,深入研究了心率变异率特征值提取的时域分析方法、频域分析方法和非线性分析方法,针对心律失常的特点,在时域特征值中引入了pNNx等心率变异率指标,在非线性特征值中引入了多尺度样本熵,进一步细化对于心率变异率特征值的量化分析,以显著性检验方法来评估特征的区分度,更加有效地区分窦性心率与心率失常。
在医学上常见的心电信号分析方法主要包括3种:时域分析方法、频域分析方法和非线性域分析方法,这些方法的提出时间较早,可靠性经过了临床验证,是医学领域中常用的检测和判别方法[5]。
心电信号的时域分析方法是以时间轴为坐标表示动态信号的关系,可以从形态学上直观形象的表示心电信号;心电信号的频域分析方法是对心电信号在频率域内进行分析,是以频率为坐标来表征信号的能量分布情况,能够更加深刻和简洁地剖析问题[6];心电信号的非线性分析方法是基于非线性的分析方法来研究心电信号,由于心电信号序列本身是不规则的时间序列,但是心电信号中又包含了确定性的机制,所以非线性的分析方法相比较线性方法来说有可能会更有效,能够得到更有意义的结果[7]。
时域分析方法是通过统计心电信号中的具体指标来描述心电信号的状态[8-9],常见的统计指标有平均值、最大值、最小值、范围、方差、偏度、峰态、百分数等。均值MEAN从整体上反映了心电信号的平均水平,方差Var反映了心电信号偏离平均值的程度,偏度Skew表征了心电信号中数据分布的偏斜方向和程度,峰态表征了数据分布的尖锐程度,也就是反映了心电信号分布的尖锐程度[10]。该文涉及的主要指标及其定义见表1。
方差表征心电信号偏离平均值的程度,计算方法见式(1);偏度表征数据分布偏斜方向和程度,计算方法见式(2);峰态表征数据分布的尖锐程度,计算方法见式(3)。
(1)
(2)
(3)
其中,x为每个时刻的值,
表1 心电信号时域分析指标
频域分析方法能够将心电信号从时域变换到频域,然后按照不同频段来表述信号的能量分布情况[11],常见的统计指标有频带功率、香农熵、信噪比等。该文对心电信号中各个成分的研究意义阐述如下(涉及主要频域指标及其定义见表2):
(1)心脏方面的疾病通常会影响心电信号中的高频成分(HF)的分布及表现,也会使得心电信号中的高频成分变得更容易波动。心电信号的高频成分常常伴随着心脏器质性病变的产生,因为此时心脏的组织结构会有变化。因此,在临床诊断上,心电信号中高频成分的分布及表现有十分重要的意义。
(2)低频成分(LF)反映的是心脏交感神经和副交感神经的共同活动。
(3)极低频(VLF)一般是受交感神经、环境温度及体液等其他因素影响。
表2 心电信号频域分析指标
低频与高频的成分比(LF/HF)是交感和迷走神经动态平衡指标。香农熵(Shannon Entropy)表征的是心电信号的不确定性程度。信噪比(SNR)表征的是心电信号中有效信息的比例。
非线性分析方法可以从多尺度深层次来表征心电信号,众多的非线性分析方法已被应用到心电信号序列的分析研究中,包括样本熵、关联维法、去趋势波动分析法等方法,这些方法能够关注到心电信号序列中所蕴含的复杂的非线性成分。
样本熵(Sample Entropy)是一种度量方法,它在计算时间序列复杂性上表现优异,是Richman和Moornan在2000年提出的[12-14]。为了衡量时间序列的复杂性,该方法可以度量信号中产生新模式的概率大小,从而评估序列中的自我相似性。序列的自我相似性和复杂性是与样本熵的值呈完全正相关性的。
样本熵的计算方法阐述如下:假设现在有一组时间序列,一共由N个数据构成,则可以用公式表示为{x(n)}=x(1),x(2),…,x(N):
首先,组成一组向量序列,维度为m,公式表示为xm(1),…,xm(N-m+1),其中xm(i)={x(i),x(i+1),…,x(i+m-1)},1≤i≤N-m+1。那么每一个向量为一个值,这一组向量序列就代表从i开始到i+m-1结束的连续x的值。
然后,定义两两向量之间的距离,公式为d[Xm(i),Xm(j)],计算方法为两者对应元素中最大差值的绝对值。d[Xm(i),Xm(j)]的计算方法如公式(4)所示。
d[Xm(i),Xm(j)]=
(4)
(5)
定义Bm(r):
(6)
(7)
定义Am(r):
(8)
(9)
当N为有限值时,可以用式(10)进行估计。
(10)
去趋势波动分析法是一种基于DNA机理提出的标度指数计算方法,可以用于分析类似长记忆过程的时间序列[15]。Hurst指数是通过该方法所得到的特征值,Hurst指数的计算方法如下:
首先,对其做求和,如式(11)所示。
(11)
其中,xi为给定的时间序列,即指心电信号序列,
然后,将xt分为不同长度的时间窗口,窗口长度为n,然后在每个时间窗口内最小化平方误差,得到局部最小二乘的拟合直线(局部趋势),令Yt代表得到的拟合直线序列,F(n)即波动,具体计算见式(12)。
(12)
最后,将这个过程对不同大小的窗口n进行重复计算,得到F(n)关于n的双对数坐标图,再用最小二乘法对数据点进行拟合,其中直线部分的斜率,即为Hurst指数。
在提取数据之前,需要先对原始数据进行预处理,得到以下数据:
长序列数据:把原始数据转换成数值序列,作为长序列数据。
短序列数据:通过QRS检测器把长序列数据分割成单独的QRS波,作为短序列数据,文中所用到的QRS检测器主要是基于Pan-Tompkins算法实现的[16]。
QRS数据:长序列数据中每段连续的QRS波长度。
线性时域分析是对采集到的逐次正常窦性心搏RR间期,即NN间期,按照心搏的顺序排列并进行统计学分析,是自主神经系统调节心率过程的反映,也是常用的线性时域分析指标。一般而言,基于统计的心电信号时域分析方法,通过对RR间期序列开展相应的计算,即获取时域分析的参数指标,具体包括均值、标准差、RMSSD、SDNN、SDANN、NNx和PNNx[17],总结见表3。
表3 心电信号时域分析方法的参数指标
均值通过计算心电信号RR间期序列的平均值,从整体上反映了心电信号RR间期的平均情况,其计算方法如式(13)所示。其中,N是心电信号总体RR间期的数量。
(13)
标准差通过计算心电信号RR间期序列的标准差,从整体上反映了心电信号RR间期与平均值之间的偏离程度,其计算方法如式(14)所示。
(14)
RMSSD通过计算心电信号相邻RR间期差值的均方根,反映了心电信号相邻RR间期之间变化的平均情况,其计算方法如式(15)所示。
(15)
SDNN与SDANN可用于长时心电信号的时域分析,但其计算方法存在一定差异。对于SDNN与SDANN的计算,第一步二者都需要将心电信号截断为一段段子信号,子信号的信号长度一般为5分钟,同时,子信号与子信号之间没有重叠。第二步二者开始显现出差异,SDNN是计算每一段子信号的标准差后返回其均值,如式(16)所示。
(16)
其中,M是心电信号依据子信号长度进行划分后的子信号数量。SDANN是计算每一段子信号的均值之后返回其均值的标准差,如式(17)所示。
(17)
NNx与PNNx中的x单位为毫秒,通常取值为50。NNx计算了心电信号相邻RR间期差值中绝对值大于x毫秒的数量,其计算方法如式(18)所示。PNNx计算了心电信号相邻RR间期差值中绝对值大于x毫秒的数量占总体 RR间期数量的百分比,其计算方法如式(19)所示。
NNx=count(|RRi+1-RRi|>x)
i=1,2,…,N-1
(18)
(19)
文中用到的频域特征是在长序列数据上统计的,需要先将长序列信号由时域通过FFT(快速傅里叶变换)转换到频域,然后再提取相应的特征。用到的特征有:频带功率、香农熵(Shannon Entropy)、信噪比(SNR)。香农熵的计算方法见式(20),其中xi为每个时刻的值,n为序列的长度,可以表征序列的不确定性程度;信噪比的计算方法见式(21),其中S为信号总功率,N为噪声总功率,可以表征信号中有效信息的比例。
(20)
SNR=S/N
(21)
这部分特征是基于非线性的分析方法进行提取的,主要是多尺度样本熵分析方法,是在样本熵的基础上,进一步引入了多尺度的概念。引入多尺度参数τ,其为正整数,一般取值在1到10之间,具体取值或取值范围与输入信号的长度有关。
在一维离散时间序列P中,根据多尺度参数τ,对其构建粗粒化时间序列Q,构建方法如式(22)所示,其中N是一维离散时间序列P的长度。当多尺度参数τ取值为1时,粗粒化时间序列Q即为原始的一维离散时间序列P。粗粒化离散时间序列Q的长度等于一维离散时间序列P的长度除以多尺度参数τ。
(22)
通过数据分析并提取特征值,将40组时长30分钟的窦性心律数据作为对照组,数据来源于PKU-IMS(北京大学深圳研究生院集成微系统重点实验室)心电数据库。将40组时长同样为30分钟的心律失常数据作为观察组,数据来源于MIT-BIH数据库。将对照组与观察组提取的特征进行显著性检验,以评估数据分析方法的区分度。具体而言,需要评估的数据分析方法包括:基于心率变异率的时域分析方法、频域分析方法和非线性分析方法。
当选取95%的置信区间时,P值小于0.05即反映了对照组与观察组之间在该特征上具有显著区分度,具体结果如表4所示。
在窦性心律组与心律失常组进行数据分析方法评估的场景中,基于心率变异率的时域分析方法,计算的特征nn50,pnn50,nn100和pnn100,具有显著区分度;基于心率变异率的频域分析方法,计算的特征vlfp,lfp,hfp和lf2hf具有显著区分度;基于心率变异率的非线性分析方法,多尺度样本熵的计算在尺度因子τ取4,5,6,7,8,9和10时,特征具有显著区分度。
表4 窦性心律组与心律失常组的特征显著性结果
该文引入了pNNx等心率变异率指标和多尺度样本熵,通过时域分析方法、频域分析方法和非线性分析方法提取了心率变异率特征值,细化了心律失常的量化分析,实现了以特征显著性检验的方法来评估心率变异率特征值的区分度,有效区分了窦性心率与心率失常。由于心率变异率分析也应用于糖尿病、脑血管、呼吸系统等疾病的辅助诊断,因此,该心率变异率特征值分析方法有望推广至相关疾病的评估。