韦晓燕,周霖,周毅△
(1. 中山大学中山医学院,广州 510080; 2. 中山大学 数据科学与计算机学院,广州 510006)
癫痫是一种由于大脑异常同步放电且具有连续发作特征的慢性疾病,药物治疗和手术切除是主要的治疗形式,其发作往往具有不可预测性,给患者造成带来极大的心理压力与工作生活困难[1]。1970s年学者发现癫痫发作前一段时间信号表现出不同程度的显著变化,通过量化脑电(electroencephalography, EEG)变化能够提前预测癫痫发作以便提供临床治疗[2]。2013年发表于《柳叶刀神经病学》的开创性研究表明预测癫痫发作具有可行性[3]。关于癫痫预测的研究接踵而至,但统计验证和可重复性实验缺乏[4]。
到目前为止,癫痫发作研究众多,但没有专门致力算法预测框架的整体方法论。我们从癫痫发作预测基本原则出发,聚焦于EEG数据的单变量和多变量特征提取,考虑预测模型以及性能评价。
癫痫发作预测在于检测癫痫发作前的信号特征变化。大量研究发现,在发作间期和发作期之间存在一个过渡期,称为癫痫发作前期。因此,癫痫发作的预测可以被视为发作前期的早期检测[5]。图1给出了癫痫发作过程不同时期的过渡。
图1EEG癫痫发作过程
Fig1TransformationofepilepticseizuresofEEG
癫痫预测的研究通过数据预处理,接着提取不同特征指标显示癫痫发作前期的变化,通过阈值-分类方法进而预测,最后评估算法。如图2所示,以一种方法论的方式回顾基于算法的研究。
图2癫痫预测框架流程图
Fig2Frameworkofepilepticprediction
2.2.1数据获取 数据形式和公共数据集
脑电信号记录的形式多种多样,包括头皮脑电(scalp EEG,EEG),颅内脑电(intracranial EEG , iEEG),功能磁共振成像等,以EEG为主。但数据样本少,制约了评估算法的性能[6]。用Kendall’s tau系数表示癫痫发作的敏感度与发作次数和平均记录时间具有统计学意义的关联性,提出需要连续长期EEG记录评估算法性能。近年来网络公共数据库开始出现[7-8],见表1。相关研究[9]已经开始采用便携式脑电仪采集数据。
2.2.2信号预处理 (1)去噪和过滤
高效算法的实现得益于高质量数据的获取。初期需要人工删除坏段,进行目视检验。根据脑电信息滤波器范围一般维持在0.3~35 Hz左右。同时在脑电记录过程中因外部因素引起信号伪迹。常使用伪迹减法、小波变换、独立分量分析和经验模式分解等去除伪迹[10-11]。
表1网络癫痫公共数据集
Table 1 Web-based seizure prediction databases
(2)数据分段
由于脑电信号是非平稳数据,窗口时间应保证数据的平稳性,包括重叠滑动窗和非重叠滑动窗[12]。其中重叠滑动窗口可以保证数据的连续性,但易造成信息冗余,因此多采用非重叠滑动窗口。一般情况下由神经电生理专家指导确定,累积经验发现其时间窗口设置在5~60 s不等[13]。
(3)发作前期确定
25年前癫痫发作预测时间的可行性调查就已开始,但至今没有标准。Teixeiera等人[14]测试了278位患者数据,分别设定10, 20, 30,40 min发作前期,发现设置更长的发作前期时间预测错误率显著地降低,其中最优预测为30.47 min。Bandarabadi等人[15]使用振幅发布直方图确定分界点。设置发作前5~180 min,最佳预测在44.3 min。与之相反的是Moghim[16]提出0~20 min发作时间可变方法,发现针对同一患者其发作前期设定也有不同。对于发作前期时间的设定需要经过大量实验摸索得到,缺乏统计验证。
2.2.3特征提取 衡量癫痫脑电活动的特征指标见图3。从特征提取从变量和方法学角度出发,可以分为单变量线性提取,单变量非线性提取,多变量线性提取,多变量非线性提取[17]。
(1) 单变量线性度量
早期的癫痫特征提取是基于信号最基本的特征属性在时域、频域、时频方向进行刻画。在时域上刘银霞报道了在发作前期状态下峰度和方差提出棘波频次计算方法[18]。在频域上Boubchir发现癫痫发作时会比未发作时能量明显增大[19]。Gao[20]等使用小波能量和EMD分解计算其波动指标作为特征。虽对信号描述能力较好,但对数据平稳性和线性要求较高。
图3癫痫特征提取理论图
Fig3Seizurefeatureextraction
(2)单变量非线性度量
事实上大脑作为混沌系统,基于非线性动力学的分析方法被引。其一基于系统复杂性分析,研究表明癫痫发作时期大脑复杂度降低,如近似熵,样本熵等[21]。其二基于系统混沌性分析,发作前期其混沌性降低,如相关维数,最大Lyapunov指数[22]。其三基于系统反持久性分析,如Hurst指数指示癫痫未发作信号的持久性低于发作期[23]。很多学者只对一个或者几个特征指标进行研究,需要综合多特征全面研究。
(3)双变量线性度量
癫痫放电往往从某一区域起源,随着放电的持续进行不断向周围传播。使用双变量方法能够有效地跟踪前期发作状态。其中最常用的是互相关分析,用于量化2个时间序列的互相关系数,进而提取等效宽度等指标[24]。Bandarabadi[25]等将光谱功率的使用扩展到双变量方法,量化不同频带和信道之间的跨功率信息。
(4)双变量非线性度量
研究表明在发作过程中非线性系统的同步性必然高于未发作时期。Acharya等人回顾了4种同步性度量(最大互相关指数,非线性相互依赖性,短期Lyapunov指数差异性)作为EEG特征来进行预测[26]。 Mormann等比较了8种不同的双变量非线性特征,发现平均相位相干指数和条件概率指数表现较好[27]。但是计算的同步性也只是延迟一定时间的同步。
2.2.4预测 在以上基础上提出了癫痫发作预测研究的核心算法,分别是基于阈值预测和标签多分类问题。
(1)阈值预测
癫痫预测的重点在于区分不同时期的状态变化,因此根据发作间期设定正常阈值,通过发作前期是否超过阈值来判断。Aarabi 和He计算发作间期的特征值确定阈值置信区间,设置三次阈值,如果发作前期特征值超过该阈值,则标记发出预警[28]。Zhang通过设置正常脑电数据医学参考值确定最优导联下的阈值,一旦发作前期的特征值偏离医学参考值范围,就有理由相信这段数据异常从而来进行预测[29]。见图4。
图4基于阈值的癫痫预测算法图
Fig4Methodsforseizurepredictionbythreshold
(2)分类预测
对数据进行标注转化为分类问题。使用若干种分类器,包括径向基网络,BP网络,Elman网络以及贝叶斯网络等比较预测癫痫发作的性能[30]。支持向量机是应用有效的方法,同时敏感支持向量机用来处理不平衡采样数据[31]。随着深度学习的崛起,开始出现部分使用深度学习来进行癫痫预测的研究,例如,IBM公司使用深度卷积神经网络预测癫痫发作[32]。2014年Kaggle癫痫发作预测挑战赛其top3中第一名使用人工特征+随机森林方法,第二名使用的即是深度学习方法[33]。这些基于机器学习方法的预测,为癫痫研究奠定了基础。
图5癫痫发作自动预测流程图
Fig5Flowchartofautomatedseizureprediction
2.2.5性能评价 (1)性能描述
如果报警后在控制范围内实际出现了发作,称之为正确预测;否则是错误预测。常采用敏感度、特异、准确度等和错误预测率评估[34]。敏感度通常被量化为发作前期正确分类的概率;特异度指在未发作片段内其最终未发作的概率;准确度指正确分类的样本占总样本比例;错误预测率指如果癫痫实际发作了,在预测范围内发作没有报警的概率[35]。
(2)统计检验
测试模型性能是否优于偶然预测十分重要。一般包括基于蒙特卡罗的数值验证和随机预测器分析验证[36],其中基于蒙特卡罗模拟提出发作时间替代概念来弥补性能统计验证。该方法由随机洗牌原发性发作时间,以产生人为设定时间进行性能比较。但此种方法容易增加虚假预测率。而第二种是从得到的分析结果进行比较(随机或周期性)预测方案[37]。通过预测算法与其比较,确定其统计学意义,排除随机干扰。
基于上述回顾了癫痫发作预测框架中出现的整体框架以及不足。随着信号处理和人工智能技术的进步,对于癫痫研究来说有更多的可能性。
从数据收集的角度出发,允许高采样率和高频振荡(80~500 Hz)的检测,获取大样本数据量来实现大数据分析处理。并且现在也出现了多模态数据,包括图像,视频,电子病历等,如何融合这些信息进行数据挖掘也是一大难点。
在癫痫发作预测研究中需要选择合适的电极。目前临床使用的是32导联,科研使用64~128导联,并且以后导联数目会不断增加。但并不是所有导联都是必须的,比如针对于局灶性癫痫其发作区域固定在某一大脑范围。
目前预测模型还是小样本人工特征+机器学习方法,缺乏统计验证。深度学习具有强大的自学习能力,其中卷积神经网络可以自动学习原始脑电特征,循环神经网络考虑到时间顺序来进行输出,墨尔本大学癫痫研究中心提出从EEG数据集解读与癫痫发作有关的电活动类似于计算机视觉领域的对象识别任务。
从回顾中可以看出,在癫痫发作预测框架中的每个模块可以在未来进行改进,重要的是采取这种全面的发作预测框架来实现更可靠准确的性能表现。