基于LightGBM算法的癫痫状态识别

2021-12-17 11:18唐淇李丹李原吉
电子测试 2021年22期
关键词:梯度癫痫准确率

唐淇,李丹,李原吉

(四川大学锦城学院,四川成都,611731)

0 引言

癫痫又被称为羊角风或者羊癫疯,是大脑神经元异常放电,导致短暂的大脑功能障碍的一种慢性疾病,据中国最新流行病学资料显示,国内癫痫患病率为7.0%,年发病率为28.8/10万,1年内有发作的活动性癫痫患病率为4.6%。据此估计中国约有900万左右的癫痫患者,其中500~600万是活动性癫痫患者,同时每年新增加癫痫患者约40万,在中国癫痫已经成为神经科仅次于头痛的第二大常见病。因为其具有的不确定性和反复发作特点,癫痫状态识别不仅可以用于检测患者是否发病,还可以对癫痫电磁刺激疗法提供支持,对于一个闭环的电磁刺激控制系统,对癫痫病发作状态应具有较好的识别准确率以及实时性[1]。

以前采用脑电图进行癫痫的诊断与定位,主要靠有经验的神经电生理师对海量的信号进行人工分析,后来人工智能快速发展,出现了使用神经网络对癫痫状态识别的算法,平均准确率到达了91,04%,基于个性化模型对癫痫状态识别准确率可以到到96.43%[2]。但是脑电图的截取片段一般是1维的数据信息,而卷积神经网络一半对二维以上的数据拥有更好的学习效果,所以本文通过使用机械学习中非常优秀的算法LightGBM来进行预测。LightGBM是一种基于决策树和boost思想的梯度提升树模型,对表格化数据拥有非常高效且广泛的应用。该模型具有收敛速度快,准确率高以及泛用性广的优点。

1 方法

1.1 癫痫状态识别系统

为了实现癫痫病发作时的高效快速检测,本文使用基于LightGBM算法的模型进行训练和预测,具体流程图如图1所示。

图1 癫痫状态识别系统框架

脑电分析图是判断癫痫状态的主要手段,在医院中,专家通过学习大量患者和正常人的脑电图并分析其中的规律,然后在实践中通过分析被检测人的脑电图进行判断被检测人是否患病,此系统模拟了专家进行学习后判断的功能,该系统在波士顿癫痫病数据集上表现十分优秀,能够快速识别被检测人是否患病。

该系统首先使用脑电检测仪对用户进行脑电信号采样,采样数据为12位,采样频率为173.61Hz,然后将采样的信号进行预处理,将其中干扰波段去除保留正常频率,切割成多个包含173个数据点的单通道表格数据信息,然后使用已经训练好的LightGBM模型进行预测,将测试结果返回给用户。由于LightGBM具有非常快速且高效的特征,所以能够快速且准确的返回输出结果。

1.2 GBDT

GBDT的全称为Gradient Boosting Decision Tree,梯度提升决策树,是一种基于CART回归树和boosting思想的提升树。梯度提升方法是一种有监督集成方法,将多个模型产生的全部输出进行加权平均。GBDT的选择特征是基于CART回归树的生成,框架服从boosting框架。GBDT能够自动地根据特征对模型的贡献来进行选择[3]。

GBDT是一种采用cart作为弱分类器的梯度提升算法,允许多个不同的判断条件将不同特征关联起来,适合于产生不同结果的特征联合[4]。

基本的过程为1、初始化弱分类器,2、对每个样本进行负梯度的计算,3、将上一步得到的负梯度和预测值作为下一颗树的输入值,得到一颗新的回归树,3、对所有的叶子结点进行最佳拟合值的计算,更新强学习器与弱学习器相应的权重,重复上面步骤知道循环结束。

GBDT在通常的一般都是由循环次数决定模型复杂度,但是也有其他的参数进行复杂度限制,通常经过k次循环的GBDT将会有k个弱学习器,同时将将前一个残差和预测值作为下一个弱学习器的输入,然后增加决策树用来减少误差,使得损失在每次迭代中沿负梯度方向减少[5]。

1.3 LightGBM

在已有的XGBoost和pGBRT两种梯度提升方法,面对数据特征和数量庞大的情况下,效率以及泛用性不及LightGBM能够使用GOSS和EFB两种技术的提升能力[6]。

LightGBM对于GBDT的划分,则是采用了两种方式的合并,一个是GOSS,另一个是EFB。由于GBDT 采用预排序方法(Pre-sorted)进行迭代,所以需要遍历整个数据集多次,导致其空间和时间复杂度较大,而LightGBM的提出GOSS和EFB用来解决了GBDT无法处理大规模数据的问题。[7]使用基于深度限制的 Leaf-wise叶子生长策略每次迭代从当前所有叶子节点中,找到分裂增益最大的叶子节点进行分裂,降低了误差[8]。

GOSS在迭代前,利用样本梯度和误差的关系,对训练集采样,误差大的数据保留,误差小的数据采样子集,将子集数据设置权重,使得子集近似于误差小的数据的全集。这种方法不损失误差大的样本,同时没有改变其分布,并且加速了训练。EFB是一种直方图的方式,可以无损降低GBDT中需要遍历的特征数量,减少了时间的开销,利用的是一种独立捆绑的技术。遍历训练样本所有特征进行特征绑定冲突率计算,根据阈值来选择特征,由稀疏状态变为密集状态[9]。

2 实验及结果分析

2.1 数据集

该数据集是由5个健康人和5个癫痫患者的脑电数据构成的,共包含有5个数据子集,分别是F、S、N、Z、O。波恩数据集为单通道数据集,其中每个子数据集都包含100个数据片段,每个数据片段的时间长度为23.6秒,数据点为4097个。信号的分辨率为12位,采样频率173.61Hz。

每一个子集包含100个长度为23.6秒,采样频率173.61Hz的单通道EEG。这些片段被从长程多通道EEG上人工剪切下来。在剪切过程中,一些可能存在的干扰被同时去除,这些干扰包含肌动伪迹,眼动伪迹,等等。

2.2 数据集预处理

本次实验使用参考的原始数据集由5个文件夹组成,每个文件夹包含100个文件,每个文件代表一个人的脑波图23.6s,去除干扰波段保留正常脑电波频率0.1-50hz总共4097个数据点,并对数据进行分块处理,即划分时间窗口,分割混洗为23块,每块包括178个数据点即1s,每个数据点是在不同时间记录的EEG值,所以处理后的数据为23*500共11500条信息,每条信息包括178个数据点即1s的信息,识别结果为1正常,2癫痫发作

2.3 调参优化

基础参数:学习率为自适应学习率,训练40轮,基学习器GBDT,boosting为dark继承,其余为默认参数。

表1 参数调整对测试集准确率的影响

图2 参数调整对loss函数的影响

num_leaves参数主要控制树的复杂程度,值越小复杂程度越低,但是每次选取特征时不一定会到达最大叶子树,所以一般超过30复杂程度基本不会改变。

max_depth参数主要控制每棵树的深度,该参数可以直接控制模型的复杂度,深度越深模型越复杂,越小模型越简单,所以可以找到一个峰值,记录该峰值。

feature_fraction参数用于控制选取特征比例,值越大则模型越复杂,值越小则模型越简单,所以也可以找到一个峰值,记录该峰值,max_bin参数越小模型训练速度越快,该参数调大后模型会越复杂。

2.4 结果以及分析

通过调参后优化参数如下:学习率自适应,循环45次,num_leaves=31,max_depth=8,feature_fraction=0.7,max_bin=10。得到的训练集准确率为0.9874,测试机准确率为:0.9707。

图3 参数调整后损失函数与epoch关系

相比于1D-CNN网络测试集平均准确率为90.73%[2],XGBoost测试集平均准确率为97.75%[10],lightGBM算法的准确是非常高的,和XGBoost一样属于GBDT的改进分支,XGBoost使用了二阶泰勒展开式将残差进一步优化,lightGBM使用GOSS技术来优化梯度下降方式,这两种基于决策树以及boosting思想的算法对这种一维线性表格数据具有很好的预测效果,相比于使用深度学习来提取特征的方式,两种决策树都将所有特征都送入学习,在训练中自己筛选特征,并修改权重,这种方式的效果会更好。而XGBoost相比于LightGBM速度会下降一些,而LightGBM则是兼顾了速度与准确率,虽然准确率稍差大概0.7%,但是速度要比XGBoost快得多,相同条件下,LightGBM比XGBoost快了一个数量级。

而在调参的时候发现,LightGBM的大部分参数都拥有调整树形结构的功能,从调整叶子数量,树的深度,最大特征数,选取特征比例这几个参数都能控制书的结构复杂度,需要进行多次调试,控制变量法虽然可以找出每个参数的相对最优解,但是组合起来并不一定是最优解,因为参数之间也有相互的影响关系,例如num_leaves和max_bin的调整影响非常接近,但是控制变量法可以最短的时间寻找到一个相对较好的解,在此基础上进行微调即可。

3 结论

本文提出一种使用LightGBM算法的癫痫状态识别系统,以提高癫痫状态识别的准确率和速度,深度学习神经网络具有非常优秀的特征提取能力,对于高于1维的数据都有非常良好的适应能力,而基于GBDT的两种机械学习算法XGBoost和LightGBM对1维的数据具有更好的适应能力,并且训练的速度会更快,其中最快的是LightGBM,准确率最高的是XGBoost,对于少量或者大量的1维数据信息使用XGBoost效果最好,对于海量的1维数据信息则使用LightGBM效果最好最好,而深度学习神经网络则更加适用于高维度的数据信息。

猜你喜欢
梯度癫痫准确率
一个改进的WYL型三项共轭梯度法
癫痫中医辨证存在的问题及对策
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
一种自适应Dai-Liao共轭梯度法
一类扭积形式的梯度近Ricci孤立子
高速公路车牌识别标识站准确率验证法
玩电脑游戏易引发癫痫吗?
左氧氟沙星致癫痫持续状态1例