机器学习在脑卒中预测中的研究进展

2022-11-03 04:27李洁洁张雁儒李昊杨越
河南医学研究 2022年20期
关键词:向量机器预测

李洁洁,张雁儒,李昊,杨越

(河南理工大学 医学院,河南 焦作 454000)

脑卒中是一项影响国计民生的公共卫生问题,是全球第二大致死原因,每年约有660万人死于脑卒中,严重影响患者的生命和生活质量[1]。近年来,机器学习作为一门交叉学科,被广泛应用于医学领域。利用机器学习对脑卒中进行及时的预测,具有重要的临床意义,可以帮助医护人员做出临床决策,优化医疗资源配置,对患者危的险因素及时干预,降低脑卒中的患病率和致死率。

因此,了解机器学习在脑卒中研究中的应用进展,可以为机器学习的进一步应用提供参考。本文重点对近年来机器学习在脑卒中复发、预后和恢复预测方面进行综述。

1 机器学习算法的应用

机器学习是一门研究如何使用计算机程序模拟人类学习活动的学科[2],是人工智能的一个重要子集,主要用于分析结构化数据[3]。在大数据时代,机器学习算法的使用大大提高了分析海量临床数据的能力,将医生从大量信息中拯救出来,有助于快速做出临床决策。它在生产率、效率和医疗服务的地域覆盖范围等方面的提升[4],也是医疗人员研究机器学习的重要原因。

通过文献检索,发现将机器学习用于脑卒中研究始于2005年[5]。脑卒中研究中多是不平衡数据,而机器学习方法是预测不平衡数据的有效工具[6],弥补了这种不对称。通过回顾性或前瞻性研究,将数据分为训练集和测试集,开发出基于不同机器学习算法的预测模型。通过两种方法对开发出的预测模型的性能进行评价:一种与传统脑卒中预测评分相比较;另一种与不同机器学习算法所建立的预测模型比较。评价标准:受试者工作特征曲线下面积(area under the curve,AUC)、特异度、敏感度、准确性、召回率、F1-score等。在评价结果上,利用机器学习算法开发的预测模型的性能要优于传统预测模型[7-8]。在不同数据样本下,同一机器学习算法会得到不同的预测效果,性能高低也不同。根据机器学习的常用算法,列出被比较算法,汇总关于脑卒中最优机器学习算法的AUC值和样本量大小,具体如表1所示。

目前,机器学习在脑卒中的研究颇多,也被证明对脑卒中研究有重大价值[14-16]。如预测药物治疗效果[17-18]、脑卒中后肺炎[19]、预测脑卒中最终病变[20]、辨别缺血性脑卒中亚型[21]、对脑卒中患者进行焦虑分析[22]等。机器学习的主要任务是预测,因此,本文重点探讨脑卒中复发、预后及恢复预测。

表1 脑卒中最优机器学习算法

2 脑卒中患者复发预测研究

有研究证明,至少1/6的脑卒中患者会在5 a内复发[23]。脑卒中一旦复发,就意味着神经功能受损更加严重、家庭负担更加巨大。控制高血压、糖尿病、脂质代谢、抽烟、喝酒等[24-26]危险因素一直是临床常用的降低复发率的方法,因此有必要根据患者的一般资料进行危险因素预测。一般情况下,1~2个危险因素可诱导脑卒中患者复发,而大数据下的机器学习可以处理危险因素间的复杂关系,处理分析能力更加优异。

利用机器学习算法对患者进行30 d、90 d、1 a以及更长期脑卒中复发预测,结果显示,在不同的数据和时间长度下,相同的机器学习算法可有不同的性能表现。有研究发现,使用随机森林、梯度增强机、极端梯度提升、支持向量机和逻辑回归5种机器学习算法对电子健康记录的患者数据进行30 d模型开发。结果显示,采用rose采样的极端梯度提升在AUC方面性能最好,AUC为0.74(95% CI为0.64~0.78)[27]。Xu等[28]对脑卒中患者进行了90 d再入院风险预测,极端梯度提升预测能力高于随机森林模型,预测模型的AUC为0.782。Hung等[29]预测90 d最优模型时,使用了8种机器学习算法,包括C4.5、分类和回归树、K近邻、逻辑回归、多层感知器、Naïve Bayes、随机森林和支持向量机,最终认为最优模型是Naïve Bayes模型,其AUC为0.661。但Chan[30]通过交叉验证,人工神经网络型预测1 a卒中复发的中位敏感度、特异度、准确性和AUC分别为75%、75%、75%和77%,其预测性能优于支持向量机和Naïve Bayes分类器。Abedi等[31]进行了一项预测5 a卒中复发研究,使用6种算法(logistic回归、极端梯度提升、梯度增强机、随机森林、支持向量机、决策树)预测卒中复发情况。结果显示,6种模型均可应用于长期卒中复发的预测,但预测时间越长,性能越低。如1 a预测窗口的最佳AUC为0.79,2、3、4、5a预测窗口的最佳AUC分别为0.70、0.73、0.73、0.69,呈下降趋势。

3 脑卒中患者预后预测研究

对脑卒中患者进行预后是困难的,但同时又很必要。利用机器学习对脑卒中患者进行预后预测在长期决策、患者治疗、医疗资源等方面起着重要作用。医护决策者在机器学习制定计划的基础上,更好地预测每个患者的患病程度,将患者家庭情况和经济条件考虑在内,与患者、亲属和医院共同作出和护理决策,制定个性化干预,改善预后。

利用5种算法[12](正则化逻辑回归、支持向量机、随机森林、极端梯度提升、K近邻)预测预后的研究中,正则化逻辑回归的效能最好,AUC为0.86,支持向量机的AUC排第2名,为0.85,所有机器学习模型的AUC均达到0.8以上,比传统评分预测模型准确性高。例如,在Chiu等[32]和Heo等[11]的研究中,将机器学习预测模型分别与DRAGON评分和ASTRAL评分相比,结果显示机器学习预测模型的性能优于后者。Li等[33]的研究发现5个机器学习模型(逻辑回归、支持向量机、随机森林分类器、极端梯度提升和全连接深度神经网络)的性能差别不大,验证了机器学习算法优于血管事件总健康风险评分和NADE列线图。Abedi等[34]利用电子健康记录的数据,基于logistic回归、极端梯度提升和随机森林3种机器学习模型预测缺血性脑卒中后的短期和长期病死率。结果显示,3种模型的AUC在0.76~0.81之间,随机森林模型在1个月时表现最佳,AUC为0.82。开发的机器学习模型的性能可以通过数据的继续训练而不断提高。有研究使用3种机器学习模型(支持向量机、随机森林和人工神经网络)和混合人工神经网络,进行10次重复保留和10次交叉验证进行评估,开发的机器学习模型的AUC均超过0.94。再通过增加后续数据,预测能力提高到0.97[35]。

4 脑卒中患者恢复预测研究

卒中后出院的患者需要长期锻炼以恢复肢体功能。出院后的护理若不成系统,会导致医疗费用增加以及面临再次入院的风险。机器学习算法可以帮助患者预测医疗资源需求,帮助护理人员做出匹配的康复计划,使有限的医疗资源达到最佳配置。

Thakkar等[13]利用K近邻和人工神经网络算法预测脑卒中患者恢复功能,K近邻模型的预测精度为85.42%,AUC为0.89,人工神经网络模型的预测精度为81.25%,AUC为0.77,证明K近邻模型性能优于人工神经网络。有研究采用决策树、Naïve Bayes、K近邻、线性判别分析、AdaBoost、支持向量机、logistic回归和随机森林8种机器学习方法,8种机器学习模型的AUC在0.830~0.887之间,其中随机森林表现最好,AUC为0.887[36]。在识别脑卒中患者的日常生活依赖性时,分类回归树模型的准确率为0.830,可以作为预测模型[37]。开发深度神经网络、逻辑回归和随机森林的3种预测模型中,深度神经网络模型预测上下肢功能的AUC分别为0.906和0.822,高于其他模型的AUC值[38]。对脑卒中患者回家可能性的分析中,机器学习算法建立了决策树、线性判别分析、K近邻、支持向量机和随机森林5种模型,基于同一数据集构建分类系统进行准确率、AUC值、F1评分以及敏感度等比较,结果显示,就模型性能而言,支持向量机(AUC为0.91)和K近邻(AUC为0.88)为优异的候选算法[9]。综上,在进行恢复预测研究时,可以使用K近邻、深度神经网络、随机森林等算法。

5 总结和展望

先进的机器学习算法有潜力改善医疗保健的获取和公平,降低医疗成本,降低诊断错误或差异,提高效率,改善医疗服务。机器学习在预测方面发挥越来越重要的积极作用,但也要正视其自身固有的弊端。利用机器学习背后可能引起某些群体的歧视及偏见[39],引发伦理问题,要求医生具备相关技能和伦理方面的知识。另外,机器学习性能高低取决于输入数据是否适合。不同数据集下的模型的性能不同,有时这些验证研究会产生相互矛盾的结果。数据量的大小影响算法的性能,通常情况下,数据量越多,模型算法的性能越好。大数据环境下,电子健康记录可以提供海量的数据,机器学习算法与电子健康记录相结合可为机器学习预测工具的开发提供平台。应根据数据集的特点选择最优的机器学习算法,在提升预测模型性能的同时可适当增加数据训练和交叉验证。机器学习正不断以一种潜在的革命方式,为医患带来新的体验。

猜你喜欢
向量机器预测
无可预测
机器狗
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
向量的分解
机器狗
聚焦“向量与三角”创新题
未来机器城
向量垂直在解析几何中的应用