基于人工智能算法的脑卒中溶栓药物精准治疗:真实世界研究

2023-03-24 05:27沈惠文林永忠陈淑良张立红马春野马得原张策
中国全科医学 2023年17期
关键词:准确度溶栓神经功能

沈惠文,林永忠,陈淑良,张立红,马春野,马得原,张策*

缺血性脑卒中(ischemic stroke,IS)起病急,治疗时间窗窄,治疗效果影响因素复杂,因此快速诊断患者病情、评估及给予治疗方案是关键。现认为静脉溶栓是最主要的恢复IS患者血管血流循环的方式,常使用的静脉溶栓药物主要有阿替普酶和尿激酶,而患者自身情况各异,且治疗方式、给药种类、给药剂量、给药方式均会影响患者的溶栓效果。Wide&Deep模型的核心是将深度神经网络具备的泛化性和线性模型的记忆性能相结合,目的是为了能够较大程度提升模型的预测性能[1],同时解决“记忆”和“泛化”的问题。“记忆”是指在面对大量离散稀疏的特征时,将特征进行非线性转换,使其具有可解释程度强等优点。但随模型复杂程度增加,记忆能力增强,模型易出现过拟合的情况。而“泛化”恰好能缓解该类问题,“泛化”是稀疏特征学习低维的密集嵌入来捕获特征之间的相关性,即将高维度向量转换到低维度空间中,需要较少的工作量。因此采用大数据的学习方式,根据已经采用某一方案溶栓的患者预后,反推干预手段,从而建立以患者特征、干预手段及其他影响因素为输入变量,预测治疗效果为输出变量的大数据算法,包括Wide&Deep、支持向量机(SVM)、分类回归树(CART)、C5.0决策树、深度神经网络(DNN)等。

目前,医学大数据多集中在医学影像方面[2-4],在临床辅助诊断和监测方面的研究尚少见。溶栓药物研究多集中于溶栓药物的临床效果观察[5-6]、用药效果及安全性分析[7-8]、溶栓效果影响因素[9-12]方面,样本量多为数十到数百不等。针对溶栓治疗方法的人工智能算法尚未见报道。本研究尽可能多的纳入混杂因素,如高血压、冠心病等既往病史,同时利用人工智能的有效算法,更全面的探讨了溶栓影响因素,也降低了混杂偏倚,以期在真实世界背景下,增加人工智能用药推荐模型的适用性。在IS患者入院时,根据患者的不同特点,由模型算法推荐最优治疗方法及给药方案,如用药剂量、用药种类及给药方式等,同时算法转化后应用于临床,以期对患者的识别、治疗方法的动态监测与调控、诊断操作的自动与精准提供有益探索。

1 对象与方法

1.1 研究对象 采用回顾性研究方式,从大连医科大学附属第二医院医渡云科研大数据服务器系统提取本院确诊为IS的患者(n=55 621)的临床信息,时间为2001-01-01至2021-12-31。IS患者纳入标准:(1)年龄>18岁,男女不限;(2)根据神经影像学诊断为脑部存在责任缺血病灶;(3)患者入院及出院时美国国立卫生研究院卒中量表(NIHSS)评分完整;(4)具有溶栓指征。排除标准:(1)关键数据严重缺失,如用药剂量、治疗方式等数据不能回溯;(2)伦理批件中规定为未脱敏对象。依据纳入标准筛选后,最终共纳入IS患者1 855例。

依据每位患者入院与出院时NIHSS评分差值评价患者溶栓效果,并将患者分为神经功能改善组(差值≥4分[13],n=1 236)和对照组(差值 <4 分,n=619)。

本研究经大连医科大学附属第二医院伦理委员会批准(大医二院伦字〔2020〕043)。

1.2 研究指标 经3位神经内科高级职称专家背对背推荐,并结合查阅IS诊治指南及文献,整理可能与IS发作后溶栓效果相关的影响因素,归类为患者一般特征、用药指标、检查指标、检验指标、治疗方式5类,共85个影响因素。首发及复发IS、合并颅内出血作为混杂因素进行控制。

1.3 研究方法

1.3.1 主成分分析 主成分分析是基于各个变量间的关联关系,利用数据降维的方式,将多个相关联的变量降维成几个少数变量,原始指标的大部分信息能通过主成分反映[14]。本研究中利用主成分分析法进行降维处理,以提高模型的预测效率。

1.3.2 Wide&Deep模型构建与评价 Wide&Deep模型中,Wide模型为以y=wTx+b为形式的广义线性模型,y是模型预测目标,x=[x1,x2,…,xd] 是模型中特征向量,w和b为利用极大似然法计算得到的估计参数;Deep模型为前馈式神经网络模型。结合两类模型的优势,让模型兼具“泛化能力”和“记忆能力”。Wide&Deep模型结构见图1。同期构建SVM、Logistic回归模型、C5.0决策树、CART、DNN等模型,计算模型准确度、灵敏度、召回度等指标对模型进行评价比较,其中准确度是分类正确的样本占总样本个数的占比,精确度是预测为阳性的样本中实际也为阳性的样本占比,灵敏度是实际为阳性的样本中预测也为阳性的样本占比,由于灵敏度同召回度的计算方式及结果相同,在后续结果展示中省略该指标,综合评价各项模型评价指标选择最佳算法。

图1 Wide&Deep模型结构Figure 1 The spectrum of the Wide&Deep model

将全部原始数据进行分割处理,随机数为7和11,随机分为训练集(1 113例)、验证集(371例)、测试集(371例),其中训练集用来构建和训练模型以发现规律,验证集用来调整模型参数,测试集用来评价最终模型的泛化能力。提取本院IS患者的临床信息,以溶栓治疗后患者神经功能是否改善作为输出变量(y),输入变量为用药种类(尿激酶/阿替普酶/无)、单次剂量、病因分型、溶栓时间窗等26个影响因素。

设定模型训练轮次为100次,建模完成后,披露建模及模型准确度情况。报告网络层内核心部分kernel和偏倚度bais收敛性能,描述三维坐标系中数据点的分布情况,判断数据空间分布的聚类性。计算模型准确度、召回度、F指数等评价指标,全面评价模型。

1.3.3 寻找Wide&Deep模型最优参数 使用GridSearchCV方法寻找模型最优参数,在最优参数范围内细微调整Wide&Deep模型中激活函数种类,分别为Relu和Sigmoid;隐藏层层数分别为1层、3层、5层、7层;隐藏层神经元个数分别为10、15、30、300。分别设定比较不同条件下模型训练集、验证集、测试集准确度,最终选定网络结构中各个参数。

1.3.4 模型自变量简化 面对IS患者具有溶栓的紧迫性、时间的复杂性、用药方案多样性、干扰因素数量多等特点,本研究针对单因素筛选中有统计学意义的因素进行特征工程处理,提取主要影响因素,根据权重大小比较各个因素的重要性程度,以增加模型反应性和实用性。按照各因素权重大小由高到低排序,提取累积百分比<90%的变量,构建简化模型并评估其模型准确度。

1.3.5 Wide&Deep模型外部验证 采用大连医科大学附属第二医院IS患者数据建模后,以大连市中心医院的医渡云科研大数据服务器系统中IS专病数据库的IS患者的临床信息进行外部验证,共提取到3 925例患者的临床信息,评估构建的Wide&Deep模型的预测及泛化能力,评价指标为模型准确度情况,研究技术路线见图2。

图2 研究技术路线Figure 2 Technical route of the study

1.4 统计学方法 采用SPSS 13.0统计软件进行数据插补及单因素筛选,针对血小板计数、低密度脂蛋白胆固醇(LDL-C)、同型半胱氨酸等字段构建CART模型填补缺失值。对85个影响因素进行单因素筛选,除纳入统计学结果有意义的指标外,还结合神经内科高级职称医师推荐指标,共同作为分析变量纳入主成分分析中,其中符合正态分布的计量资料以(±s)表示,两组间比较采用两独立样本t检验,不符合正态分布的计量资料以M(QR)表示,两组间比较采用秩和检验,连续型变量包括年龄、单次剂量、白细胞计数等54个指标;计数资料以相对数表示,组间比较采用χ2检验,分类变量包括性别、高血压、是否使用抗血小板药等31个指标,以P<0.05为差异有统计学意义。利用Python 3.7进行主成分分析,利用主成分因子构建人工智能模型。使用Python 3.7中的Tensorflow和Keras模块构建DNN和Wide&Deep人工智能模型,寻找模型的最优参数,绘制受试者工作特征(ROC)曲线。同期构建Logistic回归模型、SVM、CART等模型,分别计算6种模型的准确度、精确度、召回率等指标进行模型的评价。

2 结果

2.1 建模数据集和单因素筛选 纳入的1 855例IS患者的筛选流程见图3,研究因素共85个。将全部影响因素分为一般特征、用药指标、治疗方式、检查指标、检验指标5个方面,结合临床专家意见,纳入26个因素构建模型,具体为:年龄、糖尿病患病情况、心房颤动(简称房颤)患病情况、动脉粥样硬化患病情况、出血性疾病史、脑血管病史、高血压患病情况、溶栓药物的单次剂量、用药种类、给药方式、溶栓时间窗、是否使用抗血小板药物、是否使用抗凝药物、是否使用其他活血化瘀药物、是否进行取栓手术、是否桥接治疗、入院NIHSS评分、血小板计数、LDL-C、胱抑素、同型半胱氨酸、责任血管狭窄程度、是否有局灶神经功能缺损、梗死部位、梗死面积、病因分型。责任血管狭窄程度:轻度狭窄为狭窄程度<50%,中度狭窄为狭窄程度50%~69%,重度狭窄为狭窄程度70%~99%;局灶神经功能缺损为IS患者出现无力、麻木、语言障碍的症状[8]。

图3 研究对象纳入流程图Figure 3 Flow chart of inclusion and exclusion of the participants

对照组和神经功能改善组患者年龄、糖尿病患病情况、房颤患病情况、动脉粥样硬化患病情况、出血性疾病史、脑血管病史、高血压患病情况、溶栓药物的单次剂量、用药种类、给药方式、溶栓时间窗、是否使用抗血小板药物、是否使用抗凝药物、是否使用其他活血化瘀药物、是否进行取栓手术、入院NIHSS评分、血小板计数、责任血管狭窄程度、是否有局灶神经功能缺损、梗死部位比较,差异有统计学意义(P<0.05);对照组和神经功能改善组患者桥接治疗情况、LDL-C、胱抑素、同型半胱氨酸、梗死面积、病因分型比较,差异无统计学意义(P>0.05),见表1。

表1 对照组和神经功能改善组患者一般特征、用药指标、治疗方式、检查指标、检验指标比较Table 1 Comparison of general characteristics,medication indicators,treatment methods,examination indicators and test indicators between the control group and the neurological function improvement group

2.2 主成分分析结果 将26个影响因素降维成2个主成分,方差贡献率分别为65.6%和27.5%,累积方差贡献率为93.1%,见表2。

表2 26个影响因素总方差解释Table 2 The percentage of total variance explained by 26 influencing factors of thrombolytic effect

2.3 不同数据挖掘模型分析比较 采用Logistic回归模型、C5.0决策树、CART、SVM、DNN、Wide&Deep模型评价26个影响因素对IS患者溶栓治疗后神经功能改善的影响,结果显示,Wide&Deep模型准确度、精确度、特异度、F指数最高(表3),表示Wide&Deep模型评价最佳。

表3 Logistic回归模型、C5.0决策树、CART、SVM、DNN、Wide&Deep模型评价IS患者溶栓治疗后神经功能改善的价值Table 3 The value of Logistic regression model,C5.0 decision tree arithmetic,CART,SVM,DNN and Wide&Deep model in evaluating the improvement of neurological function in ischemic stroke patients after thrombolytic therapy

2.4 Wide&Deep模型参数及准确度情况 分别以Relu、Sigmoid作为激活函数探索模型最佳隐藏层层数,调整隐藏层层数为1、3、5、7层,调整每层神经元节点数为10、15、30、300个,以大连医科大学附属第二医院确诊为IS的患者作为研究对象构建Wide&Deep模型,比较训练集、验证集、测试集模型准确度,最终最优参数为以Sigmoid作为激活函数,隐藏层层数为7层,隐藏层中神经元节点数最佳为15个,见图4。

图4 优化Wide&Deep模型的最优参数Figure 4 Optimal parameters of the Wide&Deep model after optimization

Wide&Deep模型训练集准确度达到0.816,验证集准确度达到0.828,测试集准确度达到0.844,模型准确度较高。模型准确度曲线如图5。

图5 Wide&Deep模型准确率曲线Figure 5 Accuracy curve of the Wide&Deep model

IS患者中训练组ROC曲线下面积为0.753,测试组ROC曲线下面积为0.793(图6),表明Wide&Deep模型具有良好的预测性能和泛化能力,模型没有出现过拟合情况。

图6 Wide&Deep模型预测训练组和测试组IS患者溶栓治疗后神经功能改善的ROC曲线Figure 6 ROC curves of the Wide&Deep model in predicting the neurological function improvement in ischemic stroke patients in training group and test group after thrombolytic therapy

2.5 经特征工程的自变量简化及外部验证结果 IS患者溶栓治疗后神经功能改善影响因素的特征工程分析结果显示,用药种类、给药方式和用药剂量的重要性排序均在前列,重要性排序由大到小分别为:是否有脑血管病史、用药种类、给药方式、单次剂量、动脉粥样硬化、溶栓时间窗、是否使用抗凝药物和活血化瘀药物等,表明药物因素在IS患者治疗效果中占重要作用(表4)。为更好地应用模型,进行模型自变量简化,得出Wide&Deep模型准确度为0.819,外部验证模型准确度为0.800,表示Wide&Deep模型后仍具有较好的泛化性及预测性能。

表4 经特征工程得到影响因素重要性排序结果Table 4 The importance ranking of influencing factors for thrombolytic effect obtained through feature engineering

3 讨论

3.1 人工智能算法在药物选择中的应用 本研究采用Wide&Deep模型能够解决从患者溶栓影响因素到临床中患者神经功能改善的有效预测,模型测试集预测准确率达到0.844。IS患者溶栓影响因素中包含用药种类、单次剂量、给药方式等治疗方案,通过结合患者个体特征和用药方案指标,就可以把不同溶栓用药方案的治疗效果推荐给临床医生,供临床决策辅助使用,让更多患者获益。本研究构建出6种模型(表2),综合模型评价指标,选择Wide&Deep神经网络为模型算法,作为本研究的人工智能模型。本研究引入了Wide&Deep神经网络算法,在既往研究中尚少见[15],其模型核心是将深度神经网络具备的泛化性和线性模型的记忆性能相结合,较大程度上提升模型的预测性能。

3.2 IS溶栓治疗结果的影响因素分析 目前研究多集中在溶栓药物的临床效果观察,溶栓药物的效果和安全性分析,溶栓效果影响因素研究等方面,样本量多集中在数十到数百不等。临床疗效观察中,多采用前瞻性研究,分为基础治疗组和加用溶栓药物组,针对疗效结果进行统计比较,所得结果多是列出溶栓药物的疗效,而针对溶栓治疗方法的选择,如给药剂量和方式等探讨尚未见报道。在影响因素探索方面,现有研究多采用多因素Logistic回归分析方法[10-11],通过单因素筛选,得到有意义的影响因素后进行多因素回归分析,得到最终的影响因素,但基于大数据算法和真实世界全数据研究的相关文献尚少见。本研究通过预测模型程序,输入患者的相关因素,其中包括穷举溶栓药物治疗方案,包括溶栓药种类、单次剂量、给药方式等,就能通过模型寻找出最佳给药方案组合,为临床医生的决策提供理论参考,提升缺血性脑卒中治疗效果,实现对缺血性脑卒中患者的个体化精准治疗,对减轻疾病社会负担具有积极意义。

本研究经特征工程模型自变量简化后,得到IS患者治疗后影响其溶栓效果的重要因素,分别为用药种类、给药方式、单次剂量及是否有脑血管病史等。其中,是否有脑血管病史在特征工程结果中得到权重为988.87,居于第1位,有研究表明,有心脑血管疾病史的患者更易发作IS,如出血性脑血管病、缺血性脑血管病、脑供血不足、高血压脑病、动脉粥样硬化或狭窄等,易引起脑血管血流变化,是IS发作的重要诱因[16]。在分析影响IS患者溶栓治疗效果因素的单因素筛选时,得到用药因素中用药种类、给药方式、单次剂量在神经功能改善组和对照组中差异明显(P<0.001),表明用药因素对于患者溶栓治疗效果的影响均较大。由特征工程模型自变量简化结果得到,用药种类权重居于第2位,权重大小为670.44,所占百分比为22.68%。本研究中针对静脉溶栓药物,研究团队纳入阿替普酶和尿激酶作为主要研究药物,对IS发作在4.5 h以内的患者,应按照适应证、禁忌证等严格筛选患者,并给予重组人组织型纤溶酶原激活物(rt-PA);IS发作6 h内给予尿激酶,相对安全有效,但其适应证、禁忌证等均有待更新与修订[17]。本研究能够根据患者个体化特点,针对不同溶栓时间窗、患者NIHSS评分、血糖水平等给出临床用药种类的推荐方案。给药方式权重居于第3位,权重大小为510.73,所占百分比为17.28%,在给予患者静脉溶栓过程中,给药方式分为两种:静脉推注或使用泵入,使用泵入时要求抽取10%药物在1 min内静脉推注,其余药物在1 h内静脉泵入完成,因此给药方式也是研究团队想要给出的药物溶栓治疗方案的因素之一,提供用药方式参考,以达到较好溶栓效果。单次剂量权重居于第4位,权重大小为142.85,所占百分比为4.83%,诊治指南中推荐rt-PA给药正常剂量为0.9 mg/kg,或给予小剂量rt-PA 0.6 mg/kg,小剂量rt-PA出血风险小于正常剂量[17],但未见降低患者治疗后致残率,需考虑患者病情严重情况、出血情况等进行个体化决策。使用尿激酶作为静脉溶栓药物时,推荐使用应用剂量为100~150 U,本研究构建人工智能模型,旨在纳入新的患者时能够推荐最佳溶栓药物剂量。当有新患者进入人工智能模型后,模型经算法运行,可结合患者自身情况给出治疗时用药种类(阿替普酶和尿激酶)、单次剂量及给药方式(使用泵或静脉滴注)等,辅助临床决策。

3.3 人工智能与未来医药 伴随大数据与人工智能产业不断升温,人工智能技术正逐渐渗透人们的日常生活中。在医疗卫生领域,人工智能正进一步拓宽其发展空间及应用前景,展现出愈发重要的应用价值,助推医疗事业正向发展,如病理诊断、辅助诊疗、医学影像识别、药物研发等[18]。相信在医疗卫生事业发展中,人工智能将与医疗进一步融合,成为辅助医护人员诊疗决策的重要支撑[19]。

3.4 IS治疗紧迫性及社会负担 卒中对全球经济影响巨大,根据《心脏病和脑卒中2020年统计更新》[20]统计,由脑卒中带来直接和间接经济损失达4 550万美元,预估直接医疗费用高达2 800万美元。在我国,脑卒中是仅次于癌症的第2位致死性疾病。本研究针对IS患者的不同特征,为其选择溶栓方案提供参考,深入研究影响溶栓的因素,为IS卫生经济学决策提供数据支持,并为不同特征患者优选出临床决策方案,从而以较低成本获得较高的治疗收益。

本研究尚存在一定的不足,本研究纳入了1 855例IS患者的临床数据构建模型,Wide&Deep模型的准确度可达到0.815,模型准确度及预测性能较好,若纳入更多患者数据,模型准确度可以进一步提高。此后,本团队将纳入更多中心数据进行外部验证,进一步对模型的预测性能进行评估,对模型持续调整。

综上所述,人工智能算法结果显示,影响溶栓效果的因素排序由大到小分别为:是否有脑血管病史、用药种类、给药方式、单次剂量、动脉粥样硬化、溶栓时间窗、是否使用抗凝药物和活血化瘀药物等,能够为临床决策提供参考实现对IS患者的个体化精准治疗,对减轻疾病社会负担具有积极意义。

作者贡献:沈惠文负责数据收集和整理,统计学处理,并撰写论文初稿;林永忠提出主要研究指标;陈淑良负责纳排标准的制定;张立红负责究对象的选取;马春野负责论文修订;马得原负责数据收集和整理;张策负责研究的质量控制及审校,并对研究负责;所有作者确认了论文的最终稿。

本文无利益冲突。

猜你喜欢
准确度溶栓神经功能
间歇性低氧干预对脑缺血大鼠神经功能恢复的影响
幕墙用挂件安装准确度控制技术
精确制导 特异性溶栓
动态汽车衡准确度等级的现实意义
一款基于18位ADC的高准确度三相标准表的设计
急性脑梗死早期溶栓的观察与护理
不同程度神经功能缺损的脑梗死患者血尿酸与预后的相关性研究
辛伐他汀对脑出血大鼠神经功能的保护作用及其机制探讨
改良溶栓法治疗梗死后心绞痛的效果分析
CT灌注成像在rt-PA溶栓治疗急性缺血性脑卒中的应用价值