汤 涛 曹 磊 曹 力 刘 强
(南昌大学第一附属医院 南昌330006)
静脉血栓栓塞症(Venous Thromboembolism, VTE)是我国常见的心血管疾病,具有高发病率、高死亡率和高漏诊率的特点[1-2]。据相关统计,每年因VTE死亡的患者占院内死亡的10%;在重症加强护理病房(Intensive Care Unit,ICU)患者、脑卒中患者及心血管疾病患者中,VTE患病率分别为27.0%、21.7%和4.0%[3-4]。在欧美国家,VTE被视为一种常见病,在一项以美国人群为基础的研究中,院内VTE患者占入院率的1.7%[5-6],出院后VTE风险持续增加45~60天。多项研究指出国内人群在骨科大手术后的VTE发生率和死亡率与西方人群无差异[7-9]。种种证据表明,VTE不仅严重降低患者生活质量,还增加国家医疗成本和社会负担。
自20世纪90年代初,国外学者[10]致力于研究各类VTE风险评估工具,目前临床应用较广泛的有Caprini评估量表、Autar评估量表、Wells评估量表。上述量表主要包括体征数据、手术史、现病史、药物使用等多方面的评估,涵盖VTE患病风险的主要因素[11]。因此建立有效的监测预警机制,提高实时分析、集中研判VTE发生的能力,在疾病发生、发展多个环节提前识别并加入临床干预是有效降低VTE对生命伤害和经济影响的重要前提。然而目前对VTE的临床判断尚基于传统的Caprini量表[12]打分,医务工作者评分含主观因素,误诊漏诊导致的VTE干预不及时等问题,使得VTE预判工作耗时、耗力,其高效性和准确性有待提升。
本文拟通过应用BP神经网络、随机森林、集成学习等多种机器学习方法,整合南昌大学第一附属医院VTE历史患者诊疗数据,一方面对VTE潜在危险因素进行挖掘分析,构建VTE危险因素指标评价体系;另一方面搭建VTE实时预警平台,对患者的VTE风险等级进行实时评估,与医院诊疗系统多终端进行快速交互,辅助临床早期诊断研判,及时采取临床干预,从而最大限度降低VTE发生率或发展率。本研究首次探索基于多机器学习方法的VTE实时预警平台搭建,辅助临床实现VTE早防早治,这对于降低VTE发病率和死亡率、提高患者生命质量具有重要的临床意义和社会价值。
选取2016年初至2021年6月南昌大学第一附属医院共2 068例VTE住院患者的历史诊疗数据,包含基本生理情况、基础疾病、检查检验、手术类型、所服药物、既往病史等维度。
2.2.1 危险因素初筛 通过文献评价及专家咨询方法,对VTE危险因素进行初步筛选,大致分为患者基本生理情况、基础疾病、检验检查、手术类型、所服药物5个方面的指标。危险因素初筛能够提高之后潜在因素挖掘的算法计算效率,同时为潜在危险因素深度挖掘提供有力的参考依据。
2.2.2 潜在因素深度挖掘 潜在危险因素是发现早期VTE患者的重要依据,基于高纬度、自适应能力强等特点的BP神经网络和随机森林模型对基础数据进行深度挖掘,分析出重要度较高的特征指标,结合上一步初筛结果形成最终的高维度VTE危险因素指标评价体系。一是BP神经网络。具有适应性强、容错性好的优点,见图1。其中x1,x1,...,xk表示BP神经网络的输入,y1,y1,...,ym表示预测输出,wij和wjk分别表示关键网络层之间的连接权值矩阵,即可理解为VTE各危险因素的权值矩阵。
从输入层到隐含层,有:
(1)
式中,σj(·)为隐含层神经元的活化函数。网络输出层可以表示为:
(2)
图1 BP神经网络架构
BP神经网络可通过前向传播和后向反馈的机制,对分类器进行反复训练及优化,同时构建出最优的危险因素权值矩阵,由此可对特征变量的重要性进行评估。二是随机森林(Random Forests,RF)。一种利用多棵决策树对样本进行训练并预测的分类器,具有准确度高、快速学习等优势,同时在构建森林时可以对特征变量重要性进行评估,见图2。基本计算方法如下:对每个决策树,通过袋外数据计算误差,记为errOOB1;随机对袋外数据样本特征X加入噪声干扰,再次计算袋外数据误差,记为errOOB2; 假设森林中有N棵树,计算特征X的重要性,记为∑(errOOB2-errOOB1)/N。若加入噪声干扰后errOOB2上升,则袋外数据准确率大幅度下降,说明该特征对于样本的预测结果影响较大,特征重要程度较高。三是集成学习。将几个机器学习算法模型组合为一个更强的分类器模型,以提高分类准确率,即多个决策者共同进行一项决策,见图3。
图2 随机森林模型架构
图3 集成学习模型架构
平台采用OracleXE数据库,基于JavaScript语言及浏览器/服务器(Browser/Server, B/S)架构进行实时预警平台搭建,部署在医院内网环境中以保证系统及数据的安全性。
3.1.1 特征提取阶段 模型共纳入1 000余项临床数据特征,在剔除频率低、共线性强的特征后,最终选取308项特征变量(如恶性肿瘤史、肿瘤家族史、卧床时长、天门冬氨酸氨基转移酶等),此特征空间远大于经典Caprini评分量表的20余项,并且可以表达不同特征间的组合,是模型准确率提升的基础。
3.1.2 预测模型构建阶段 应用BP神经网络、随机森林、集成学习等机器学习算法构建一套面向VTE的人工智能(Artificial Intelligence,AI)风险预测模型,显著提高VTE筛查的灵敏度和特异性。
3.1.3 Caprini评分量表的对比 经过对300份标注数据的验证,模型的灵敏度为80%,特异性为84%,优于传统的评分量表效果,可以作为评分量表的有效补充,减少漏诊风险,见表1。同时AI预警模型除了输出VTE风险评分外还提供该患者的危险因素和保护因素,辅助医生更好地对患者VTE风险进行研判。
表1 Caprini评分表与AI模型性能对比(%)
3.2.1 在不降低准确率的前提下,自动评分效率大幅提高 系统应用后改变了原有的人工手动评分方式,改为机器自动评分+人工审核的方式。经过与人工手动评分对比发现机器在自动评分任务中的准确率、召回率与人工手动评分相当,耗时明显减少,大幅提升医生工作效率,见表2。
表2 系统应用前后评分指标对比
3.2.2 针对风险人群的预防措施实施率显著提升 VTE智能预警平台大大提升了VTE风险人群的预防措施实施率,同时预防措施更加合理。例如对于出血风险较高患者主要以机械预防措施为主,包括分级加压弹力袜等;对于出血风险较低的患者以药物预防或药物预防联合机械预防为主,包括使用低分子肝素等,见表3。
表3 预防措施实施率对比
本文基于多机器学习方法,整合近5年VTE患者历史诊疗数据,对VTE的潜在危险因素进行深度挖掘,进而基于JavaScript语言及B/S架构进行VTE实时预警平台搭建,系统上线后使用平稳,在不降低准确率的前提下,自动评分效率大幅提高,针对风险人群的预防措施实施率显著提升。然而预警平台仍存在不足,由于VTE患者数量,即模型训练样本数量有限,模型准确度仍有提高的空间,随着VTE患者诊疗数据不断引入模型训练,模型准确性及自适应性将得到更大提升与完善。通过本研究建立的高纬度危险因素指标体系及实时预警平台,在当前目标人群应用和初步论证其效果后,下一步将应用到下级医联体医院中,辅助医务人员进行VTE专病早期预防及诊疗工作。同时随着分子医学领域水平不断提高,对该指标评价体系的科学性、准确性进行评价,持续完善并不断扩展和探索更多的研究空间。