基于多机器学习方法的静脉血栓栓塞症实时预警平台构建及应用*

2022-11-24 11:31:34汤涛曹磊曹力刘强

医学信息学杂志 2022年10期

汤涛曹磊曹力刘强

(南昌大学第一附属医院南昌330006)

1 引言

1.1 研究背景

静脉血栓栓塞症(Venous Thromboembolism, VTE)是我国常见的心血管疾病，具有高发病率、高死亡率和高漏诊率的特点[1-2]。据相关统计，每年因VTE死亡的患者占院内死亡的10%；在重症加强护理病房(Intensive Care Unit，ICU)患者、脑卒中患者及心血管疾病患者中，VTE患病率分别为27.0%、21.7%和4.0%[3-4]。在欧美国家，VTE被视为一种常见病，在一项以美国人群为基础的研究中，院内VTE患者占入院率的1.7%[5-6]，出院后VTE风险持续增加45～60天。多项研究指出国内人群在骨科大手术后的VTE发生率和死亡率与西方人群无差异[7-9]。种种证据表明，VTE不仅严重降低患者生活质量，还增加国家医疗成本和社会负担。

1.2 相关研究

自20世纪90年代初，国外学者[10]致力于研究各类VTE风险评估工具，目前临床应用较广泛的有Caprini评估量表、Autar评估量表、Wells评估量表。上述量表主要包括体征数据、手术史、现病史、药物使用等多方面的评估，涵盖VTE患病风险的主要因素[11]。因此建立有效的监测预警机制，提高实时分析、集中研判VTE发生的能力，在疾病发生、发展多个环节提前识别并加入临床干预是有效降低VTE对生命伤害和经济影响的重要前提。然而目前对VTE的临床判断尚基于传统的Caprini量表[12]打分，医务工作者评分含主观因素，误诊漏诊导致的VTE干预不及时等问题，使得VTE预判工作耗时、耗力，其高效性和准确性有待提升。

1.3 研究内容

本文拟通过应用BP神经网络、随机森林、集成学习等多种机器学习方法，整合南昌大学第一附属医院VTE历史患者诊疗数据，一方面对VTE潜在危险因素进行挖掘分析，构建VTE危险因素指标评价体系；另一方面搭建VTE实时预警平台，对患者的VTE风险等级进行实时评估，与医院诊疗系统多终端进行快速交互，辅助临床早期诊断研判，及时采取临床干预，从而最大限度降低VTE发生率或发展率。本研究首次探索基于多机器学习方法的VTE实时预警平台搭建，辅助临床实现VTE早防早治，这对于降低VTE发病率和死亡率、提高患者生命质量具有重要的临床意义和社会价值。

2 对象与方法

2.1 研究对象

选取2016年初至2021年6月南昌大学第一附属医院共2 068例VTE住院患者的历史诊疗数据，包含基本生理情况、基础疾病、检查检验、手术类型、所服药物、既往病史等维度。

2.2 研究方法

2.2.1 危险因素初筛通过文献评价及专家咨询方法，对VTE危险因素进行初步筛选，大致分为患者基本生理情况、基础疾病、检验检查、手术类型、所服药物5个方面的指标。危险因素初筛能够提高之后潜在因素挖掘的算法计算效率，同时为潜在危险因素深度挖掘提供有力的参考依据。

2.2.2 潜在因素深度挖掘潜在危险因素是发现早期VTE患者的重要依据，基于高纬度、自适应能力强等特点的BP神经网络和随机森林模型对基础数据进行深度挖掘，分析出重要度较高的特征指标，结合上一步初筛结果形成最终的高维度VTE危险因素指标评价体系。一是BP神经网络。具有适应性强、容错性好的优点，见图1。其中x1,x1,...,xk表示BP神经网络的输入，y1,y1,...,ym表示预测输出，wij和wjk分别表示关键网络层之间的连接权值矩阵，即可理解为VTE各危险因素的权值矩阵。

从输入层到隐含层，有：

(1)

式中，σj(·)为隐含层神经元的活化函数。网络输出层可以表示为：

(2)

图1 BP神经网络架构

BP神经网络可通过前向传播和后向反馈的机制，对分类器进行反复训练及优化，同时构建出最优的危险因素权值矩阵，由此可对特征变量的重要性进行评估。二是随机森林(Random Forests，RF)。一种利用多棵决策树对样本进行训练并预测的分类器，具有准确度高、快速学习等优势，同时在构建森林时可以对特征变量重要性进行评估，见图2。基本计算方法如下：对每个决策树，通过袋外数据计算误差，记为errOOB1；随机对袋外数据样本特征X加入噪声干扰，再次计算袋外数据误差，记为errOOB2；假设森林中有N棵树，计算特征X的重要性，记为∑(errOOB2-errOOB1)/N。若加入噪声干扰后errOOB2上升，则袋外数据准确率大幅度下降，说明该特征对于样本的预测结果影响较大，特征重要程度较高。三是集成学习。将几个机器学习算法模型组合为一个更强的分类器模型，以提高分类准确率，即多个决策者共同进行一项决策,见图3。

图2 随机森林模型架构

图3 集成学习模型架构

2.3 平台搭建

平台采用OracleXE数据库，基于JavaScript语言及浏览器/服务器(Browser/Server, B/S)架构进行实时预警平台搭建，部署在医院内网环境中以保证系统及数据的安全性。

3 结果

3.1 预警模型建设效果及与Caprini评分量表对比

3.1.1 特征提取阶段模型共纳入1 000余项临床数据特征，在剔除频率低、共线性强的特征后，最终选取308项特征变量(如恶性肿瘤史、肿瘤家族史、卧床时长、天门冬氨酸氨基转移酶等)，此特征空间远大于经典Caprini评分量表的20余项，并且可以表达不同特征间的组合，是模型准确率提升的基础。

3.1.2 预测模型构建阶段应用BP神经网络、随机森林、集成学习等机器学习算法构建一套面向VTE的人工智能(Artificial Intelligence，AI)风险预测模型，显著提高VTE筛查的灵敏度和特异性。

3.1.3 Caprini评分量表的对比经过对300份标注数据的验证，模型的灵敏度为80%，特异性为84%，优于传统的评分量表效果，可以作为评分量表的有效补充，减少漏诊风险，见表1。同时AI预警模型除了输出VTE风险评分外还提供该患者的危险因素和保护因素，辅助医生更好地对患者VTE风险进行研判。

表1 Caprini评分表与AI模型性能对比(%)

3.2 量表评分实施情况及前后对比

3.2.1 在不降低准确率的前提下，自动评分效率大幅提高系统应用后改变了原有的人工手动评分方式，改为机器自动评分+人工审核的方式。经过与人工手动评分对比发现机器在自动评分任务中的准确率、召回率与人工手动评分相当，耗时明显减少，大幅提升医生工作效率，见表2。

表2 系统应用前后评分指标对比

3.2.2 针对风险人群的预防措施实施率显著提升 VTE智能预警平台大大提升了VTE风险人群的预防措施实施率，同时预防措施更加合理。例如对于出血风险较高患者主要以机械预防措施为主，包括分级加压弹力袜等；对于出血风险较低的患者以药物预防或药物预防联合机械预防为主，包括使用低分子肝素等，见表3。

表3 预防措施实施率对比

4 结语

本文基于多机器学习方法，整合近5年VTE患者历史诊疗数据，对VTE的潜在危险因素进行深度挖掘,进而基于JavaScript语言及B/S架构进行VTE实时预警平台搭建，系统上线后使用平稳，在不降低准确率的前提下，自动评分效率大幅提高,针对风险人群的预防措施实施率显著提升。然而预警平台仍存在不足，由于VTE患者数量，即模型训练样本数量有限，模型准确度仍有提高的空间，随着VTE患者诊疗数据不断引入模型训练，模型准确性及自适应性将得到更大提升与完善。通过本研究建立的高纬度危险因素指标体系及实时预警平台，在当前目标人群应用和初步论证其效果后，下一步将应用到下级医联体医院中，辅助医务人员进行VTE专病早期预防及诊疗工作。同时随着分子医学领域水平不断提高，对该指标评价体系的科学性、准确性进行评价，持续完善并不断扩展和探索更多的研究空间。