王一佳 黄志华 高璐阳 赵智慧 赵青 罗勤 柳志红
(中国医学科学院 北京协和医学院 国家心血管病中心 阜外医院,北京 100037)
肺血管疾病(pulmonary vascular disease,PVD)是指由多种因素和/或疾病造成的肺循环(肺动脉、肺静脉和肺毛细血管)结构和/或功能的改变,最终可进展为右心衰竭。PVD主要包括肺动脉高压(pulmonary hypertension,PH)和肺栓塞(pulmonary embolism,PE),其发病率和死亡率较高,通常需复杂的诊断和治疗干预[1]。PH患病率高,占全球总人口的1%,起病隐匿,预后极差[2]。据估计,美国每年有15万~25万PE患者,30 d死亡率为2.4%~11%[3]。急性PE在心血管死亡原因中位列第3,仅次于冠心病和脑卒中。总之,PVD负担严重,病理生理学复杂,临床表现多样,进展多变,亟需早期诊断、早期治疗和规范化管理。
随着医疗信息技术的应用和持续深入发展,医学大数据的累积和计算能力的提高促进了人工智能(artificial intelligence,AI)在医疗领域的应用和开发。AI是指机器模拟人的意识和思维,学习输入的数据并采用多样化的建模方式(算法)处理数据[4]。目前AI已广泛应用于心血管疾病、肺部疾病等多个研究领域。研究[5]表明,AI作为一种辅助手段,可降低侵入性操作的频率,同时在人群水平上降低筛查成本,在促进早期诊断、提高诊断率和预测预后方面具有极大的潜力。本综述总结了近年来AI在PVD诊治中的数据来源、数据类型及临床应用,旨在为AI在PVD诊治中的应用提供理论依据,以期加速AI和PVD诊治的深度融合发展。
医疗信息数据可从多种渠道获得,主要包括医院数据库、临床试验数据和患者来源数据等。这些数据可分为两大类:结构化数据和非结构化数据。结构化数据是指以预定义格式记录和存储的数据,如数据库或电子表格。电子健康数据(electronic health record,EHR)、实验室检查结果、影像学检查参数和临床试验数据等均为PVD的结构化数据[6]。这类数据被划分成类,便于使用机器进行处理,通常更容易使用AI算法进行分析[7]。当机器学习处理结构化数据时,可对具有不同临床特征的患者进行识别分类并预测临床预后[8]。例如,根据特定诊断代码或成像报告识别PVD患者,使用机器学习方法从记录中提取相关数据训练AI算法,以辅助诊断、判断预后和指导个性化治疗[9-10]。未以预定义格式记录或存储的数据,如临床病历资料或图像,被称为非结构化数据。PVD诊断和管理中的非结构化数据包括放射成像、病理学结果和患者生成的数据,如可穿戴设备来源数据[11]。非结构化数据多为文本信息,未划分成类,使用AI算法分析更困难,需更先进的技术,如自然语言处理(natural language processing,NLP)算法或图像分析提取有意义的信息[12]。NLP将非结构化数据的文本信息转换为机器可读的结构化数据后,可进一步使用机器学习技术分析识别与PVD相关的特征或风险因素[13]。
通常,AI算法可通过整合结构化和非结构化数据得到增强。一项关于非瓣膜性心房颤动的研究[14]建议使用AI算法将基于自由文本信息的NLP与结构化EHR相结合,以提高数据的完整性。事实证明,这种方法可降低脑卒中和死亡风险。整合结构化和非结构化数据的AI算法开发将在管理PVD患者、改善其生存和预后方面发挥关键作用。尽管AI算法通常更容易分析结构化数据,但非结构化数据提供了额外有价值的信息,可帮助诊断、评估预后和确定治疗方案。
在PVD的诊治过程中,传统的医学成像技术主要包括胸部X线摄影、计算机断层扫描(computed tomography,CT)、磁共振成像、超声心动图、通气/灌注扫描和正电子发射断层成像等,但这些技术在准确性、可用性和成本效益方面均存在局限性[15]。将传统医学成像技术与AI技术相结合,可大大提高疾病筛查的效率与准确性。深度学习是一种机器学习的分支,它模仿人脑神经网络的结构和功能,通过多层次的神经网络学习和解决复杂的问题,可自动地从原始数据中提取和学习特征。定量CT(quantitative CT,QCT)是一种无创、可重复性强的三维影像技术,可运用深度学习的技术较为精准地从标准化成像数据中提取定量数据[16]。研究[17-18]表明与普通胸部CT相比,QCT提供了PH患者的可重复数据和疾病严重程度的定量数值。Fortmeier等[19]发现重度三尖瓣反流患者的超声心动图会低估平均肺动脉压,然而将9个超声心动图参数作为输入变量训练极限梯度提升(extreme gradient boosting,XGBoost)算法,可有效预测重度三尖瓣反流患者的平均肺动脉压水平,且能预测经导管三尖瓣置换术后的死亡风险。卷积神经元网络(convolutional neuron network,CNN)是深度学习的重要模型之一,主要用于图像识别和分析[20]。肺动静脉病变的分类对于评估PE至关重要,肺动脉血管树的变化在慢性血栓栓塞性肺动脉高压(chronic thrombo-embolic pulmonary hypertension,CTEPH)的发病中起至关重要的作用[21-22]。采用基于胸部CT的三维-CNN算法,可熟练地对动静脉血管树进行分类,从而建立组合图形切割优化结果[23]。
EHR是PVD中AI应用的重要数据类型,包含患者基本信息、临床表现、病史、实验室检查结果和药物使用情况等[24]。EHR可提供重要的流行病学数据,用于追踪PVD的进展,评估大流行病对PVD的影响,以改进筛查方法[25]。一项基于EHR的研究[26]表明,在新型冠状病毒肺炎(COVID-19)大流行期间进行的CT肺血管造影(computed tomography pulmonary angiography,CTPA)频率降低,诊断为COVID-19和PE的个体30 d死亡风险显著高于无COVID-19的个体。基于医疗索赔数据的队列研究中,Schuler等[27]使用ICD-9/10编码、CPT编码或动脉型肺动脉高压(arterial pulmonary hypertension,PAH)药物来筛选EHR中可能患有PAH的病例。194例PAH和786例“非PAH”用于训练和测试初始的机器学习算法(machine learning algorithms,MLA)。在测试集中,以PAH靶向药物使用时间和强度以及右心导管的CPT编码为特征的MLA具有较强的预测特征,可从EHR数据库中识别出265例未确诊的疑似PAH病例,这些病例表现出典型的PAH人口统计学、合并症和血流动力学特征。研究表明NLP有助于识别EHR中的PE患者。使用EHR提高了PE患者进行有效观察研究或随机试验的可靠性,从而促进了PE的监测管理和预防[28-29],有助于根据特定风险特征精准决策,制定个体化的治疗方案。
基因组数据是另一种越来越多地被用于PVD研究的数据类型[30]。基因检测可发现引起PVD风险升高的特定基因变异,或疾病的特定亚型,如PAH[31]。分子诊断的重点是确定潜在的致病基因,并建立其与预期表型之间的关系。由于人力的缺乏和传统算法技术的不足,AI算法在促进基因诊断中从表型到基因型的映射方面不可或缺[32]。然而,由于遗传和非遗传因素之间因果关系复杂,通过AI进行基因型-表型映射具有挑战性[33]。在临床基因组学中,深度学习用于分析广泛而复杂的基因组数据集[34]。各种AI算法擅长处理不同类型的基因组信息。例如,计算机视觉可识别医学图像(包括病理学图片)中的表型特征,能从图像到基因进行诊断,并为分子检测提出合理的建议。AI时间序列算法在识别大规模调控元件、基因剪接和基因功能的功能性DNA序列元件方面高度有效[35-36]。
表1总结了近年来AI在PVD诊断和治疗管理等方面的应用。AI算法可分析CT、磁共振成像和超声心动图等各种模式的图像,从而识别与PVD相关的特征。此外,AI还能缩短图像解读时间,自动化测量肺动脉或右心房面积大小等。
表1 AI在PVD中的临床应用
在1993年,马萨诸塞州总医院核医学科在通气/灌注扫描中建立了人工神经网络模型判读图像并报告,结果发现人工神经网络在诊断PE方面优于核医学科医师[41]。在一项回顾性研究[42]中,研究者运用AI算法(视觉分类+自然语言处理技术)分析了11 913例胸、腹、盆腔CT检查结果(包括图像和文本信息),共识别出79例偶发肺栓塞(incidental PE,iPE)和49例被漏诊的PE。PE患者通常以急性胸痛为主要症状,需与急性冠脉综合征、主动脉夹层等进行准确鉴别诊断。为解决这一问题,Kolossváry等[43]开发了一种深度学习算法,将入院胸片结合年龄、性别、心肌损伤标志物和D-二聚体水平,改善患者分流。Batra等[44]在连续2 555个未报告PE的CTPA报告中,使用AI工具和人工判读,比较二者发现iPE的有效性。结果发现,AI工具和人工判读的阳性预测值分别为86.8%和97.3%,阴性预测值分别为99.8%和99.9%。AI工具的潜在应用能帮助检测出更多的iPE,或可作为分流工具以便更早诊断和干预iPE。Tian等[29]收集加拿大5个医学中心的影像学报告,将最大的单中心数据作为训练集(n=2 788),用其他4家中心的数据进行验证(n=1 212)。结果发现,基于NLP诊断PE和深静脉血栓形成的灵敏度为94%,特异度为96%,阳性预测值为73%~80%。NLP可对CTPA报告进行自动、高度准确的回顾性分类。此外,AI在明确PE患者的血栓负荷方面也有一定的价值。Liu等[45]发现,基于深度学习算法的CNN计算CTPA上的急性PE血栓负荷与Qanadli评分、Mastora评分和CTPA上的右心室功能参数显著相关,有助于减少临床医生的工作量。
PH患者通常需多次复查影像检查,监测治疗效果。AI技术可训练深度学习算法识别PH相关的特征或特定征象,避免了重复报告,极大地提高了效率。Zhang等[37]构建了一种机器学习模型,可从CTPA图像中自动提取肺动脉和心脏形态特征,随后评估肺动脉压参数,以区分不同类别的PH,该模型对PAH诊断的AUC值略高于传统心脏磁共振模式[39]。此外,AI还可用于分析电子病历,以确定与PVD相关的特定风险因素或合并症,从而帮助制定诊疗方案。Kogan等[38]建立的PH预测模型纳入电子病历数据库中的165个预测特征,包括心力衰竭、呼吸急促和心房颤动。该模型在PAH和CTEPH亚组患者中表现出良好的可行性和性能。此外,将AI与蛋白质组学相结合可促进对PH的及时识别。Bauer等[40]利用MLA对蛋白质组学进行分析,确定了一组包括胶原蛋白Ⅳ、内生长抑素和胰岛素样生长因子结合蛋白-2等在内的8种蛋白质构成的新算法,可提高系统性硬化患者PAH的早期诊断,为疾病的发病机制提供重要的研究思路。
随着医疗信息技术时代的到来,AI在PVD中的应用具有巨大潜力。与此同时,PVD本身的复杂性、多样性更为AI技术创造了大量的应用需求。AI可有效分析各种类型的数据,包括医学影像、基因组数据和电子病历,从而提高PVD治疗的精确性、有效性和个体化水平。然而,AI模型的可解释性和伦理相关问题需引起重视。未来的研究应侧重于开发可解释性更强、更透明的AI算法,以提高临床医生的信任度和接受度。此外,还需进行大规模的验证研究,以评估AI算法在临床实践中的有效性和可推广性。