萧毅,刘士远
海军军医大学附属第二医院影像诊断科,上海 200003;*通讯作者 刘士远 liushiyuan@smmu.edu.cn
新型冠状病毒肺炎(COVID-19)根据流行病学史、临床表现、实验室检查等综合分析做出诊断,其中新型冠状病毒核酸检测阳性为确诊的首要标准。影像技术在COVID-19 的早期诊断、治疗决策、疗效评估及随访观察等方面具有重要作用[1-6]。
随着COVID-19的大流行和影像数据的大量产生,研究人员纷纷利用人工智能(AI)技术研发模型,助力疫情的防控。AI 技术以其高效的决策能力与一致性,在抗击COVID-19 疫情中发挥重要作用[7-14]。包括辅助诊断、疗效评估、预后分析、健康监测;通过对临床、分子和流行病学的研究,优化治疗方案;以及加速药物和疫苗的研发进程;此外,基于AI 的可视化智能遥控检查,可最大限度地避免医务人员与病毒的接触,减少感染机会。然而,作为基于数据驱动的AI 深度学习模型,其鲁棒性与泛化性仍需进一步提高,也有不少瓶颈问题需要克服。
X 线胸片和CT 是辅助COVID-19 诊断的重要影像工具,通过收集大量患者多模态数据进行训练得到的AI 模型,对疑似COVID-19 患者的检测、诊断和分类起到了一定的作用。Jin 等[13]基于1 万多例包含COVID-19、流感(A 型/B 型)、非病毒性社区获得性肺炎(CAP)和非肺炎受试者的CT 数据集,研发了基于深度卷积神经网络(CNN)的多类别AI 诊断模型。在3199 个CT 扫描的测试集上,该系统受试者工作特征曲线下面积(ROC-AUC)达到0.978。Mei 等[14]将胸部CT 表现与临床症状、实验室检查及 患者接触史相结合,实现对COVID-19 的快速诊断。在279例患者的测试集上,该系统ROC-AUC 达到0.92,并与高年资胸部放射科医师具有相同的敏感性。Harmon 等[15]通过对包含1280例多国患者队列的CT数据进行深度学习模型训练,对COVID-19进行分类,此系统的准确度达到90.8%、敏感度达到84%。基于3777例患者的CT 数据,Zhang 等[16]研发了基于CT的AI 诊断系统,该系统可以辅助医师进行快速COVID-19 诊断,并可区分COVID-19 患者与其他常见肺炎和非肺炎受试者。其他类似研究亦显示了相似的效果。
深度学习模型可以用于肺炎治疗的早期干预和决策。由于X 线图像较CT 图像更容易获得,更多的研究者使用X 线数据集进行模型研发。Wang 等[17]建立的深度学习模型是使用一个包含145 202 张图像的多中心数据集开发的,并在4 个患者队列和多个国家的数千张图像进行回顾性和前瞻性测试。该系统可以区分病毒性肺炎、其他类型肺炎和正常者,ROC-AUC 为0.94~0.98;区分重症和非重症COVID-19,AUC 为0.87;区分COVID-19 和其他病毒性或非病毒性肺炎,AUC 为0.87~0.97。在一组独立的440 张胸部X 线片中,该系统的表现与资深放射科医师相当,并提高了初级放射科医师的表现。同样,Wehbe 等[18]提出了一种基于集合多个CNN 网络的AI 诊断系统DeepCOVID-XR。该系统在14 788 张CXR 图像(4253例COVID-19 阳性病例)进行训练,并在2214 张图像(1192例COVID-19 阳性病例)上进行测试。结果表明,DeepCOVID-XR 的ROC-AUC 为0.90,准确度为83%。随机选取300 张测试图像(COVID-19为134例阳性),对比AI 算法与5 位经验丰富的放射科医师的诊断性能,DeepCOVID-XR 的准确度为82%,5 位放射科医师的准确度共识为81%,独立放射科医师的准确度为76%~81%。DeepCOVID-XR的 ROC-AUC 为 0.88,5 位放射科医师的共识ROC-AUC 为0.85(P=0.13)。
综上所述,基于X线或CT影像的AI模型对COVID-19的检测性能与经验丰富的放射科医师相似,并能对COVID-19、常见CAP和部分病毒性肺炎进行初步鉴别,输出初步的可能性诊断。
以占肺实质的百分比客观量化疾病程度,是目前AI 在COVID-19 感染疗效评估中最重要的应用[16,19-23],这可用于监测疾病的进程,并协助判断预后。Jiao 等[20]开发了基于CXR 和临床数据的AI 系统,以预测COVID-19 的疾病严重程度和进展。该研究回顾性收集多家医院的CXR 和临床数据,利用CXR 作为深层神经网络Efficient Net 的输入,融合临床数据,进行二分类模型训练,以预测疾病严重程度(即严重或非严重)。利用深度学习Efficient Net模型提取的影像特征结合临床数据用于构建事件发生时间模型,以预测疾病进展的风险。该模型在独立多中心机构的患者上进行外部测试。研究结果表明,将基于胸部X 线的深度学习特征融合到临床数据以进行严重程度预测时,ROC-AUC在独立外部测试集上的结果从0.731(0.712~0.738)上升至0.792(0.780~0.803,P<0.0001)。同样,将深度学习胸部X 线特征融合到临床数据进行进展预测时,独立外部测试集上的一致性指数(C-index)从0.707(0.695~0.729)增加至0.752(0.739~0.764,P<0.0001)。由此可以得出结论,影像和临床数据融合的多模态模型性能明显优于单纯基于影像或临床数据的模型。尽管有大量文献报道基于影像学的COVID-19 疗效评估与预后预测,鲜有COVID-19 预后不良结果的影像学危险因素研究。Yu 等[21]从24 家医院回顾性收集625例COVID-19 确诊患者,复合终点为进入ICU,用于评估与不良预后终点相关的影像学特征和危险因素。通过对每位患者病变的体积、密度、位置、磨玻璃密度(GGO)和实质进行定量分析。利用多变量逻辑回归模型(multivariable logistic regression),识别年龄和CT 参数相关的危险因素。研究结果表明,入院时年龄较大、上肺存在较大面积 的实变与COVID-19 患者预后不良的相关性更高。AI可用于监测疾病进展和了解COVID-19病灶的时间演变特征,降低了放射科医师对胸部CT 影像治疗前后比对的主观性,有利于准确实施治疗。
开发基于AI的可视化智能遥控摆位,可最大限度地避免影像检查流程中医务人员与病毒的接触机会,对于医务人员的防护具有重要意义。此外,AI技术在疫情监控与预测方面亦发挥了至关重要的作用[24-26],AI可以帮助提高病例识别的速度和准确性,并可以通过数据挖掘有效地应对健康危机。AI可以通过使用终端跟踪系统部署智能城市数据网络以及对未来暴发的预测,提高病毒检测的效率。此外,全球各相关研究机构正在积极探索COVID-19疫苗抗体及治疗性药物的研发[27-31]。AI在识别新的候选疗法方面的潜在能力是无与伦比的,可以加速COVID-19的药物再利用和研发。深度学习该系统提供了有关与COVID-19相关的蛋白质结构的有价值的信息,可用于疫苗配制。AI方法与大数据相结合,有可能大幅提高药物再利用的效率和效力,并利用COVID-19的真实世界数据,帮助医疗决策。在开发这些AI工具方面仍然存在挑战,如数据异质性和低质量、制药公司数据共享不足以及模型的安全性和可操作性等。
COVID-19 疫情暴发以后,基于数据驱动的AI方法在医学影像领域中不断突破。在COVID-19 疫情期间,各国科学家们发布了上千种机器学习算法,认为这些算法能根据胸部X 线片、CT 图像诊断或预测COVID-19。然而,在复杂、开放的真实场景下进行临床验证时,仍存在诸多挑战。尤其是来源于公共资源数据库的COVID-19 影像集大都存在图像质量低、样本少、数据库存在重复性、“金标准”诊断不确定性以及数据集来源偏差等问题,难以满足可靠的AI模型的训练需求,使得这些模型在实际临床应用中受到限制。在一项由剑桥大学完成的研究中[32],研究者使用“预测性算法的偏见风险评估工具”(PROBAST),从参与者、预测因素、结论和分析等4 个方面系统性地评估了 2020年发表的 2212 篇 AI 算法诊断COVID-19 的论文。研究认为,由于存在算法偏见、不可重复性、缺少外部验证、数据集不规范等问题,论文中的模型均不具有明确的临床应用价值。研究者认为,大多数文献中的模型算法只是基于一家医院的数据,鲁棒性较差。研究人员还特别指出了一类从不同的数据集合并而成并重新命名的数据集,基于这类数据集的训练会导致算法结果出现可靠性降低的问题,要引起广大研究者和读者的注意。
在我国,尽管COVID-19 数据量充足,AI 研发能力及时效性强,但是依然存在模型依赖单中心数据、缺乏充分的外部及前瞻性验证、疾病影像表征多样性和CT 扫描参数设置不一致的样本不平衡等问题。因此,构建标准化数据库的建设对提高模型的准确性和泛化性至关重要,充分遵循数据集构建的规则和行业专家共识。除数据纳入的多样化外,规范精准的数据标注亦是模型训练的关键因素。任何用于检测、诊断或预测COVID-19 感染的AI 算法与临床需求之间均存在错综复杂的联系。因此,开发AI 算法必须高度重视工科人员和影像医师、临床医师的紧密沟通,加强多学科的沟通和交叉互补。
实践证明,AI 技术作为一种新兴有效的工具,在抗击COVID-19 疫情中起到重要的作用。AI 技术不仅可对COVID-19 患者进行辅助诊断、疗效评估、预后分析及健康监测,通过对医学、分子及流行病学研究,亦可对治疗方案设计进行优化,并加速药物和疫苗的研发。尤其在缺乏财力、物力和人力资源的地区,AI 可以最大程度地减少人力劳动量,有助于分析大量医学数据,从而增强预测能力和预防保健能力。
鲁棒性与泛化性仍然是基于数据驱动的AI 模型需要解决的主要难点。针对COVID-19 的AI 模型需要在不同种族、不同地理区域、不同国家的患者队列人群中进行验证,以确保其在实际临床应用中的性能与价值。
如能将预测特征与潜在生物学联系起来,或识别具有相似临床路径的患者,建立多标签和(或)分层分类技术的评估和基准解决方案,将极大地推动传染病的诊治和防控能力。