赵亚芳 蔡青山
根据世界卫生组织《2022 年全球结核病报告》[1],2021 年全球估算新发结核病患者1060 万例,新报告患者640 万例,死亡患者160 万例。在传染病中,结核病仍是全球死亡的主要原因之一。尽管目前结核病检测方法趋于多样化,但仍有耗时长、费用高、存在主观性等缺点。随着大数据收集及计算机技术的进一步发展,极大地促进了人工智能(artificial intelligence,AI)在医学领域的应用,基于影像、临床信息等大数据的AI 系统已被用于筛查、诊断、评估严重程度及预后。本综述旨在总结AI 在结核病领域的应用情况及最新进展,为该领域的研究者提供参考。
1.1 AI 发展简介 1956 年第一次明确提出AI 的概念,60 多年来,随着计算机的不断发展,AI 已经取得了很大的进步。它是一门新兴技术,基本目的在于利用计算机模拟、延伸和扩展人的智能的理论、方法、技术及应用系统[2]。AI 在医学领域的应用,目前正处于早期发展阶段,主要聚焦于医学影像辅助诊断、医学大数据的采集、生物标记物及基因检测等分子生物学。20 世纪60 年代,AI 开始应用于医学图像处理。AI 在病理图像较影像学起步晚,全切片数字扫描图像(WSI)的出现加速了数字病理学的发展[3]。随着深度学习数据库的产生,生物信息学中的深度学习算法等得到了进一步的发展,AI 在分子领域也逐渐起步。目前AI 已形成了基本的工作模式。以影像AI为例,为解决图像分类问题,以人工标记数据,进一步使用卷积神经网络处理图像信息,然后通过人类专家来评估系统的性能,最终应用临床[4]。
1.2 AI 技术 机器学习(ML)是实现AI 的关键,主要研究计算机如何从数据中学习并挖掘信息的学科[5]。ML 经历了早期的人工神经网络及近期的热门研究-深度学习(DL)。与传统ML 相比,DL 在图像识别领域的应用更为广泛,它通过模拟大脑的结构,从中提取出图像的特征,有效避免人为图像分割导致图像信息准确度低的问题。主要包括深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等。其中CNN 是研究最多的,主要利用以多层组成的卷积神经网络(CNN),可灵活设定网络层数及神经元个数,更有效地处理高维数据[6]。同时,CNN 在图像处理方面也较为突出,多应用于图像分割及医学图像识别[7]。
2.1 医学影像应用
2.1.1 结核病的检出 对于肺内结核、脊柱结核、胸壁结核等,X 线具有一定的辅助诊断作用,但在细微的实质改变、纵隔或肺门淋巴结受累时可能不明显[8],易漏诊。经近些年的探索,AI 已在肺部结核X 线筛查中具备较强的诊断能力。
Hwang 等[9]在10848 张韩国结核病研究院的胸部X 线数据集基础上,70%用一种深度卷积神经网络模型AlexNet 进行训练,15%用于诊断肺结核,与美国国立卫生院(NIH)138 张X 线以及深圳三院662 张X 线的诊断结果进行比对,AlexNet 诊断肺结核的曲线下面积(AUC),在KIT 数据集可达到0.96,NIH 数据集为0.88,深圳三院数据集可达0.93。王晓林等[10]采用AI 和DL 肺结核智能管理系统,对520张胸部X 线进行肺结核诊断的敏感性和特异性可达到93.5%及86.0%。安超等[11]在ChinaSet、MontgomerySet 及深圳三院数据集的基础上,运用以ResNeXt-FPN 为基础网络的检测模型,其AUC 分别为0.95、0.93、0.98。
2.1.2 耐药性及敏感性结核病的鉴别 我国耐药结核病患者日渐增多[1],早期快速区分耐药及敏感结核病患者,对减少传播及结核病治疗具有重要意义。结核分枝杆菌药物敏感性试验可使临床医师了解患者所感染的结核分枝杆菌对各种抗结核药物的敏感或耐受程度,对诊断耐药结核病至关重要。目前常用检测技术包括Gene-Xpert MTB/RIF、线性探针、基因芯片、熔解曲线、基因测序等[2],均受时间、成本、技术等的限制。利用AI 诊断耐药结核病可极大缩小时间、成本等限制。
敏感肺结核和耐多药肺结核胸部影像特征有一定差别,耐药结核可在胸部X 线图像上表现较大的病变及厚壁腔等[12]。Jaeger 等[13]利用交叉验证得到一个人工神经网络,利用胸部X 线识别耐多药结核病患者。实验1 运用135 例病例(61 例敏感型+74 例耐药型),其AUC 为0.65。实验2 将胸部X 线的数量增加到327(157 例敏感型+170 例耐药型),其AUC 仅为0.66,可能与数据量偏少有关。接着,该团队使用了更大的数据集,包括5642 个胸部X 线(来源于结核病门户网站、蒙哥马利县和深圳胸片组、TB X11K 大规模结核病数据集及各种CNN),通过静态或动态数据增强,InceptionV3 的AUC 增加到0.85。对于自定义CNN,六层CNN 表现出最佳性能,AUC 为0.74[14]。Cha等[15]研究53 例耐多药肺结核及141 例敏感肺结核CT影像发现,耐多药肺结核中多发空洞、大结节、支气管扩张显著多于敏感肺结核。杨钧等[16]比较51 例耐多药及46 例非耐药肺结核患者胸部CT 发现,肺内多发结节、播散病灶、空腔及毁损肺在耐多药肺结核中多见。这些胸部影像特征的差异为AI 在影像上筛选耐多药肺结核提供可能性。Gao 和Qian[17]受CLEF 比赛的启发,为提高分类的准确性,采用CLEF 比赛病例,根据230 例(敏感134 例,耐多药96 例)肺结核患者的胸部CT 影像,联合基于补丁的神经网络模型和支持向量机建模,测试214 例肺结核患者胸部CT 影像是否耐多药,分类准确率可达91.11%。但该研究仍存在纳入的耐药人群少,人群单一等不足,不能确保建立模型的可靠性和泛化能力。
目前AI 应用于耐药肺结核影像诊断的研究相对较少,且存在用于建模的病例少、未采用CT 影像、模型预测结果的准确性不高等不足。
2.2 分子生物学应用 遗传基因也可作为结核的诊断工具。如上所述,各种分子方法能够检测结核耐药性,结核分枝杆菌在繁殖分裂过程中发生少量的基因突变,从而引起某种抗结核药物产生耐药,并可在菌株的传代中,产生不同的变化[18]。基于基因组信息的快速分子检测较基于培养物检测的时间更短、更有效,已被广泛应用于检测结核病耐药性[19]。因此,目前已探索一些基于基因序列的AI 来鉴定结核分枝杆菌的耐药性。
Yang 等[20]使用8388 株对4 种一线抗结核药物(异烟肼、乙胺丁醇、利福平、吡嗪酰胺)具有药敏试验表型检测的分离物,开发了一个具有深度去噪自动编码器的多任务学习模型(DeepAMR)。结果显示,该模型对4 种一线药物、多药耐药结核病和泛敏感结核病的耐药率预测优于其他方法,平均AUROC 为94.4%~98.7%(P<0.05)。在异烟肼、乙胺丁醇、吡嗪酰胺和多药耐药结核病中,DeepAMR 的平均敏感性分别为94.3%、91.5%、87.3%和96.3%。此外,该团队另开发的一个名为“HGAT-AMR”的深度图形神经网络[21],使用从结核分枝杆菌遗传数据翻译出的图形为输入量,包含了13402 个分离株,对多达11 种的药物敏感性进行测试。结果表明,该模型对异烟肼和利福平测试中表现最佳,AUROC 分别为98.53%和99.10%,对3 种一线药物产生了最好的敏感性(异烟肼94.91%,乙胺丁醇96.60%和吡嗪酰胺90.63%),同时,排除一些数据高度不平衡情况下(分离株数据仅能通过异烟肼和乙胺丁醇测试,不能通过其他药物测试),HGATAMR 优于SVM 和LR。该小组构建的多种机器模型,较前基于规则的方法,表现出更高的灵敏性(异烟肼、利福平、吡嗪酰胺的敏感性分别增加了2%~4%,达到97%(P<0.01);对于环丙沙星和耐多药结核病,敏感性增加到96%[22]。对莫西沙星和氧氟沙星的敏感性分别从83%和81%增加到95%和96%(P<0.01)。对吡嗪酰胺和链霉素的敏感性分别从15%和24%提高至84%和87%(P<0.01)。Deelder 等[23]使用16688 株经过全基因组测序(WGS)和药物敏感性试验的14 种抗结核药物的结核分枝杆菌分离株,其中22.5%的样本具有多重耐药性,2.1%的样本具有广泛耐药性。使用非参数分类树和梯度提升树模型来预测耐药性,在耐多药结核病识别的准确性达到95.5%。
2.3 医学数据应用 临床数据在一定程度上也可协助诊断结核病。结核病是艾滋病患者最常见的机会性感染之一,由于其早期症状不典型,早期诊疗不及时,极大地增加了艾滋病合并结核病患者的死亡率,目前结核病仍是全球感染HIV 患者(成人及儿童)住院及死亡的首要原因[24]。在南非,Rajpurkar 等[25]利用CXRS 以及某些临床数据(来自两家医院的677 例HIV 阳性患者的年龄、体温、血红蛋白和白细胞计数等),建立了名为CheXaid 的深度学习算法EB/OL。该算法的使用提高了临床医师对于结核病的诊断准确性(0.65 比0.60,P=0.002),该算法的性能优于由AI 辅助的临床医师(精度为0.79 比0.65,P<0.001)。此外,使用CXR 添加临床变量的训练策略提高了本研究中算法的性能(仅组合模型和模型中的AUC 分别为0.83 和0.71),并提出了以各种方式整合输入以增强模型功效的重要性。
2.4 病理学应用 病理学诊断也是临床诊断结核病的重要手段之一,但由于细菌体积及数量偏小,不利于临床医师诊断。目前,基于AI 辅助病理诊断也成为一定的主流趋势。2018 年Xiong 等[26]建立了一个CNN 模型,命名为结核病AI(TB-AI),包含训练集45 例(30 例阳性),测试集201 例(108 例阳性),将TB-AI 的诊断结果与病理科医师通过显微镜和数字幻灯片双重确认的诊断相比,TB-AI 获得了97.94%的敏感性和83.65%的特异性,但仍存在实验数据偏少的缺陷。
AI 技术应用到医学领域仍存在许多局限性。数据是AI 的重点,数据的正确获取、数据的安全性、对数据的高质量处理及标注较难做到[27]。其次,AI 得出结果应该由谁承担法律责任,假如出现漏诊、误诊、应该由谁承担相关责任,仍需要我们进一步思考。再者,AI 应用收集的数据在数据主体不知情的情况下很容易传播给第三方,隐私数据的传播可对数据主体及其家庭产生不可避免的伤害,更有甚者危害国家及社会安全,目前国家并未颁布相关法律约束隐私泄露相关问题[28]。但可以肯定的是,目前随着计算机技术的不断发展,数据量的不断增多,AI 将越来越多投入临床使用,进一步提高医师的诊断决策。
综上所述,AI 目前广受大众关注。在结核病领域的研究应用日趋深入。据调查显示,从20 世纪90 年代开始,医学图像数据急剧增长,呈指数上升的趋势,诊疗活动过程中所需的医疗数据有90%以上来源于医学影像[29],发展迅速,是健康创新最具有希望的领域。借力于医学影像的诊断与各种临床治疗的辅助决策,进一步提高结核病诊断率、缩短耐药结核的诊断时间,大步提升我国结核病的诊治水平。未来AI 在智能结核病领域的研究应用上,将发挥更加重要的作用和具有广阔的前景。