基于深度学习的胸部X线肺结核检测研究及多中心临床验证

2022-06-21 02:04安超张晨郑广平曹义杨根东印宏坤顾俊邹彤吴双王立非
放射学实践 2022年6期
关键词:集上结核病胸部

安超,张晨,郑广平,曹义,杨根东,印宏坤,顾俊,邹彤,吴双,王立非

我国是全球30个结核病流行严重的国家之一,每年新增肺结核病患者约90万例[1],严重危害人民健康和生命安全。肺结核病诊断的“金标准”是细菌学,即痰培养法,虽然灵敏度较高,但此法检验所需时间较长,且容易受其他杂杆菌影响结果[2]。临床实践约有2/3的肺结核患者痰抗酸染色和痰结核分枝杆菌培养为阴性[3],对于此类患者,传统的痰培养法无法准确筛查肺结核,往往会造成漏诊[4]。胸部X线(chest X-rays,CXR)是发现结核病患者最简便、可推广、适宜基层的筛查措施。X线筛查具有较高的敏感度,但是特异度较差,高度依赖于医生的主观判断,具有较大的组内和组间观察者差异[5],特别是对于基层医院具有一定的挑战性[6]。近来,随着人工智能(AI)和深度学习技术的迅猛发展,深度学习算法被广泛应用于医学影像辅助检测和诊断。基于卷积神经网络的深度学习算法可以用于颅内血肿分割及出血类型识别[7],在基于彩色眼底图像的糖尿病视网膜病变分级、皮肤癌与良性病变等疾病的诊断上,AI已接近或达到临床专家水平[8,9];通过大样本训练,AI也被应用于眼底病变和小儿肺炎的诊断[10];此外,深度学习技术还可用于心电图中心脏收缩功能障碍和心律失常的检测[11]。目前也有一些利用深度学习检测胸部X线肺结核的报道[12,13],但是这些研究都是基于公开数据集,缺乏外部独立测试集和临床数据集的验证,因此无法判断其鲁棒性和泛化性。另外,基于卷积神经网络的深度学习模型由于参数量巨大,之前报道的研究中使用的样本数量通常较小(约1000例左右或更少),容易出现过拟合的情况。目前尚未有研究报道胸部X线肺结核检测深度学习模型在多中心临床数据上的表现。

本研究旨在通过搜集多中心、大样本数据建立基于胸部X线的肺结核检出深度学习模型,并通过多中心的外部独立数据集来评估深度学习模型的效能、鲁棒性及临床应用价值。

材料与方法

1.患者数据集资料

开发数据搜集:本研究回顾性搜集2600例来自国内3家医疗机构的胸部X线扫描影像作为开发数据集,所有数据均直接从PACS系统导出并经过脱敏处理。结核患者入组标准为:患者年龄>16岁,且根据中华人民共和国卫生行业标准中肺结核诊断的规定(WS 288-2017)确诊为肺结核,具体依据:①DNA/RNA或GeneXpert试剂盒检测证实肺结核阳性;②痰培养及抗酸杆菌阳性和结核分歧杆菌阳性;③组织活检提示结核病。排除标准:患者患有肿瘤性疾病,或由于支气管炎、肺炎及手术产生双肺上叶支气管增粗、肺纹理增浓导致难以与肺结核区别的。此外,本研究还搜集407例未患有肺结核的胸部X线扫描影像作为阴性对照。最终搜集数据中包含了2193例确诊肺结核患者数据,其中1580例为活动性病灶,613例为非活动性病灶。

外部测试集数据搜集:本研究共搜集2组公开数据集[14]和1组临床数据集作为外部测试集,用于深度学习模型性能的检测以及临床应用的评估,具体包括:①ChinaSet公开数据集,大部分来自于深圳三院在2012年9月份搜集的病例,共包含336例结核病与326例非结核病患者数据,所有的胸部X线影像均采用飞利浦数字化X射线摄影系统(Philips DR digital diagnost system)采集,并存为3000×3000分辨率的PNG图片格式;②MontgomerySet公开数据集,共包含58例结核病和80例非结核病患者的胸部X线影像,均来自于美国马里兰州蒙哥马利县,所有数据以PNG图片格式保存,分辨率为4892×4020;ChinaSet公开数据集和MontgomerySet公开数据集的下载地址为:http://archive.nlm.nih.gov/repos/chestImages.php;③深圳三院外部临床测试数据集,包含从2012年1月-2019年9月之间搜集的200例结核病与694例非结核病患者的DICOM格式胸部X线影像,均使用飞利浦数字DR系统进行捕获,分辨率约为3000×3000。深圳三院外部临床测试数据集为独立搜集,与开发数据集来自不同医院,且与ChinaSet公开数据集来自于不同的患者。

数据标记:本项目目的是在胸部X线影像中实现肺结核病灶的检测,因此所有数据中的病灶均由放射科医生用矩形框进行标记。为了确保标记结果的准确性与一致性,在原有标记结果的基础上所有数据均由1名来自三甲医院的主治医生对照影像报告进行二次确认,对于有疑问的病例由另一名高年资主治医师进行最终审核确认,作为结核病灶位置判断的最终结果。

2.深度学习模型的构建和验证

数据预处理:将开发数据集中的2600例数据随机划分为训练集(2122例)、验证集(300例)和内部测试集(178例),分别进行深度学习模型的训练、参数调优和结果测试。深度学习一般要求样本数量充足,样本量越大训练出来的模型效果越好,泛化能力也越强。因此,我们采用了包含图像变化、旋转等数据增强技术对训练集中的图像进行了预处理,以提升模型的效能和鲁棒性。

模型构建:本研究通过构建基于类似于RetinaNet网络的深度学习模型实现肺结核的检测。使用ResNeXt-50作为骨架网络,相比于经典的ResNet残差网络,ResNeXt在其基础上进一步提出了一种拓扑结构的转换模块,使得网络结构在宽度上变得更宽,拥有更强的特征提取能力。ResNeXt-50的每一个模块中我们都采用了Conv+BN+ReLU的结构,其中Conv表示卷积层,用于提取图像特征;BN表示批归一化(batch normalization),有助于网络的收敛和防止过拟合;ReLU是一种激活函数,用于提升网络的非线性拟合能力。此外,为了保证不同尺寸肺结核征象的检出率,本研究在ResNeXt网络结构的基础上添加特征金字塔结构(feature pyramid networks,FPN)来有效融合不同层次的图像特征;为保证一些样本量比较少的肺结核征象的检出率,采用难样本挖掘技术;为了保证收敛效果,避免过拟合,采用多任务的loss函数。本研究采用的深度学习模型是一种以ResNeXt-FPN为基础网络的一步(one-stage)检测模型(图1)。模型的输入为1张DR胸片图像,不需要其他的临床信息。模型通过影像的特征分析,输出为该影像中包含肺结核征象的概率值。

图1 肺结核检测深度学习模型的网络架构与工作流程示意图。

为了提高模型训练效率,本研究还采用了迁移学习(transfer learning)的方法进行了预训练,预训模型参数的数据来源于Image Net的子集,其中训练集1281167张,验证集50000张,测试集100000张,总共1000个分类,在测试集上top5分类错误率达到6.6%。

模型效能评估:肺结核诊断采用受试者工作曲线(receiver operating characteristic curve,ROC curve),在内部测试集和2个公开数据集上进行肺结核检测,以每张胸部X线片上是否检测出结核病灶作为AI诊断肺结核的结果,参比金标准进行AI诊断性能的分析。通过计算曲线下面积(area under curve,AUC)来评估模型的诊断效能,并基于约登指数所对应的阈值来确定模型的敏感性(sensitivity)、特异性(specificity)和准确性(accuracy)。

3.深圳三院临床验证

样本量计算:据WHO 2014 年发布的有关肺结核分诊(triage)筛查产品性能指标的最低要求,灵敏度需要达到90%,特异度需要达到70%。本研究引用WHO标准,采用目标值法对AI模型的有效性进行验证。主要评价指标:AI模型在阳性肺结核影像病例上的灵敏度高于目标值90%,优效界值为0,实现优效;AI模型在阴性肺结核影像病例上的特异度高于目标值70%,优效界值为0,实现优效。

对AI的有效性验证进行测试样本量估计,公式如下:

其中n为最少样本量,Z1-α/2、Z1-β为标准正态分布的分数位,当双侧显著性α=0.05时,Z1-α/2=1.96,当β=0.2时,Z1-β=0.842。

预期的灵敏度=95.5%,目标值=90%,计算得到灵敏度优效所需的最低样本量为192.23。预期的特异度=75%,目标值=70%,计算得到特异度优效所需的最低样本量为637.85。

临床一致性评估:为了检测AI模型在临床实际使用的情况,本研究对于临床一致性也进行了评估。首先对不同人员之间的结果一致性进行评估,分别由操作员A、B和C使用AI系统进行深圳三院外部临床测试数据集的肺结核检测,每次检测前均将正负样本随机打散,由观察人员记录AI诊断结果,整个过程中操作员A、B、C互不干扰,互不知情。将所有操作员的检测结果汇总并与已知金标准结果(临床确诊的结果)进行比对,计算各自的敏感性和特异性并评估AI模型的结果再现性。其次本研究还对结果的再现性进行了评估,由操作员D使用AI模型重复在深圳三院外部临床测试数据集上检测肺结核3次,每次检测前均将正负样本随机打散,每次检测间隔时间为1周。将操作员D 3次检测结果汇总并与已知金标准结果(临床确诊的结果)进行比对,评估AI模型的可重复性。

结 果

1.内部验证结果

深度学习模型在内部测试集的ROC下曲线面积(AUC)为0.967,对应最佳阈值下的敏感度为95.32%,特异度为83.33%,AI模型诊断肺结核的准确率为94.94%。

2.公开数据集验证结果

AI模型在ChinaSet和MontgomerySet公开数据集上的测试结果AUC分别为0.95和0.93(图2),与内部验证集的AUC基本一致,表现良好的鲁棒性。深度学习模型在ChinaSet和MontgomerySet公开数据集的外部测试详细结果如表1。

图2 深度学习模型在公开数据集ChinaSet(a)和MontgomerySet(b)上的ROC曲线分析。 图3 深度学习模型在深圳三院临床数据集上的ROC曲线分析。

表1 深度学习模型在公开数据集上的具体验证结果

3.深圳三院临床数据集测试结果

深圳三院临床数据集包含200例肺结核样本和694例正常对照样本,满足有效性评价的测试样本量需求。数据集包含了来自523名男性和371名女性的胸部X线影像数据,其中有596例患者年龄在16~35岁,323例患者年龄在36~55岁,65例患者年龄在56岁以上,1例患者年龄信息缺失。患者的性别和年龄分布符合临床实际情况。

ROC分析结果表明AI模型在深圳三院临床数据集上也体现了优异的诊断效能,AI模型的AUC为0.976(图3),对应阈值为0.17时的敏感度为97.50%,优于WHO规定的90%;特异度为77.52%,优于WHO规定的70%,AI模型诊断肺结核的准确率为81.99%。

4.临床一致性测试结果

基于设定好的阈值0.17,AI模型会将输出概率≤0.17的图像判定为阴性,>0.17的图像判定为阳性,则模型预测的各图像阴阳性与金标准一一对比,则可得到以下指标。①TP:真阳,金标准为阳性且模型预测为阳性的图像数;②TN:真阴,金标准为阴性且模型预测为阴性的图像数;③FP:假阳,金标准为阴性而模型预测为阳性的图像数;④FN:假阴,金标准为阳性而模型预测为阴性的图像数。

据AI预测结果和金标准的对比,操作员A、B、C分别的检测结果以及操作员D3次检测的结果汇总(表2)。

表2 深度学习模型临床一致性评估结果

测试结果表明在相同的环境条件下,不同的操作员或者同一操作员不同时间的检测结果均完全一致,说明AI模型对于胸部X线肺结节检测具有良好的重复性和再现性。

5.案例分析

一位典型体检患者在本研究构建的人工智能辅助诊断系统下的结核病灶识别检出情况(图4),结果表明AI可准确的识别结核病灶并对其进行定位,有助于辅助临床医生进行肺结核诊断。

此外,我们也对AI模型的漏诊病例进行了分析,患者双肺纹理增强模糊,右肺及左上肺见结片状致密影,边界欠清,心脏大小形态正常范围,双侧膈面光滑,双侧肋膈角锐利(图5a),提示右肺及左上肺感染性病变,最终经病原学确诊为肺结核。AI漏诊可能原因是由于双肺尖部局限性、对称性病变,且病变区与锁骨近端、第一前肋存在重叠,从而造成模型误判。患者右肺上野可见团片模糊影及纤维条索灶,右侧肺门上提,余双肺未见其他异常密度灶,主动脉纡曲增宽,余未见异常(图5b),右上肺改变提示陈旧结核可能,最终经过痰液病理检查确诊。AI误判的可能原因是右肺尖部淡薄稍高密度影,病变范围较小导致结核征象不典型,同时受到肺尖部锁骨及第一前肋的影响造成模型漏诊。

图4 典型的在体检影像报告显示为结核疑似患者右肺上叶结核在被深度学习模型识别检出。

图5 两例深度学习模型漏诊病例分析,肺结核病灶用白色箭头标出。

讨 论

本研究建立了基于胸部X线的肺结核检出深度学习模型,采用了基于RetinaNet网络的检测方法,检测精度高[15]。内部测试数据中模型的AUC为0.967,几乎达到了100%无漏诊。在公开数据集ChinaSet和MontgomerySet上,模型的AUC分别为0.95和0.93,相比于内部测试集结果模型性能无明显下降,表明该模型不存在过拟合的现象,具有较高的鲁棒性。此外,我们还与商业软件Qure.ai在胸部X线肺结核诊断的结果进行了比较,不论是在ChinaSet公开数据集上(AUC,0.95 vs 0.87)还是MontgomerySet数据集上(AUC,0.93 vs 0.91),我们建立的模型都有着更高的诊断准确率[16]。在来自深圳三院外部验证数据集上模型的AUC仍然达到了0.976,与模型在内部验证集以及2组公开数据集上的测试结果几乎完全一致,表明模型具有很好的泛化性。

相比于之前关于深度学习在胸部X线结核检测中的报道,本研究有以下优点:①本研究纳入了来自三家医院的2600例胸部X线数据用于模型训练,据我们所知这是目前最大的肺结核胸部X线多中心数据库。多中心、大样本的数据为深度学习模型的构建提供了保障,实验结果也证明我们的AI模型有着良好的效能和优秀的鲁棒性。②本研究通过构建基于类似RetinaNet的ResNeXt-FPN网络架构进行肺结核病灶的检测,相比于之前报道中所采用的AlexNet和GoogLeNet等传统模型,本研究在胸部X线整图诊断的基础上进一步的实现了病灶定位,从而更有利于辅助临床医生进行诊断,同时源于RetinaNet的改良损失函数解决了目标检测模型中正负样本严重不平衡的问题,金字塔形的网络结构也充分利用了多尺度的特征,从而保证了检测精度。③本研究分别在公开数据集和来自临床的独立数据集上进行的模型性能的外部验证,充分验证了AI模型的鲁棒性和泛化性,为临床应用提供了数据支撑。④本研究还在深圳三院临床数据集中计算了最低样本量,确保了模型在敏感度和特异度上相对于WHO标准的优效性验证,同时还进行了AI模型的临床一致性研究,充分证明了模型的临床应用可靠性。

AI模型可以精确计算出每个病例的患病风险,通过人为设定一个阈值(threshold)来鉴别诊断正负样本,随着阈值从小到大逐渐升高,模型敏感性随之降低的同时特异性也随之升高,反之亦然。约登指数(Youden Index)是常用的评价筛查试验真实性的方法,其应用的前提是假设假阴性(漏诊率)和假阳性(误诊率)的危害性具有同等意义[17]。针对不同疾病诊断的实际临床实验中,假阴性和假阳性的危害性往往并不相同,因此需要通过调节阈值大小来进行平衡。本研究基于WHO在肺结核诊断上的标准,在深圳三院临床测试数据集上通过人为设定阈值为0.17,确保了模型在具有高敏感性(97.50%)的同时也有良好的特异性(77.52%)。

本研究也存在局限性:首先,本研究为回顾性研究,未来还需要前瞻性的搜集更多病例来验证模型的临床应用效能;其次,本研究只分析了AI对于结核病灶的检出效能,还需要进行阅片实验来探索深度学习模型与人类医生在结核检查的效能差异,以及评估医生在AI辅助下对结核检测准确率的提升;再次,临床验证结果表明虽然AI对于肺结核的检测准确率较高,但是对于病变特征不明显且有其他部位遮挡的结核病灶仍然存在漏诊的情况,需要针对性的进行模型优化以降低漏诊率;最后,本研究开发的AI模型只针对了肺结核病灶的检测,在训练过程中未纳入肺部其他病变,因此目前只能局限于肺结核的检测,未来将进一步拓展针对其他肺部病变的检测功能。

总之,本研究通过搜集多中心来源的大样本数据集,构建了具有高鲁棒性和泛化性的深度学习胸部X线影像肺结核检测模型,并采用了多个外部独立测试集进行性能验证,同时还在深圳三院临床数据集中对模型的优效性和可靠性进行了评估。结果表明基于深度学习的胸部X线肺结核病灶智能检测模型拥有较高的准确率和良好的可靠性,有助于更准确、有效地指导肺结核疾病的临床医疗决策。

猜你喜欢
集上结核病胸部
艾滋病合并结核病的诊断和治疗
生命至上 全力投入 终结结核
贵州省结核病定点医院名单
关于短文本匹配的泛化性和迁移性的研究分析
放疗中CT管电流值对放疗胸部患者勾画靶区的影响
避开这些毁胸坏习
师如明灯,清凉温润
完形填空分级演练
几道导数题引发的解题思考
为什么全球结核病人数增多