肺结核X线胸片智能辅助诊断系统在基层医院的临床效能评价

2022-04-14 09:40张修磊王倩夏丽刘远明郝焱郭琳
结核与肺部疾病杂志 2022年2期
关键词:年资胸片例数

张修磊 王倩 夏丽 刘远明 郝焱 郭琳

结核病是一种由结核分枝杆菌引起的主要经呼吸道传播的慢性传染病,其诊断以病原学检查为主,结合流行病史、临床表现、胸部影像等相关检查进行综合分析。我国作为结核病高负担国家之一, 63%的结核病患者缺乏病原学确诊依据[1]。这种情况在病原学检查条件极大受限的基层医院更为突出,相关研究显示部分地区痰检阳性率仅为11.7%[2],因此基层医生在较大程度上依然主要依靠影像依据做出判断[3]。虽然CT扫描越来越普及,但多数结核病定点医院仍以X线胸片诊断为主。目前,许多研究表明,基于数字化放射成像(digital radiography, DR)的人工智能(artificial intelligence, AI)技术不仅能够对影像征象实现快速定位及定量分析,同时还能识别出早期较为微小的病灶,帮助基层医生提高对肺结核的诊断准确率[4-6]。因此,本研究在山东省8家县(区)级独立结核病防治所(简称“结防所”)内安装了肺结核AI辅助诊断系统,通过对AI系统与基层影像医师的诊断结果进行比较,以评估该系统在多中心基层医疗机构结核诊断方面的应用价值。

资料和方法

一、 研究对象

收集2020年11月至2021年4月山东省郯城县、沂南县、兰陵县、平邑县、汶上县、金乡县、邹城县、泗水县8家结防所的8600例初诊疑似肺结核患者的影像资料。通过随机数字表法从8600例中选取连续30 d纳入的396例为本研究纳入患者。其中男249例,女147例,男∶女=2.32∶1。年龄范围为6~90岁,中位年龄56岁。

二、结防所诊断小组与AI系统阅片

结防所诊断小组阅片:在每家县级结防所,由2名具备10年以上阅片经验的影像科医生和1名门诊医生组成诊断小组,对396例初诊患者的DR影像进行阅片,结合患者的其他临床资料,经集体讨论判断患者所患疾病的性质。统计判断为肺结核(阳性)与排除肺结核(阴性)的患者例数,其中排除肺结核包括正常和非肺结核异常。

AI系统阅片:将396例患者的影像资料上传至DR辅助诊断系统(深圳市智影医疗科技有限公司提供),该系统应用的算法模型在之前的研究中得到了描述和验证[7]。其具体工作流程为:对于每张输入的DR图像,算法会提供1个 0~1的异常图像概率值,概率值越高,说明其包含某种胸部疾病的可能性就越大。之后系统自动对病灶进行识别勾勒,并以文字注释病灶标签。目前系统共包含7种病的标签:结核病,肺炎,结节,脊柱弯曲心脏增大,主动脉迂曲,主动脉钙化。诊断完成后系统自动生成辅助诊断报告,注明病灶位置和疑似度等信息。统计AI系统判断为肺结核与排除肺结核的患者例数。

三、结防所诊断小组与AI系统阅片验证测试

在结防所诊断小组与AI系统对比中,引入高年资专家组阅片。2名高年资结核病专科医院的主任医师(>30年阅片经验)结合患者症状体征及其他实验室病原学检查结果,并依据《WS 288—2017 肺结核诊断》[3]标准对396例患者的DR胸片进行阅读。部分患者在本次就诊前,曾于其他机构就医并进行了CT影像检查,专家组亦参考了CT影像。研究对两位医学专家的评估标准进行一致性检验。最后将两位医学专家的一致判断作为标准(不一致的由专家进行内部讨论最终确认一致)[8-9],专家组诊断结果为134例肺结核,262例排除肺结核。

以专家组诊断结论为标准,验证AI系统与结防所医生组成的诊断小组判断结果。评价指标包括:敏感度、特异度、阳性预测值、阴性预测值以及诊断准确率。敏感度=真阳性例数/(真阳性例数+假阴性例数)×100%;特异度=真阴性例数/(真阴性例数+假阳性例数)×100%;阳性预测值=真阳性例数/(真阳性例数+假阳性例数)×100%;阴性预测值=真阴性例数/(真阴性例数+假阴性例数)×100%;诊断准确率=(真阳性例数+真阴性例数)/患者总例数×100%。

四、统计学处理

数据分析使用SPSS 20.0软件,不同方法的敏感度,特异度,阳性预测值,阴性预测值以及诊断准确率等的比较采用卡方检验,以P<0.05为差异有统计学意义。2名医学专家评估标准的一致性采用Kappa系数评价。Kappa值<0.4为一致性较差,0.4≤Kappa值<0.6为一致性一般,0.6≤Kappa值<0.8为一致性较高,Kappa值≥0.8为一致性很好。

结 果

一、高年资专家的一致性分析

2名高年资专家分别对396例患者的胸片进行审阅,对两位专家的评估标准进行一致性检验,Kappa值=0.95(95%CI:0.92~0.99),P<0.05。结果显示,2名高年资专家的诊断吻合度很好,有非常高的一致性(表1)。

表1 两名高年资专家诊断肺结核的一致性分析

二、结防所诊断小组与AI系统的阅片结果对比分析

本研究8家县级结防所就医的396例患者中,诊断小组共检出118例肺结核患者。AI系统与结防所诊断小组阅片一致率为86.1%(341/396),且AI系统与结防所诊断小组判断一致的患者均符合高年资专家组的判断结果。AI系统与结防所诊断小组共对55例X线胸片判断不一致,其中35例由AI系统判断为肺结核,诊断小组判断排除肺结核,占8.8%(35/396);20例由AI系统判断为排除肺结核,诊断小组判断为肺结核,占5.1%(20/396)(表2)。

表2 结防所诊断小组与AI系统阅片结果比较(例)

三、高年资专家组对结防所诊断小组与AI系统阅片结果的验证

针对AI系统与结防所医生阅片结果不一致的患者,分析了高年资医生专家组的阅片结果。35例AI系统诊断阳性,结防所诊断小组诊断阴性的患者中,33例为高年资专家组的判断与AI系统的判断一致者,不一致的2例为高年资医生分别判断为两肺病变、炎症与结核病鉴别。20例AI系统诊断阴性,结防所诊断小组诊断阳性的患者中,17例为高年资专家组的判断与AI系统的判断一致,不一致的3例为高年资医生判断为阳性。因此,结果显示AI系统漏诊3例,结防所诊断小组漏诊33例(表3)。结防所医生漏诊患者示例如图1~9所示。此外,AI系统与结防所诊断小组阅片的假阳性率分别为0.8%(2/260)和6.5% (17/260)。

表3 结防所诊断小组与AI系统阅片结果不一致者与高年资专家组结果比较(例)

图1~3 结防所诊断小组漏诊患者X线胸片。图1示左肺尖可见斑片状、条索状高密度影;图2示双上肺可见条索状、结节状高密度影;图3 示右上肺可见斑片状高密度影。 图4~9 AI系统与结防所诊断小组判断一致患者的X线胸片。图4~6为结防所诊断小组判断的患者的X线胸片,图7~9为AI系统判断的患者的X线胸片。AI系统对病灶进行定位(绿色勾勒区域)并注释相应病种标签作为辅助诊断信息。图4、5示 左肺、右上肺可见斑片状及结节状高密度影;图6、7示 双上肺可见斑片状高密度影;图8、9示双肺内可见小斑片状及结节状高密度影

四、结防所诊断小组与AI系统阅片水平对比分析

在检出率上,AI系统阅片肺结核检出率为97.8%(131/134),结防所诊断小组阅片肺结核检出率为75.4%(101/134),AI系统检出率高于结防所诊断小组,差异有统计学意义(χ2=28.88,P<0.05)在敏感度、特异度、阳性预测值、阴性预测值以及诊断准确率方面,AI系统的阅片表现均高于结防所诊断小组(表4)。

表4 结防所诊断小组与AI系统阅片水平对比分析

讨 论

一、基于深度学习的AI技术在胸片肺结核检测中的应用

肺结核作为一种呼吸道传染病,严重威胁自身和他人健康,识别出肺结核患者的微小影像学特征对早期预防和及时治疗肺结核至关重要。目前,基于深度学习的AI技术能够通过大量经人工标注的肺结核影像资料进行学习,实现对肺结核的智能辅助诊断。AI软件的基本原理在于深度学习网络能够从大量标注的训练图像中自动地提取、学习到高维语义特征,从而可以根据目标病灶的图像特征进行分类任务,最终建立对疾病的识别和检测系统。在算法开发层面,Jin等[10]采用深度学习网络建立了DR胸片肺结核识别算法模型,并在6个独立胸片测试集(结核病比例为39%~60%)作为外部验证数据集测试所开发的算法性能,结果发现深度学习算法对胸片表现出非常出色的肺结核诊断性能,敏感度和特异度均>94%。曹盼等[9]采用特征金字塔网络(FPN)建立了DR胸片肺结核诊断模型,并引入了两名放射科医生的判断作为模型判断标准,结果显示该网络诊断肺结核的敏感度,特异度和准确度分别为96.0%,76.0%和86.0%,同时以矩形框的形式提示病灶位置。在应用效果层面,刘广天等[8]在2020年对宁夏回族自治区医疗机构的AI影像系统进行了应用效果评价,研究同样以2名具有高级或者副高级职称的放射科医师阅片结果为标准,随机回顾性抽查100张患者X线胸片进行分析,结果显示AI自动阅片诊断肺结核的敏感度和特异度分别为90.91% 和89.89%。与这些已发表的研究相比,一方面本研究AI系统表现出更高的敏感度、特异度和准确度,但是需要注意的是,这些指标与测试数据集的大小和构成相关,因此不能直接得出系统性能优劣的结论。另一方面,本研究中山东省8家县级结防所应用的AI系统能够清晰地勾勒出病灶边缘(图1~9)并提示0~1的风险概率,而不是基于矩形边框或热图来呈现病灶位置。因此医生可以更清晰地知道AI的判断结果。

二、AI系统与结防所诊断小组诊断肺结核表现的对比评价

通过在8家县级结防所进行的回顾性研究,发现AI系统比结防所诊断小组的肺结核检出率高,且差异有统计学意义;AI系统的假阳性率低于结防所医生。在AI系统与结防所诊断小组不一致的患者中,AI系统的判断结果与高年资医学专家组标准的吻合度更高,AI系统具有比县级结防所诊断小组更高的敏感度、特异度以及准确率。本研究中,AI系统比结防所诊断小组有更好的结核诊断表现,这与文献[11-12]的研究结论一致,两者将AI系统与不同年资的放射科医生进行阅片性能比较,发现AI系统与较高年资放射科医生诊断水平相当,高于低年资放射科医生的阅片表现,且低年资放射科医生的阅片水平可以在AI系统的辅助下获得提升。AI系统能够取得良好阅片表现的原因一方面在于数据。该系统在开发过程中学习了海量的高质量标注数据,这些数据来源于全国各地,标注过程严格遵守“多人独立标注+审核”的流程,这使得系统具有良好的鲁棒性和广泛适用性。另一方面在于算法架构。研究在建立算法模型时融合了多种学习网络。一般而言,AI系统具备较高检出率的同时也可能带来更高的系统判断假阳性[13]。Litjens等[14]的研究结果显示在使用深度学习算法检测肺癌时假阳性率达到40%。在临床应用过程中,不难发现对于AI系统算法的研发最具挑战的工作是提高检出率和准确度的同时降低识别的假阳性率。本研究的AI系统对肺结核的检出率高于结防所诊断小组,同时具有更低的假阳性率,这可能是由于本研究中的AI系统采用了不同的深度学习网络融合后来进行图像的分割和图像特征的提取[7],而不仅仅是采用单一深度学习网络。Mckinney等[15]也发现由3个深度学习模型构成的AI系统能够识别早期乳腺癌影像征象,从而实现减少假阴性(漏诊率)和假阳性率(误诊率)的目标。因此,在算法模型中融合多种学习网络可能是一种有效降低假阳性的方法。

肺结核影像诊断较为复杂,有时CT扫描仍难以诊断,完全依靠胸片对于疾病诊断漏诊率较高,尤其是在基层卫生机构。而AI技术的优点是对于发现病变较为敏感,因此可以依照AI技术作为筛查工具,以减少漏诊。但同时AI技术也存在劣势,即距离实现独立诊断仍有较大差距,最终还是需要医生根据CT及实验室检查综合诊断。本研究中AI系统漏诊3例,而结防所诊断小组漏诊33例,当地医生的漏诊情况明显高于AI系统。结果提示,仅靠当地县级结防所医生的判断不利于及时发现结核并阻断其传播途径。因此研究提出,当AI系统具备较高的诊断准确率时,可将AI系统作为第一道检查程序;当AI系统拥有较高检出率而假阳性率也高于医生时,将AI系统作为医生阅片后的第二道检查程序可能是AI系统辅助诊断技术在临床上的重要应用方向[16]。

三、本研究的局限性

由于AI系统仅能够基于影像特征进行学习分析,目前阶段还不具备结合临床症状、实验室检查结果等做出综合判断的能力,因此本研究仅着眼于分析评价县级结防所医生、AI和高年资专家的影像诊断能力,而不是结合实验室检测结果等综合判断后的诊断结果。另外,本研究采用的AI系统目前只能对病灶类型进行判断,未涉及相应病变的影像学表现描述和肺结核分型,同时这也是目前相关AI系统普遍面临的局限性之一[17],未来将升级AI系统,使系统自动出具的相关结果中包含与病变对应的影像学改变。

本研究为一项多中心基层医疗机构临床测试,通过直接与当地医生进行阅片水平对比,从而评价AI系统的临床应用价值,这与之前直接从算法模型的性能指标进行AI系统验证的研究不同[18-20],因此也更能反映AI系统在实际情况中的应用价值。本研究结果表明,AI系统的阅片水平高于县级结防所诊断小组,可以有效帮助解决县级医疗机构阅读胸片能力不足的问题,同时大大提高转诊质量,提升全地区结核病防控能力。

利益冲突所有作者均声明不存在利益冲突

作者贡献张修磊:论文撰写,数据整理,统计分析; 王倩:实施研究,统计分析; 夏丽:研究指导,论文修改;刘远明:研究设计,数据分析; 郝焱:实施研究;郭琳:修改指导,获得经费

猜你喜欢
年资胸片例数
手术室低年资护士反馈寻求行为和信息素养与转型冲击的相关性分析*
不同千伏的X线胸片检查在尘肺病诊断中的应用价值
不同年资护士职业倦怠状况调查分析
盆腔灌注法治疗慢性盆腔炎的临床效果
医学生对床旁教学的看法
看X线胸片的六大要点你掌握了吗?
某三甲医院ICU护士对2016年脓毒症与脓毒性休克处理国际指南认知情况的调查分析
胸片普查对于肺结核阳性检出率的意义