基于人工智能的CT 影像加权评分系统对肺结节良恶性鉴别的价值

2024-04-25 06:27李志平张永胜徐辉景陈文康书朝李焕国张育崔凤杨勇
浙江医学 2024年7期
关键词:阅片放射科恶性

李志平 张永胜 徐辉景 陈文 康书朝 李焕国 张育 崔凤 杨勇

肺癌是全球第二大最常见的癌症,也是癌症死亡的主要原因,约占确诊癌症的11.4%和癌症死亡的18.0%[1]。随着CT 在肺部疾病患者中的使用越来越频繁,特别是高风险人群的大规模CT 筛查,大量CT 图像分析容易造成放射科医师的视觉疲劳,使得肺结节的误诊和漏诊几乎不可避免。区分良性和恶性肺结节是一项具有挑战性的任务,需要结合视觉评估和测量,不同的医师也可能有不同的解释。放射科医师准确识别和分类良恶性肺结节的灵敏度在30%~97%,诊断的假阳性率高达2.1%[2]。人工智能(artificial intelligence,AI)辅助诊断系统利用计算机提取和分类算法来识别和分类疾病,近年来已被广泛应用于临床实践。AI 可以帮助放射科医师在影像学上识别、分析和预测肺结节,可以用于肺结节的分类和良恶性鉴别[3-5]。AI 肺结节影像辅助诊断系统对肺结节良恶性鉴别的灵敏度较高,但是假阳性也较高,有待进一步改进[6-8]。因此,本研究旨在提出一种基于AI 肺结节CT 影像辅助诊断系统的可靠且易于使用的评分系统,用于鉴别肺结节的良恶性,现将结果报道如下。

1 对象和方法

1.1 对象 回顾性分析2021 年1 月至2022 年9 月在浙江中医药大学附属杭州市中医院经手术治疗并确诊的肺结节患者187 例,其中男88 例,女99 例,中位年龄59(48,68)岁。共215 个肺结节,实性结节83 个,亚实性结节132 个。良性肺结节69 个,分别为炎症51个,错构瘤7 个,结核3 个,隐球菌8 个;恶性结节146个,分别为原位腺癌32 个,微浸润性腺癌63 个,浸润性腺癌46 个,鳞状细胞癌5 个。纳入标准:(1)术前接受本院CT 检查且至少存在1 个肺结节;(2)经胸腔镜下部分肺切除或穿刺活检病理证实;(3)CT 检查后1个月内获得肺结节的病理结果。排除标准:(1)胸部CT 检查病灶直径>3 cm;(2)不能使用AI 肺结节CT 影像辅助诊断系统进行结节分析或数据不全;(3)有原发恶性肿瘤病史,经病理证实为转移瘤的患者。本研究经本院医学伦理委员会审查通过(批准文号:2023KLL078),免除患者知情同意。

1.2 检查方法 采用Siemens SOMATOM Force 2×96排螺旋CT、Philips Ingenuity Flex 64 排螺旋CT 和GE Revolution ACE ES 64 排螺旋CT 进行肺部扫描,扫描参数:管电压为120 kV,管电流为自动mAs,层厚5 mm,层间隔5 mm,螺距0.758,矩阵512×512,视野330×330,窗宽1 500 Hu,窗 位-400 Hu,进行Lung 算法1.5 mm 薄层重建。患者取仰卧位,检查前常规对患者进行吸气屏气训练,尽量使其屏气程度一致,于深吸气末屏气进行扫描。扫描范围从肺尖到肺底。

1.3 肺结节AI分析 所有患者的CT图像(层厚1.5 mm)以DICOM 格式,导入AI 肺结节CT 影像辅助诊断系统,该系统的核心算法是基于深度神经网络开发的,可以自动识别肺结节,得到结节的相关量化参数:结节数量、部位、类型、平均直径、体积等,并提供每个肺结节的AI 危险程度和AI 恶性概率数值。

1.4 医师阅片分析 2 名有胸部疾病CT 诊断经验的放射科医师(10、12 年)为阅片者,在不知道病理和AI结果的情况下,分别对纳入患者的CT 图像进行分析,根据结节大小、位置和形态特征,给出良性和恶性印象评估结果,当2名医师意见不一致时,共同协商决定。

1.5 统计学处理 采用SPSS 25.0 和Medcalc 15.10.0统计软件。不符合正态分布的计量资料以M(P25,P75)表示,组间比较采用Wilcoxon 秩和检验。计数资料组间比较采用χ2检验。在确认无多重共线性后,将单因素分析中差异有统计学意义的变量进行多因素logistic回归分析,采用基于最大似然估计向后逐步回归法来确定良恶性肺结节的独立影响因素,基于这些独立影响因素构建初级模型。采用Hosmer-Lemshow 检验初级模型的校准性。用以下公式得到初值:β/βmin(β为各变量的回归系数,βmin为回归系数的最小值),四舍五入到最接近的整数,得到每个变量的最终得分。总分由相关变量对应的个体分数相加计算得出[9-10],由此得到最终的综合加权评分。采用ROC 曲线评估各个变量、初级模型和综合加权评分等相关指标对良恶性肺结节鉴别诊断的效能,采用DeLong 检验评价AUC 间的差异。P<0.05 为差异有统计学意义。

2 结果

2.1 良恶性肺结节患者的特征比较 良恶性肺结节患者年龄、结节特征、平均CT 值、AI 结节性质、AI 恶性概率、医师阅片、高血压比例和嗜酒比例比较,差异均有统计学意义(均P<0.05);而性别、平均直径、体积、糖尿病比例和嗜烟比例比较,差异均无统计学意义(均P>0.05),见表1。

表1 良恶性肺结节患者的特征比较

2.2 良恶性肺结节的多因素回归分析和初级模型的构建 在进行多因素logistic 回归分析前,通过检验容忍度(>0.1)和方差膨胀因子(<10),证实这些因素之间不存在多重共线性。多因素logistic 回归分析显示亚实性结节、AI 恶性概率>0.6、医师阅片恶性是鉴别良恶性肺结节的独立影响因素(均P<0.01),见表2。基于这些独立影响因素构建初级模型,P=ex/(1+ex),X=-2.865+(1.554×亚实性结节)+(1.723×AI 恶性概率>0.6)+(3.355×医师阅片恶性),其中e 为自然对数,P为根据所给特征计算出的肺结节恶性概率。Hosmer-Lemshow 检验显示初级模型具有良好的校准性(χ2=4.455,P=0.486)。

2.3 评分系统的建立和相关指标对良恶性肺结节鉴别诊断的效能 在多因素logistic 回归分析中,对差异有统计学意义变量的β值进行加权评分,结果显示亚实性为2 分,AI 恶性概率>0.6 为2 分,医师阅片恶性为4 分,见表2。将各单项得分相加,得到0~8 分的综合加权评分。综合加权评分、初级模型、结节特征、医师阅片、AI 恶性概率的诊断效能比较中,综合加权评分的AUC 最高,为0.929。综合加权评分与初级模型的AUC 比较差异无统计学意义(P>0.05),综合加权评分与医师阅片、结节特征、AI 恶性概率的AUC 比较差异均有统计学意义(均P<0.01),见表3~4 和图1。为了简化放射科医师评估肺结节恶性风险的流程,将综合加权评分分成3 个区间分数(<4 分、4~6 分、>6分)。随着综合加权评分的升高,肺结节被诊断为恶性的可能性也相应增加,见表5。典型病例见图2。

图1 AI 恶性概率、结节特征、医师阅片、综合加权评分和初级模型在良恶性肺结节诊断中的ROC 曲线

图2 4 例肺结节患者行肺部CT 检查后AI 恶性概率、医师阅片和综合加权评分的诊断结果[A:57 岁女性,右肺中叶磨玻璃结节(箭头),边界不清,AI 恶性概率0.57,医师阅片良性,综合加权评分为2+0+0=2 分,病理证实炎症;B:65 岁女性,左肺上叶实性结节(箭头),边缘模糊,AI 恶性概率0.14,医师阅片良性,综合加权评分为0+0+0=0 分,病理证实为肺隐球菌病;C:72 岁女性,右肺上叶磨玻璃结节(箭头),内见血管穿行,AI 恶性概率0.89,医师阅片恶性,综合加权评分为2+2+4=8 分,病理证实为微浸润性腺癌;D:50 岁女性,左肺下叶磨玻璃结节(箭头)伴空泡征象,AI 恶性概率0.81,医师阅片恶性,综合加权评分为2+2+4=8 分,病理证实为原位腺癌]

表4 各相关指标对良恶性肺结节的鉴别诊断效能比较

表5 恶性肺结节患者综合加权分数分组

3 讨论

AI 在给定任务条件下,具有自动学习图像和特征提取的优势,减少了医师对诊断过程的参与,避免了主观偏差,并提高了分析的效率和客观性。随着AI 在肺结节诊断领域的临床应用越来越多,目前多项研究结果表明,AI 可以提高肺结节诊断的准确性和放射科医师的工作效率,其诊断价值也得到了临床的极大认可,但与临床实践的结合仍然有限[11-14]。

Hu 等[15]对89 个磨玻璃结节396 个定量纹理特征进行分析,训练集在鉴别良恶性磨玻璃肺结节的AUC为0.792,灵敏度和特异度分别为86.10%和65.20%。验证集的AUC 为0.729,灵敏度和特异度分别为86.70%和60%。Ardila 等[16]提出了一种深度学习算法,使用结节的体积来预测肺癌的风险,该模型的AUC 为0.944。Hu 等[17]建立了一种基于放射组学特征和深度学习特征融合的分类方法,融合模型在区分良性和恶性肺磨玻璃结节的AUC 为0.73,高于深度神经网络模型和放射组学模型。然而,如上所述,使用这些纹理、组学特征或深度学习算法在临床上并不方便。对于普通放射科医师来说,这些技术在成熟并广泛应用于临床实践之前,可能还需要大数据的验证和完善。

在一项多中心研究中,Massion 等[18]发现,与Brock(AUC=0.856)和Mayo(AUC=0.852)模型相比,AI 的诊断效能更高(AUC=0.921)。AI 临床模型可以正确地区分良恶性肺结节,缩短了患者额外的随访时间。Du等[19]对152 例患者194 个结节的研究表明,AI 对肺结节良恶性鉴别的准确度、灵敏度、特异度和约登指数分别为89.69%、92.98%、65.22%和58.20%;医师阅片的准确度、灵敏度、特异度和约登指数分别为85.57%、88.30%、65.22%和53.52%。AI 可以通过分析CT 图像来区分良性和恶性肺结节,从而提高肺癌早期诊断的准确率和符合率。相比传统的人工分析方法,AI 可以大大缩短平均检测时间,为临床决策提供更准确的信息,这对于常规临床治疗来说具有重要的意义[20]。本研究中,当AI 恶性概率的阈值>0.6 时,其对肺结节良恶性鉴别的AUC 为0.776,灵敏度为0.883,特异度为0.638,阳性预测值为0.838,阴性预测值为0.721,与大部分研究的诊断效能是类似。

Wan 等[21]研究了AI 在鉴别良恶性肺结节方面的性能,通过运用血管抑制功能和基于深度学习的计算机辅助检测分析仪,AI 和放射科医师在区分良恶性肺结节方面的灵敏度和特异度分别为93.6%、89.4%和39.3%、82.1%。尽管AI 在良恶性肺结节诊断中显示出比放射科医师更高的灵敏度,但这种差异并无统计学意义。本研究中,医师阅片对肺结节良恶性诊断的灵敏度为0.856,特异度为0.899,初级模型和综合加权评分的灵敏度均为0.829,特异度均为0.942。

Gürsoy Çoruh 等[22]研究表明,融合AI 算法对肺结节良恶性鉴别的诊断效能略低于放射科医师的诊断效能,AI 可能起辅助作用,特别是对缺乏经验的放射科医师。Wang 等[23]在一项研究中使用了3 种不同的AI 方法来区分良性和恶性肺磨玻璃结节,结果显示,这些模型的诊断能力优于放射科医师,AUC 总体在0.75~0.80。总体而言,AI 表现与放射科医师相当,这取决于训练所用的算法和数据。但是,AI 算法可能会在胸部CT 上出现胸膜增厚、周围血管、瘢痕、伪影和黏液样嵌套等假阳性结果。当AI 作为第二阅读器在胸部CT 上检测结节时,放射科医师和AI 算法的综合性能优于单独的任何一方[24-25]。

本研究建立了一个可靠、使用方便的评分系统,包括3 个可评估因素,用于区分肺结节的良恶性。该评分系统对良恶性肺结节的AUC 为0.929。且综合加权评分与医师阅片、结节特征、AI 恶性概率的AUC 比较,差异均有统计学意义。该评分系统使用简单,诊断效能高,便于广泛应用。在该评分系统的3 个范围中,第1 个范围(<4 分)仅15.2%患者检出恶性肺结节,第2 个范围(4~6 分)81.8%患者检出恶性肺结节,第3 个范围(>6 分)高达96.8%的患者检出恶性肺结节,这表明当观察到2 个以上的关键因素时,更容易诊断恶性肺结节。

本研究存在一定局限性。第一,本研究是单中心回顾性研究,样本量有限,将来还需更多中心、更大样本的前瞻性研究来验证。第二,本研究纳入的恶性肺结节组中,大部分为腺癌,分组可能存在一定偏倚。第三,AI 对结节检测的准确性受到多种因素的影响,如学习模型算法、结节特征提取、结节周围结构等。

综上所述,本研究分析了肺结节AI、临床及CT 征象的特征,并结合了结节特征、医师阅片和AI 恶性概率3 个最有意义的因素构建了一个基于AI 简便易用的评分系统。该评分系统对肺结节的良恶性鉴别具有一定价值,为临床决策提供了重要的辅助工具。

猜你喜欢
阅片放射科恶性
高、低年资住培医生应用人工智能检出脑转移瘤的价值
放射科住院医师职业倦怠研究进展
《住院医师规范化培训教学阅片指南(2022年版)》解读
我国放射科住院医师规范化培训现状的调查与思考
ORH方法在评价肋骨骨折多阅片者诊断试验中的应用*
恶性胸膜间皮瘤、肺鳞癌重复癌一例
放射科专业基地入科教育的实践探讨
卵巢恶性Brenner瘤CT表现3例
SP-1000i全自动推片染色仪及CellaVision DM96自动阅片仪在形态学检验人员镜下比对中的应用
甲状腺结节内钙化回声与病变良恶性的相关性