江桂莲,陈疆红,胡志海,钟朝辉,王大为
1.首都医科大学附属北京友谊医院 放射科,北京 100059;2.北京推想科技有限公司 全球临床科研合作学院,北京 100025
根据2015年中国癌症中心报道,肺癌已成为我国发病率及致死率最高的癌症[1],约三分之二的患者初诊时已经是中晚期,有明显的淋巴和血管远处转移的倾向。对于中晚期患者而言,肺癌的预后效果很差,平均五年生存率低于20%[2],Ⅳ期肺癌患者五年生存率低至5.3%[3]。相比之下,Ⅰ期肺癌患者手术切除后10年生存率可达72%[4]。可见,早期肺癌筛查对患者的预后、生存时间乃至生存质量具有重要意义。胸部低剂量CT(Low Dose CT,LDCT)是肺结节筛查的常规手段,研究表明LDCT筛查可以有效降低肺癌死亡率达20%[5]。然而,CT检查量增长与放射科医生数量之间日趋不均衡,加上每个患者的胸部CT图像有400层左右,这些都容易导致阅片医生因为疲劳或不专注等原因产生漏诊。
近几年,基于深度学习的新一代人工智能(Artificial Intelligence,AI)技术迅速发展。在医学影像领域,AI系统已经被成功应用于放射、病理、皮肤医学等的图像分析,与医学专家相比,诊断速度更快、诊断准确率基本持平[7]。因此,AI技术是提高医生诊断效率、减轻临床工作负担的潜在有效手段之一。
值得指出的是,肺部CT检查的图像质量受到许多因素的影响,如成像方法、层厚和剂量等。能谱CT利用X线高低能量瞬时切换技术,获得多组单能图像,不同单能图像组织CT值、对比度及噪声不同。目前认为低千电子伏特(Kiloelectron Volt,keV)图像组织对比度较大,较高能量图像及混合能量图像更易于小病灶的检出及诊断,且低keV图像的CT值更能反映结节的性质[6]。因此,本研究应用商品化的AI肺结节筛查系统,将其与能谱CT的单能图像结合,在临床使用中验证其检测肺结节的有效性的同时,筛选最佳的单能图像以保证AI系统最优的肺结节检出率。同时,根据肺结节位置的不同(分为肺外带、肺内带、支气管血管树旁、胸膜下四类),评估人工智能系统对能谱CT单能图像中肺结节的检出效能以及对于不同位置结节检出的准确性。
回顾性收集2018年11月—2019年3月首都医科大学附属北京友谊医院放射科行胸部能谱CT扫描的住院患者30例,其中男15例,女15例,平均年龄61.8岁。收集标准:病例年龄>18岁,因胸部占位性病变入院检查者。排除标准:两肺在视野内不能完全可见;有呼吸运动伪影;影像不符合DICOM标准;医生难以识别诊断。
1.2.1 能谱CT数据采集
采用GE Revolution CT(GE Healthcare,Wisconsin,USA)扫描机行能谱胸部CT平扫。患者仰卧,头先进,以胸骨柄为定位中心,患者深吸气并屏气。扫描范围从肺尖到横膈以下。扫描参数为:螺距0.992:1,球管转速0.5 s/r,扫描层厚5 mm,重建层厚0.625 mm,准直器宽度80 mm,DFOV 35 cm,管电压为80 kV和140 kV瞬时(0.25 ms)切换,自动毫安技术,噪声指数NI=12。扫描完成后将原始图像载入宝石能谱成像浏览器(GSI viewer)重建40、55、70、85、100 keV共5组单能量图像。
1.2.2 图像分析
来自首都医科大学附属北京友谊医院放射科、具有5年以上肺部读片经验的2名主治及以上医生,在基于深度学习的AI肺结节筛查系统(北京推想科技有限公司,InferRead CT Lung)的辅助下背靠背对胸部能谱CT中120 kVp-like序列(相当于74 keV序列)图像进行肺结节标注,当2名医生的标注结果出现分歧时,由第3名具有20年肺部读片经验的主任医师进行仲裁,由此制定出该数据集中肺结节的“金标准”。金标准制定过程中,标注医生同时记录了每个结节所在的位置,按照不同位置分为肺外带(结节距胸膜≤15 mm)结节、肺内带(结节距胸膜>15 mm)结节、支气管血管树旁结节和胸膜下结节四类。利用人工智能系统分别对30例胸部能谱CT序列的40、55、70、85、100 keV单能量图像进行读片筛查,记录检出结节的总数及每个结节位置,将AI系统的筛查结果与“金标准”进行比对,计算其在不同单能图像中对不同位置肺结节的检出率。
本研究数据分析均使用SPSS 19.0(IBM Corp.,Armonk,NY,USA)完成。通过与金标准比对,统计不同单能量图像中检出的真阳性结节数,假阳性结节数和假阴性结节数,计算敏感度,假阳性率和阳性预测值,其中,假阳性率定义为每个CT扫描的平均假阳性结节数(假阳性数/CT扫描数),阳性预测值定义为真阳性结节与所有检出结节的比值[8]。对于不同单能量图像中不同位置肺结节的检测敏感性和阳性预测值采用同样的方式统计和计算。最后利用χ2检验或Fisher精确检验(当频数小于5时)比较各组间敏感度和阳性预测值的差异,通过单因素方差分析比较各组间假阳性率差异,P<0.05代表有统计学差异。
在入组的30例能谱CT平扫图像中,三名放射科专家共计标注了224个肺结节,包含86个肺外带结节、34个肺内带结节、41个支气管血管树旁结节和63个胸膜下结节。
利用AI肺结节筛查系统对临床中常用的CT序列(120 kVp-like)图像进行肺结节检测,共计检测到349个结节,与金标准比对后发现,AI系统检测到真阳性结节218个,假阳性结节131个,假阴性结节6个,检测敏感度为97.3%,阳性预测值为62%,假阳性率为4.37%。可见,AI肺结节筛查系统在临床上具有较好的表现。
利用AI肺结节筛查系统分别对40、55、70、85、100 keV的单能图像进行结节检测(图1),分别检出280、314、339、349和360个结节,其中真阳性结节数分别为167、201、216、215和208个,结果如表1所示。5组单能量图像结节检出敏感性存在显著性差异(P=0.000),40 keV图像结节检出敏感性显著低于其余4组,其中70 keV图像对结节检出具有最高的敏感性(96.43%)。假阳性率随keV升高呈增加的趋势,各组间无显著差异(P=0.358)。阳性预测值各组间无显著性差异(P=0.402),其中55 keV和70 keV具有较高的阳性预测值(分别为64%和63.7%)。综上,能谱CT的70 keV单能图像更适合AI系统进行结节筛查。
图1 右肺中叶内段结节,靠近血管旁
表1 AI肺结节筛查系统在单能图像间的检测性能比较
将AI系统在不同单能量图像中检测的肺结节进行位置分类,分别在肺外带、肺内带、支气管血管树旁及胸膜下四个位置统计肺结节总数和真阳性结节数,计算敏感性、阳性预测值及对应P值,详见表2~3。不同单能量图像中,检出四个位置肺结节的敏感性无统计学差异(P>0.05);在5组单能量图像间,针对肺外带结节,70 keV及以上组单能图像的检测敏感度显著高于40、55 keV;针对肺内带结节,55 keV及以上组单能图像的检测敏感度显著高于40 keV。针对支气管血管树旁结节,70 keV及以上组单能图像的检测敏感度显著高于40及55 keV;针对胸膜下结节,不同单能量组间检测敏感度无显著差异(P=0.079)。值得注意的是,在各组单能量图像中,支气管血管树旁结节的阳性预测值显著低于肺外带、肺内带和胸膜下结节的阳性预测值(P=0.00)。在不同单能量图像间,四个位置肺结节阳性预测值无显著差异。综上,70 keV及以上单能图像可以保证对不同位置的肺结节比较稳定的检出敏感性。而40、55 keV图像在对对比度较低的小结节进行检测时,可能有一定的优势(图2)。
表2 AI肺结节筛查系统在不同单能图像中检测不同位置结节的效能情况
表3 AI肺结节筛查系统对不同位置肺结节在不同单能图像中的检出效能情况
图2 左肺上叶下舌段实性结节
目前,肺癌已成为国内外发病率及致死率最高的癌症。由于临床大多数肺癌患者就诊时已处于晚期阶段,术后5年生存率不足10%[9],所以早期诊断对提高患者生存率至关重要。胸部CT平扫是进行肺癌筛查的最常规手段。早期肺癌多表现为肺部结节,它们尺寸小、对比度低、形状异质化高[10],使结节的检出存在很多挑战。能谱CT成像能够获取40~140 keV不同的X线能量的单能量图像,低keV单能量图像上肺结节CT值高,不同组织结构之间的对比增强,但噪声增加;而高keV单能量图像上肺结节CT值降低,不同组织结构之间的对比降低,同时噪声降低;不同单能量图像的图像特点可能为不同类型的肺结节检出提供更多的信息。本研究将能谱胸部CT平扫不同单能量图像应用于人工智能系统,测试在图像的CT值、对比度及噪声等图像细节发生变化时(即不同keV单能量图像),对肺结节检出率的影响。这在之前未见相关文献报道。同时本研究着重考察结节位置对人工智能系统结节检出的影响。
本研究中,人工智能系统对40 keV图像的结节检出率(74.56%)显著低于其余单能图像组,其中70 keV图像检出的真阳性结节最多,具有最高的结节检出敏感性(96.43%)。一项针对胸部双能CT孤立性肺结节成像研究表明[11],70 keV时图像信噪比与对比噪声比最高,选择60 keV以上单能谱图像可提高孤立性肺结节的检出率。以往的许多研究显示,70 keV图像信噪比高,有利于实质脏器接近等密度小病灶的发现和检出,这在一定程度上解释了本研究中70 keV单能量图像相比其他单能量组,检出的真阳性结节数最多。此外,一项针对肺部图像数据库联盟的综述总结了2017—2018年使用深度学习算法对肺结节检出的22项研究,结节检出的敏感性在83.1%~96.6%[12],本研究中是在临床环境中验证商品化AI肺结节筛查系统的效能,其结节检出的敏感性依旧有很好的表现,在70 keV单能图像中达到96.43%。
当前,人工智能系统在表现出结节检出高敏感性的同时,也伴随着较高的假阳性率的问题。在本研究中,随着keV增加,检出结节数增加,检出假阳性结节也呈增加的趋势,导致假阳性率的增加(3.77~5.07),最终引起阳性预测值逐渐降低。这可能是由于随着keV的增加,虽然图像的对比度降低,但是图像的层次增加,人工智能系统从丰富的图像层次中可以提取到更细微的特征,从而导致检出结节的增加,假阳性率的增加。对比以往17项人工智能系统研究,AI系统的假阳性率的中位数是每扫描4.1个[4],我们使用的AI系统假阳性率是每扫描3.77~5.07个,基本与之前的研究持平。
此外,本研究发现不同单能量图像对不同位置的肺结节的检出敏感性没有差异,这与Marten等[13]的研究发现一致,结节位置对CAD系统或放射医师对结节的检出没有显著影响。但也有研究提出相反的结果。一项检查肺结节位置对检出率影像的研究将肺结节分为3组:对孤立性结节的检出敏感性为97.4%,近胸膜结节为92.3%,近血管结节为94.1%[14]。大多数未被检出的结节位于近胸膜或近血管,因为这些结节与周围的软组织结构可能不能轻易的分辨。研究结果的不一致可能与所采用的AI系统、训练样本及研究对象、肺结节大小等不同有关。此外,我们发现在不同单能图像组中,支气管血管树旁结节阳性预测值显著低于肺内带、肺外带及胸膜下结节。这一结果说明肺结节检出的敏感性没有受到结节位置的影响,而支气管血管树旁较肺内外带及胸膜下检出了较多的假阳性结节。一些假阳性结节和真正的肺结节在形态学的表现上非常相似,这可能是导致肺结节识别假阳性率高的原因之一。而在本研究中,近血管支气管旁的假阳性结节数目最多,这一结果也被许多研究证实。Li等[8]研究表明,DL-CAD引起假阳性结节的最常见的5种原因包括:正常肺血管、胸膜结节和增厚、肺门、纤维化和伪影。一项关于减少假阳性结节检出的算法研究指出,对于量化脊柱异常来说很重要的骨刺,常被认为是假阳性结节,其他典型的假阳性结节包括结节样组织、大血管、纵膈组织和瘢痕等[15]。因此,如何减少近血管旁的假阳性结节是人工智能系统仍需努力的方向,充满挑战。
对于不同位置的肺部结节,70 keV及以上单能图像对不同位置的肺结节表现出比较稳定的检出敏感性。而40及55 keV图像对对比度较低的小结节可能有一定的优势(图2)。70 keV及以上图像因为其丰富的图像层次使AI系统能提取到更多信息,尤其70 keV图像,因为其信噪比及对比噪声比较好,可取得最好的结节检出敏感性,因此是本研究中最优单能图像。
本研究的局限性在于:样本数量有限,肺内带结节为34个,支气管血管树旁结节为41个,今后应扩大样本量,对实验结果进行进一步验证。
能谱CT中70 keV单能图像能使AI肺结节筛查系统获得较高检测敏感性、较低假阳性率以及较高阳性预测值,因此是适合该AI系统的最优单能量图像。而在不同单能量图像中,结节位置对人工智能系统结节检出没有显著影响。此外,肺血管误认是假阳性结节产生的最主要原因之一。