刘甜 范丽
恶性肿瘤一直以来严重危害人类的生命健康,其中,肺癌的发病率、死亡率均位居首位,并且呈持续上升趋势[1]。GLOBO-CAN2020 数据中,中国的肺癌发病数量占全球的37.0%、死亡数量占39.8%[2],因此,我国恶性肿瘤防治中,肺癌防治成为首要问题。早期肺癌常常无典型的临床症状,大多数情况下仅表现为CT图像中的肺结节;而中晚期肺癌患者预后常常较差,5年生存率仅有19.7%[3-5]。所以,开展肺癌筛查能够使肺癌早发现、早诊断以及早期及时治疗,从而有效提高5年生存率。近年来,人工智能在医学影像领域快速发展,在肺癌筛查中的效能逐步提升,本文通过回顾肺癌筛查的现状,旨在介绍人工智能技术在肺结节检出、诊断中的辅助价值及未来潜在的发展方向。CT的密度分辨率较高,可清晰显示解剖细节,是肺癌影像检查的主要方法。1990年代初期,Naidich等[6]第一次提出低剂量螺旋计算机体层成像(low-dose computed tomography,LDCT)的概念,而后众多研究显示,LDCT相比于常规剂量CT,可以在满足早期肺癌的诊断需求、保证图像质量的情况下显著减少辐射剂量[7]。LDCT成为早期肺癌筛查的重要技术方法。
世界上最著名的筛查项目有美国国家癌症研究所(National Cancer Institute, NCI)开展的国家肺癌筛查试验(National Lung Screening Trial, NLST)[8-9]、国际早期肺癌行动项目(International Early Lung Cancer Action Project, I-ELCAP)、荷兰-比利时随机肺癌筛查试验(Nederlands-Leuvens Longkanker Screenings Onderzoek, NELSON)[10]、意大利的肺癌筛查的研究项目(Multicentric Italian Lung Detection,MILD)[11]和德国肺癌筛查干预试验(German Lung Cancer Screening Intervention,LUSI)[12]。在2011年,NLST的研究显示,相对于胸部X线片[8]而言,使用LDCT进行肺癌筛查能降低20%的死亡率。I-ELCAP显示,每年至少80%的Ⅰ期肺癌通过LDCT筛查发现,通过及时治疗,治愈率可达到80%~90%[13]。NELSON也证实,进行CT肺癌筛查人群的肺癌死亡率明显低于未进行肺癌筛查的人群[10]。我国在20世纪初,将肺癌纳入了国家医改重大专项——“农村癌症早诊早治项目”,开启了我国肺癌高危人群筛查工作[14];2012年启动的“城市癌症早诊早治项目”也将肺癌纳入筛查项目[15]。此外,上海地区也开展了多中心的LDCT肺癌筛查项目,结果显示LDCT筛查的阳性检出率(肺结节)为29.89%,肺癌检出率为1.23%,Ⅰ期肺癌的检出率为0.97%[16]。
计算机辅助检测与诊断技术(computer-aided detection diagnosis,CAD)是最早辅助于肺癌筛查的方法。CAD包含计算机辅助检测(CADe)和计算机辅助诊断(CADx)这两个不同的系统。CADe主要通过图像分析进行肺结节的检出,而CADx主要是通过智能化的方式深层次测定、分析与其相关的特征数据,二者相互协作诊断肺小结节[17]。代表性的CADx包括ISICAD、LargeCAD及ETROCAD等,以上CAD均以传统的机械视觉算法为基础检测肺结节,是肺结节筛查常用方法,但其筛查特异度、灵敏度普遍较低。
人工智能(artificial intelligence,AI)是模拟、延伸与扩展人类智能的理论、方式、技术及应用的一门信息科学[18],它能够灵活应用庞大数据、具有出色的计算能力,以及深度学习算法的推动,在医学影像领域迅速发展。AI能够提取图像中易被肉眼忽视的信息,从而使图像的诊断价值显著提高[19]。机器学习(machining learning,ML)是AI的一个重要组成部分,ML又包括深度学习(deep learning,DL)。DL的实质是构建机器学习模型、海量的训练集,学习有意义、相关的特征,从而有效提高诊断准确性。基于DL的肺小结节检出与诊断的准确率也得到了显著的提升[20]。DL模型中又有许多分支,包括深度信念 网 络(deep belief network,DBN)、自 编 码(auto-encoder,AE)和卷积神经网络(convolutional neural network,CNN)等。其中DBN较多用于数据分类、特征识别;CNN则使用得最为广泛[21]。AI在辅助影像技术方面也有重要的价值,比如患者扫描摆位、按照要求扫描患者、预处理图像等[22]。所以,AI可以应用于肺癌筛查的全流程中。
噪声是图像质量一个重要指标,低剂量CT扫描图像噪声增加,影响小病灶的检出。混合迭代重建(hybrid iterative reconstruction,Hybrid IR)和全模型迭 代 重 建(model-based iterative reconstruction,MBIR)等重建算法显著降低LDCT的图像噪声、改善图像质量,但当扫描剂量进一步降低时,其降噪效果大幅度降低,临床应用相对受限。深度学习重建算法(deep learning-based reconstruction,DLR)主要是通过使用深度卷积神经网络(deep convolutional neural networks,DCNN)技术,能够在降低图像噪声的同时保持较高的空间分辨率,使得超低剂量CT扫描能够应用于临床。宋伟等[23]研究发现,在对肺部主要解剖结构和GGN的显示上,标准级别和强级别DLR图像评分明显优于Hybrid IR图像。与Hybrid IR相比,DLR可以明显降低LDCT图像的噪声,且对GGN的显示良好,有助于在较低辐射剂量水平条件下依然保证图像质量,从而改善肺癌筛查及肺结节随访的安全性。Jiang等[24]研究证实使用深度学习图像重建(DLIR)进行超低剂量CT扫描可以获得接近常规剂量胸部CT扫描的图像质量,较迭代重建算法显著提高结节检出率、结节测量准确性和结节恶性相关征象显示效果,为超低剂量CT肺癌筛查(接近胸片剂量)的广泛普及和应用提供了重要的参考价值。
基于AI的肺结节筛查可以自动识别CT中肺结节,达到临床辅助诊断目的。临床研究表明[25]:AI肺结节筛查用于高危肺癌筛查患者中每10 s即可完成一份阅片诊断,大大地提高了阅片准确性、节省了时间,并解决人工阅片存在的不足及弊端。此外,AI肺结节筛查结果不因影像科医生能力水平受影响,因此能够增加早期肺癌早期识别的灵敏感度和特异度,进而帮助医生诊断,减轻医生工作量。在王冠华等[26]的一项回顾性研究分析中,AI检测实性结节、部分实性结节、磨玻璃结节的检出真阳性率分别为66.67%(106/159)、66.00%(33/50)和75.71%(53/70),对比这3种结节检出准确率,三者间差异无统计学意义,证明了AI系统在肺癌早期不同密度肺结节的检出和良恶性鉴别中有相同的效果。基线筛查人群经AI检测后平均每人肺内约存在6个结节,并且约93%的人群能够检测出结节,其中6 mm以下的结节就占60%,并且,实性结节被发现的比例会随着年龄的增加而增加,而亚实性结节则变化不大。目前AI产品检出6 mm以下结节(尤其3 mm以下微小结节)的能力显著优于影像诊断医师[27]。因此,影像医师在肺结节诊断工作中参考AI的诊断结果,一方面既利用AI对于肺结节检出和诊断的高灵敏度,避免结节漏诊,另一方面影像医师又可以利用多平面重建等观察结节的形态特征、与支气管和血管的关系、与周围淋巴结情况等进行综合判断。
尽管AI在诊断中展现出明显的优势,仍存在过度诊断、假阳性率高等问题。郭依楠等[28]在研究中指出,深度学习的AI软件检出的假阳性率为平均每例5.90个,而影像医师独立检出肺结节假阳性率达到每例0.10个。那么影像医师联合AI辅助诊断之后,检出的假阳性结节数则明显减少,假阳性率达到0。刘娜等[29]在回顾性研究分析中发现AI检测肺结节的灵敏度明显高于影像医师,但AI有着更高的假阳性率;AI联合影像医师诊断恶性肺结节效能高于AI或影像医师单独诊断。因此,AI与医师诊断结合,共同参与,能够明显降低漏诊、误诊率,提高肺结节检出率、诊断正确率,给出有效的随访意见,从而有效提高肺癌诊断效能。
在定性诊断研究方面,AI可以在海量的图像信息中快速准确地定位肺结节,并通过ML得到的算法模型快速提取结节的形态特点,进行良恶性判定。AI算法模型还能够提取肉眼无法辨识的图像信息特征,因此在肺结节良恶性诊断中有明显的优势。Wang等[30]进行了一项回顾性研究,主要是运用影像组学技术鉴别肺结节良恶性的预测能力,其灵敏度、特异度及准确率均较高。Chae等[31]在一项回顾性研究分析中,利用影像组学特征,通过平均CT值、CT值标准差等相关参数建立了人工神经网络模型,该模型能够有效鉴别浸润性与浸润前病变,并且AUC达到0.981。Shaffie等[32]利用AI模型提取出467例患者的727枚结节,通过DBN、AE对肺结节良恶性进行判定,最终结果准确度达到91.2%。
在定量诊断研究方面,影像医师对肺结节良恶性进行判断之际,通常会考虑其形态、密度、大小、位置、边缘特征及倍增时间等信息。AI可以提取肺结节特征,对特征进行选择和分类,降低影像科医师工作负担,并提升鉴别肺结节良恶性的精确度。Revel等[33]在一项研究中仔细观察了22个肺结节,其中有9个恶性结节具有37~216 d的倍增时间,而在良性结节中,则是4~188年。Awai等[34]提取了结节大小、形状、密度、空腔和钙化体积等信息,发展了新型CAD系统,以客观准确地评估结节恶性概率,并通过肺结节(直径不超过3 cm,数量共计31个)来展开验证,发现该系统能明显提高低年资影像医师诊断的准确率。Gao等[35]将肺结节中的三维纹理特征、临床信息及CT图像数据计入支持向量机模型进行肺癌预测,能够使放射科医师诊断肺结节的灵敏度和特异度分别提高23%和28%。
目前临床常用的肺结节AI智能软件可以同步输出肺结节的数量、位置、大小、密度等数据,部分具有动态随访的分析功能,对于大小变化、密度变化和倍增时间等做出分析,基于以上信息输出恶性概率,有助于为肺癌筛查工作提供快速、精准、可重复的数据分析。
AI辅助肺癌LDCT筛查在结节检出、定位、定性方面意义深远,并且在AI技术的辅助之下,影像科医师的工作效率、诊断水平得到了极大提升。但AI检测灵敏度高,导致在临床中更多没有临床意义的微小结节被发现和过度诊断,这无疑增加了焦虑与恐惧,国际著名筛查计划除NELSON以外,其他如NLST、I-ELCAP等都存在过度诊断的问题[36]。《欧盟肺癌筛查声明》强调使用合理的筛查间隔以及准确的结节测量方法来降低过度诊断给群众带来不必要的危害。
在临床应用方面,单纯的肺癌筛查、诊断模型都无法满足实际临床诊断的需求。在影像科医生平日工作中,需要全方位地评价和诊断一份CT图像,包括是否有肺结节、肺气肿、肺炎、气道病变、纵隔淋巴结肿大和心脏大血管疾病等,同时将影像组学与其他组学密切结合,如临床特征、免疫组织化学、基因组学等数据,全方面评价。因此,如何将这些临床层面的信息全面融合到AI诊断模型中、实现精准诊疗,也成为未来AI在肺癌筛查应用中不断探索的方向。