张蕊,牛丽娟
国家癌症中心/国家肿瘤临床医学研究中心/中国医学科学院北京协和医学院肿瘤医院超声科,北京 100021
甲状腺结节是一种非常常见的临床疾病,19%~68%的健康人群存在甲状腺结节[1]。2020年全球肿瘤统计中,甲状腺癌新发病例达到了58.6万例,在所有恶性肿瘤中居第9位[2]。甲状腺癌在女性中的发病率是男性的3倍,是中国30岁以下女性中最常见的肿瘤类型。超声检查(ultrasound,US)作为一种便捷灵活、安全无辐射的影像诊断工具,是评估甲状腺结节恶性风险的首选,并可为细针穿刺细胞学(fine-needle aspiration,FNA)提供决策信息。但超声诊断主观依赖性强,致使不同医疗水平地区的超声医师之间,以及同一地区不同年资超声医师间的诊断水平存在较大偏差。尽管甲状腺超声诊断已有较成熟的报告指南,如2015年美国甲状腺协会(American Thyroid Association,ATA)颁布的成人甲状腺结节与分化型甲状腺癌诊疗指南和美国放射学会(American College of Radiology,ACR)颁布的甲状腺影像报告与数据系统(thyroid imaging-reporting and data system,TIRADS)分级指南。但对于经验较少的低年资超声医师来说,对声像图特征的准确识别和一致解释仍是具有挑战性的,通常会导致不必要的FNA和诊断性手术,这不仅给医疗保健系统带来了较重的经济负担,也给患者带来了相当大的心理压力。
近年来,随着被称为“第四次工业革命”的人工智能(artificial intelligence,AI)的飞速发展,越来越多的研究致力于将AI应用于医学图像相关分析以解决相应的临床问题,并取得了大量不俗的成就。AI在自动识别复杂图像模式和为成像数据提供定量评估方面表现出色,在辅助医师获得更准确和可重复性结果中显示出巨大潜力。US不同于常规X线、CT、MRI、正电子发射计算机断层显像(position emission tomography,PET)-CT等影像手段,是一种对于操作者依赖性很强的成像方式,因此开发用以评估图像并向操作者提供反馈的AI模型对于临床是大有裨益的,在数据采集和测量期间提供指导能使US更智能、更客观、更准确。本文回顾了近年来AI、机器学习(machine learning,ML)和深度学习(deep learning,DL)技术在甲状腺结节US图像中的研究进展,并从结节的分割、分类和诊断、组织病理学预测等几个方面对AI在甲状腺癌US中的应用进行了综述,最后对其面临的挑战和机遇进行了展望。
AI的概念最早是于1955年由McCarthy等提出的,他们将AI描述为一种试图模拟人类认知功能的计算机程序[3]。它具体包括模拟人类学习的过程,以及应用和解决复杂问题的过程。AI在医学中的应用有两个主要分支:虚拟和物理[4]。虚拟部分的代表是ML,它是通过经验改进学习的数学算法来实现的,是AI的核心,涉及各种技术,包括人工神经网络(artificial neural network,ANN)、支持向量机(support vector machine,SVM)和随机森林(random forest,RF)。DL是最先进的ML算法,是1986年提出的基于ANN发展起来的一类新的计算方法[5-6]。DL算法的典型代表是卷积神经网络(convolutional neural network,CNN),在医学图像分析中应用最为广泛。CNN已经扩展出多种网络结构,包括 AlexNet、VGGNet、GoogLeNet、ResNet和 DenseNet[7]。(图1)
图1 人工智能、机器学习与深度学习之间的关系
ML算法需要用专业医师定义的人工特征标签对图像进行标记,可以看作是将观察到的输入数据特征映射到输出结果中的过程。该算法的目标是最小化已知标签和预测标签之间的差距[8]。与传统的基于人工输入特征的ML算法不同,DL能够实现诊断自动化,避免人工干预。DL算法主要依赖于排列在层中计算单元的多层网络结构,类似人脑中的神经元,它可以逐渐从输入数据中自动提取更高级别的特征。随着图形处理能力的快速提高,DL算法越来越先进,这些算法可以用数百万张图像进行训练,并且对图像的变化具有一定的鲁棒性[9]。在医学图像领域中,DL算法主要应用于组织、病灶的探测和分类,疾病进展的预测分析,以及药物、治疗的疗效评估。在甲状腺结节超声图像分析方面,DL也越来越受欢迎,常见应用包括结节的分割、结节良恶性的分类和诊断、组织病理学分型的预测分析。
分割是AI医学图像分析的第一步,所有特征的提取都依赖于感兴趣区(region of interest,ROI)的分割,它对于各种医学图像的分析都是至关重要的。分割的任务是识别ROI轮廓的体素集及区域内部的体素集[10],是后续进行ROI体积与形状相关临床参数定量分析的基础。甲状腺结节分割方法分为4类,包括基于轮廓和形状的分割法、基于区域的分割法、基于ML和DL的分割法以及联合分割法。大多数甲状腺结节分割方法都是基于轮廓和形状的分割法。基于轮廓和形状的ROI分割的常用算法主要是区域生长算法和灰度阈值算法。在一些研究中,ROI由专业医师手动描绘[11-12]。由医师进行手动分割是金标准,半手动分割次之,但是手动和半手动分割都是非常耗时、耗力的,并且易受观察者之间可变性的影响,导致结果出现偏差。相比之下,基于AI算法的自动分割更具可重复性和高效性,但精准性不如专业医师。也有研究指出,为了保证分割的精准性,也尽量避免可能出现的偏差,可以考虑由多名专业医师与多种算法组合的方法进行分割[13]。
基于超声图像的DL模型可以提高甲状腺良恶性结节诊断的准确度。由于DL拥有多层网络结构,可以识别超声图像固有的特点,捕捉到人眼不能识别的高级鉴别特征,这可以帮助经验不足的初级超声医师做出更精确的诊断。甲状腺结节良恶性分类器的工作流程一般包括5个阶段:图像采集、分割、特征提取、探索性分析和建模。目前大量的甲状腺结节良恶性分类性研究都是基于二维灰阶超声声像图,如Liu等[14]基于中国医学科学院肿瘤医院4279例患者共7690个甲状腺结节的超声图像,提出了一种基于多尺度CNN的甲状腺结节检测和分类方法,其灵敏度(0.964vs0.928)、特异度(0.780vs0.366)和准确度(0.928vs0.816)均明显高于超声医师。Chi等[15]开发了一个甲状腺结节的US分类系统,该系统使用RF分类器对预先训练好的GoogLeNet深度学习模型进行微调,其输入和输出形式均为TI-RADS分级,模型的分类准确度为96.34%,灵敏度为86.0%,特异度为99.0%。Kwon等[16]建立的甲状腺良恶性结节分类模型是一种基于术后病理结果的新的VGG16学习模型,该模型特异度和灵敏度分别为0.70和0.92,阳性预测值为0.90,阴性预测值为0.75。Wang等[17]将DL和ML算法相结合,提出了一种新的基于US的甲状腺计算机辅助诊断(computer-assisted diagnostic,CAD)模型,该模型可以提高声像图可疑恶性结节的诊断准确度,并可以输出具体US特征,该模型的准确度为76.77%,高于超声医师的平均准确度(68.38%)。
甲状腺癌有4种病理类型:甲状腺乳头状癌(papillary thyroid carcinoma,PTC)、甲状腺滤泡癌(follicular thyroid carcinoma,FTC)、甲状腺髓样癌(medullary thyroid carcinoma,MTC)和甲状腺未分化癌(anaplastic thyroid carcinoma,ATC)。甲状腺癌患者的5年相对生存率为99.7%,但对于不同分期和不同病理类型的患者生存率存在很大的差别:Ⅰ期和Ⅱ期PTC、FTC和MTC的5年生存率接近100%;Ⅲ期FTC为71%,Ⅲ期MTC为81%,Ⅲ期PTC为93%;Ⅳ期FTC为50%,Ⅳ期MTC为28%,Ⅳ期PTC为51%。所有ATC都属于Ⅳ期,5年生存率仅为7%[18]。所以尽早明确甲状腺结节的病理类型,对于甲状腺癌患者的精准治疗至关重要。
基于DL的甲状腺结节组织病理学预测是良恶性分类器基础上进一步发展的更精确的产物。Seo等[19]从230例甲状腺滤泡性腺瘤(follicular thyroid adenoma,FTA)和77例FTC的术前US图像中收集了结节的边缘特征,建立一个CNN分类模型,该模型测试数据的总体准确度为89.51%,其中FTA和FTC的准确度分别为93.19%和71.05%。Shin等[20]收集了来自两家三级医院的252例FTA和96例FTC术前US图像,建立了ANN和SVM的分类器模型,结果显示ANN和SVM模型的灵敏度、特异度和准确度分别为32.3%vs41.7%、90.1%vs79.4%和74.1%vs69.0%,高于两位经验丰富的超声医师诊断的平均灵敏度、特异度和准确度(24.0%、84.0%和64.8%)。Li等[21]的研究在CNN中增加了一个可以提取结节周围区域特征的空间约束层,建立了一种PTC的探测模型,该模型在无任何人工干预的情况下,成功检出了93.5%的PTC,排除了81.5%的良性结节和正常组织。此外,甲状腺癌虽然生物学行为较惰性且预后良好,但是淋巴结转移却很常见。Lee等[22]研究了804例患者的812个淋巴结的US图像,在VGG-Class模型的基础上,开发了一个用于定位和鉴别转移淋巴结的CAD系统,该模型预测转移淋巴结的准确度为83.0%,灵敏度为79.5%,特异度为87.5%。
目前DL模型都能够产生极其可靠的结果,但它们往往非常不透明,因此被称为“黑盒子”,即使是技术高超的专家也很难完全解释出这些“黑盒子”模型的具体过程[23]。在没有解释出基本原理或特定决定因素的情况下,一些学者认为将医疗决策权交给“黑盒子”系统是违背了医学伦理的[24],这使得预测模型在临床的应用受到了很大的限制。随着DL技术越来越多地应用于解决各种复杂的决策领域,一种将伦理标准整合到AI技术的设计和实施中的可解释的人工智能(explainable AI,XAI)应运而生[25]。XAI指的是一类能够洞察AI系统如何做出决策和预测的系统。XAI可以探究决策系统的具体过程,识别该系统的优点和缺点,并对该系统在未来如何运作做出预测。XAI通过将额外的可解释代理模块添加到DL模型中,可同时考虑到泛化误差和人类经验,实现经过验证的预测。相比之下,没有可解释代理模块的“黑盒子”模型将引起用户的担忧,尽管其性能可能很高。XAI有望解决有关决策过程基本原理的透明化问题,是一个充满活力的新兴领域,许多研究正在浮出水面,这些研究将在各个方面对AI的发展产生巨大的影响。
基于常规超声的DL预测或分类模型存在一定的局限性,例如来自不同超声成像设备的图像存在一定的差异,是造成模型适用性和泛化性较差的一个重要因素。其次,DL算法的训练和运行都需要专业的GPU环境和软件包,亦会一定程度上造成医疗成本的增加。此外,DL工作流程较为复杂多样,也进一步限制了其实际应用。虽然DL已被证实在甲状腺结节的探测、诊断中是有应用价值的,但其潜在的机制还没有被完全阐明,例如其与病理和基因之间的相关性,仍需要更多的研究来探索影像学、病理生理学和预后之间的关系。
基于超声图像的DL技术在甲状腺结节诊断和预测方面无疑拥有巨大的潜力和广阔的前景。因其拥有更优越的准确性、更高效的性能和更客观的评价标准,定会成为未来超声医师的一个强有力的辅助工具。然而,考虑到DL的局限性和复杂性,在广泛应用于临床之前,需要解决一些具体问题,比如超声图像数据不足和异质性导致难以保证临床有效性和实用性,以及“黑盒子”的难以解释性。关于DL诊断的准确性和假阳性也存在长期争议。但是,即使当前AI没有达到专家的水平,但其仍然可以通过为普通超声医师提供辅助诊断意见,减少繁重的临床工作导致的不可避免的漏诊和误诊,有助于提高超声医师的整体诊断水平。未来仍需要进一步的研究来提高DL诊断和预测模型的鲁棒性和泛化性,使其能够实际应用于甲状腺结节患者的实时超声诊断中。