王琳萍 张 波
甲状腺结节是常见的内分泌肿瘤,在无症状人群中约占19%~67% ,但大部分结节为良性,恶性结节不足10%[1]。如何将甲状腺癌从高发的甲状腺结节中甄别出来,就显得至关重要。
超声是甲状腺结节首选的影像学诊断方法,所有已知或可疑甲状腺结节的患者均应行超声检查[2]。超声用于评估恶性肿瘤的风险,结合结节大小、局部侵犯情况、颈部淋巴结是否转移等推荐细针穿刺活检,在甲状腺结节的全程管理中发挥重要作用[3]。然而,对于经验不足的检查者来说,准确识别和解读超声特征具有挑战性,易引起观察者间和观察者内部的差异,导致不必要的细针穿刺和(或)诊断性手术,故准确诊断甲状腺结节良、恶性既能让患者得到及时治疗,也能减少医疗资源的浪费和缓解患者不必要的紧张、焦虑情绪。
为减少甲状腺结节超声诊断的人员依赖性,规范化超声图像的解读,自21世纪初以来,风险评估系统(risk-stratification systems , RSS)开始用于甲状腺结节超声诊断的有效管理,并由最初简单分类的定性分级系统发展为定量评分系统,即甲状腺影像报告与数据系统(thyroid imaging reporting and data system, TI-RADS),以可疑超声指标的数量和指标风险评分为依据,进行甲状腺结节的恶性风险分层[4]。
当今各种TI-RADS分类系统已在实践中得到广泛应用。但不足之处在于具有不同风险的Ⅳ类和Ⅴ类甲状腺结节的临床处置相同,所以研究者建议采取分级更精细的RSS,以便对甲状腺结节进行个性化和优化管理[5]。为满足这一临床需求,以机器学习(machine learning, ML)和深度学习(deep learning, DL)为核心,基于人工智能(artificial intelligence, AI)的甲状腺结节计算机辅助诊断系统被引入临床。AI可以提取和量化关键的图像信息,从而使图像诊断从主观的定性分析转化为客观的定量分析,因此基于AI的CAD系统可提高医生超声诊断准确性并解决分级RSS复杂性的问题,以避免低危结节进行不必要的FNA[6]。
1.机器学习及深度学习:基于AI的CAD系统具有两种核心技术: ML和DL。使用ML技术时,通常是基于超声特征(例如成分、形状、边缘、回声和钙化)开发CAD系统,并证明其诊断甲状腺癌的潜力。基于ML的CAD系统可以为医生提供参考意见。与ML比较,DL则不需要医生预处理图像及选择特征,降低了对数据质量的要求,可更客观地分析图像信息。近期使用DL进行的研究都开发了分类模型,但未提供有关超声特征的信息[7]。DL的算法目前还属于黑盒子状态,其对甲状腺结节检出原理尚无法解释。
2.甲状腺结节超声诊断的商业化CAD系统:目前,针对软件植入和外部验证问题,已开发出两种用于甲状腺结节良恶性诊断的商业化CAD系统。AmCAD-UT(中国台湾地区AmCAD Biomed公司)是用于超声诊断甲状腺结节的商业化CAD系统,旨在使用统计模式识别和量化算法来表征甲状腺结节,并根据TI-RADS分类提供恶性肿瘤的风险。用于甲状腺的S-Detect(韩国Samsung Medison公司) 是另一种商业化的CAD系统,应用最为广泛,已集成到商用超声平台中。它使用二分类结果(可能是良性或恶性)或TI-RADS分类结果来显示超声特征和可能的诊断。甲状腺的S-Detect1利用基于支持向量机模型的ML技术,甲状腺的S-Detect2利用基于卷积神经网络的DL技术。S-Detect技术诊断甲状腺的准确性较高,该技术有助于提高低年资医生诊断的特异性和准确性,与高年资医生诊断一致性相对较好,未来有助于超声图像的标准化判读[8,9]。
3.CAD系统在甲状腺结节超声诊断中的应用现状:随着技术的进步,CAD系统在甲状腺结节超声诊断中的应用,从只可重点标注恶性程度较高的特征,到实现对整个甲状腺结节超声图像的分析及自动诊断。DL出现之后,计算机辅助甲状腺结节超声诊断系统在临床上的应用取得了质的飞跃。
单一超声征象计算机化:第一阶段的应用主要局限在对甲状腺结节单个特征的自动化识别方面,从而实现良恶性判断。单一超声征象计算机软件可自动计算感兴趣区域内的某个特征值(如回声、钙化等),并输出量化参数值,从而预测甲状腺结节良恶性。Choi团队的研究中,超声医生使用计算机软件手动选择甲状腺结节区域,软件自动识别钙化并计算一些钙化指数,从而得出量化钙化更客观、更少依赖于操作者,可以提高检测的敏感度的结论[10]。Meta分析发现最广泛使用的特征是形状、边缘、回声、钙化、成分和大小,这些特征应当成为AI模型学习的重点。纵横比>1表明甲状腺结节在空间和方向生长上的变异,是恶性肿瘤最具提示性的特征[11]。
自动检测及自动诊断:随着ML技术的发展,CAD系统研究已经能实现对整个甲状腺结节超声图像的分析,而不仅限于对单独超声特征的定量分析。该技术通常包括图像预处理、特征提取和数据分类。其中图像分类即分类器通过数据输入、监督学习、训练和反馈等建立未知图像的自动分类模型。最常见的两种分类器是支持向量机(support vectors machine, SVM)和人工神经网络(artificial neural network, ANN)。
SVM旨在间隔最大化的前提下找到一条最优的分割线进行二分类。基于SVM的图像分析系统用于评估甲状腺结节的恶性风险时,可从每个结节中自动计算出40个纹理特征,并与SVM算法一起用于图像分析系统的设计,最高分类准确率为98.65%[12]。,尤其是在甲状腺结节数据集信息较少的情况下,SVM对甲状腺结节的检出对计算机硬件要求较低,成本也低于深度学习;但采用人为设计的特征提取进行选择,易造成部分结节信息丢失。深度学习则可同时完成结节定位、分割和分类。
卷积神经网络(convolutional neural network, CNN)属于深度学习的一种,无需手动选取特征,训练好权重即得特征分类。Kwon等[13]采用迁移学习方法,用762例患者的甲状腺横、纵向超声图像预先训练深度学习模型VGG16,从而使用CNN为甲状腺超声图像分类构建高效、准确的CAD系统。在定位上,由于CNN具有图像特征位移不变性,学习到的特征可从图像的不同位置中提取出来,不会因结节位置多变和体积较小导致检出率下降,具有较好的泛化能力。在结节分类中,深度学习实现从原始图像输入到最终分类的映射,消除CAD手工设计特征对最终分类的影响。虽然CNN对图像物体的分类与定位具有较强的优势,但对甲状腺结节的检出也存在不足,需对医生标注过的甲状腺图像进行学习,而医生标注质量的高低则直接决定了学习质量及模型的效能。
4.CAD系统在甲状腺结节超声诊断中的研究进展:基于AI的CAD系统与RSS在商用超声机器上的集成,可减少图像判读过程中操作人员的依赖性,有助于实时解读以评估甲状腺结节患者的恶性肿瘤风险和是否进行FNA,但CAD系统的实际临床意义需要在不同的临床环境中进一步验证。
Choi等[14]应用S-DetectTM模式,纳入89例患者共102个甲状腺结节,研究发现经验丰富的诊断医生对甲状腺癌的诊断特异性及特征曲线下面积明显高于CAD系统,但两种方法的诊断敏感度比较差异无统计学意义。另一项研究选取50例患者共117个甲状腺结节进行诊断,CAD系统的敏感度和特异性与诊断医生比较差异无统计学意义,提示当CAD系统用于辅助诊断医生时,医生诊断敏感度提高,特异性下降[15]。Gao等[16]利用基于多尺度CNN模型建立的甲状腺癌CAD系统,诊断甲状腺癌的敏感度、特异性、准确度分别为96.7%、48.5%和82.2%。具有20年甲状腺超声经验的一位医生利用Kwak-TIRADS、美国甲状腺协会风险分层、美国放射协会-TIRADS这3种指南单独对所有结节进行诊断比较,发现CAD系统的敏感度接近超声医生,而特异性稍低。Gitto等[17]研究发现,CAD系统与有经验的超声医生在方向、成分、回声方面和Kwak-TIRADS的观察者一致性好,而在边缘方面的一致性差。该研究还比较了CAD系统和医生的诊断能力,结果发现诊断医生对需要随访或手术的甲状腺结节的诊断敏感度明显高于CAD系统,特异性差异无统计学意义。这与Choi等的研究结论大相径庭,或许是由于两个研究使用的参考标准不同,且该研究中进行CAD系统处理的两位医生诊断甲状腺结节经验不足。Li等[18]开发了含超过30万张图像的分类模型,直接比较用TI-RADS诊断的医生和使用二分类结果的CAD系统,结果提示,新开发的CAD系统与熟练的医生具有相似的敏感度(分别为84.3%~93.4% vs 89.0%~96.9%)以及更高的特异性(分别为86.1%~87.8% vs 57.1%~68.6%)。这一结论存在争议,例如与此前的研究报道比较,诊断医生的特异性相对较低(57.1%~68.6%),以及使用TI-RADS分类的诊断医生与使用二分类结果的CAD系统之间是否可直接比较有待商榷。但是这项研究在技术性方面的成功值得引起研究者的注意,该研究亟待进一步在不同的地理环境中进行验证。
后续的研究着眼于医生的经验是否会影响CAD系统的诊断结果。Chung等[19]探讨CAD系统在甲状腺结节诊断中是否优于3位具有不同经验(1个月、4年和7年甲状腺超声经验)的诊断医生。CAD系统的诊断准确率(88.5%,95%CI:82.7~92.5)不低于甲状腺超声经验较少(1个月和4年)的诊断医生(83.0%,95%CI:76.5~88.0,P=0.000),而低于有经验的诊断医生(7年)(95.8%,95%CI:91.4~98.0,P=0.138),该系统可为经验较少的甲状腺超声工作者提供甲状腺恶性结节诊断决策支持。一项多中心前瞻性研究中,494例患者(565个甲状腺结节)于2019年1~9月在4家医院接受了超声检查后的手术或活检。计算CAD系统和诊断医生的诊断准确率指标,并与病理结果进行比较。结果表明CAD系统的诊断准确率与高年资诊断医生相当,特异性高于低年资诊断医生(87.5% vs 70.4%,P=0.03)。CAD系统的敏感度低于高年资和低年资诊断医生,但差异无统计学意义(76.9% vs 86.9%,P>0.5;76.9% vs 82.6%,P>0.5)[20]。
综上所述,不同版本的CAD系统诊断效率接近或略低于高年资医生,但是明显高于低年资医生。然而,由于分化型甲状腺癌占甲状腺癌总体比例90%以上,预后好,病死率低,许多研究者倾向于将高特异性作为减少不必要的FNA的方法。因此可以使用CAD系统作为高敏感度的筛查工具,以协助初级医疗中心经验较少的操作员。关于是否进行FNA可参考甲状腺成像专家的建议从而增加诊断的特异性。总之,计算机辅助诊断系统对低年资诊断医生具有重要的辅助诊断价值,其在临床的应用具有广阔的前景,然而它的应用也面临很多挑战及局限性。
CAD技术的局限性和超声检查的性质对超声AI的发展和临床应用提出了挑战。(1)CAD技术无法全面评估血流和硬度等信息,也无法将症状和体征纳入考虑范围内。(2)AI的输出结果通常以概率形式呈现,概率尺度的准确性很大程度上受到基线特征和临床环境的影响。用于医学诊断和预测的AI算法的可推广性有限,不同患者和医院之间的AI准确性具有显著差异,即“过拟合”。这种局限性在超声检查的AI算法上尤其明显,因为超声检查广泛使用于各种临床环境和患者,由具有不同专业知识的各种医疗专业人员执行,超声的操作者依赖性引入了额外变异。超声检查系统也比CT或MRI更加多样化,具有更多的供应商和版本。故扫描和图像采集的标准化对于AI在超声中的成功应用至关重要。(3)即使系统是使用相对较小的样本量开发的,但在大多数情况下仍缺乏测试和验证数据集。近期一项回顾医学影像诊断AI算法的系统评价分析发现,只有6%发表在同行评议期刊上的此类研究进行了某种形式的外部研究验证(无论在方法上是否充足)。(4)虽然人们期望AI有助于经验不足的检查者进行诊断,然而未接受专业培训的人员在使用AI时会出现解读困难,且倾向于未进行必要的评估便直接采纳AI的结果,这最终将影响超声检查报告的准确性。虽然将AI引入医学的路上仍然困难重重,但是挑战就是机遇,突破就会成长。
医疗领域的AI研究正在迅速发展并出现了许多潜在的应用前景。首先,超声对操作者的依赖性使得验证AI的前瞻性研究显得尤为必要。AI的作用不仅取决于技术分析能力,还取决于计算机化结果如何呈现给医师进行诊断。考虑到在采集超声图像以及实时检查过程中结合AI做出决策时的操作人员依赖性,回顾性收集图像的分析与真实临床环境之间比较差异可能有统计学意义。到目前为止,超声AI的研究主要集中在回顾性研究,应该进行更多涉及检查者和AI系统之间的实际交互的前瞻性研究。其次,过度拟合的问题强调了AI算法在各种实际临床环境中的充分外部验证的重要性。未来超声的AI研究除了开发新的算法外,还应强调对已开发算法的外部验证。严格的外部验证有助于明确AI算法何时可保持其预期精度,从而有助于确保医生安全有效地使用CAD系统[21]。
综上所述,对于诊断医生来说,了解CAD技术的优缺点,最大限度地利用其辅助诊断甲状腺病变的功能是非常重要的。基于对超声检查的性质的认识,未来需要关注以下问题。超声检查本身和相关的临床和流行病学方面的知识、扫描和图像采集的标准化、AI算法充分外部验证等都尤为重要。还应进行涉及操作者和AI系统之间实际相互作用的前瞻性研究,而不仅仅是分析回顾性收集的图像。AI初入临床实践便已取得可观的成果,应用于超声检查的具体例子在未来还会继续增加,相信计算机辅助诊断系统终将成为诊断医生的第三只眼。