人工智能时代甲状腺超声检查的应用与展望

2021-03-06 17:46詹维伟侯怡卿
外科理论与实践 2021年6期
关键词:灵敏度恶性结节

詹维伟, 侯怡卿

(上海交通大学医学院附属瑞金医院超声诊断科,上海 200025)

甲状腺结节是一个全球发病率非常高的疾病。中国、北美洲、澳洲发病率>7.8/10万人[1]。从增长率来看,1980年以来,甲状腺癌的发病率大幅增长。有研究者认为发病率增长与检出率有较大关系。许多甲状腺乳头状癌 (papillary thyroid carcinoma,PTC)存在过度诊断、过度穿刺的问题。研究表明,全球各国都存在PTC过度诊断的情况,其中韩国的过度诊断率高达93%,中国约87%[2]。由于超声诊断对医师的经验依赖较大,在低年资医师和一些基层医疗机构中,尚存在漏诊的情况。作为一种高发疾病,甲状腺结节的筛查需大量基层医院参与,因此如何平衡甲状腺结节的漏诊和过度诊断,提高甲状腺结节的诊断能力,尤其是基层医院的诊断能力,是一个严峻的问题,成为目前甲状腺超声人工智能(artificial intelligence,AI)研究的主要关注点。基于AI的计算机辅助诊断 (computer-aided diagnosis,CAD)系统是一种新的诊断技术,具有一致性好、便捷、快速等特点,因此越来越多被运用到解决甲状腺结节超声诊断的问题中。

目前,以减少甲状腺结节的过度诊断为目的,AI在甲状腺超声检查的应用可具体分为3个方向。①甲状腺结节的准确诊断:降低操作者经验、仪器成像、甲状腺背景等因素对诊断效果的影响,保持诊断一致性、提升诊断效果;②风险分层系统,即甲状腺影像报告与数据系统(thyroid imaging reporting and data system,TI-RADS)的标准化:包括评估指标、评分系统和临床处理方式的标准化;③提升细针穿刺检查的诊断效能:减少细胞病理检查难以诊断的标本,如Bethesda 3类标本的比例,降低重复穿刺率。另外,术前诊断甲状腺癌淋巴结转移也是重要的临床问题之一。淋巴结转移的情况,尤其是颈侧区是否存在淋巴结转移,对手术方式有极大的影响。但目前超声检查诊断淋巴结转移的灵敏度较低。67%的病人无法通过超声检查发现早期微转移。提高转移性淋巴结的诊断灵敏度是极富挑战的课题。

本文简述目前AI研究方法的现状,归纳总结AI在甲状腺超声检查的应用,提出对甲状腺超声AI的展望。

甲状腺超声检查AI的研究

甲状腺超声检查AI的方法分为机器学习和深度学习。机器学习由于需要的数据量较少,是研究者最早使用的方法。该方法需先勾画感兴趣区域(region of interest,ROI)、提取 ROI内的特征,经筛选得到最有意义的特征,最后根据这些特征通过分类算法判断结节的良、恶性。机器学习中常用的特征有形状、回声、边缘边界、钙化等,与超声检查特征有较高的重合度。常用的分类算法有随机森林(random forest,RF)、支持向量机 (support vector machine,SVM)、线性判别分析(linear discriminant analysis)等[3]。Chang等[4]用SVM算法学习超声检查灰阶图像,诊断恶性结节的ROC曲线下面积(area under curve,AUC)达 0.986,与医师的诊断效能相似(AUC=0.979)。灰阶图像还可联合彩色多普勒、弹性图像等多种模态,如Zhang等[5]使用多模态超声检查图像在区分良、恶性结节的AUC达0.938,优于医师的诊断水平(AUC=0.843)。

深度学习与机器学习相比,需更多数据量,因此在性能方面有显著提升。另一区别是,深度学习不需要人为规定的特征,也无需筛选,可直接从输入到输出,中间无需额外操作,因此成为近来的热点。Gao等[6]用342例病例得到的深度学习模型在结节良、恶性诊断的AUC达0.73。Wang等[7]使用YOLO(you only look once,是一种目标检测模型)与ResNet(又称残差神经网络,一种分类模型)结合的模型,对276例的AUC达0.902。Li等[8]的研究使用目前最大数据量,>40 000例,用ResNet和DarkNet模型联合。ResNet和DarkNet均为深度学习常用的模型,为分类模型,可对超声检查图像进行良、恶性分类。内部测试集(即测试图像来自于训练集相同的中心)的AUC达0.947。2个外部测试集(即测试图像来自于不同训练集的中心)AUC分别达0.912、0.908。

然而深度学习有一定局限性。在数据量不够大时易出现过拟合,指为得到一致假设而使假设变得过度严格,导致模型只能在该数据集下取得好的效果,难以推广到其他数据集上。且深度学习的分类过程是一个黑箱,只能看到结果而不知其过程和原理,因此其可解释性较差。目前有学者使用深度学习联合机器学习的方法诊断乳腺癌。该方法利用深度学习客观、多维度提取图像特征的优点,也融入机器学习分类算法可解释性好的优点[9]。未来机器学习+深度学习的结合将成为一种研究趋势。

AI技术的发展对甲状腺超声检查图像素材的多样性提出更高的需求。从单张灰阶图像到多模态超声检查影像、RF射频信号(即原始射频信号)等,越来越丰富的原始输入图像意味着更多、更全面的信息量。多模态图像的运用可提升诊断精确度,更好地区分良、恶性结节。Zhang等[5]加入超声检查弹性成像的图像后,将AUC从0.924提升至0.938。RF射频信号作为最原始的第一手资料,能减少人为因素的影响。

AI在甲状腺结节超声诊断中的应用

一、AI在甲状腺结节检测的应用

在甲状腺结节检测方面,Liu等[10]的研究用深度神经网络,对静态图片进行结节检测的准确率达97.5%。为更进一步贴合临床的操作流程,Fang等[11]用Faster RCNN模型实现对结节静态图像的实时检测,速度达16帧/s,精确率达92.7%,可用于实时检测。实时检测的使用减少人工留图产生的主观性影响,降低人为因素对AI结果的影响。

二、AI判断甲状腺结节良、恶性

AI辅助诊断甲状腺结节的方式有很多。较常见的输出结果有:结节的良/恶性概率、良/恶性二分类结果、TI-RADS类别、TI-RADS指标,如边缘、边界、生长方式等。AI直接输出良、恶性概率或良、恶性二分类诊断是最常见和直接的方式。Gao等[6]用AlexNet建模,在结节良、恶性诊断的任务上AUC为 0.73。Wang 等[7]用 YOLO 模型,AUC 达 0.902。Li等[8]用ResNet和DarkNet联合建模,并开展多中心研究,收集4万多病例,10万张以上的超声检查图像作为训练集,设置1个内部测试集和2个外部测试集,是目前数据量最大的多中心研究。该研究的模型在内部和外部测试集上的AUC均>0.9,诊断准确率≥超声医师。大量的数据说明AI对甲状腺结节的诊断并不是简单的过拟合,而是具备跨中心使用的可能。Hou等[12]关注到合并弥漫性背景会提升甲状腺结节的诊断难度,因此针对弥漫性背景设计了AI模型。不但学习结节内部的特征,也学习结节周边的甲状腺背景特征。经训练后的模型在弥漫性背景下,对结节的诊断能力高于低年资医师,与高年资医师相当。说明AI能克服各种混杂因素,具备准确诊断结节的能力。AI还可通过学习超声图像区分BethesdaⅢ类结节与Ⅳ、Ⅴ、Ⅵ类结节,准确率可达87.15%[13],给细胞病理医师提供诊断参考。

AI也可输出风险分层。目前已商业化推广的三星S-Detect系统,可输出回声水平、边缘边界、点状强回声等TI-RADS指标,最后计算出TI-RADS级别。许多学者对该系统进行外部验证。Choi等[14]在含102个结节的测试集上取得灵敏度88.4%、特异度74.6%的诊断效果。其中灵敏度与医师相当,而特异性低于医师。Kim等[15]在含218个结节的测试集上,诊断灵敏度和特异度分别达80.2%、82.6%。Buda等[16]开发自己的深度学习模型,通过对良、恶性概率分段输出的方式进行风险分层。该模型的灵敏度、特异度分别为87%、52%,与ACR-TIRADS专家组的诊断效能相似。上述研究表明,AI风险分层可一定程度上达到与医师相当的水平。同时AI输出的结果每次都一致,因此可在效果相似的基础上提升风险分层的一致性和标准化。

AI风险分层除了建立在现有的TI-RADS指标上,还有许多不同的建模思路。Daniels等[17]提出以基因突变为金标准,对结节的基因突变进行风险分层。该团队收集121例,共134个结节,涵盖BRAF、TERT、TSHR等23种与甲状腺癌有关的基因。AI通过学习超声图像和基因突变的关系,最终输出结节基因突变的风险,模型的灵敏度、特异度分别为45%、97%。

可解释性低一直是深度学习应用于临床的最大阻碍,因此不少学者尝试将AI与医师的经验相结合。目前已有不少学者验证两者结合对诊断效果的提升。Wang等[18]用AI诊断结果修正医师的TIRADS,发现修正后平均特异度从65.2%±6.4%提升至83.3%±7.2%,差异有统计学意义。Zhang等[19]对比CAD与不同年资医师的诊断效能。单用CAD的灵敏度和特异度分别为71.5%和86.0%,CAD联合低年资医师的诊断灵敏度有显著提升,从75.3%提升至88.2%(P<0.001),而对高年资医师的诊断灵敏度也略有提升,从95.2%上升至97.8%。李潜等[20]的研究用S-Detect系统。用该系统输出的AI风险分层联合C-TI-RADS进行诊断。结果发现AI联合CTI-RADS的效果显著好于医师单独使用C-TIRADS。Thomas等[21]提出用寻找相似病例的方法辅助医师诊断。作者纳入482个结节的图像和病理检查结果作为资料库,用AI寻找与目标结节最相似的图像,并将图像和病理检查信息输出给医师参考。但最终风险分层的级别仍由医师决定。该方法的模型并不复杂,但其优点是与人类的思维过程相近,且输出图像更直观、更易理解。该研究也给了一个启示,即甲状腺超声检查AI的发展除追求更高级的模型、更大的数据量、更高的诊断指标之外,也可另辟蹊径,提供更贴近医师思维方式的结果。

AI诊断甲状腺癌淋巴结转移

甲状腺癌淋巴结转移的诊断影响着手术方式,而术前超声检查对转移性淋巴结的诊断灵敏度较低。因此有学者提出使用CAD提升术前超声检查对转移性淋巴结的检出率。

早在2018年,Lee等[22]开展深度学习诊断淋巴结转移的初步研究。共入组800多例,模型的准确率、灵敏度、特异度分别为83.0%、79.5%、87.5%。但该研究缺少外部验证集,因此说服力较弱。随后,Yu等[23]用迁移学习的方法,先对深度学习模型进行预训练,再进一步学习淋巴结的超声检查图像。该研究共入组2 000多例,其中513例为外部测试集,AUC在内部和外部测试集上均超过0.90。此外,该研究还探讨不同机器、不同操作者对模型的影响。结果表明机型和操作者因素对AI影响甚微。一定程度上说明,AI或能克服超声检查图像非标准化的特点。

AI在甲状腺超声检查的困境与前景

目前的AI研究使用的建模方法、入组数据分布和超声检查图像采集缺乏统一标准。大部分研究仍是小范围的实验性研究。训练集和测试集的难度、数据分布的相似程度直接影响研究效果。当推广到良、恶性分布和图像特征差异较大的医疗机构时,模型能否仍表现良好尚不可知。相比实验性研究得到的模型,已商业化的模型一定程度上弥补学术研究在数据多样性上的不足,且商业模型的测试环境更贴近临床工作,因此更有说服力。但纵观现有两款商业化模型的研究结果,AI的泛化性和效果仍有待提升。一是S-Detect在临床验证中表现出较好的效果[14-15]。但该CAD的开发和测试仅基于三星的设备,无法推广到其他厂家的设备。二是我国台湾的安克侦虽能跨设备使用,但其效果稍逊。在一项外部验证研究中AUC仅达0.72[24]。

在大多数研究中,CAD表现出较高的灵敏度,但特异度较低[14-16]。说明运用AI可增加恶性结节的检出率,更适合运用到基层医院进行甲状腺癌的筛查,或用于辅助经验缺乏的医师进行诊断[25]。不可否认,大多数研究均表现出令人满意的AUC指标,但各研究采用的灵敏度和特异度阈值均有所不同。究竟是采用高灵敏度还是高特异度,在不同的临床情况下如何平衡灵敏度和特异度,以及是否需规定范围区间,都是尚需解决的问题。

目前AI的研究尚存在较多人为因素。一方面,基于超声检查静态图像的CAD需人为冻结图像,其诊断效果受到临床经验影响。研究表明,低年资医师的诊断灵敏度和准确率均低于高年资医师[26]。另一方面,采集训练集或测试集图像时切面的选择存在一定主观性。因此,规范图像采集、推出公认的大数据集势在必行。

曾担心随着AI技术的发展,AI在不久的将来可能会代替医师。从目前的研究现状看,AI虽可与人类媲美,但仍存在许多亟待解决的问题。因此,不能简单将两者对立,而应取AI之长补医师之短,方为AI时代甲状腺超声检查的发展之道。可见,在未来很长一段时间内,AI与医师或将一直保持着相辅相成的状态,共同助力甲状腺超声检查诊断技术的提升。

猜你喜欢
灵敏度恶性结节
基于机电回路相关比灵敏度的机电振荡模式抑制方法
乳腺结节状病变的MRI诊断
肺结节,不纠结
发现肺结节需要做PET/CT吗?
恶性胸膜间皮瘤、肺鳞癌重复癌一例
基于灵敏度分析提升某重型牵引车车架刚度的研究
卵巢恶性Brenner瘤CT表现3例
体检查出肺结节,我该怎么办
导磁环对LVDT线性度和灵敏度的影响
穿甲爆破弹引信对薄弱目标的灵敏度分析