李昱川,张 翼,张纯海
(吉林大学中日联谊医院 甲状腺外科·吉林省外科转化医学重点实验室·吉林省甲状腺疾病防治工程实验室,吉林 长春130033)
1956年,JOHN MCCARTHY将人工智能(artificial intelligence,AI)描述为“制造智能机器和科学的工程”,这标志着人工智能的诞生[1]。但直到21世纪初AI才在医学领域崭露头角[2]。甲状腺疾病的发病率逐年上升,疾病的年轻化趋势、术中喉返神经及甲状旁腺损伤风险和术后长期服药使甲状腺疾病的诊疗过程受到越来越多人的关注。由于检查手段的提高和医生水平的不同导致的过度诊疗及漏诊和误诊是现今存在的问题。深度学习(deep learning,DL)是AI的一个重要领域,包括传统的人工神经网络(ANN)、支持向量机(SVN)和k近邻法(k-NN)等[3]。DL经典算法包括卷积神经网络(convolutional neural network,CNN)和生成对抗网络(generative countermeasuer,GAN)。其中CNN在视觉任务中表现较为出色,广泛用于分割、分类和检测任务。DL可以从医学图像数据中提取原始图像像素和相应的标签作为输入,并以一般方式自动学习的特征用于分类对象的检测[4]。目前DL被尝试用于甲状腺诊疗的全过程,已成为近几年的热点并积累了一定的成果。本文就深度学习在甲状腺领域中的应用以及所存在的问题展开叙述。
多普勒超声是诊断甲状腺疾病的首选。它具有非创伤性、成本低、无放射性等优势[5],在孕妇和儿童中同样适用。一项研究[6]分析评估了超声诊断预测甲状腺结节恶性肿瘤的准确性,发现敏感性最高为87%,特异性最高为93%。然而,超声作为一种主观性和经验性极强的检查方法,由于医生经验水平的不同,在临床中往往会出现过度诊疗或漏诊误诊的情况。
近几年DL在超声中的应用越来越广泛。DL可以获取图像的特征,显著提高医学图像的识别和预测能力。一项研究[7]纳入了8339例患者共18049张图片做训练集,开发ThyNet模型并用验证集训练用以鉴别甲状腺结节的良恶性。结果显示仅用ThyNet的受试者工作特征曲线下面积(area under curve,AUC)(0.992[95%CI0.910~0.934])显著高于专业医生的AUC(0.893[95%CI0.834~0.844];P<0.0001),ThyNet辅助下将专业医生的综合AUC从无ThyNet诊断时的0.837提高到0.875(P<0.001)。CHEN等[8]搜集了 1127个结节的30338个超声图像,通过对YoloV5模型的训练和测试,识别甲状腺超声中的钙化等成分,效果也优于专业医生(平均AUC为0.8241 VS 0.6050)。
术前对可疑淋巴结的判断影响患者的术式和预后。LEE等[9]收集了812个已被病理证实的淋巴结超声图像开发了一种计算机辅助系统以期帮助提高淋巴结转移诊断的准确率(准确率83%)。DL在区分甲状腺髓样癌(medullary thyroid carcinoma,MTC)和滤泡性腺瘤(follicular thyroid adenoma,FTA)等方面也有一定的效果,ResNet-34模型在测试集中AUROC为0.992(95%CI:0.840~0.970)[10]。除此之外,QI等[11]建立的一种多任务DL模型诊断甲状腺外侵展示了良好的性能(外部测试集最高AUC为0.88)。
虽然DL在甲状腺的超声诊疗方面取得了不错的效果,但是很少有模型经过外部验证和前瞻性验证。不同的医院超声设备型号多样,清晰度和分辨率不尽相同,取得不错效果的DL模型当用于其他型号的超声设备时是否也有相同的效果尚未可知。临床中甲状腺超声是一个动态的视频诊断模式,而现有的DL训练模型大多为静态的照片数据集,训练出更加贴近临床场景的模型也许是进一步的发展方向。
细针抽吸活检FNAB(fine needle aspiration biopsy,FNAB)是甲状腺结节的术前病理诊断首选方法,但FNAB的准确率与取材和切片判读的医生水平有关,DL在此方面也发挥出了一定的优势。PHD等[12]收集了148395张显微FNAC图像,通过EfficientNetV2-L模型进行训练和验证,并对35个结节进行不明结节的分型预测,结果显示该模型在识别甲状腺良性肿瘤和滤泡性甲状腺癌中效果较好,召回率分别为86.7%和93.9%,而在低分化甲状腺癌中的效果较差(召回率35.4%)。FNAB的准确率除与病理科医生有关,还与穿刺者对可疑结节的判断有关。若取材选择不当或取材成分不够,可能会导致重复穿刺,不仅增加患者的痛苦,还会提高感染、出血等风险。JANG等[13]开发了一种FNA-Net的集成模型,可以对未染色的标本进行筛查,降低非诊出率,减少穿刺次数。在DRG形势下,在保证准确率的同时避免重复穿刺,减少医疗投入是迫切要求,DL的广泛应用,算法及模型优化将会对FNA操作者特别是初学者有较大的帮助。
在甲状腺其他的诊断性检查中,AI同样探索出了各自的道路。包括基于CT建立三维残差网络的集成模型对侧颈淋巴结转移的诊断评估(准确率82.3%)[14];通过DenseNet结合CBAM开发的系统在CT图像上预测淋巴结转移(内外部测试集AUC值为0.84和0.81)[15];使用MRI开发CNN模型诊断甲状腺癌(准确率87%)[16];通过单光子计算机断层扫描图像开发的Resnet34模型鉴别甲状腺疾病(外部数据集的准确率为0.931)[17],但由于训练数据集较小,数据均为同一地区数据,结果可能存在选择偏移。
同FNAB一样,AI也可用于术中快速病理的诊断。LI等[18]设计了第一个将AI用于术中冰冻切片的自动识别模型,将incretionv3模型进行微调,将最后一个全连接层替换为良性、不确定性和恶性三个输出,并创造性的基于规则协议来整合补丁的预测形成最终诊断,对259张切片进行验证显示良性结节准确率为95.3%(61/64),恶性结节96.7%(148/153),并使得典型结节的识别时间缩短为1分钟。LIU等[19]开发的Thy-Net-LNM模型可以预测术中快速病理中淋巴结转移,AUC曲线显著高于超声、CT或CT联合检查(P<0.01)。
喉返神经(recurrent laryngeal,RLN)的保护一直是甲状腺手术中的重要问题,喉返神经功能完整性已成为评估手术质量的重要因素。RLN的损伤可以导致RLN麻痹引起患者术后声音嘶哑、饮水呛咳,严重时甚至气管切开[20-21]。手术中RLN与周围的血管难以区分或术者注意力集中于其他操作时,往往会误把RLN损伤。花苏榕等[22-23]通过收集38个经腋窝入路腔镜手术视频,采取图片标记形成数据集,利用PSPNet的语义分割模型进行训练和验证,结果使得在交并比(insertion over union,IOU)阈值为0.1时,模型在高中低辨识组中的灵敏度和精确率分别达到100%/92.1%、95.8%/80.2%及81.0%/80.6%。当IOU阈值为0.5时(代表有效定位RLN),灵敏度和精确率分别为92.6%/85.3%、71.7%/60.5%及38.1%/37.9%。后花苏榕等又收集经胸乳入路甲状腺腔镜手术视频通过D-Linknet模型训练和验证,也取得了不错的效果。GONG[24]等开发了一种可以用于开放手术中识别RLN的DL模型。
除RLN外,甲状旁腺的保护也是共同关心的问题,甲状旁腺无绝对固定解剖位置,外观与淋巴结、脂肪组织、血管球等相似。术中甲状旁腺的损伤可达30%~60%,损伤后会引起一过性或永久性甲状旁腺功能低下。虽然纳米碳负显影、近红外自发荧光等辅助方法的兴起在一定程度上降低了其损伤风险[25-26],但效果仍不尽人意,暂时性或永久性甲状旁腺功能地下仍时有发生。一项研究[27]收集甲状腺腔镜手术中存在甲状旁腺的视频及图像,运用Faster R-CNN算法开发了一种人工智能模型使得甲状旁腺的识别基本达到与外科医生相近的水平,而且对甲状旁腺的识别时间比高年资外科医生早3.83 s(P<0.01),跟踪时间长62.82 s(P<0.01)。人工智能对视频识别的难点在于视频是一个动态的过程,目标位置可能随着术者的角度和操作变化,且样本量较少是普遍存在的问题,可能导致结果在实际应用中的不理想。
AI同样适用于甲状腺术后石蜡病理的识别,对Resnet50、Resnext50、EfficientNet、Densenet121模型的训练也取得了较为满意的效果(AUC值0.822~0.994)[28]。目前的AI甚至可以对甲状腺癌的亚型进行自动识别[29]。除病理外,LEE等[30]通过收集114名患者术前和术后声音变化,根据GRBAS评分评估术后患者的嗓音恢复情况,并建立EfficientNet模型,预测患者术后3个月的嗓音恢复程度(平均AUC值0.822),但是样本量过少是此研究的局限性,对于永久性损伤的患者可能会导致错误的结果。
除甲状腺良恶性肿瘤及淋巴结的诊疗,AI还可以用于桥本氏甲状腺炎和甲状腺眼病的诊治。甲状腺眼病(thyroasssociated ophthalmopathy,TAO)是一种与甲状腺功能异常有关的疾病,严重时会破坏面容,影响患者的生活质量[31-32]。准确的眼睑测量对TAO的诊断、分级、手术方式和评估预后非常重要,传统的测量主要靠医生手动测量,不仅耗时、低效而且主观性比较大,对持续测量难以得出稳定的结果[33]。寻求一种科学的、可靠的方法势在必行。ZHANG等[33]通过收集眼眶CT图像进行标注后基于U-Net++模型对神经网络进行训练,自动识别轴向CT图像中角膜前表面顶点到眼眶外缘最高突出点的距离和矢状CT图像中角膜前表面顶点到眼眶上下缘最高突出点的距离。结果显示轴向CT图像的一致性相关系数为0.9895,矢状CT图像的一致相关系数为0.9902。YANG等[34]开发了一种“digital mask”的新技术,不仅可以保存眼部疾病诊断的相关特征,还可以在患者面部自动去除可识别患者信息的其他特征。桥本氏甲状腺炎(hashimoto’s thyroiditis,HT)是甲减的主要原因,ZHANG等[35]通过对106513张超声图片进行训练,开发了HTNet模型,并将该模型用于2个图像测试集和一个视频测试集进行HT的识别,结果显示图像测试集的AUC值为0.095和0.895,视频的AUC值为0.888,其准确性也超过了专业医生(83.2%VS79.8%)。
我们探讨了DL在甲状腺疾病诊疗方面的应用,目前的AI模型在内部测试集中展示了较好的性能,有望在未来帮助医生辅助诊断,为初学者提供帮助。但是样本量过少、视频数据集过少、未加入临床试验、样本均来自同一医院导致的地域性过强是现今的普遍问题。建立公共数据集也许是一个有效的方法,尤其适用于某些罕见病本身样本基数小的研究。目前深度学习大多为单一模态的研究,未来应关注处理多模态数据研究的方法。深度学习“黑匣子”特性使得模型具有不可解释性,此难以选择最佳数据处理方法、参数、模型架构也是目前广泛讨论的问题,这可能是DL在医疗普及中的限制性因素。但是,人工智能是未来发展的趋势,相信越来越成熟的DL技术在甲状腺领域能够大放异彩。