基于甲状腺超声图像建立甲状腺乳头状癌中央区淋巴结转移人工智能诊断模型

2022-01-12 08:52李盈盈孙文轩廖献东张明博陈东浩罗渝昆

中国医学科学院学报 2021年6期

李盈盈，孙文轩，廖献东，张明博，谢芳，陈东浩，张艳，罗渝昆

1中国人民解放军总医院第一医学中心超声科，北京 100853 2北京邮电大学人工智能学院，北京 100876

甲状腺乳头状癌(papillary thyroid carcinoma，PTC)检出率逐年上升，虽然PTC侵袭性低，但仍有约35%的患者在经过初次手术治疗后发生肿瘤复发，其中颈部淋巴结是最高发部位[1- 2]，中央区淋巴结转移率高达24.1%～64.1%[3- 5]。超声作为目前甲状腺疾病的首选检查方法，虽然对侧颈区淋巴结诊断准确性较高，但其对中央区淋巴结转移(central compartment lymph node metastasis，CLNM)的诊断灵敏度仅为10.9%～36.2%[6]，为术前精确分期诊断带来难题。PTC治疗方式目前在国际上存在争议[7- 10]。虽然2015 美国甲状腺学会指南推荐对低风险甲状腺微小乳头状癌患者进行积极监测，也有学者采用超声引导消融治疗低风险甲状腺微小乳头状癌取得良好疗效[11- 13]，但是由于超声无法对CLNM患者做出明确的术前诊断，仍有外科学者坚持手术切除和预防性中央区淋巴结清扫(central compartment lymph node dissection，CLND)，认为可降低肿瘤复发率，改善部分患者的TNM分期[14]。预防性CLND增加包括喉返神经损伤、旁腺损伤等手术并发症的风险[15]。因此，如何在术前筛选出可能存在CLNM的患者并选择性进行CLND尤为重要。本研究旨在建立一个基于甲状腺超声图像预测甲状腺乳头状癌中央区淋巴结转移的人工智能诊断模型，为临床选择治疗方案提供依据。

资料和方法

资料来源本研究经伦理委员会批准，所有患者均豁免知情同意。连续收集2018年1至12月在中国人民解放军总医院第一医学中心超声科行超声检查的患者486例。纳入标准：(1)于中国人民解放军总医院第一医学中心行甲状腺次全切除或全切术，术中均行颈部中央区(Ⅵ区及Ⅷ区)淋巴结清扫；(2)术后病理证实为单灶PTC；(3)术前2个月内于中国人民解放军总医院第一医学中心超声科接受甲状腺超声检查且图像信息完整。排除标准：(1)发生淋巴结跳跃转移，即侧颈区淋巴结转移而中央区淋巴结未转移；(2)术后病理为多灶PTC；(3)病例资料不完整；(4)非甲状腺乳头状癌。排除颈部淋巴结跳跃转移患者4例，多灶PTC患者125例，病例资料不完全患者40例及非甲状腺乳头状癌患者8例，最终共有309例患者入选，病例按照6∶1随机分为训练集(n=265)和测试集(n=44)。训练集用于训练模型，并通过观察在训练集上的损失函数值变化观测模型学习进程、衡量模型学习能力；测试集用于测试模型效果，通过模型在测试集上的表现衡量模型泛化能力。

数据录入研究初期对3名医生进行统一培训、训练，并对3人进行图像标注测试，结果显示一致性较差。由1名超声医生(4年超声工作经验)依据美国放射学会甲状腺影像报告和数据系统指南对309例甲状腺结节超声图像进行超声特征标记及轮廓勾画，并录入患者临床信息。临床信息包括患者年龄、性别；甲状腺结节超声图像信息包括结节位置、回声、成分、边界、形状以及钙化的情况。

超声图像预处理根据预先勾画病灶轮廓确定其最小外接矩形，划定感兴趣区域，并提取超声图像。使用限制对比度的自适应直方图均衡方法对超声图像进行降噪以增强图像对比度。再根据比例尺信息将超声图像标准化放入256×256像素的黑色背景中。预处理后的每个病灶的横切、纵切两张超声图像，分别作为图像的一个通道；将预先标注的患者临床信息和病灶超声图像特征信息等特征归一化后“涂抹”在黑色背景上形成的特征图作为另一通道；形成横切-纵切-预标注特征三通道图像，输入模型。

深度神经网络模型深度神经网络(deep neural networks，DNNs)模型能够较好地分析不同层次的特征，通过对样本数据的内在规律与特征的不断学习，可以在测试数据上进行预测。残差网络结构ResNet学习输入输出之间的残差表示收敛速度更快且可以使用更多的层增大分类精确度，较传统直接输入输出之间的映射关系更简洁有效[16]。选择Radosavovic等[17]在最新研究中设计的一个神经网络设计空间中的核心模型RegNet进行改良优化。将三层卷积+批归一化+激活层称为一个残差块，假设期望的潜在映射为H(x)，初始块一层卷积+批归一化+激活层拟合的结果为x，本模型使用22个残差块去拟合其残差F(x)=H(x)-x，并通过后续训练效果调整模型中的激活函数、卷积层输入输出通道数等参数以确定最终模型。

训练及诊断效能评估设定横切-纵切-预标注特征三通道图像信息作为模型输入，模型通过对图像中关于病灶区域、预标注特征的提取和识别，给出中央区淋巴结转移/无转移的预测结果作为模型输出，对模型进行训练。首先使用初始模型进行训练，将得到的模型效果初始值作为基准，根据模型在验证集上的表现调整参数，包括学习率、优化器、拟合残差块数等，最后根据模型在测试集上的表现(包括预测的准确性、敏感性、特异性和受试者工作特征曲线下面积(area under receiver operating characteristic curve，AUC)评价该结构模型的性能。对于模型内部，每一次训练均通过每一层的卷积操作由浅至深提取图像的各通道、各像素点间的特征，将大量特征映射至最终的输出，之后通过梯度下降的方法使用指定的优化器不断更新此映射关系，即各个特征的权重系数，最终确定最优的映射关系即完成训练。此时若有新的图像输入模型，则使用同样层级结构的卷积操作提取特征以及同样的映射关系得到模型输出即预测结果。本研究模型在训练到10次时，模型的损失函数值已经下降到相对稳定水平状态，之后随着训练次数增加该值持续下降但不明显(图1)。当训练次数达到51次时，测试集上的准确率达到最大值，之后随着训练次数增加，准确率持续下降(图2)，即过拟合程度越来越大、泛化能力越来越弱。因此。选择训练51次时得到的模型作为本研究最终模型。

图1 模型训练过程损失函数值变化图

图2 模型训练过程测试集表现图

统计学处理采用SPSS 25.0统计软件，对计量资料进行正态性检验，符合正态分布的计量资料以均数±标准差表示，组间比较采用独立样本t检验；不符合正态分布的计量资料以M(Q1，Q3)表示，组间比较采用非参数检验。分类变量用率或比描述，两组间率的比较采用卡方检验。P<0.05为差异有统计学意义。

结果

甲状腺乳头状癌患者的临床病理特点共纳入309例患者[男∶女=93∶216；年龄18～77岁，平均(44.7±11.7)岁]，CLNM 161例(52.1%)，无CLNM 148例(47.9%)，PTC平均直径(1.04±0.67)cm(0.22～4.52 cm)。训练集265例[男∶女=77∶188；年龄18～77岁，平均(45.6±11.7)岁]，CLNM 140例(52.8%)，无CLNM 125例(47.2%)，PTC平均直径(0.99±0.64)cm(0.22～4.52 cm)。测试集44例 [男∶女=16∶28；年龄24～70岁，平均(44.1±11.5)岁]，CLNM 21例(47.7%)，无CLNM 23例(52.3%)，PTC平均直径(1.06±0.75)cm(0.40～3.86 cm)。训练集和测试集年龄、性别、PTC平均直径、有无CLNM差异均无统计学意义(P均>0.05)。

基于深度学习辅助超声预测甲状腺乳头状癌中央区淋巴结转移的诊断效能测试集(n=44)中，CLNM患者21例，基于深度学习预测模型诊断转移16例、诊断未转移5例；无CLNM患者23例，基于深度学习预测模型诊断未转移19例、诊断转移4例。该模型在测试集中预测PTC中央区淋巴结转移的准确性、敏感性、特异性、阳性预测值和阴性预测值分别为0.80、0.76、0.83、80.00%、79.17%，AUC为0.794(95%CI=0.654～0.934)。

讨论

本研究建立了一个基于深度学习方法预测甲状腺乳头状癌中央区淋巴结转移的人工智能诊断模型，其呈现出较好的诊断效能，准确性可达0.80，敏感性0.76，特异性0.83，AUC可达0.794(95%CI=0.654～0.934)。本研究为首个应用深度学习方法建立预测PTC患者中央区淋巴结转移结构模型，预测结果可为临床手术决策提供依据，选择性行CLND。

Tian等[18]2020年回顾性研究报道显示，根据PTC患者临床信息及术前超声检查建立列线图分组预测CLNM，男性组准确性、敏感性、特异性和AUC分别为0.76、0.72、0.82、0.813，年轻女性组准确性、敏感性、特异性和AUC分别为0.72、0.78、0.63、0.814，老年女性AUC为0.742。该研究纳入多灶及单灶PTC，并根据年龄、性别危险因素将数据分为3组分别进行验证。相比而言，本研究模型可取得更好准确性(80%)，但AUC略低于男性组和年轻女性组。Lee等[19]在2018年建立一基于深度学习方法的计算机辅助诊断系统(computer-aided diagnosis，CAD)用于定位和诊断甲状腺癌患者淋巴结良恶性，其诊断恶性淋巴结的准确性、敏感性和特异性分别为83.0%、79.5%、87.5%。该CAD是将淋巴结超声图像输入模型进行训练，输出为淋巴结的良性/恶性。而本研究模型是将PTC的超声图像数据输入模型，输出为淋巴结是否转移，减少了淋巴结显示和选择过程的干扰因素。此外，Lee等[19]研究中仅对侧颈区淋巴结超声图像进行训练，将中央区淋巴结排除，这是其诊断效能较高的重要原因。

根据目前指南，超声检查是PTC患者术前评估淋巴结转移的首选影像学方法[9，20- 22]，但其并不具备较好的诊断效能。超声联合CT检查可一定程度提高PTC患者的中央区淋巴结检出率，但是CT检查存在辐射、花费较多等局限性。有研究表明，CAD在诊断评估方面总体来说优于人类[23]。医生在对超声图像进行读取和诊断的过程中受到主观因素的影响和临床经验的限制[24- 25]。而CAD可弥补这一不足，对输入的同一张超声图像其预测结果可保持一致，这样可消除观察者间差异性。而且，随着训练次数的增加，CAD预测诊断效能会进一步提升。

卷积神经网络一直以来在图像特征提取任务上表现出色。由于无法解释输入数据特征和输出结果之间的联系性，深度学习方法常被称为“黑箱学习”[26]。但是，本研究将超声图像和临床信息整合建立三通道进行输入，训练模型对病例的临床特征和影像学特征共同学习，增加了输出结果的可解释性。如何在小数据集基础上训练模型得出可靠的结果是目前技术存在的关键问题。许多研究人员已将小数据集DNNs应用于各种领域。传统机器学习方法(如支持向量机、随机森林方法等)存在的小数据回归和分类问题，如今已被具有更高准确性和更优泛化性能的DNNs解决。例如在材料领域，小数据集的DNNs被用来预测材料缺陷[27]。尽管拥有大数据集的DNNs是最佳解决方案，但在缺少大数据集的情况下，拥有小数据集的DNNs同样是一个合理的选择。Bornschein等[28]在国际机器学习会议的论著中指出，深度学习模型可以通过调整参数以及提前终止训练的方法，在数据量不足的情况下找到不欠拟合也不过拟合的平衡点。

本研究为单中心回顾性研究，数据来源存在一定的局限性。以后，笔者将纳入多中心数据对该结构模型进行训练，并对外部集进行测试，以达到更好的效果。纳入病例手术方式为甲状腺全切或次全切除并行颈部中央区淋巴结清扫术，其中行甲状腺次全切除术者常规行同侧颈部中央区淋巴结清扫术，并结合其术前超声检查及术中术者经验性触摸决定是否行对侧淋巴结清扫术，这导致病理结果可能存在假阴性病例，导致结果的偏倚。在进一步研究过程中，将在目前临床可行方案的基础上尽量避免因手术方式导致的漏诊，尽量保证研究结果的可靠性。综上，建立一个基于深度学习方法辅助超声预测PTC患者中央区淋巴结转移的结构模型，可以为临床手术方案的选择提供依据。

基于甲状腺超声图像建立甲状腺乳头状癌中央区淋巴结转移人工智能诊断模型

资料和方法

结 果

讨 论

结果

讨论