陈颖,李劼,张莹,陈杉杉,李鑫淼,张树华
华北理工大学附属医院超声科,河北 唐山 063000
甲状腺结节是指甲状腺实质内的独立病灶,影像学检查能够区分其与正常组织[1]。甲状腺结节大多数为良性,恶性结节仅占7%~15%[2-3],其中90%以上为乳头状癌,5年生存率可达95%~97%。超声检查具有高效、经济、无创的优势[4],在甲状腺结节良恶性的鉴别及指导临床诊疗决策中具有重要作用。细针穿刺(fine needle aspiration,FNA)是术前诊断甲状腺结节良恶性的关键步骤[5]。参考美国放射学会(American College of Radiology,ACR)制订的乳腺影像报告和数据系统(breast imaging reporting and data system,BI-RADS),Horvath等[6]建立了甲状腺影像报告和数据系统(thyroid imaging reporting and data system,TIRADS),随后韩国[7]、法国、德国、美国等分别建立了自己的甲状腺结节风险分层模型。由于甲状腺结节的影像学特征复杂,世界各国对甲状腺结节超声图像的解读、报告书写及管理意见并未达成一致[8]。ACRTIRADS、韩国甲状腺影像报告和数据系统(KTIRADS)是我国使用较为广泛的风险分层模型,本研究拟比较这两种风险分型模型对甲状腺结节良恶性的鉴别诊断效能及能够减少的不必要穿刺,为临床提供参考。
1.1 研究对象 回顾性分析2017年5月—2021年2月在华北理工大学附属医院接受甲状腺结节切除术的883例患者共1 056个甲状腺结节,女670例(802个),年龄5~77岁,平均(52±12)岁;男213例(254个),年龄20~78岁,平均(50±13)岁。纳入标准:①术前行甲状腺超声检查并保留图像和报告资料;②术后有明确的病理结果。排除标准:在两种模型中无法被分类的结节;因声影遮挡造成结节内部结构显示不清。本研究经本院伦理委员会批准(审批号:202112070017),免除患者知情同意。
1.2 检查方法 应用Philips EPIQ5超声诊断仪,采用L12-5探头,频率5~12 MHz。患者取仰卧位,充分暴露颈部,调节仪器的增益、深度、聚焦等灰阶参数,使观察区域图像显示清晰,对甲状腺组织及其引流区域淋巴结、周围软组织进行扫查。
1.3 影像学分析 由1名经培训考核合格的住院医师记录结节的部位(右叶、左叶、峡部)、最大径、数量、组成、回声、纵横比、边缘、钙化、颈部淋巴结转移。分别根据ACR-TIRADS、K-TIRADS对结节进行分类。
依据两种指南推荐的FNA策略对最大径≥1 cm的结节进行评估是否需要FNA,以病理结果为“金标准”,使用Dcurves包通过决策曲线分析法比较两种指南推荐的FNA策略可以减少的不必要穿刺。以人群中甲状腺恶性结节发病率为7%校正本组数据的结节恶性率。
本研究中患者或临床医师的决策偏好(倾向于随访还是穿刺)[9]定义为阈值概率,高于阈值概率的结节将接受处理,取决于医师和患者对错过恶性结节和穿刺带来风险的综合考量。减少的不必要穿刺定义为在特定阈值概率下,与假设所有患者均进行甲状腺结节穿刺相比,在不增加假阳性数量的情况下,该模型在每100名患者中可以减少的甲状腺结节穿刺数量[10]。考虑到细针穿刺与漏诊甲状腺恶性结节的相对风险,本研究认为任何患者或临床医师要求阈值概率>50%时均不合理,因此决策曲线分析曲线的阈值概率仅绘制到50%。
1.4 统计学方法 使用SPSS 26.0、MedCalc 19.0.4、R 4.0.4软件,符合正态分布的计量资料采用表示,组间比较采用独立样本t检验;非正态分布的计量资料采用M(Q1,Q3)表示,组间比较采用非参数秩和检验;定性资料采用例数或百分数表示,组间比较采用χ2检验。以病理结果为“金标准”,建立受试者工作特征(ROC)曲线,分别计算曲线下面积(AUC),得到最佳临界值及相应的敏感度、特异度、阳性似然比、阴性似然比,采用χ2检验或Z检验进行比较。将纳入的甲状腺结节按最大径分为两组(≥1 cm组、<1 cm组),比较结节大小对两种风险分层模型诊断效能的影响。P<0.05为差异有统计学意义。
2.1 一般资料 1 056个结节中,良性590个,包括结节性甲状腺肿329个、腺瘤94个、桥本甲状腺炎91个、亚急性甲状腺炎16个、甲状腺组织41个、甲状腺肿19个;恶性466个,包括乳头状癌461个、滤泡状癌1个、髓样癌3个、弥漫性大B细胞淋巴瘤1个。良性结节与恶性结节患者性别差异无统计学意义(P=0.176),恶性结节患者年龄低于良性结节(P<0.001)。与良性结节相比,恶性结节最大径较小,具有实性或几乎完全实性、低回声或极低回声、纵横比>1、边缘不规则、微钙化、颈部有可疑淋巴结转移等超声特征(P均<0.001),见表1及图1~3。
图1 女,56岁,甲状腺左叶实性低回声结节,边界不规则,内部伴有微钙化。ACR-TIRADS 5类,K-TIRADS 5类,病理诊断为甲状腺乳头状癌
表1 883例患者1 056个甲状腺结节的超声特征和人口学特征
2.2 两种指南病理分类诊断恶性率与推荐恶性率比较在ACR-TIRADS 2、3类中,由甲状腺结节病理结果计算得到恶性率高于指南中推荐的恶性率,K-TIRADS的分类病理结果计算所得恶性率均在指南推荐的恶性率范围内,见表2。
表2 两种指南分类诊断甲状腺结节恶性率与推荐恶性率比较
图2 女,43岁,甲状腺左叶实性极低回声结节,纵横比>1。ACR-TIRADS 5类,K-TIRADS 5类,病理诊断为甲状腺乳头状癌
图3 男,62岁,甲状腺右叶实性中等回声结节,周边伴有低回声晕。ACRTIRADS 3类,K-TIRADS 3类,病理诊断为结节性甲状腺肿
2.3 两种指南对甲状腺结节诊断效能比较 根据ROC曲线,ACR-TIRADS、K-TIRADS对甲状腺结节良恶性诊断的最佳临界值均是5类。ACR-TIRADS的敏感度高于K-TIRADS,且阴性似然比较低,当分类<5类时,排除结节为恶性更具有可信度。K-TIRADS的特异度和阳性似然比较高,当结节分类>4类时,确诊结节为恶性更具有可信度。K-TIRADS的AUC大于ACR-TIRADS,见表3。
表3 两种指南对甲状腺结节的诊断效能比较
对于最大径<1 cm的结节,ACR-TIRADS、KTIRADS对甲状腺结节良恶性诊断的最佳临界值均是5类,两者的敏感度、特异度、阳性似然比、阴性似然比、AUC差异均无统计学意义(P>0.05)。对于最大径≥1 cm的结节,ACR-TIRADS、K-TIRADS对甲状腺结节良恶性诊断的最佳临界值均是5 类,ACRTIDADS的敏感度较高、阴性似然比较低,K-TIRADS的特异度、阳性似然比和AUC均较高,见表4。
表4 两种指南对不同大小甲状腺结节的诊断效能比较
2.4 两种指南推荐的FNA策略减少的不必要穿刺在阈值概率为2%~50%范围内,ACR-TIRADS和KTIRADS减少的不必要穿刺人数随阈值概率提高而增多。在相同阈值概率下,ACR-TIRADS减少的不必要穿刺人数高于K-TIRADS,见表5。
表5 两种指南推荐的FNA策略减少的不必要穿刺
3.1 两种指南病理分类诊断恶性率与推荐恶性率比较本研究除ACR-TIRADS 2、3类外,其他分类的恶性率均在推荐的恶性率范围内。ACR-TIRADS 2、3类恶性率偏高可能与阅片者经验有关,本研究中造成分类错误的结节主要是甲状腺滤泡癌、桥本甲状腺炎合并乳头状癌。甲状腺滤泡癌结节常呈椭圆形或类圆形,纵横比<1[11],容易误诊为良性结节。在桥本甲状腺炎背景下,甲状腺良、恶性结节的超声表现多变,也容易造成误诊[12]。
3.2 两种指南对甲状腺结节的诊断效能 本研究表明两种指南对甲状腺结节良恶性均具有较好的诊断效能。K-TIRADS的总体诊断效能优于ACR-TIRADS,ACR-TIRADS的敏感度较高,K-TIRADS的特异度较高。一项纳入31 552个甲状腺结节的Meta分析显示ACR-TIRADS的敏感度为0.89,特异度为0.70,AUC为0.86,与本研究相似[13];但该研究中ACR-TIRADS与K-TIRADS的敏感度无显著差异,K-TIRADS的特异度较低,与本研究不同;用Meta回归探索影响诊断效能异质性的显著因素时,发现患者数量是主要影响因素[13]。本研究还发现,与最大径<1 cm的结节相比,两种指南在对最大径≥1 cm的结节进行评估时总体诊断效能更好,可能因为超声对较小的结节中某些征象并不是非常敏感,如微钙化[14]。
3.3 两种指南在减少不必要穿刺方面存在差异的原因本研究发现,诊断最大径≥1 cm甲状腺结节时,在阈值概率为2%~50%范围内,ACR-TIRADS中推荐的FNA策略在减少不必要穿刺方面较K-TIRADS表现更好。Grani等[15]发现,与其他指南相比,ACR-TIRADS可以将要求活检的结节减少50%以上。ACR-TIRADS的穿刺策略与其他指南比较最主要的不同在于其穿刺的阈值偏高,ACR-TIRADS中轻度怀疑和中度怀疑结节穿刺的阈值分别为2.5 cm和1.5 cm,在相同的恶性风险下,K-TIRADS规定的穿刺阈值分别为1.5 cm和1 cm。既往研究表明,当甲状腺恶性结节最大径达到2.5 cm以上时,其远处转移的概率稍有增加,最大径达到3 cm以上时,患者10年内死亡率略有升高[3],增大活检的阈值并不会过多地漏诊恶性结节和过度增加转移风险。在ACR-TIRADS中,对极有可能是良性的结节不采取穿刺策略,如囊性结节、海绵样结节、表现为中等或高回声的囊实混合结节等;而在KTIRADS中,当海绵样结节最大径≥2 cm、表现为中等或高回声的囊实混合结节最大径≥1.5 cm均符合穿刺条件,这进一步增加了不必要穿刺数量。
3.4 研究的局限性 ①纳入研究对象均来源于三甲医院,且均为手术切除的甲状腺结节,不可避免地会造成选择偏倚,造成阴性预测值偏低,阳性预测值偏高。②所有的分析均基于保留的静态图像,一定程度上影响对超声征象的评估,可能会造成结节的错误分类。③纳入样本量较少,且均为手术切除的甲状腺结节,无法涵盖所有良、恶性病变。
总之,ACR-TIRADS、K-TIRADS指南作为临床可行的甲状腺结节恶性风险分层系统,具有各自的优点,K-TIRADS鉴别甲状腺结节良恶性具有较高的诊断效能,ACR-TIRADS能有效地减少不必要穿刺。