3 种不同甲状腺结节分层系统的应用价值对比及误诊原因分析

2023-07-06 03:15曾伟乐怀浙孟国萍李航贲志飞

浙江医学 2023年12期

曾伟乐怀浙孟国萍李航贲志飞

为了规范甲状腺结节超声诊断，受美国放射学会乳腺超声影像报告和数据系统（breast imaging report‐ing and data system，BI-RADS）的启发，2009 年Horvath等[1]提出甲状腺超声的分类研究方法。近年来，不同版本的甲状腺结节危险分层系统陆续颁布，但甲状腺的分类诊断混乱，目前国内常用的参考指南包括美国放射学会甲状腺影像报告和数据系统（thyroid imaging reporting and data system of ACR，ACR-TIRADS）[2]、美国甲状腺学会风险分层系统[3]、Kwak 甲状腺影像报告和数据系统（thyroid imaging reporting and data system of Kwak，Kwak-TIRADS）[4]以及中国甲状腺影像报告和数据系统（Chinese thyroid imaging reporting and data sys‐tem，C-TIRADS）[5]等。虽然已经有不少文献对比了不同分层系统之间的诊断效能[6-7]，但对误诊的原因分析却少有报道。每种分层系统均存在一定的不足，将不同分层系统进行联合诊断是否能提高诊断效能，目前有关这方面的报道也较少。本文通过对比C-TI‐RADS、ACR-TIRADS、Kwak-TIRADS 3 种分层系统单独诊断以及两两联合诊断之间的诊断效能，同时对误诊结节进行原因分析，为甲状腺结节的临床诊断提供新的思路。

1 对象和方法

1.1 对象选择2019 年3 月至2022 年5 月于宁波市杭州湾医院行甲状腺手术切除或超声引导下细针穿刺活检568 例患者共679 个结节，所有结节均获得明确病理检查结果。患者中男180 例，女388 例，年龄17～89（47.2±13.6）岁，结节最大径1.2～65.0 mm，中位数为11.4（5，14）mm。纳入标准：（1）超声图像资料清晰完整；（2）有明确病理检查结果。排除标准：（1）图像不清晰，留存图像不完整；（2）穿刺患者无明确病理检查结果；（3）术前进行射频消融或其他手术治疗。本研究经宁波市杭州湾医院医学伦理委员会审查通过（批准文号：WYLS2022-19），所有行细针穿刺的患者均签署知情同意书。

1.2 方法采用Mindray Resona7、Philips Epiq5、GE Logiq E9 彩色超声诊断仪，其中Mindray Resona7、Philips Epiq5 选用L12-5，GE Logiq E9 选用ML6-15 线阵浅表高频探头，并根据患者条件，适当调节仪器频率、增益、焦点以获得最佳图像质量。由具有5 年以上工作经验超声科主治及以上医师为患者进行甲状腺超声检查，并规范留存甲状腺结节横切及纵切面二维超声、彩色多普勒及颈部淋巴结图像。由3 位分别为住院医师、主治医师、副主任医师的超声科医师在不了解病理检查结果的情况下对留存的甲状腺结节超声影像图片参照C-TIRADS 、ACR-TIRADS、Kwak-TI‐RADS 进行分类处理，对于有争议的结节共同讨论决定。（1）C-TIRADS 恶性可疑征象纵横比＞1（+1）、实性成分（+1）、极低回声（+1）、微钙化（+1）、边缘模糊或不规则或甲状腺包膜外侵犯（+1），阴性指征彗尾征（-1），具体分类标准见表1；（2）Kwak-TIRADS 根据特殊结节不同声像图特点结合实性、低或极低回声、微钙化、边缘不规则、垂直位5 个可疑恶性征象将结节分为2～5 类，具体分类标准见表2；（3）ACR-TIRADS 根据结节内部成分、回声、形状、边缘、强回声等不同声像图特点赋予不同分值，结构：囊性、海绵状（0 分），混合性（1 分），实性（2 分）；回声：无回声（0 分），高或等回声（1 分），低回声（2 分），极低回声（3 分）；形状：纵横比＜1（0 分），纵横比≥1（3 分）；边缘：光滑/不清（0 分），不规则（1 分），甲状腺外生长（2 分）；强回声：无强回声或伴彗尾征（0 分），粗钙化（1 分），边缘钙化（2 分），微钙化（3 分）；依据分值累加结果将结节分为1～5类，具体分类标准见表3。在采用单独诊断的同时，将3 种分层系统两两联合进行再次诊断，当两种分层系统均诊断为恶性时则将结节判定为恶性结节，其余判定为良性结节。

表2 Kwak-TIRADS分类标准

表3 ACR-TIRADS分类标准

1.3 统计学处理采用R 语言4.0 统计软件。以病理检查结果为金标准，绘制ROC 曲线分析C-TIRADS、ACR-TIRADS、Kwak-TIRADS 的诊断效能，计算AUC、最佳截断值、灵敏度、特异度、阳性预测值、阴性预测值、准确度，采用“Delong”检验3 种分层系统AUC 之间的差异；采用χ2检验比较各项诊断指标的差异。采用“ggplot2”包绘制热图将结节的分类情况进行可视化分析，比较不同分层系统间结节的分布情况，采用“VennDiagram”包绘制韦恩图分析结节的误诊分布情况。P＜0.05 为差异有统计学意义。

2 结果

2.1 结节病理检查结果及分类情况统计 679 个结节中良性结节379 个（55.8%），恶性结节300 个（44.2%）。良性结节中，腺瘤样结节175 个，结节性甲状腺肿128个，慢性淋巴细胞甲状腺炎40 个，亚急性甲状腺炎18个，良性滤泡结节18 个；恶性结节中髓样癌2 个，滤泡癌10 个，乳头状癌288 个（其中微小乳头状癌120 个）。3 种分层系统不同分级的甲状腺恶性结节数及恶性率见表4，除C-TIRADS 中3 类、4A 类、4B 类和ACR-TI‐RADS 中4 类结节的实际恶性率大于推荐恶性率外，Kwak-TIRADS 中3 类、5 类实际恶性率略小于推荐恶性率，其他实际恶性率均在推荐恶性率范围内。3 种分层系统不同分类结节热图见图1，3 种分层误诊及诊断正确结节的韦恩图见图2，对不同征象结节分类的影像图见图3，误诊结节声像特征分布情况见表5。

图1 3 种分层系统不同分类结节间的热图对比（A：C-TIRADS 与ACR-TIRADS 之间热图对比；B：C-TIRADS 与Kwak-TIRADS 之间热图对比；C：ACR-TIRADS 与Kwak-TIRADS 之间热图对比）

图2 3 种分层系统误诊及诊断正确结节的韦恩图分布情况（A：3 种分层系统误诊为良性结节的韦恩图分布情况；B：3 种分层系统误诊为恶性结节的韦恩图分布情况；C：3 种分层系统良性结节诊断正确的韦恩图分布情况；D：3 种分层系统恶性结节诊断正确的韦恩图分布情况）

图3 3 种分层系统对不同征象结节分类的影像图（A：实性边缘模糊低回声结节，C-TIRADS：4B 类，ACR-TIRADS：4 类，Kwak-TI‐RADS：4C 类，最终病理检查结果：乳头状癌；B：实性低回声结节，结节内强回声后伴彗尾征，C-TIRADS：4A 类，ACR-TIRADS：4类，Kwak-TIRADS：4C 类，最终病理检查结果：乳头状癌；C：含粗钙化或环形钙化的结节，C-TIRADS：4A 类，Kwak-TIRADS：4B 类，ACR-TIRADS：4 类，最终病理检查结果：乳头状癌；D：实性低回声纵横比＞1 的微小结节，C-TIRADS：4B 类，Kwak-TIRADS：4C 类，ACR-TIRADS：5 类，最终病理检查结果：慢性淋巴细胞甲状腺炎）

表4 3种分层系统的甲状腺结节的恶性率

表5 3种分层系统误诊结节声像特征分布情况[个（%）]

2.2 3 种分层系统诊断甲状腺结节良恶性的效能比较 3 种分层系统诊断甲状腺结节良恶性的ROC 曲线见图4，其中C-TIRADS 的AUC 略高于ACR-TIRADS与Kwak-TIRADS。通过约登指数计算得出C-TI‐RADS、ACR-TIRADS、Kwak-TIRADS 诊断甲状腺结节良恶性的最佳截断值分别是4B 类、5 类、4C 类，见表6。2.3 3 种分层系统联合诊断甲状腺结节良恶性的效能比较 3 种分层系统两两联合对甲状腺的诊断效能见表7。其中C-TIRADS 联合ACR-TIRADS 与两种分层系统单独诊断相比，特异度均明显提高，差异均有统计学意义（均P＜0.05），而C-TIRADS 与Kwak-TIRADS的联合与两者单独诊断的特异度比较差异均无统计学意义（均P＞0.05），而灵敏度明显降低，差异均有统计学意义（均P＜0.05）。ACR-TIRADS 联合Kwak-TI‐RADS 诊断与Kwak-TIRADS 单独诊断相比较，联合诊断的特异度有所提高，差异有统计学意义（均P＜0.05），而与ACR-TIRADS 单独诊断的特异度比较差异无统计学意义（P＞0.05）。

图4 3 种分层系统诊断甲状腺结节良恶性的ROC 曲线图

表6 3种分层系统诊断甲状腺结节良恶性的效能比较

表7 3种分层系统联合诊断甲状腺结节良恶性的效能比较

3 讨论

目前对于甲状腺结节的超声诊断有很多不同的分层系统，每种分层系统都有自身的不足。本文通过回顾性分析679 个结节的病理检查结果并绘制ROC 曲线，发现C-TIRADS 的AUC 较ACR-TIRADS 和Kwak-TIRADS 略高，分别以C-TIRADS 中4B 类、ACR-TI‐RADS 中5 类、Kwak-TIRADS 中4C 类作为各自诊断甲状腺良恶性结节的最佳截断值。C-TIRADS 的灵敏度高于ACR-TIRADS，而ACR-TIRADS 的特异度均高于另外两种分层系统，且差异均有统计学意义（均P＜0.05）。而在ACR-TIRADS 的使用过程中，也存在一些争议，如5 类结节的恶性风险是＞20%，而其过低的恶性风险率给临床干预带来一定的困扰。Fradin 等[8]研究中发现，使用ACR-TIRADS 会大量增加一些没有意义的治疗与监测，常导致甲状腺结节的过度诊疗，并且ACR-TIRADS 在使用过程中需要对不同的声像图赋予不同的分值，通过分值累加结果对结节进行分类，临床使用比较繁琐。但基于计数法的C-TIRADS使用起来相对简单方便，同时C-TIRADS 从2 类到5 类的恶性风险是从0 到90%逐级递增，为临床诊疗提供了更加清晰的信息。通过对C-TIRADS、ACR-TIRADS和Kwak-TIRADS 进行两两联合诊断效能分析，仅发现C-TIRADS 与ACR-TIRADS 两者联合能同时提高两者单独诊断甲状腺良恶性结节的特异度，但联合采用两个分层系统无疑增加了超声医师的日常工作量，故在临床推广中存在一定困难。

通过分析不同分层系统的误诊原因发现，对于CTIRADS 而言，部分实性极低回声结节容易误诊为恶性结节，文献报道极低回声诊断恶性结节较低回声有较高的特异度，而灵敏度相对低[9]，尤其对于微小结节比较难区分极低回声与无回声而容易导致误诊。当实性低回声结节内部出现点状强回声且伴彗尾征时易被误诊为良性结节，囊性成分内的强回声伴彗尾征被判定为良性征象已经得到大家的普遍认可，但实性成分内的强回声伴后方彗尾征则不能作为判定良性结节可靠依据[10]，并且在彗尾征的评估中也存在较大的主观因素，这也是导致其容易产生误诊的重要原因。而ACRTIRADS 则对边缘模糊的结节容易误诊为良性结节，对于边缘模糊的概念一直以来存在较大的争议，使用较高频率的探头检查时一些边缘模糊的结节可能出现小毛刺或分叶状[11]，而此类结节通过ACR-TIRADS评分常低估其恶性程度而造成误诊；而对于实性低回声且同时伴不连续的边缘钙化比连续完整的边缘钙化恶性风险高[12]，因而将其赋予同样的分值，可能会导致一些良性结节评分的高估。从不同分层系统误诊的韦恩图来看，仅Kwak-TIRADS 误诊的情况较少，本研究中仅2 例患者良性误诊为恶性，其声像图表现均为实性、高或等回声、粗大钙化，纵横比＞1。尽管其单独误诊的病例少，但并不能认为该分类系统的诊断价值更加高，因为从不同分层系统正确诊断的韦恩图分析表示，仅Kwak-TIRADS 诊断正确的情况也比较少，而且从诊断效能上来说，其诊断效能也不比其他两种分层系统高，造成其单独误诊少的原因可能与Kwak-TIRADS指南与C-TIRADS 指南的评估标准存在很大的相似之处，而C-TIRADS 仅将极低回声作为恶性可疑征象，同时纳入彗尾征这个良性征象，使得C-TIRADS 的评估更加细化。对于仅伴有粗大钙化或边缘钙化的结节，3者均容易将其误诊为良性结节。ACR-TIRADS 并没有对微钙化给出一个明确的分界，Kwak-TIRADS与C-TIRADS则将微钙化定义为＜1 mm 的钙化为微钙化，而并未将粗大钙化或边缘钙化纳入为恶性征象。然而文献指出不同的钙化类型都存在一定的恶性风险[13]，刘天等[14]通过对126 例仅含有粗大钙化或环形钙化患者的研究中指出，粗大钙化在甲状腺结节中出现的位置对甲状腺结节的良恶性鉴别诊断有重要意义。对于最大径＜5 mm的微小结节，常常呈现纵横比＞1 的恶性征象，对于此类结节，3者均容易将其诊断为恶性结节。这与吕彦利等[15]研究结果相似，对于纵横比＜1 的微小乳头状癌，容易产生误诊。

本研究存在的不足之处：（1）研究为回顾性研究，缺乏动态图像的分析，在图像判断上可能存在一定误差；（2）本研究样本量小，仍需要多中心大样本研究。结节的大小未作筛选，与Kwak-TIRADS 结节的入选标准（≥10 mm）不同；（3）本研究中入组的结节恶性结节比例高，可能使各级分类的恶性风险增高。

综上所述，C-TIRADS 作为中国新推出的甲状腺分层系统，诊断的准确度与其他分层系统相仿，并且具有更高的灵敏度，使用上也更方便，值得在国内进行推广，并形成统一的参考标准，C-TIRADS 联合ACR-TIRADS 指南提高了诊断的特异度，能减少临床当中的误诊情况。对于存在粗大或边缘钙化的结节以及纵横比＞1的微小结节，3种分层系统均容易误诊。