杨波,李照喜*,周璐,李文
1.华东疗养院物理诊断科,江苏 无锡 214065;2.华东疗养院外科,江苏 无锡 214065;*通信作者 李照喜doctor_lzx@163.com
甲状腺影像数据和报告系统(thyroid imaging reporting and data system,TI-RADS)可以统一甲状腺报告格式、便于医师交流并规范后续处理。多个国家先后发布了多个版本的TI-RADS指南[1-4],但各指南皆立足于本国情况,而目前我国超声检查中存在多种TI-RADS指南混用的问题,与我国医疗实际情况存在不匹配之处,也给临床解读甲状腺超声报告造成诸多困扰。2020年我国发布了甲状腺结节超声恶性危险分层中国指南[5],制订了中国甲状腺超声报告和数据系统(C-TIRADS),其分类基于超声图像特征的计数法,方便易行,符合我国临床实际;但C-TIRADS对甲状腺可疑结节的诊断效能尚未完全明确,并且诊断恶性截断值存在争议。人工智能(artificial intelligence,AI)辅助诊断系统客观、可重复性强,已逐步应用于临床研究中。目前,基于C-TIRADS的AI辅助诊断系统相关研究较少。本研究通过使用基于C-TIRADS的AI辅助诊断系统,比较其与不同年资超声医师对甲状腺可疑结节的诊断效能,评估基于C-TIRADS的AI辅助诊断系统在甲状腺可疑结节良恶性诊断中的应用价值及最佳诊断恶性截断值。
1.1 研究对象 回顾性选取2018年1月—2021年12月华东疗养院甲状腺可疑结节患者441例(445个结节),男190例(191个结节),女251例(254个结节);年龄21~70岁,平均(45.3±9.2)岁。结节最大径0.6~3.8 cm。纳入标准:①有明确手术或细针穿刺活检病理结果;②存在可疑结节,即存在至少1项符合C-TIRADS指南的超声恶性声像图特征。排除标准:①细针穿刺活检细胞学病理Bethesda为I、Ⅲ、Ⅳ或V类且无手术组织学病理结果;②超声检查前进行甲状腺有创检查或治疗;③超声影像资料不全或质量不佳。本研究经本院伦理委员会批准(2022伦理批会第3号)。
1.2 仪器与方法
1.2.1 仪器 使用Siemens Sequoia、Esaote MyLab90、Philips iu22、Canon Aplio i900超声诊断仪,线阵探头,频率3~12 MHz。
1.2.2 图像分析 由2名从事浅表器官检查工作15年以上的超声科副主任医师组成高年资组,2名工作5年以内的超声科住院医师组成低年资组。各医师均对患者检查结果未知并独立进行分析,根据C-TIRADS指南进行超声特征计算并分类。结果不一致时由组内2名医师协商达成一致。
将能清晰显示甲状腺结节声像图特征的所有图像导入超声影像辅助诊断系统(Ten-D ACD System,SW-TH01/II,什维创新),手动圈定感兴趣区(ROI),包括结节上下界及左右界,软件自动分析结节超声特征:结构、回声、纵横比、边缘、局灶性强回声,计数超声良恶性特征并进行C-TIRADS分类(图1),分类结果不一致时取分类最高者。
分别由低、高年资医师组结合AI辅助诊断系统分析结果,逐一对照并对甲状腺结节进行再次分类,记为低年资+AI组和高年资+AI组,比较各组分类结果。
1.2.3 C-TIRADS分类方法[5]以计数法对甲状腺结节进行分类,实性、极低回声、垂直位(纵横比>1)、微钙化及边缘模糊/不规则或甲状腺外侵犯为可疑恶性特征,计1分;彗星尾征伪像为良性超声特征,计-1分。将得分相加进行分类,见表1。
表1 基于计数法的C-TIRADS分类
1.3 统计学分析 应用SPSS 22.0、Med Calc 18.9.1软件。计量资料采用±s表示,计数资料采用例数或百分比表示。以病理结果为“金标准”,绘制受试者工作特征(ROC)曲线,采用Z检验比较各组曲线下面积(AUC)。根据不同诊断恶性截断值,计算各组的诊断敏感度、特异度、准确度、阳性预测值、阴性预测值及约登指数,并采用χ2检验进行比较。以P<0.05为差异有统计学意义。
2.1 甲状腺结节病理结果 445个结节经病理证实恶性结节277个,良性结节168个。所有恶性结节均经手术病理证实,其中乳头状癌275个,髓样癌2个。良性结节中,36个经手术组织学病理明确,其中结节性甲状腺肿25个,滤泡性腺瘤6个,慢性淋巴细胞性甲状腺炎5个;132个经过细针穿刺活检细胞学病理明确,均为Bethesda Ⅱ类。
2.2 低、高年资组及AI组根据C-TIRADS分类的诊断结果 低、高年资组及AI组根据C-TIRADS各分类的良、恶性结节数量,恶性结节占比及AUC见表2。高年资组及AI组AUC均显著大于低年资组(Z=7.977、7.763,P均<0.001),高年资组与AI组AUC相仿(Z=1.683,P>0.05)。
表2 低、高年资组及AI组根据C-TIRADS分类的良、恶性结节诊断结果
2.3 不同年资医师联合AI辅助诊断系统的诊断结果不同年资医师联合AI辅助诊断系统对甲状腺可疑结节的C-TIRADS分类结果见表3。高年资+AI组诊断的AUC高于低年资+AI组(0.864比0.830),差异有统计学意义(Z=4.595,P<0.001),但差距较前缩小。低年资+AI组对甲状腺可疑结节诊断的AUC较未联合使用时明显提高(0.830比0.760;Z=6.724,P<0.001),高年资+AI组对甲状腺可疑结节诊断的AUC较前略有提高(0.864比0.858;Z=2.256,P=0.02),低年资+AI组诊断的AUC提高更明显。
表3 不同年资医师联合AI辅助诊断系统对甲状腺良、恶性结节C-TIRADS分类结果
2.4 不同诊断恶性截断值诊断效能比较 不同诊断恶性截断值比较,以TR4B为截断值时各组对甲状腺结节的诊断敏感度和阴性预测值最大;以TR4C为截断值时各组的诊断准确度、约登指数及AUC最大;以TR5为截断值时各组的诊断特异度和阳性预测值最大。以AUC最大为选取最佳截断值的标准,诊断恶性最佳截断值为TR4C时,各组AUC均明显大于TR4B和TR5(均P<0.001),见表4。
表4 低、高年资组及AI组不同诊断恶性截断值诊断效能比较
目前普通人群甲状腺结节超声检出率可达19%~68%[1,6],呈增高趋势,为甲状腺结节特别是甲状腺可疑结节患者提供更好的临床决策和后续健康管理至关重要。2020年中华医学会超声医学分会发布的C-TIRADS将实性、极低回声、垂直位、微钙化以及边缘模糊/不规则或甲状腺外侵犯作为甲状腺结节超声恶性特征,彗星尾伪像作为良性特征,并通过计数法进行分类,便于操作,易于推广,具有很高的实用价值。
然而,对于甲状腺结节超声特征的认识和判断较为主观,受到医师工作经验的影响,并且与当时客观环境、医师主观状态等有关,存在不同医师间和相同医师不同时间的差异[7-9]。基于深度学习和卷积神经网络的新一代AI辅助诊断系统可以客观、准确地识别甲状腺结节超声特征,可重复性高,已得到临床研究证实[10-13]。本研究显示,AI辅助诊断系统对于甲状腺可疑结节C-TIRADS 4B、4C及5类的恶性率分别为40.5%、84.7%、100%,均在指南参考范围内,C-TIRADS 4A类的恶性率为11%,较低年资组更接近指南参考范围;AI辅助诊断系统对于甲状腺可疑结节的诊断AUC(0.849)与高年资组(0.858)相仿,显著高于低年资组(0.760),与李婷婷等[14]的研究相似,可能与低年资医师工作时间短、经验匮乏有关。
不同年资医师联合AI辅助诊断系统后,对甲状腺可疑结节诊断的AUC均不同程度增大,低年资医师从0.760升至0.830,高年资医师从0.858升至0.864,低年资医师联合AI辅助诊断系统后增加幅度较大、受益明显。
目前,C-TIRADS对于甲状腺结节良恶性鉴别诊断的截断值存在较大分歧。毛森等[15]、李潜等[16]认为使用TR4A作为截断值较为合适,而丁思悦等[17]、李健等[18]则认为TR4B更好,乔敏等[19]、陈庆芳等[20]通过比较认为TR4C作为截断值时诊断效能更高。以上差异可能与研究对象、方法及对C-TIRADS的认识和理解不同有关。本研究选择对象为甲状腺可疑结节(最低分类C-TIRADS 4A),符合临床工作实际需要,分别比较TR4B、TR4C和TR5作为诊断恶性截断值时的诊断效能发现:以TR4B为诊断恶性截断值,敏感度高而特异度低,将不可避免地导致过度穿刺和手术;以TR5为诊断恶性截断值,特异度高而敏感度低,将会出现漏诊较多的现象;而以TR4C为诊断恶性截断值,敏感度和特异度既保持在较高的水平,又达到了兼顾的效果,很好地平衡了漏诊和过度治疗的问题,此时无论AI辅助诊断系统还是不同年资的医师,诊断准确度、约登指数及AUC均最高。因此,本研究使用TR4C作为C-TIRADS对甲状腺可疑结节的诊断恶性最佳截断值,其诊断效能最佳。
本研究尚存在一些不足:①为单中心回顾性研究,后期仍需扩大样本量进行多中心研究;②目前AI辅助诊断系统仅支持分析二维静态图像,无法将超声造影、弹性成像等信息加入其中,仍需进一步提高。
总之,基于C-TIRADS的AI辅助诊断系统在甲状腺可疑结节良恶性鉴别诊断中具有较高价值,联合使用可提高不同年资医师的诊断效能,尤其是低年资医师;不同年资医师及联合使用AI辅助诊断系统后对甲状腺可疑结节良恶性鉴别诊断的最佳截断值均为TR4C。