柳舜兰 郭明辉 喻正纲 柳培忠 苏淇琛 何韶铮 吕国荣
近年来,国内外相关学者对超声标准切面的自动获取、识别、分类及生物参数的自动测量等方面均进行了广泛而深入的研究,但大多研究[1-7]主要集中在产前胎儿、肝脏、心脏等部位,而对于甲状腺等浅表器官的超声标准切面自动识别与参数自动测量方面的研究较少。甲状腺是人体最大的内分泌器官,甲状腺超声标准切面(TUSP)是甲状腺超声检查质量控制、参数测量及病灶定位、疾病诊断的重要依据。由于不同地区、不同等级医院的诊疗水平、质量控制水平差异较大,部分超声医师往往忽视TUSP图像的存取,严重影响了超声检查的规范与质量控制水准。基于此,本研究设计基于甲状腺关键解剖结构检测的人工智能(AI)模型,探讨其识别TUSP的准确性和效率,并与不同年资超声医师人工识别进行比较,以期提高TUSP的识别效能并应用于临床。
按照甲状腺超声检查指南[8]及相关超声专家顾问小组的建议,制定了8 个TUSP:甲状腺峡部横切面(TPTI)、甲状腺峡部纵切面(LPTI);左甲状腺上极横切面(UTPLT)、左甲状腺下极横切面(DTPLT)、右甲状腺上极横切面(UTPRT)、右甲状腺下极横切面(DTPRT)、左甲状腺纵切面(LPLT)及右甲状腺纵切面(LPRT),不符合上述8 个切面的图像定义为非标准切面(N-SP)。图像按照用途分为标准集和实验集,分别用于AI 模型训练、测试及评价不同年资医师与AI 模型识别分类TUSP 能力。所有图像均来自福建医科大学附属第二医院超声图文工作站,由11名医师使用迈瑞Resona 7、Resona 8、Resona I9S,GE Voluson E 6、Voluson E 8、Voluson E 10、Logiq S 8、Logiq P 6,日立HI Vision Preiru、HI Vision Avius,西门子Acuson Sequoia 512等11 种彩色多普勒超声诊断仪(线阵探头,频率7.5~12.0 MHz)行甲状腺超声扫查并留存图像。本研究经我院医学伦理委员会批准(2019C076R)。
纳入标准:①图像中不含多普勒信号及测量标尺;②可放大至目标图像的1/3~1/2;③无过多声影。排除标准:由于图像抖动等原因导致图像模糊,目标结构显示欠清晰。
首先通过单阶段目标检测算法YOLOv5s 检测甲状腺超声图像中的关键解剖结构,在“Backbone”中,模型会对输入的超声图像进行下采样,通过不断的卷积操作提取关键解剖结构的特征,生成对应的特征图;在“Neck”中,使用路径聚合网络(PANet)将下采样后的特征图重新进行上采样以进行特征融合,适应各个解剖结构不同尺寸的特征;在“Prediction”中,模型对可能的解剖结构绘制边界框,并使用非极大值抑制(NMS)方法,保留置信度最高的边界框,并输出相应的解剖结构类别和对应的置信度分数,然后根据临床判断标准判断该输入图像是否为标准切面:若输入图像包含TUSP 对应的所有关键解剖结构,则认定该输入图像为标准切面并输出该标准切面图像的类别和置信度分数;若输入图像不包含TUSP 对应的关键解剖结构时,则认定该输入图像为N-SP,从而完成对N-SP的“过滤”,该模型的具体流程图见图1。最后通过识别测试集评估模型。实验集图像由3 名具有20 年以上浅表器官超声诊断经验的高级职称医师组成的专家团队分为TPTI、LPTI、UTPLT、DTPLT、UTPRT、DTPRT、LPLT、LPRT、N-SP。AI 模型构建后,由3 名完成住院医师规范化培训的初级职称医师(以下简称初级医师)、3 名经过半年以上浅表超声检查专科培训的中级职称医师(以下简称中级医师)及AI模型分别独立识别实验集图像,比较初级医师、中级医师及AI模型识别TUSP和N-SP的效能;同时收集AI模型及不同年资医师识别实验集图像累计耗时及平均每张图像耗时,并对其进行比较。
图1 AI模型识别TUSP流程图
应用SPSS 22.0 和R 4.1.2 统计软件,计量资料以±s表示,采用t检验;计数资料以频数或率表示,采用χ2检验。AI 模型、中级医师、初级医师与专家团队识别的一致性分析采用Kappa检验。以专家团队识别为标准,绘制受试者工作特征(ROC)曲线分析中级医师、初级医师及AI模型识别TUSP和N-SP的效能;曲线下面积(AUC)比较采用Delong 检验。P<0.05 为差异有统计学意义。
本研究最终纳入图像10 894张,包含标准集8978张和实验集1916 张。图像集各切面见图2,分布情况见表1。
表1 图像集各切面分布情况 张
图2 TUSP各超声图像
AI 模型识别测试集各切面的准确率均达90%以上,识别各切面结果与专家团队一致性强(均Kappa>0.90,均P<0.05);ROC 曲线分析显示,AI 模型识别测试集8个TUSP的AUC均>0.9。见表2。
表2 AI模型识别测试集TUSP的效能及与专家团队一致性分析
AI模型与初级、中级医师识别实验集TUSP和N-SP的ROC 曲线分析结果见表3。AI 模型识别8 个TUSP和N-SP 的AUC 均大于初级医师,差异均有统计学意义(均P<0.05);AI 模型识别LPTI、UTPLT、DTPLT、UTPRT、DTPRT、LPRT 的AUC 均大于中级医师,差异均有统计学意义(均P<0.05);中级医师识别TPTI、UTPRT、DTPRT、LPLT、LPRT、N-SP 的AUC 均大于初级医师,差异有统计学意义(均P<0.05);其余两两比较差异均无统计学意义。
表3 AI模型及初级、中级医师识别实验集TUSP和N-SP的效能及与专家团队的一致性分析
AI模型及初级、中级医师识别实验集TUSP和N-SP与专家团队的一致性分析见表3。AI 模型识别TPTI、LPTI、LPLT、UTPLT、DTPLT、UTPRT、DTPRT、LPRT 与专家团队一致性均较强(均Kappa≥0.75,均P<0.05);AI 模型识别N-SP 与专家团队一致性中等(Kappa=0.484,P<0.05)。
AI 模型识别实验集TUSP 图像累计耗时及平均每张图像耗时均少于不同年资医师人工识别,专家团队识别累计耗时及平均每张图像耗时均少于中级、初级医师,中级医师识别累计耗时及平均每张图像耗时均少于初级医师,差异均有统计学意义(均P<0.05)。见表4。
表4 AI模型及不同年资医师识别实验集图像效率比较
TUSP 的获取与识别在病灶定位、疾病诊断、超声质量控制与教学培训中至关重要。然而标准切面图像的获取对超声医师检查技巧及临床经验依赖性大,同时也非常耗时。如能在甲状腺超声检查或培训过程中引入计算机辅助算法,将会极大提高其识别的准确性及效率。目前,基于人工智能的医学图像识别算法大体可以分为传统机器学习和基于深度学习的医学图像识别算法两种[9]。基于深度学习的医学影像识别算法可通过构建深层次网络模型提取图像中的深层次特征,因此较传统机器学习算法往往具有更高的准确性[10]。基于深度学习的目标检测是计算机视觉领域的一个基础任务和研究热点,而YOLO 系列算法是目标检测的典型代表之一。YOLO 目标检测算法可直接将每个感兴趣区域识别为背景或目标对象,即仅通过一个阶段便可直接给出目标结构的类别概率和位置坐标值,实现端到端的训练和检测,由于其良好的速度-精度平衡,近年一直处于目标检测领域的领先地位,被成功地研究、改进和应用于众多不同领域[11-12]。基于此,本研究借鉴超声医师识别标准切面的过程,设计基于甲状腺关键解剖结构检测的AI 模型,探讨其识别TUSP 的准确性和效率,并与不同年资超声医师人工识别进行比较,以期提高TUSP的识别效能并应用于临床。
本研究中的AI 模型首先通过单阶段目标检测算法YOLOv5s 检测甲状腺超声图像中的15 个关键解剖结构,然后根据临床标准判断该输入图像是否为标准切面:若输入图像包含TUSP 对应的所有关键解剖结构,则认定该输入图像为标准切面并输出该标准切面图像的类别和置信度分数;若输入图像不包含TUSP对应的关键解剖结构时,则认定该输入图像为N-SP,从而完成对N-SP的“过滤”。本研究分析AI模型识别TUSP 的效能,结果显示AI 模型识别实验集8 个TUSP(TPTI、LPTI、UTPLT、DTPLT、UTPRT、DTPRT、LPLT、LPRT)的分类准确率为94.7%~99.9%,与专家团队的一致性均较强(均Kappa≥0.75,均P<0.05)。与本课题组前期基于残差神经网络的甲状腺超声标准切面识别模型[13]相比,AI 模型不仅识别准确率有所上升,还克服了残差神经网络模型容易混淆LPLT 和LPRT,以及置信度失准等不足。另外,AI 模型在识别效率上明显高于不同年资医师人工识别(均P<0.05),平均每张图像识别时间不到0.03 s,而专家团队需4.69 s,初级、中级医师则耗时更长。可见AI 模型在医学图像识别及诊断上体现了良好的速度及精准度,与既往研究[14-15]结论一致。总之,AI 模型具有较高水准的分辨超声图像能力,可为超声医师扫描提供辅助诊断依据,为疾病的诊断奠定坚实的基础,具有重要现实意义。
综上所述,基于关键解剖结构检测的AI 模型对TUSP识别具有较高的准确性和效率,可作为甲状腺超声图像质量控制和规范化培训的辅助工具。但本研究为了实现实验图像数据集的多元化,实验图像采集来源于不同医师、不同仪器,数据集图像质量参差不齐,经严格筛选后,TUSP 图像数据集存在数据不平衡问题。今后需继续扩大样本量、平衡各切面数据集,进一步训练并优化AI模型。