基于声像图深度残差网络ResNet模型自动诊断肾囊肿

2022-04-13 07:53莫莹君郭瑞斌

中国介入影像与治疗学 2022年4期

莫莹君，郭瑞斌

(1.湖南省第二人民医院超声科，湖南长沙 410000；2.中国人民解放军国防科技大学智能科学学院，湖南长沙 410073)

肾囊肿是泌尿外科常见疾病，为肾脏内大小不等、与周围组织分界清晰的囊性包块，其内含有淡黄色透明液体。肾囊肿发病率约10%，且随年龄增长而逐渐升高，在70岁以上人群中的发病率>35%[1]。目前，超声是观察囊肾肿大小、部位及数量的主要手段。随着现代医疗技术的快速发展，超声数据每年以30%的速度增长，导致医师工作量及工作压力激增。基于人工智能(artificial intelligence， AI)的医学影像自动诊断是解决此种医疗困境的可行方案[2-3]；利用深度学习(deep learning， DL)技术自动诊断疾病渐趋广泛[4-11]。本研究观察基于声像图的深度残差网络ResNet模型自动诊断肾囊肿的应用价值。

1 资料与方法

1.1 一般资料收集2018年6月—2019年12月3 670例于湖南省第二人民医院接受肾脏超声检查患者，男2 569例，女1 101例，年龄40～85岁，平均(62.6±13.2)岁。纳入标准：声像图质量满足研究要求。排除标准：①肠气干扰明显；②重度肥胖，声衰减明显；③肾脏明显萎缩，边界不清。

1.2 仪器与方法采用Siemens ACUSMON S2000超声仪,腹部探头，频率3～5 MHz。检查当日晨嘱患者禁食。嘱患者侧卧，行常规经腹超声检查，观察肾脏大小、形态及回声等；发现肾囊肿时，观察其大小、边缘、内部回声及血流情况。

1.3 构建数据集由6名超声科医师(主治医师4名，主任医师、副主任医师各1名，平均工作年限12.5年)观察肾脏声像图，经综合评判后共诊断2 024例单侧肾单发囊肿(图1A)，余1 646例为正常肾(图1B)。每例选取2幅肾脏声像图构建数据集，共包含7 340幅图像，将其分为训练集(6 294幅，含3 238幅肾囊肿、3 056幅正常肾)和测试集(1 046幅，含810幅肾囊肿、236幅正常肾)；声像图分辨率均为490×350。

1.4 基于声像图自动诊断肾囊肿方法

1.4.1 梯度方向直方图(histogram of oriented gradients, HOG)+支持向量机(support vector machines， SVM)方法利用Python数字图像处理包skimage提取数据集中声像图的HOG特征，在训练集上用Python机器学习库sklearn对提取的HOG特征进行SVM模型训练，再利用训练好的模型对测试集声像图进行分类，得到自动肾囊肿诊断结果。

1.4.2 基于深度残差网络ResNet模型利用深度残差网络[12]对肾脏声像图进行自动诊断，流程见图2，即输入原肾脏声像图，分别以ResNet18、ResNet34及ResNet50 3种深度残差网络模型进行处理后，输出是否为肾囊肿的诊断结果。利用交叉熵损失进行模型训练，设定学习率(learning rate， LR)为0.05，采用小批量随机梯度下降(mini-batch SGD)算法对模型参数进行更新[13-14]。

1.5 统计学分析采用SPSS 17.0统计分析软件。以超声医师诊断结果为金标准，采用四格表法分别计算4种方法(HOG+SVM、ResNet18、ResNet34及ResNet50)诊断肾囊肿的敏感度、特异度及准确率，并以χ2检验比较其敏感度、特异度及准确率。绘制4种方法诊断肾囊肿的受试者工作特征(receiver operating characteristic， ROC)曲线，获得曲线下面积(area under the curve， AUC)。P<0.05为差异有统计学意义。

2 结果

测试集中，ResNet34、ResNet50模型诊断肾囊肿的敏感度、特异度及准确率均高于HOG+SVM方法及ResNet18模型(P均<0.01)，且ResNet50模型的特异度和准确率均高于ResNet34模型(P均<0.05)，见表1。

表1 4种方法用于诊断测试集肾囊肿的效能比较[%(幅)]

ROC曲线显示，HOG+SVM方法及ResNet18、ResNet34、ResNet50模型自动诊断肾囊肿的AUC分别为0.731[95%CI(0.691,0.771)]、0.754[95%CI(0.715,0.792)]、0.851[95%CI(0.819,0.884)]及0.892[95%CI(0.865,0.920)]。见图3。

3 讨论

大数据驱动的AI技术已逐渐用于临床诊断疾病。本研究观察基于声像图的深度残差网络ResNet模型自动诊断肾囊肿的价值。基于超声图像自动诊断肾囊肿是一个分类问题，每幅肾脏声像图有一个确定的类别，即肾囊肿或正常肾。模型训练需要高质量的标记数据集。本研究构建包含肾囊肿和正常肾的声像图数据集，以对3种不同结构的ResNet模型进行训练和测试，并与基于传统DL方法的HOG+SVM方法进行对比分析。

HOG+SVM是基于DL的传统图像分类方法。HOG是利用图像梯度信息提取特征值的方法，SVM则为按监督学习方式对数据进行二元分类的广义线性分类器。提取声像图的HOG特征，并与SVM特征分类相结合，是实现肾囊肿图像分类的经典方法。深度残差网络ResNet是一种具有特殊结构的深度神经网络模型，其核心设计是引入跨层连接构造本体映射及残差映射，并利用残差块减少计算和参数量，实现深度网络对图像高层次特征的提取；不同层数ResNet结构中的核心组分——残差块可分为两类，即残差块1和残差块2，残差块2的卷积核堆叠层数较残差块1更多，网络层次更深。ResNet18中有8层残差块1，ResNet34中有16层残差块1，ResNet50中有16层残差块2。

本研究以HOG+SVM方法及3种ResNet模型在测试集中自动诊断肾囊肿，结果表明，ResNet34、ResNet50模型诊断肾囊肿的敏感度、特异度及准确率均高于HOG+SVM方法及ResNet18模型，ResNet50模型的特异度和准确率均高于ResNet34模型，且ResNet50模型的AUC最高。对于自动诊断肾囊肿，深度残差网络ResNet模型与传统HOG+SVM方法相比具有优势，这是由于ResNet通过激活函数和提升隐藏层数量引入了非线性，大幅提升了模型的表现力，使自动分类性能提高。ResNet50模型诊断肾囊肿效能更好，其主要原因在于深度神经网络中卷积核的重要作用之一为局部连接，即对某一局部进行感知，亦称为“局部感受野”，网络越深，卷积核堆叠获得的感受野越大，接收的特征越全面，更便于提取具有全局语义的特征。ResNet50中有16层残差块2，网络层次更深，更有利于自动诊断肾囊肿。

综上，基于声像图的深度残差网络ResNet模型自动诊断肾囊肿的效能较好，尤以ResNet50模型更佳；但现阶段该模型尚未能用于临床，有待进一步探索、改进。