甲状腺结节超声自动诊断算法研究

2022-02-25 06:44章浩伟李占齐
软件导刊 2022年1期
关键词:主干恶性损失

章浩伟,李占齐,李 淼

(1.上海理工大学 医疗器械与食品学院,上海 200082;2.郑州颐和医院,河南 郑州 450000)

0 引言

近年来,甲状腺癌的发病率逐年上升。2019 年,美国有52 070 名成年人确诊甲状腺癌,甲状腺癌是20-34 岁美国女性最常见的癌症之一[1]。国内统计结果显示,2012 年北京地区的甲状腺疾病发病率为10 年前的4.9 倍[2]。部分甲状腺结节会发生恶变,导致甲状腺癌,因此对于甲状腺结节的观察与诊断十分重要,早期发现治疗可以在很大程度上降低甲状腺癌的发生率与死亡率。甲状腺结节的超声诊断很大程度上受到医生主观经验的影响,自动化智能化的甲状腺结节检测可大幅度减少医生工作量,降低诊断时对临床经验的依赖程度,获得与穿刺活检相当的诊断精度。

卷积神经网络(Convolutional Neural Network,CNN)能端到端地进行训练,自动学习图像的高级与低级特征,在医学图像检测中具有重要应用。然而,由于甲状腺超声图像组织结构复杂、边界模糊、形状不规则,给检测识别工作带来很大挑战。目前,甲状腺结节的快速、准确诊断是一项亟待解决的难题。

1 相关研究

Wu 等[3]针对甲状腺超声图像结节分割不准确的问题,设计联合上采样模块,融合具有不同扩展系数的普通标准卷积和扩展卷积的上下文信息,实现了93.19%的准确率和0.8558 的dice 值;邵蒙恩等[4]结合CV 模型与RSF 模型,建立CV-RSF 模型,实现了甲状腺结节超声图像的半自动分割;Wei 等[5]提出一种具有注意力机制的双路径U 型网络Attention-DPU,采用微型双路径模块代替普通卷积层,利用注意力机制提高图像分割效率和准确率;Zhang 等[6]提出一种端到端、多通道、无规则的CNN 网络,旨在提取更多的语义信息用于超声图像的分割,与U-Net、U-Net++、M-Net和Dilated U-Net 相比,该网络的性能分别提高了6.59%、36.03%、23.64%和31.71%;吴迪[7]利用集成学习(Boosting)算法将多个弱分类器组合为一个强分类器,在测试集上的恶性结节预测准确率达到86%,召回率达到96%;Singh等[8]基于灰度共生矩阵(GLCM)提取特征,然后利用SVM对甲状腺结节进行分类,最大分类精度为84.62%;Yu 等[9]建立了一个基于区域活动轮廓和纹理的特征提取框架,通过结合人工神经网络(ANN)与SVM 分类器,实现了准确率为92.00%,敏感性为100%,特异性为87.88%的分类性能;Xiao 等[10]对3 个不同深度的网络模型ResNet50、Xception、InceptionV3 进行特征提取,以简单级联的方式融合3 种网络提取的特征,然后将特征输入到ANN 分类器中,判别超声图像的良恶性,最终实现了85.13%的准确率和0.91 的AUC 值。

以上文献多是针对甲状腺超声图像进行分类或分割的单一任务研究,不能对甲状腺结节进行整体诊断与评价。基于此,本文设计一种改进的Mask R-CNN 算法,以ResNet50、SENet 为基础主干网络,并融合残差注意力机制模块得到SE-ResNet50 网络,改进多任务损失函数,实现了基于深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的集甲状腺超声结节检测、良恶性判别与分割三项任务于一体的研究。

2 实验方法

2.1 实验数据分析

2.1.1 甲状腺结节鉴别特点分析

图1 为甲状腺超声图像示例。临床上,医生主要从形态特征、衰减特性、回声模式、钙化特性等方面对甲状腺结节进行诊断[11]。具体来讲,良性甲状腺结节形态规则、边界清晰、结节后方呈回声增强或等回声,结节的纵横比一般小于1,结节周围声晕规则,有完整包膜,内部无钙化或有粗大钙化[12];恶性甲状腺结节形态不规则,边界欠清晰,结节后方回声衰减,结节纵横比通常大于1,包膜不明显或无完整包膜,出现微小钙化、血流信号增强,常伴有颈部淋巴结转移性肿大[13]。

Fig.1 Thyroid ultrasound image example图1 甲状腺超声图像示例

2.1.2 实验数据采集与预处理

采集2 934 幅甲状腺超声图像作为实验数据集,采集地点为徐州市某三甲医院,其中良性结节图像有1 673 张,恶性结节图像有1 261 张,图像为二维JPG 格式,采集所用超声诊断仪类别不同,包括Philips-123、SIEMENS、GE Voluson S8、ACCUVIX-gfg、TOSHIBA。

原始超声图像周边有较多对实验无用的信息,如医院名称、图像采集时间、设备名称、患者信息、超声探头的发射频率、探测深度等。为避免图像分辨率过大带来的计算负担,通过保持原始图像ROI(Region of Interest)区域的长宽比例调整图像大小,得到甲状腺超声图像的ROI 子图。对于一个尺寸为h×w 的图像,裁剪其周边无用信息,按照尺寸max{h,w}进行零值填充,resize 成512×512 大小,最后在医生的指导下制作成标准的COCO 数据集形式。图2 为ROI 子图及其对应掩码。

2.2 实验平台

训练集和测试集的比例为8∶2,即训练集∶测试集=2 347∶587。实验模型部署在中科曙光的超级运算平台上,实验系统为Linux 操作系统,编译环境为Python 3.7.9,CUDA 版 本10.0,显卡为Tesla V100-SXM2-32GB,使 用pytorch1.4.0 进行整体模型的搭建。

Fig.2 Ultrasound image and corresponding mask image图2 超声图像及其对应掩码图像

2.3 算法建立

2.3.1 Mask R-CNN 算法

基于CNN系列的目标检测算法,如Fast R-CNN[14]、Faster R-CNN[15]和Mask R-CNN[16]等在目标检测领域均取得了巨大成功。相较于Faster R-CNN 网络,Mask R-CNN在其基础上添加了一个掩膜预测分支。图3为Faster RCNN 与Mask R-CNN 的架构图,Mask R-CNN 将Faster RCNN 中的RoIPooling 改进为RoIAlign,在预测框提取过程中使用双线性插值法,改进了RoIPooling 中量化偏差对后续回归定位产生的影响,因此Mask R-CNN 的检测效果更胜一筹。Mask R-CNN 是一个两阶段检测模型:第一个阶段基于输入图像产生可能的目标候选建议框;第二个阶段预测目标类别,优化回归框,并基于第一阶段的输出生成目标区域像素级别的分割掩膜。

Fig.3 Faster R-CNN and Mask R-CNN architecture图3 Faster R-CNN 与Mask R-CNN 架构

2.3.2 改进损失函数的Mask R-CNN 算法

Mask R-CNN 的多任务损失函数包含定位损失、分类损失以及分割损失3 个部分。如式(1)所示,Lcls为分类损失,表示预测类别与实际类别的接近程度;Lbox为边框回归损失,表示模型的定位效果;Lmask为分割掩码损失,以二进制交叉损失值作为分割损失函数。在多任务网络结构中,使用两个权重参数α1和α2控制检测与分割任务的优先等级。在以ResNet50 为主干网络,以Imagenet 数据集上预训练的权重为初始权重的Mask R-CNN 模型中,通过改变α1和α2的大小,得到“3.2”项下表2 的结果。根据表中结果显示,在接下来的实验中,将α1和α2分别设置为0.9 和0.7。式(2)为分割分支的损失函数,其中y和ŷ分别为真实值与预测值。

2.4 主干网络选择与算法模型构建

2.4.1 主干网络

ResNet 网络使用跳跃连接和拟合残差两种方式,利用残差映射模块结构,通过跳跃连接将各个阶段的输入信息跳跃连接至输出处,下层网络只需要在两者之间学习不同的地方,一定程度上避免了相同特征的重复学习,简化了学习目标,有效缓解了深层网络导致的梯度消失或梯度爆炸问题[17]。SENet(Squeeze-and-Excitation Networks)采用一种全新的特征重标定策略,通过学习的方式自动获取每个特征通道的重要程度,基于此提升有用的特征权重,抑制或减轻无用的特征权重,通过优化网络运行时间,减少参数计算量,使SE 模块具有注意力机制特点[18]。

采用残差网络ResNet50 和SENet 为基础主干网络,通过融合残差与注意力机制,将SE 模块作为注意力门控单元嵌入到ResNet 网络中,得到主干网络SE-ResNet50。如图4所示,该网络首先降低输入特征维度,变为输入的1/r,然后通过ReLU 激活函数增加更多的非线性单元,有助于更好地拟合通道间复杂的相关性;接着通过一个FC 全连接层恢复原始维度,再通过Sigmoid 函数进行权重归一化;最后通过Scale 将归一化后的权重加权到每个通道特征上[18]。

Fig.4 SE-ResNet module图4 SE-ResNet 模块

2.4.2 整体算法模型构建

设置ResNet50、SENet、SE-ResNet50 为主干网络,使用Mask R-CNN 模型的多任务功能实现甲状腺结节的定位、分割与良恶性分类等一体化自动诊断,通过改进多任务损失函数中的权重占比,实现模型优化。图5 为本次实验构建的甲状腺超声结节定位、分割、良恶性判别模型。

Fig.5 Ultrasound thyroid nodule localization,segmentation,benign and malignant discrimination model图5 甲状腺超声结节定位、分割、良恶性判别模型

2.4.3 参数设置

在目标检测任务中,IoU 为交并比,表示预测框与实际标注框的交叠率[19]。IoU_thr 为类别置信度,其值在[0,1]之间。当IoU=0 时,预测框与真值框没有交集,此时结果最差;当IoU=1 时,预测框与真值框重合,此时结果最好。当预测候选框与原标记框的交并比IoU>IoU_thr 时,视为正样本;反之,视为负样本[20]。本实验的IoU_thr 设置为0.5,epoch 设置为20,在训练过程中采用优化策略,等间距调整学习率,初始学习率设置为lr=0.002 5,学习率采用warmup[21]的方式,Learning momentum 设置为0.9,Backbone stride 设置为[4,8,16,32,64],RPN NMS threshod 设置为0.7。采用迁移学习策略,在ImageNet 数据集上预训练ResNet50、SENet 与SE-ResNet50 网络得到权重参数,作为实验模型的初始化参数[22]。

3 实验结果与分析

3.1 实验评估指标

将恶性结节标注为malignant,设置为正样本;良性结节标注为benign,设置为负样本。为定量评估分类性能,结合临床应用,设置以下4 个指标:真阳性(True Positive,TP)指恶性结节被正确判定为恶性;假阳性(False Positive,FP)指良性结节被错误判定为恶性结节;真阴性(True Negative,TN)指良性结节被正确判定为良性;假阴性(False Negative,FN)指恶性结节被错误判定为良性结节。用于图像分类的几种评价指标定义如式(3)、式(4)、式(5)所示。其中,精确率(Precision)也称为查准率,用于衡量分类器检测出的阳性样本确为阳性样本的概率;召回率(Recall)也称为敏感性(Sensitivity)、查全率,其值越高,阳性样本被漏诊的概率越低;特异性(Specificity)也称为真阴性识别率,其值越高,发生误诊的概率越低;mAP(Mean Average Precision)为AP 的平均值,即平均精度均值。

根据预测分数值与IoU_thr的关系确定预测结果,如表1 所示,Ypred为网络预测分数,Y _gt 为实际的样本类别。

Table 1 Definition of prediction results表1 预测结果定义

3.2 实验结果评估

表2 为以ResNet50 为主干网络时,不同损失函数权重参数下的检测效果。可以看出,当α1= 0.9,α2= 0.7 时,mAP 值最高。因此,以下结果展示与评估均在该设置下进行。

Table 2 Detection effect under different weight parameters of loss function表2 不同损失函数权重参数下的检测效果

表3 为在3 个主干网络下,Mask R-CNN 算法在实验数据集上的测试结果。从表中可以看出,融合残差注意力机制的SE-ResNet50 主干网络实现了精确率为0.936,召回率为0.851,特异性为0.948,mAP 值为0.824 的效果,模型检测效果显著。

Table 3 Test results表3 测试结果

实验的测试数据集有587 例,图6(彩图扫OSID 码可见)为SE-ResNet50 主干网络下的检测结果示例。其中,红色矩形虚线框为模型检测出来的甲状腺结节定位,矩形上方为良恶性判别预测及对应的预测分数,红色曲线为模型分割的掩膜边界,绿色曲线为在医生指导下标注的实际结节范围的可视化展示,为实验参照的金标准。可以看出,本文算法对甲状腺结节的定位准确,分类效果良好,特别是能够较为准确地对恶性结节中的微钙化特点进行判别。对于结节分割问题,本文算法能够预测出结节的大致轮廓,但边缘分割还不够精准,这是由于甲状腺结节超声图像边缘模糊,即使是经验丰富的医生勾画出的轮廓也不一定准确。此外,本文模型有将同一个结节检测为两个、将周围器官检测为结节的情况。在超声图像中,甲状腺周围组织器官在形态上与甲状腺结节较难区分,这也是导致模型多检测或错误检测的原因之一。

Fig.6 Test result example图6 检测结果示例

图7 为SE-ResNet50 主干网络下,本文算法在测试集上的准确率与损失率曲线。可以看出,本文算法准确率整体呈上升趋势且稳定收敛,损失率呈下降趋势且稳定收敛,说明其在实验数据集上性能良好。

Fig.7 Accuracy rate and loss rate curve of the test set图7 测试集准确率、损失率曲线

4 结语

本文以甲状腺结节的超声自动化诊断为研究目标,以Mask R-CNN 算法为模型,进行了主干网络和损失函数两方面的改进创新,具体表现在:①以ResNet50、SENet 网络为基础主干网络,融合残差注意力机制构建SE-ResNet50主干网络;②对多任务损失函数进行加权优化,在优化损失函数的基础上,通过比较ResNet50、SENet、SE-ResNet50 3 种不同主干网络的性能,发现融合残差注意力机制的SEResNet50 网络在甲状腺结节的超声检测、分类、分割任务中表现最佳。其在实验数据集上实现了精确率为0.936,召回率为0.851,特异性为0.948,mAP 值为0.824 的检测效果。该算法能为甲状腺结节的超声诊断提供较为可靠的参考依据,在甲状腺疾病超声诊断自动化领域具有一定的工程学意义。

然而,实验也具有一定局限性:首先是医学数据较难获取,本次实验数据量较小,后续可通过增加数据量提高实验结果的可靠性和鲁棒性;其次,甲状腺结节超声图像的边缘分割精度不高,仍需进一步改善。后续会进一步向超声科医生学习病理知识,应用于结节边缘与纹理特征的提取上,辅助自动化诊断。

猜你喜欢
主干恶性损失
全球首条1.2T超高速下一代互联网主干通路
抓主干,简化简单句
恶性胸膜间皮瘤、肺鳞癌重复癌一例
胖胖损失了多少元
卵巢恶性Brenner瘤CT表现3例
玉米抽穗前倒伏怎么办?怎么减少损失?
整合内容 构建高效课堂——开展非线性主干循环活动型单元教学模式
一般自由碰撞的最大动能损失
甲状腺结节内钙化回声与病变良恶性的相关性
全国主干公路网交通安全监控信息共享平台构建研究