丁建睿 王凌涛 汤丰赫 宁春平
①(哈尔滨工业大学(威海)计算机科学与技术学院 威海 264209)②(青岛大学附属医院超声科 青岛 266003)
超声技术作为一种成本低廉、安全无辐射的医学成像技术在医学诊断中应用广泛,计算机辅助超声识别可以为医生提供有效的客观参考,从而降低医生主观因素带来的误诊、漏诊风险[1]。超声图像识别的关键在于对病灶区的目标检测,超声图像的病灶区有囊实性、钙化、回声、边缘形变、纵横比、噪声等特征[2],囊性病灶呈现为圆形或椭圆形的液体填充区域,实质性病灶呈现为较均匀的回声或混合回声区域,强回声病灶呈现为明亮的强回声区域表示钙化、结石或其他钙化物质的积聚,弱回声病灶呈现为较暗的弱回声区域表示肿物内部坏死、出血或液体积聚,医生根据上述特征进行病灶区良恶性的诊断。
在超声病灶检测方法的研究中,Yap等人[3]利用Faster RCNN进行乳腺超声ROI检测和病变定位,并获得了0.932 1的F1值。Li等人[4]通过优化无监督区域建议提高了两阶段算法的乳腺病灶检测效果。Meng等人[5]利用双全局注意力模块改进的Yolov3增强了乳腺病灶检测的全局信息提取能力。已有的超声病灶检测方法受超声图像噪声多、分辨率低、病灶区特征复杂等因素的影响对病灶区的定位不够精确。
在两阶段目标检测方法的研究中,Girshick等人[6]提出RCNN,首次将卷积神经网络引入目标检测领域,为两阶段检测算法奠定了基础。Ren等人[7]提出Faster RCNN,采用区域选择网络优化候选框的提取。Liang等人[8]提出Cbnet,通过复合连接组合多个骨干网络提高骨干网的特征提取能力。Qiao等人[9]提出DetectoRS,利用递归特征金字塔实现特征高效提取。但是两阶段方法计算流程复杂,存在计算冗余度高、检测速度慢的问题,无法满足超声检查的实时性要求。
一阶段目标检测方法能满足超声检查的实时性要求。Lin等人[10]提出RetinaNet采用Focal loss解决数据不平衡造成的检测性能问题,但无法有效抑制偏离目标中心的预测框。Redmon等人[11]提出Yolov3引入多尺度预测和Logistic分类器,检测速度快且通用性强,但识别目标位置精准性差,召回率低。Tian等人[12]提出FCOS(Fully Convolutional One-Stage Object Detection)采用无锚框和中心度思想提升了检测效率,但对重叠目标的检测效果不佳。Zhang等人[13]提出Varifocalnet对FCOS的检测头进行了改进,提高了密集目标检测的效果。Chen等人[14]提出Yolof只使用骨干网络的一层特征实现高效的目标检测,但是对大目标的检测效果欠佳。Efficientdet[15], Yolox[16]和Yolov7[17]利用双向特征融合和特征重用增强了特征融合和提取能力,但在超声领域,一阶段模型易受超声图像噪声的影响,导致病灶预测精度低等问题。
基于Transformer的检测方法相比于基于卷积神经网络的方法更依赖于标注数据[18],当训练数据量较小时,Transformer检测器的性能往往会受到限制[19]。Carion等人[20]提出DETR将Transformer机制引入目标检测领域打破了目标检测领域传统的CNN架构,Liu等人[21]提出DAB-DETR使用动态锚框坐标作为 Transformer 解码器中的查询,Zhang等人[22]提出DINO通过对比方式进行去噪训练,利用混合查询选择方法初始化锚点,提高了DETR模型的性能,但基于Transformer的方法在小数据集上仍然受到限制。
针对上述检测精度和实时性问题,本文提出一种基于特征反馈机制的一阶段无锚病灶检测算法,以Tian等人[12]提出的FCOS为基线模型,通过特征反馈网络和自适应检测头,提高对局部病灶特征和噪声的识别能力,从而实现病灶区域的实时精确定位,达到辅助诊断的效果。
针对超声图像局部病灶特征模糊的问题,本文在FPN(Feature Pyramid Network)的低级语义层加入特征反馈机制进行特征的两次学习以增强病灶特征提取能力,在高级语义层生成无融合特征以丰富特征多样性。特征反馈网络结构如图1所示。在特征粗提取阶段,图像输入到骨干网和特征金字塔进行特征提取得到至。在特征细提取阶段,至通过反馈连接作为特征细提取的输入,反馈特征选取模块对至在通道和空间维度进行噪声抑制和病灶特征增强得到反馈特征图,将反馈特征图与原始图像进行特征细提取得到至。在自适应检测阶段,加权融合模块对P3至P7的两次特征进行融合生成F3至F7,自适应检测头进行多级预测输出目标类别,预测框和中心度。对无反馈和有反馈网络进行了对比实验,见3.3节。
图1 特征反馈网络结构图
特征反馈网络利用无反馈结构进行特征粗提取,则粗提取的输出特征定义为
利用反馈特征和原图进行特征细提取,则细提取的输出特征定义为
其中,Fi表示第i层的融合特征,σ表示Sigmoid函数,Conv表示卷积核为1的卷积函数。
针对超声图像噪声多的特点,反馈特征选取模块利用ASPP(Atrous Spatial Pyramid Pooling)、通道注意力因子、空间注意力因子对反馈特征进行多尺度融合和选取(如图1中S模块)。由于ASPP使用全局信息和大感受野信息协助描述局部语义信息,使得特征区域较大的高语义病灶信息得到关注,而低语义的局部噪声被抑制。通道注意力因子和空间注意力因子分别采用全局混合池化和大卷积核的方式抑制噪声,捕获远距离空间依赖,生成各通道、各位置的选取权重。ASPP、通道注意力因子、空间注意力因子的计算为
反馈特征选取操作S生成特征Ri的计算流程为
其中,Ai表示ASPP的输出特征,s1表示通道注意力因子,s2表示空间注意力因子。
反馈特征选取模块利用通道注意力因子和空间注意力因子对多尺度特征Ai的通道及空间特征进行加权选取。注意力因子通过反向传播方式进行学习,以降低分类损失和回归损失,其大小取决于该特征对检测任务的有效性,最终选取对分类及回归任务有效的病灶特征,抑制背景及噪点等无效特征,反馈特征选取模块如图2所示。
图2 反馈特征选取模块
为了适配特征反馈机制,本文对特征粗提取和细提取阶段骨干网络的计算流程进行改进。区别于多数算法采用He 等人[23]提出的ResNet,本文采用Liu等人[24]提出的ConvNeXt,其通过扩大感受野和网络宽度,增强骨干网对全局特征的提取能力。ConvNeXt阶段流程改进如图3所示。
图3 ConvNeXt阶段流程改进图
当反馈特征选取模块的输出Ri输入到骨干网络时,骨干网增加Ri分支以适配计算,通过1×1卷积使Ri与下采样的C通道数相同后进行累加,利用N个ConvNeXt块提取特征生成。在特征粗提取阶段Ri为空,Ri设为0;在特征细提取阶段Ri非空,由Ri和C共同生成。则定义为
其中,B表示N个ConvNeXt块的计算(后3阶段的N分别为3, 9, 3),Conv表示卷积核为1的卷积函数,Resize(.,1/2)表示下采样函数,LN表示层归一化。
针对超声图像中不同大小的病灶目标,本文提出一种基于分治策略的自适应检测头,以增强检测头对多级特征的自适应能力,如图1所示。分治策略依据目标的不同尺度在不同级别的特征图上检测目标[14],本文对多级特征F3至F7的每一级均添加一个预处理块以关注不同尺度上的特征,实现多级特征的分治处理;权重共享将预处理后的多级特征都输入到一个检测头中进行回归、中心度和分类计算以避免多个检测头收敛困难问题,即:使用一个检测头对预处理后的多级特征进行逐一处理。检测头采用FCOS原有的多分支结构,相较于单分支结构,多分支结构采用两个独立分支分别生成位置和类别预测,不同分支进行不同的损失函数设计和权重调整,降低不同任务间的耦合性以提升预测效果。
传统检测头采用的普通卷积难以捕捉全局信息[25],对此本文设计了特征预处理块,如图4所示。
针对团块状病灶的边缘形变特征,预处理块引入两种可变形环绕卷积[26]以进行形变特征的自适应采样,针对主病灶周围的邻接特征,预处理块引入带有大卷积核的深度可分离卷积来扩大感受野以提供更多的全局信息。通过采用可变形环绕卷积与深度可分离卷积相结合的方式,增强了预处理块对团块状病灶的自适应空间聚合能力和对模糊邻接特征的关注度,同时采用残差连接防止网络退化,最后利用逐点卷积在通道维度上实现特征融合。其中两种可变形环绕卷积均采用卷积中心点固定,环绕点向外膨胀的方式进行变形,降低团块状特征学习的难度,具体膨胀方式如图4所示,每个环绕点按照图中固定偏移方向偏移,以实现对病灶形状的自适应学习。为了验证该预处理块的有效性进行了消融实验,见3.3节。
实验所用甲状腺超声数据集由青岛大学附属医院提供,使用 HIVSION 900超声扫描仪采集,包括1 023例带有手工标注及良恶性诊断结果的图像,良性511例,恶性512例,良恶性占比均为50%,每张图像的大小约为573×710,样本示例如图5所示。实验采用随机梯度下降优化器,初始学习率为0.01,动量0.9,权重衰减0.000 1,批大小4,总共训练300轮,学习率在150轮和250轮缩小为原来的0.1倍。数据集被随机划分,60%用于训练,20%用于验证,20%用于测试,使用RTX4090 GPU进行模型训练和评估。
图5 甲状腺超声图像示例
实验模型训练时,按图1中流程得到预测结果,计算预测损失,损失函数定义为
其中,cx,y,tx,y,ox,y分别表示点(x,y)的预测类别,预测框,预测中心度,分别表示点(x,y)的真实类别,真实框,真实中心度;Npos表示正样本数,求和符号表示对特征图上的所有点进行计算,Lcls表示Focal loss,Lreg表示IOU loss,Lctn表示Centerness loss使用BCE函数计算,I,y>0}为指示性函数,若大于0为1,否则为0。
实验模型评估时,根据医生手工标注的标签,采用目标检测评估工具pycocotools对检测结果进行评估,得到AP、AP50、AP75、良性AP、恶性AP评估指标。AP综合不同IOU阈值下的精确度和召回率,综合评估模型在不同精度要求下的性能表现,AP50和AP75用于评估IOU阈值为0.5, 0.75时的模型检测效果,AP50表示大致检出病灶的精度,AP75表示比较精确检出病灶的精度,良性AP表示检测良性病灶的AP,恶性AP表示检测恶性病灶的AP,其计算公式为
其中,M表示类别数,R表示IOU阈值数,N表示预测实例数,G表示预测为良性的实例数,B表示预测为恶性的实例数,PIOU>a表示交并比阈值为a时的准确率,表示在每个召回率阈值上取最大的准确率,rIOU>a表示交并比阈值为a时的召回率, Δr表示召回率的变化情况。
在甲状腺超声数据集上对主流目标检测算法与本算法进行对比实验,结果如表1所示。在骨干网络规模相同的情况下,本算法取得了70.3%的AP,99.0%的AP50和88.4%的AP75,相较于Faster RCNN, RetinaNet, Yolov3等采用单向融合FPN的算法检测精度得到明显提升。EfficientDet, Yolox,Yolov7等采用双向特征融合的算法比采用特征反馈机制的本算法低3%。基于Transformer的算法DETR, DAB-DETR, DINO比本算法低4%。本文分别采用ResNet和ConvNeXt作为骨干网进行精度对比,采用ConvNeXt时AP提升0.7%,证明使用ConvNeXt可以小幅提升检测精度。
表1 甲状腺超声病灶检测精度对比(%)
如图6所示,第1行是良性病灶检测示例,第2行是恶性病灶检测示例,图6(b)表示预测为良性,m表示预测为恶性,百分数表示分类置信度。由图可知,本文算法的检出框更精确。
图6 病灶检测结果示例
在甲状腺超声数据集上以FCOS为基线模型进行消融实验,如表2所示。加入自适应检测头和特征反馈机制后,模型对病灶特征的提取和识别能力增强,精度提升1%和1.8%。
表2 病灶检测精度消融实验(%)
对基线检测头(FCOS)、耦合检测头(Yolov3)、解耦检测头(Yolox)、自适应检测头进行对比实验,如表3所示,耦合检测头比解耦合检测头低1.5%;基线检测头和解耦检测头均使用两个独立分支,二者检测效果相近;而本文采用的自适应检测头引入了权重不共享的预处理模块,精度提升了1%。
表3 不同检测头对比(%)
对无反馈和有反馈的网络进行精度对比实验和实时性验证,结果如表4所示。在检测精度上,有反馈网络明显高于无反馈网络,采用反馈特征选取模块也提升了0.7%的精度;在检测速率上,下列反馈方式均可满足超声检测的实时性(超声探头成像速率为25帧/s)。
表4 不同反馈方式对比
本文对病例在无特征反馈和有特征反馈的情况下绘制Grad-CAM[27]图,如图7所示,蓝色为低关注度区域,红色为高关注度区域。在加入特征反馈后,背景中的关注点得到抑制,病灶的关注度得到增强。
图7 梯度热力图
为了查看模型计算过程中数据分布的变化,利用预训练的特征映射层对特征图进行仿真映射,仿真示例如图8所示。细提取特征(,,)相较于粗提取特征(,,)噪声得到有效抑制。
图8 特征图仿真示例
本文基于特征二次思考的设计思想,提出了一种基于特征反馈机制的一阶段无锚病灶检测算法,通过反馈特征选取和加权融合计算,提高低级语义层对局部病灶特征和噪声的识别能力,通过采用ConvNeXt骨干网和增加无融合特征图,有效扩大感受野,增强高语义病灶特征提取能力。同时提出一种自适应检测头,增强单检测头对多尺度病灶特征的自适应能力。在甲状腺超声数据集上进行病灶检测实验,在满足实时性的前提下,得到了70.3%的AP、99.0%的AP50和88.4%的AP75,相较于主流检测算法,本文算法在数据量小且成像质量较差的超声数据集上可以实现更精准的实时超声病灶检测和定位。算法未来的改进方向:一是设计更为优秀的骨干网,并对检测头进行改进;二是将本文提出的模型思想推广到自然图像领域,进行更广泛的验证。