面向CT图像小目标病灶区域的智能化检测算法研究

2023-08-29 01:10许金亚裴颂文

小型微型计算机系统 2023年8期

许金亚,裴颂文,2

1(上海理工大学光电信息与计算机工程学院,上海 200093)

2(中国科学院计算技术研究所计算机体系结构国家重点实验室,北京 100190)

1 引言

在医学现阶段的疾病诊断过程中,为了得到更为准确的判断,医生一般都需要CT图像进行辅助诊断.传统的CT图像诊断都是通过医生的肉眼观察并结合医生个人的医学经验,该过程会消耗大量的人力和物力,并且不适用于大型的医学影像数据集研究.而使用基于深度神经网络的目标检测模型,计算机可以自动并快速地检测病灶区域[1],大量节省医生对CT图像分析诊断的时间.无论是在医学影像数据集的学术研究中,还是日常疾病诊断的实际应用里,病灶检测都有着非常重要的价值.

病灶检测与计算机视觉中的传统目标检测相比,任务的目标要求基本相同,主要在于数据集中的检测目标大小分布不同.在目标检测中,测试的基准一般都是Pascal VOC[2]系列数据集和MS COCO[3]数据集.这两个数据集的图像都是生活中常见的物品,例如人、车、香蕉等目标,并且数据集中的待检测目标区域面积整体分布比较均衡.而在病灶检测中,一般都是使用公开的Deep Lesion[4]等数据集.该数据集中,待检测的目标是病变区域,并且大部分病变区域面积占整张CT图像的比例很小,导致整体的数据集分布向小目标病灶区倾斜.由于传统目标检测模型都是针对日常生活场景进行设计的,直接将这些模型应用在病灶检测中,会导致病灶区的漏检和误检.因此,Liao[5]等人提出了3D-RPN(3D-Region Proposal Network)模型,在CT图像上产生了多个3D建议框,检测的范围更广;Yan[6]等人提出了3DCE(3D Context Enhanced region-based CNN)模型,通过CT图像的3D上下文联合训练,提高了病灶区的检测精度;Tao[7]等人提出了3DCE_CS_Att(3DCE Context Spatial Attention)模型,在3DCE的基础上增加了空间注意力模块,对部分特征点进行增强.与2D图片作为输入相比,上述方法在计算速度和内存占比上都产生了非常大的消耗.

为了降低计算成本,Shao[8]等人提出了多尺度助力机制(Multi-Scale Booster,MSB),其核心思想是对特征金字塔网络[9](Feature Pyramid Network,FPN)每一层输出,都使用该机制来增强网络对于小目标病灶区的检测能力.但由于对每一特征层都使用了多尺度助力机制,增加了网络的计算成本,降低了网络的检测速度.为了提高模型计算效率,本文提出注意力特征金字塔网络模块.将注意力机制与FPN相结合,减少了计算成本,同时提升了模型对小目标病灶区的检测能力.

由于病变区域占整张CT图像的比例很小,在模型的训练过程中,容易产生大量的负样本,从而造成正负样本的分布不均衡[10].针对这一问题,Lin[11]等人提出了焦点损失函数(Focal Loss),通过信心分数来改变样本在训练过程的损失值.本文在Focal Loss基础上,提出了鲁棒焦点损失函数(Robust Focal Loss).通过加入信心分数乘积项,有效减少了训练过程中简单负样本的损失函数值,从而降低模型对负样本的误检.

对智能化病灶检测研究中,本文主要有以下贡献:

1)对多尺度助力机制进行优化,并与单阶段目标检测模型相结合,减少了模型的推理时间,从而提高模型对小目标病灶的检测速度.

2)提出了具有注意力机制的特征金字塔网络,直接将注意力机制与特征融合相结合,减少了模型的计算量,同时提高了模型对小目标病灶区的检测能力.

3)提出了Robust Focal Loss,在Focal Loss基础上增加了信心分数乘积项,从而提高模型对负样本的辨别能力,进一步降低模型对负样本的误检.

2 相关工作

在计算机视觉任务中,目标检测一直是重要的分支之一.不管是在学术研究上,还是日常生活里的实际应用中,都有着非常高的研究价值.医学中的计算机辅助诊断(Computer-Aided Diagnosis,CADx)就是当下最为流行的目标检测应用场景之一.传统的病灶检测都是通过特征的简单提取进行判断,但计算复杂并且准确度低.2012年,基于卷积神经网络的AlexNet[12]赢得ImageNet比赛的冠军,自此,基于卷积神经网络的模型开始活跃于各个研究领域中.2015年,R-CNN[13]模型最先使用卷积神经网络作为目标检测的特征提取模块,不管是在检测速度还是准确率上,其结果远超传统的特征提取算法.而目标检测模型发展至今,主要分为双阶段和单阶段两大类.在双阶段检测模型中,以基于区域建议的R-CNN(Region-based Convolutional Neural Networks)系列[14,15]为代表;在单阶段检测模型中,以基于回归的YOLO(You Only Look Once)系列[16-18]为代表.

由于病灶检测中的数据集与传统目标检测数据集存在一定差异,直接使用传统的目标检测模型,实验结果的准确度不高.注意力机制可以在通道和特征点的层次对特征进行增强,其中的Squeeze-and-Excitation[19]网络也开始应用在目标检测模型中.肖儿良[20]等人使用迁移学习和GAN(Generative Adversarial Network)结合,对医学图像进行特征融合.裴颂文[21]等人使用三生成器(TriGAN,Triple Generative Adversarial Network),对CT图像进行降噪并增强图像特征.在特征增强过程中,可以使用相对称的卷积来增强网络对小目标物体的检测能力[22].MSB模型将注意力机制与特征融合相结合,可以直接对单张CT图像进行病灶检测,但存在计算上的冗余.

为了提高模型对小目标病灶区的检测精度以及推理速度,本文提出了AFPN模块,不仅对小目标病灶区进行特征增强,而且减少了计算成本.针对模型训练过程中正负样本分布不均衡问题,本文提出了Robust Focal Loss,减少训练过程中简单负样本的损失值,增强模型对负样本的辨别能力.

3 模型描述

3.1 网络结构设计

本文以AFPN模块为核心,并结合分类预测和边界框回归的子网络,提出的注意力特征融合检测网络(Attention Feature Fusion Detection Network,AFFDN)模型如图1所示.该网络模型首先使用ResNet[23]作为特征提取网络(backbone),接着将提取后的特征输入注意力特征金字塔网络中.在注意力特征金字塔网络中,先依次输入至通道注意力模块(Channel Attention,CA)和空间注意力模块(Spatial Attention,SA)中,从而分别在通道层次和特征点层次上进行特征增强.然后将增强后的特征层与原来特征层进行融合,融合后输入至分类预测和边界框回归的子网络(subnets)中.而子网络主要由类别子网络(class subnets)和边界框子网络(box subnets)组成.在子网络中,W和H分别表示特征层的高度和宽度,256为特征层的通道数,×4表示重复了4次3×3的卷积操作.其中A表示锚框的数量,在网络中的值取9,2A和4A则分别是分类和边界框的预测结果.使用多个子网络在不同尺度上进行预测后,需要进行非极大值抑制(Non-Maximum Suppression)对所有结果进行筛选,最终得到病灶区的检测结果.

3.2 注意力特征金字塔网络

3.2.1 AFPN结构

传统FPN一般由三部分组成,分别是自底向上通道、自顶向下通道以及它们之间的跳跃连接.在自顶向下通道中,各个特征层一般使用上采样的方法生成,而该方法不利于小目标的检测.MSB模型对FPN的每一层输出都使用多尺度助力机制进行特征增强,提高了模型对小目标病灶区的检测能力.但对每一层输入都进行相同的操作,造成了计算上的冗余.本文结合多尺度助力机制的思想并提出AFPN,其核心思想是将注意力机制融入FPN中,对传统FPN的上采样过程做出改进,使用注意力机制来生成新的特征层.在通道注意力模块和空间注意力模块的作用下,分别在通道层次以及特征点层次上对小目标病灶区进行特征增强,从而提高模型对小目标病灶区的检测能力.

AFPN的结构如图2所示,首先通过backbone特征提取得到特征层Ci,其次使用1×1卷积降低各个特征层通道数.接着C4保持不变,C1、C2、C3进行上采样来与C4在单通道上的大小保持一致.然后将所有的特征层进行拼接,依次输入至通道注意力模块和空间注意力模块.再将输出结果进行下采样,在单通道的大小上与原来的特征层Ci对应一致,最后进行特征融合得到AFPN的输出结果Pi.FPN是直接通过上采样的方法生成新的特征层,并将不同层次的特征层进行特征融合,这一方式会破坏特征层中部分结构信息.AFPN则是通过注意力模块生成新的特征层,在上采样后使用下采样进行复原,保留了原有的结构信息,同时对小目标病灶区进行特征增强.

图2 AFPN模块

3.2.2 通道注意力模块

在AFPN的自底向上通道中,使用Ci表示不同层次的特征层.对于不同层次的特征层而言,低层次的特征层感受野小,高层次的特征层感受野较大.由于各个特征层的单通道的大小不一,需要先进行上采样处理,使各个特征层与底层的单通道大小保持一致,并将所有特征层从通道上拼接在一起.在通道注意力机制模块中,首先通过全局池化对特征层Ci进行压缩,得到一维的压缩向量.接着使用1×1卷积对一维向量进行激活,其过程可以用公式(1)表示:

Fch=Pavg(Ci)×W1×1

(1)

其中,Pavg和W1×1分别表示全局池化和1×1卷积操作.通道注意力机制的输出是一个一维向量,用于对不同的通道进行权值映射.该机制用于网络学习将注意力更加集中于目标所对应的特征层中,从而实现对小目标病灶区的特征增强.权值映射后得到新的特征层,其过程可以用公式(2)表示:

(2)

3.2.3 空间注意力模块

空间注意力表现在对特征层上不同位置的关注程度不同.为了提高网络对目标区域的关注程度,本文使用空间注意力模块来减轻负样本对网络识别精度的影响.空间注意力模块首先基于不同通道对应的特征点进行最大池化,将所有通道压缩成单通道的特征层.接着在原通道上基于不同通道对应的特征点进行平均池化,压缩得到另一单通道的特征层.其次将两层特征层在通道上进行拼接,然后使用3×3卷积进行激活处理.空间注意力的激活过程可以用公式(3)表示:

(3)

其中,Pmax,avg和W3×3分别表示最大池化、平均池化和卷积操作.空间注意力模块的输出是一个单通道的特征,用于过滤不相关的信息.特征层中特征点的增强过程可以公式(4)表示:

(4)

3.3 损失函数的优化

对于目标检测任务而言,其中包含目标分类预测和边界框回归这两个子任务.在目标分类任务中,一般使用交叉熵函数作为训练过程中的损失函数.交叉熵(Cross Entropy,CE)损失函数的表达式如公式(5)、公式(6):

CE(p,y)=CE(pt)=-log(pt)

(5)

(6)

其中,pt为网络将样本识别为正、负样本的概率.当样本为正样本,即y=1时,pt的值为p,否则pt的值为1-p.

但对于单阶段网络模型,由于未对候选框进行筛选操作,在训练过程中会产生大量的负样本,从而导致了正负样本不均衡这一问题.对于上述问题,可以通过对正样本增加权重α,同理则对负样本增加权重1-α.添加权重α后,可以通过调节α的值来调节正样本的损失值,从而在一定程度上可以减轻正负样本不均衡的问题.引入权值α后的交叉熵损失函数表达式如公式(7)、公式(8):

CE(pt)=-αtlog(pt)

(7)

(8)

其中,αt为网络对于正负样本的损失权重.当样本为正样本,即y=1时,αt的值为α,否则αt的值为1-α.

使用上面的函数作为损失函数后,虽然可以解决正负样本不均衡的问题,但在网络训练过程中还存在困难负样本识别困难的问题.困难负样本是指在网络训练过程中,由于样本中既包含有前景,又有背景,并且由于二者的比例相近,网络很容易将其识别为正样本.在Focal Loss中,通过引入超参数γ,来调节网络训练过程中简单样本和困难负样本的损失权值,增强网络对困难负样本的识别能力.Focal Loss(FL)的表达式如公式(9):

FL(pt)=-(1-pt)γlogpt

(9)

对于公式(9),接着加入解决正负样本不均衡问题的α参数,进一步的表达式如公式(10):

FL(pt)=-αt(1-pt)γlogpt

(10)

在上面的损失函数改进过程中,其核心思想是基于信心分数进行改进的.在模型训练过程中,样本的信心分数分布规律与正态分布相近.因此,本文基于样本的信心分数分布规律,提出了Robust Focal Loss(RFL).通过引入信心分数乘积项,该函数不仅能减少训练过程简单正负样本损失值,同时增加训练过程中困难负样本的损失值.从而让网络更加集中于对困难负样本的训练,提高网络对困难负样本的辨别能力.本文提出的改进损失函数的表达式如公式(11):

RFL(pt)=-αt(1-pt)γ[-(pt-β)2+1]logpt

(11)

其中,β为网络训练过程中样本信心分数分布的中心值.并且对于α、γ以及β这3个超参数,其中α、γ值的通常设为0.25和2.而对于β值的设定,根据训练过程中样本的分布,将其设为0.5.

在图3中,根据样本的信心分数,得到交叉熵(CE)、焦点损失函数(FL)和鲁棒焦点损失函数(RFL)的函数值.并且对于同一样本的信心分数,损失函数值越低,模型收敛的速度越快.对于简单正样本,即信心分数介于0.7到1之间,RFL和FL的损失函数值相接近,并且都小于CE.表明使用FL或RFL作为损失函数,可以降低训练过程简单正样本的损失函数值.而对于困难负样本,即信心分数介于0.1到0.3之间,RFL的损失值不仅小于CE,而且小于FL,从而降低训练过程中简单负样本的损失值.以上结果表明RFL与FL相比,可以有效减少训练过程中简单正负样本的损失函数值,从而可以让模型更好地侧重于困难样本的训练,提高模型的精确度.

图3 不同损失函数的对比

4 实验

4.1 数据集与实验框架

在Deep Lesion数据集中,包含肺(Lung)、腹(Abdomen)、纵膈(Mediastinum)、肝(Liver)、骨盆(Pelvis)、软组织(Soft Tissue)、肾(Kidney)、骨(Bone)等CT图像.并且有对应不同区域的标注信息,适用于医学图像检测和分割的深度学习任务.该数据集包含:4427名独立的患者,10594次CT扫描,32735个带标注的病灶实例,一共有928020张CT横切图像.对于病灶检测任务而言,只需关键CT切片以及对应的标注信息,本文将需要的数据信息筛选出来作为训练集.

在图4中,随机选取了9张CT图像并将病灶区标注在图像中,其中矩形框区域为病灶区.在图5中,病灶区按照分辨率大小分为3类,分别为Small(小于32×32)、Medium(大于32×32但小于96×96)以及Large(大于96×96).其中分辨率为Small的病灶区有4678个,占总数据集中病灶区比例为62.8%.以上数据表明,在病灶检测数据集中,目标大部分都是小目标病灶区.为了方便进行实验的对比,本文使用了mmdetection[24]目标检测框架,里面包含现有的主流目标检测模型,使用配置文件的形式将目标检测中各个模块进行解耦,有利于不同模块间的组合搭配和调用.

图4 病灶检测数据集

图5 病灶区统计结果

实验环境为:NVIDIA 1080Ti显卡,Ubuntu16.04操作系统,Anaconda3开发环境,Pytorch深度学习框架,mmdetection目标检测框架,辅助工具包有OpenCV、numpy、Matplotlib等.

4.2 实验结果与分析

对目标检测模型一般使用Average Precision(AP)作为评价指标,AP值越高,模型的准确度越高.对所有类别的AP值取平均,可以得到该数据集下的mean Average Precision(mAP).而对于Deep Lesion数据集,CT图像只需要判断是否为病灶区,使用AP作为评价指标即可.

病灶检测的结果如图6所示,图6(a)是测试的CT图像,并将基准信息(Ground Truth)标注在图中,图6(b)、图6(c)分别是Faster R-CNN和MSB模型的病灶检测结果,图6(d)是本文模型的病灶检测结果.在Faster R-CNN的检测结果中,第1行中未检测到CT图像中的小目标病灶区,表明该模型存在对小目标病灶区的漏检;在MSB的检测结果中,会生成多余的检测框,造成了模型对病灶区的误检.病灶检测的对比结果表明,本文模型对小目标病灶区的检测精度优于以上模型.

图6 不同模型病灶检测结果

从表1的数据中,可以看出3DCE和3DCE_CS_Att的测试结果都好于传统的Faster R-CNN模型,表明结合3D上下文能够提升模型的精度.而结合了空间注意力的3DCE_CS_Att略优于3DCE模型,证明了空间注意力的有效性.但是,3DCE和3DCE_CS_Att都需要将多个CT上下文图像作为输入,计算量大,模型推理速度慢.MSB模型通过多尺度助力机制和FPN的结合,只需要单一CT图像作为输入,减少了计算量.但其在检测精度上有很大的提升,AP[0.5∶0.95]的值比3DCE提升了5.9%,表明注意力机制和FPN能够提升模型对小目标病灶区检测的精度.而本文提出的AFFDN模型在大部分评价指标中,都优于MSB模型.在表1中,S代表Small(目标分辨率小于32×32),M代表Medium(目标分辨率介于32×32和96×96之间),L代表Large(目标分辨率大于96×96).其中,针对小目标病灶区的评价指标的AP(S)比MSB提升了4.4%,进一步证明了AFPN对小目标病灶区检测的有效性.

表1 实验结果

对于模型大小的对比,可以从表2的数据中看出,与传统的Faster R-CNN相比,本文提出的AFFDN减少了12.9MB.并且AFFDN与轻量型的RetinaNet相接近,仅仅超出2.3MB,但AP(S)的值比RetinaNet高出4.8%.在推理速度上,AFFDN比Faster R-CNN提高了13fps,较MSB提升了3fps.

表2 不同模型的对比

以上实验结果表明,与其它模型相比,本文提出的AFFDN在保证推理速度的基础上,对于小目标病灶区的检测精度也优于其他病灶检测模型.

5 结语

本文提出的注意力特征融合检测网络模型,与其他模型相比,有效提高了对小目标病灶区的检测精度.在该模型的AFPN模块中,将注意力机制融入FPN中,对特征层依次输入至通道注意力模块和空间注意力模块,从而分别在通道和特征点的层次上对小目标病灶区的特征进行增强.最后与原来的特征层进行特征融合,并输入到后续的分类回归子网络得到预测结果,从而减少模型对病灶区的漏检.并且针对目标检测中常见的正负样本不均衡问题,本文提出Robust Focal Loss.该损失函数通过加入信心分数乘积项,在训练过程中有效减少简单样本的权重,提高网络对负样本的辨识能力,减少模型对病灶区的误检.在后续工作中,会对本文模型进一步优化.