林佳俐,李永强,徐希舟,冯远静
浙江工业大学信息工程学院,杭州 310023
医学图像分割算法是临床医学诊断中的一项重要算法,目前已经广泛应用于医学图像分析,如计算机断层扫描(computed tomography,CT)图像、内窥镜成像图等,可以提供细粒度病理信息辅助医生诊断,包括病灶定位、病理性初步判断。
结直肠癌(colorectal cancer,CRC)作为全球发病率第3、致死率第2 的疾病,严重威胁着人类的生命健康。2020年,全球约有193万CRC病例,死亡病例51 万例,新发106.6 万例;据《中国恶性肿瘤学科发展报告(2021)》统计,我国CRC 新发人数高达55 万人以上,占所有新发恶性肿瘤的9.9%,是除肺癌外的第2大新发癌症。医学统计发现,有接近95%的结直肠癌病例通过早期结肠息肉演变而来。因此在早期若能及时发现息肉,并进行长期医学观察,可以有效降低结直肠癌发生率。传统的检测方法依赖医生经验和手工特征提取,其主要局限性如下(Nisha等,2022):首先,由于结肠内部环境复杂、肠内黏膜反射、息肉形态颜色差异和设备质量等因素,需要依靠经验丰富的医生进行诊断;此外,传统的检测方法通常依赖于手工特征提取,容易导致误检漏检;最后,每个患者的结直肠镜扫描会得到大量图像数据,对这些数据的逐帧筛查是一项繁重的任务。因此,近年来通过计算机技术来进行辅助诊断逐渐成为一种趋势,基于深度学习的算法通过挖掘大量数据,进行疾病辅助诊断,无需人工干预。在息肉检测中,深度学习方法主要包括图像分类、目标检测和图像分割。图像分类方法只能判断图像中是否存在息肉,无法精确确定病灶位置;目标检测方法能有效确定病灶位置,但对于部分形态差异过大的息肉图像,其检测效果较差;图像分割方法可以更精细地确定病灶区域以及息肉形态,相对而言其结果更加细化。
近年来,医学图像分割算法在不断发展,Ronneberger 等人(2015)提出的U-Net 模型通过跳跃连接将编码器端的浅层特征传播到解码器端,有效保证了特征分辨率,在各类医学图像数据集上表现良好,并在后续衍生出了许多基于U-Net 的变体算法;V-Ne(tMilletari 等,2016)将U-Net 拓展到三维,用来处理磁共振成像(magnetic resonance imaging,MRI)数据,并提出了Dice loss 来解决前背景分布不平衡的问题;Zhou 等人(2018)在U-Net 的基础上提出了U-Net++,重新设计了跳跃连接层,引入了密集连接和深度监督,并通过模型剪枝兼顾了精度与速度;Cao 等人(2023)将Swin-Transformer(Liu 等,2021)中的滑动窗口思想引入U-Net,提出了Swin U-Net(shifted windows U-Net),在Synapse 多器官分割CT数据集上达到先进水平;UCTransNet(Wang 等,2022a)同样在U-Net结构中使用Transformer,并对跳跃连接层重新设计,使其可以进行多尺度特征交换,缓解语义鸿沟现象,以达到更好的分割效果;李金星等人(2022)使用视觉Transformer(vision Transformer,ViT)与卷积神经网络进行双路特征提取嵌入,并使用混合损失函数引导网络训练,能有效检测肺部影像中的肺炎区域。综上,现有的医学图像分割算法大多基于U-Net 架构演变而来,其编解码器的设计容易导致对细节部分的检测较差;此外,为了弥补编码器下采样过程中的空间特征损失,在上采样过程中使用跳跃连接来引入编码侧的特征信息,这会带来语义鸿沟问题,对分割产生负面影响;许多算法通过重新设计跳跃连接层来改善语义鸿沟现象,尽管得到了一定的性能提升,但却在模型设计上逐渐走向复杂化和技巧化。
结直肠息肉分割相比于其他的医学分割任务,具有一定的特殊性:首先,由于息肉区域的形态复杂多样和数据标注时的个人主观性,息肉边界往往存在语义模糊区域;此外,息肉自身形态大小差异过大,导致分割难度较大。Fan 等人(2020)创新性地使用反向注意力模块来建立息肉区域和边界之间的联系,提出了反向注意力网络(parallel reverse attention network,Pra-Net)。并引入全局映射图来引导网络进行分割,在多个息肉图像数据集分割任务上达到了当时最优的性能,但由于全局映射图为高维低分辨率特征图,对小目标物体感知情况较差;Kim 等人(2021)提出的不确定区域信息增强注意力网络(uncertainty augmented context attention net,UACANet)通过在每个预测模块中聚合图像前景、背景和不确定区域图,在多个息肉分割数据集分割任务上表现良好;Srivastava 等人(2022)提出的多尺度残差融合网络(multi-scale residual fusion network,MSRFNet),使用双尺度密集融合模块接收多尺度特征以获得准确的分割图像,在息肉分割任务上同样表现优秀,但过多密集连接的使用会导致计算量过大;魏天琦和肖志勇(2022)将双层编解码器结构应用于结直肠息肉分割,并提出了子空间注意力结构,在多个数据集上表现良好;Wang 等人(2022b)将视觉Transformer 技术应用到息肉分割中,使用金字塔堆叠式Transformer 作为编码器,并在解码器中增加局部特征增强聚合模块,提高模型对于局部细节特征的处理能力,提出了SSFormer(stepwise segmentation Transformer)架构,在息肉分割任务上取得了目前最优表现,然而金字塔式Transformer 的结构极大增加了计算成本,效率较低。Chang 等人(2023)提出了一种轻量化的阶段特征金字塔分割网络ESFPNet(efficient stage-wise feature pyramid network)。针对SSFormer的效率问题,通过轻量化特征金字塔结构,较好地权衡了性能与效率,在支气管镜病灶检测任务和结直肠息肉分割任务上均表现优秀。SSFormer和ESFPNet 主要关注息肉主体检测,没有考虑息肉边缘的模糊性。
针对U-Net 结构本身存在的问题和结直肠息肉图像的数据特点,本文为了避免跳跃连接带来的语义鸿沟问题,并加强对小目标物体的感知,选择以高分辨率网络(high-resolution network,HRNet)系列(Sun等,2019;Wang等,2021)为基本框架,提出了一种基于边缘概率分布模型和堆叠残差卷积模块的结直肠息肉分割网络HRNetED(edge distribution guided high-resolution network),通过引入边缘检测任务,强化模型对边缘信息的抽取能力以引导结直肠息肉分割。本文的主要贡献包括3 个方面:1)在息肉分割基础上引入息肉边缘检测任务,提出了一种基于高斯分布的边缘概率模型,简化边缘检测任务的同时加强模型对息肉边缘的感知能力;2)提出了一种堆叠卷积残差模块(stack residual convolution module,SRC),通过拆分卷积有效减少参数量,堆叠卷积层逐级增大感受野,在保证模块轻量化的同时提高局部图像感知能力;3)提出了一种基于边缘概率分布模型的结直肠息肉高分辨率分割网络HRNetED,在ETIS(ETIS larib polyp database)(Silva等,2014)、CVC-ColonDB(colonoscopy videos challenge colon database)(Tajbakhsh 等,2016)、CVCClinicDB(colonoscopy videos challenge clinic database)(Bernal 等,2015)和 CVC-300(colonoscopy videos challenge 300)(Vázquez 等,2017)4 个结直肠息肉数据集上达到了目前先进水平。
自He等人(2016)提出ResNe(tdeep residual network)以来,残差连接这一概念广泛应用于神经网络架构设计。残差连接使用直接映射方式将浅层信息添加到当前层,有效解决了模型退化问题,同时使得梯度信息可以通过残差连接较容易地传播到浅层网络,一定程度上解决了梯度消失问题。相较于ResNet,Huang 等人(2017)设计的DenseNet(dense convolutional network)提出了一种更为激进的密集残差连接方案,即将所有层特征都进行密集连接,并引入特征重用以减少计算量。
无论是ResNet 还是DenseNet,其核心思想均为通过残差连接以增加特征重用和特征交互,解决模型退化问题。在医学图像分割领域,这一概念也得到广泛应用。Zhou 等人(2018)重新设计了U-Net 结构的跳跃连接层,引入密集连接和深度监督,提出了U-Net++;ResUNet++(Jha 等,2019)和ResUNet(Jha等,2020),分别在U-Net++和U-Net 基础上引入密集残差连接以增加特征交互和重用。
在图像分割任务中,卷积核的感受野大小对于分割结果具有十分明显的影响,较大的感受野能够保证卷积核感知到更大邻域信息,从而加强局部感知能力。在早期的神经网络模型中,往往会使用池化层和卷积层结合的方式来增大模型感受野,但是直接使用池化层会造成部分信息损失,需要通过跳跃连接等方法来补充信息到后级,如U-Net 型网络;空洞卷积(dilated convolution)是另一种较为常见的扩张感受野的方法(Chen 等,2016),它通过改变自身卷积核内部孔洞数,使卷积核可以获得任意指定尺寸的感受野;Deeplab 系列(Chen 等,2017)提出的空洞空间卷积池化金字塔(atrous spatial pyramid pooling,ASPP)模块通过并联多个不同扩张率的空洞卷积层来改善空洞卷积有效感受野占比较小的问题;随着计算机算力的提升,大核卷积也被重新使用到神经网络中,ConvNeX(tLiu 等,2022)重新设计了ConvNet 的各个层面,并首次使用7 × 7大核卷积核,在多个视觉任务中达到了目前先进水平;Ding 等人(2022)提出的重参数大核卷积网络(re-parameterized large kernel network,RepLKNet)将卷积核尺寸扩大到31 × 31,在目标检测和语义分割多个任务上均达到了目前先进水平。
对于目标检测、语义分割和实例分割等位置敏感型任务,模型往往会通过引入高分辨率特征图来提高位置信息的准确性。HRNet系列模型便是在这一思路下设计产生的:HRNetv1 用来进行人体姿态估计和关键点检测,HRNetv2 中通过引入不同结构的解码器,使其在语义分割、实例分割等任务上也有十分出色的表现。
与常规的先下采样再上采样恢复分辨率思路不同,HRNet 的核心设计思想是始终维持一条高分辨率特征通路,从而避免了特征图在从低分辨率恢复到高分辨率时存在的信息损失问题。同时在卷积过程中不断扩张低分辨率支路来获取高维语义特征,使得网络宽度加大;在每一个特征提取阶段后,会进行密集的特征交换,充分融合多尺度特征的信息。除此之外,HRNet使用残差卷积作为基本卷积模块,避免模型加深带来的退化问题,最终得到了高分辨率高精度的检测结果。
HRNetv1 系列奠定了该系列网络的基本框架,其主体结构如图1 所示。对于每个阶段,不同支路的特征会进行密集交换,用来增强特征语义信息和空间信息,并融合所有尺度的特征进行下采样扩张,得到更低分辨率的卷积支路;最高分辨率支路的最后一层特征在经过特征抽取后,作为人体姿态估计的热力图进行输出。
图1 HRNetv1结构Fig.1 HRNetv1 structure
HRNetv1 的解码器一侧仅使用到了最高分辨率支路,没有利用另外两条低分辨率支路的语义信息;HRNetv2 在HRNetv1 的基础上进一步改进,在解码器部分将所有支路特征进行融合,进一步提高了模型性能,其解码器结构如图2所示。
图2 HRNetv2解码器结构Fig.2 HRNetv2 decoder structure((a)semantic segmentation decoder;(b)object detection decoder)
HRNet系列网络在计算机视觉任务中的广泛应用表明,其以高分辨率支路为主、低分辨率支路为辅的思路可以有效提高位置型任务的精确性。
如图3所示,在结直肠镜息肉的临床数据中,息肉主体通常较为显著,但其边界往往不够清晰,存在语义模糊区域;此外,人工标注的质量存在一定差异,同样会影响息肉边界的准确性。因此,相比于直接判别边缘像素点类别,估算息肉边缘概率分布往往会更加简单且实际,对标注数据的误差容忍度也会更高。
图3 结直肠息肉图像中的边界模糊情况Fig.3 Boundary blurring in colorectal polyp images
基于上述思想,本文使用边缘分布概率图来描述息肉边缘情况,即以边缘点为中心,其周围像素点属于边缘的概率满足给定高斯分布,具体为
式中,X为掩膜图像,fboundary表示轮廓提取算法,Pbd={p0,p1,…,pn}为掩膜图像X的轮廓点集,M∈RH×W为边缘概率分布图,G(x,y)表示方差为σ2的归一化二维高斯核;对于X上任意点p(x,y),属于边缘的概率为其距离最近轮廓点pi在高斯核函数上的值。边缘概率分布示意图如图4 所示,高亮区为掩膜边缘,灰色区域为边缘概率分布情况。
图4 边缘概率分布图Fig.4 Edge probability distribution map
本文网络主要结构如图5 所示,参考了HRNet结构,由三阶段的骨干网络和多尺度解码器组成。
图5 HRNetED网络整体结构Fig.5 HRNetED network structure
首先,与HRNet结构类似,本文的骨干网络用于图像特征提取,始终维持一条高分辨率特征支路,并在每个阶段扩展一条低分辨率支路以提取高维语义特征信息;在每个阶段末端,将不同分辨率的特征进行充分交换融合。
在经过骨干网络提取特征后,本文将得到的金字塔特征输入到多尺度解码器中,通过引入息肉边缘概率检测这一辅助任务,提高模型对于息肉边缘区域的感知能力,最后输出结直肠息肉区域的分割结果。
考虑到HRNet架构始终保持着高分辨率卷积支路,存在大量卷积操作,对于计算资源占用较大。本文从相关工作出发,设计了一种具有混合感受野和轻量化特点的堆叠卷积残差模块(SRC),在有效减少参数量的同时提高模型性能,结构如图6所示。
图6 堆叠残差卷积模块Fig.6 Stack residual convolution module
首先,将卷积层、批归一化BatchNormal 和ReLU(rectified linear unit)激活函数的组合视为卷积模块,将单次3 × 3卷积模块拆分成4次堆叠的3 × 3卷积模块,每个卷积模块的通道数为输入特征张量的1/4。在逐次卷积过程中,卷积层感受野会不断增大,最终得到4 个不同感受野的特征张量,将其按照通道维度进行拼接,使用1 × 1逐点卷积进行通道特征映射,最后引入残差连接将原始输入叠加到输出侧。
此方法通过堆叠卷积核的方式来捕获不同感受野的特征信息,使得卷积模块的局部感知能力增强,通过拆分卷积核的方式有效减少参数量,并使用逐点卷积进行多感受野特征混合;最后通过残差连接的方式将输入特征直接映射到输出端,防止深层模型性能退化,其整体计算式为
式中,x表示输入特征张量,x′表示输出特征张量,xi为中间特征张量表示3 × 3 卷积模块,wp为1 × 1逐点卷积操作,δ表示非线性ReLU 激活函数。[⋅]表示特征按通道维度拼接。
在结直肠息肉的临床数据中,息肉主体通常较为显著,但其边界往往不够清晰。本文算法通过引入息肉边缘检测任务,强化模型对息肉边缘的感知能力,有效避免了由于息肉边界模糊导致的分割错误,解码器结构如图7所示。
图7 解码器结构Fig.7 Decoder structure
骨干网络提取到的4 个特征张量作为解码器输入,其长宽分别为原始输入图像的1/2、1/4、1/8 和1/16,深度为64。为了充分利用语义特征引导解码,首先使用特征金字塔进行特征融合:对于低分辨率特征,使用SRC模块进行特征提取后,通过上采样和卷积操作提升分辨率,并将其与上一级特征在通道维度进行拼接,自下而上地将低分辨率语义特征融合到高分辨率特征图中,最终得到3 个特征融合张量,其融合过程为
在经过特征金字塔结构后得到3 个中间特征张量,将其输入至边缘增强模块,用于抽取精细化边缘特征。首先,该模块对3 个输入张量分别使用Max-Pool池化2倍下采样,并通过2个SRC 模块提取特征后,使用双线性插值上采样加卷积的方式提高特征图分辨率,得到包含丰富信息的边缘特征张量,之后使用1 × 1 卷积进行特征聚合,经过sigmoid 激活后得到边缘概率分布图集合。同时,将中间特征张量和边缘特征张量使用残差连接后,经过ReLU 激活函数增强边缘特征张量;最后,对于特征增强模块输出的增强边缘特征张量,使用SRC 模块进行通道特征聚合后,经过sigmoid 激活函数输出息肉分割的最终结果集合ym,上述过程为
为了评估本文方法的有效性,本文在5 个公开的结肠镜息肉分割数据集Kvasir-Seg(Jha 等,2020)、ETIS(ETIS larib polyp database)、CVC-ColonDB(colonos copy videos challenge colon database)、CVCClinicDB(colonoscopy videos challenge clinic database)和CVC-300(colonoscopy videos challenge 300)上进行了实验,每个数据集均包含若干幅由结肠镜采集得到的息肉图像和对应标注数据。CVCColonDB、CVC-300、CVC-ClinicDB 和ETIS 数据集为从结肠镜检查视频中得到的若干帧图像数据,Kvasir-Seg数据集由1 000幅息肉图像和医生标注数据组成,在图像分辨率和息肉形态上有很大差异。
本文遵循与Pra-Net、UACANet 等论文相同的设置:从Kvasir-Seg 和CVC-ClinicDB 数据集中选取1 450幅图像作为训练集,其余所有数据作为测试集,数据集、训练样本和测试样本的分配如表1所示。
表1 数据集配置Table 1 Data set configuration
本文使用语义分割常用的Dice 相似系数(Dice coefficient,Dice)、平均交并比(mean intersection overunion,mIoU)和豪斯多夫距离(Hausdorff distance,HD)3种指标来评估本文算法的性能,其定义分别如下:
1)相似系数Dice。Dice系数是一种相似度度量指标,通常用于计算两个集合的相似度。Dice 系数越高,则集合相似度越高。其计算式为
式中,A和B分别表示两个元素集合。
2)平均交并比mIoU。mIoU 表示计算多个集合对的平均交并比,其计算式为
式中,k表示类别数量,(Ai,Bi)为第i类元素集合对。
3)豪斯多夫距离HD。豪斯多夫距离是一种描述两组点集相似程度的度量距离。设有两组点集A={a1,a2,…,an},B={b1,b2,…,bm},豪斯多夫距离的定义为
式中,h(⋅)为单向豪斯多夫距离,表示一个集合到另一集合最近点的最大距离,H(⋅)为双向豪斯多夫距离。
在实际指标计算中,通常使用双向豪斯多夫距离来衡量相似度,并且为了排除离群点干扰,选取95%分位最大值距离作为最终结果。本文中使用95%分位双向豪斯多夫距离作为评估指标,记为HD95。HD95越小,说明两个点集的相似度越高。
对于息肉分割这一主要任务,本文使用二分类交叉熵损失函数LB对模型进行训练,令y表示真实标注数据表示模型预测输出结果,其计算过程为
对于边缘检测这一辅助任务,考虑到相比于背景而言,边缘分布占比较少,正负样本差异过大。Lin 等人(2017)提出的Focal loss 通过引入权重因子有效解决了正负样本不平衡问题。因此本文将其作为边缘检测的损失函数LE。令y表示真实标注数据为模型预测输出结果,γ为难易权重因子,本文中默认为4,其整体计算式为
综上,本文损失函数定义为
式中,λB和λE为超参数,在本文中默认设置为1。
本文算法实现的运行环境为 64 位Ubuntu16.04,Pytorch1.7.1;硬件环境为CPU Intel i7-11700K@3.6 GHz,32 GB 内 存,GPU Nvidia GeForce RTX3090 24 GB。
首先,对于数据集和标签的处理上,本文将实验数据集分辨率统一缩放至256 × 256 像素,设置边缘概率图生成的二维高斯核参数σ2=25;损失函数超参数λB=1,λE=1,难易权重因子γ=4;其次,在训练阶段,设置训练批次大小为10,使用Adam 优化器进行训练,Adam 的相关参数β1=0.9,β2=0.999,权重衰减率为10-6,设置训练轮次200 轮,使用余弦退火学习率调整策略,学习率范围为[1 × 10-6,2 ×10-4],周期为50 轮,其中前10 轮学习率从1 × 10-6线性上升到2 × 10-4,后40 轮学习率按照余弦曲线从2 × 10-4衰减至1 × 10-6;最后,在测试阶段,设置前景预测阈值为0.5进行息肉分割。
3.4.1 算法性能实验结果
为了验证本文算法的有效性,将本文算法和近几年发布并开源的肠镜息肉分割算法在5 个公开结肠镜息肉数据集Kvasir-Seg、ETIS、CVC-ColonDB、CVC-ClinicDB 和CVC-300 上进行比较,算法包括HRNetv2、Pra-Net、UACANet、MSRF-Net(multi-scale residual fusion network)、BDG-Net(boundary distribution guided network)(Qiu 等,2022)、SSFormer 与ESFPNet,其中HRNetv2指标为本文复现结果。
Dice 系数和mIoU 指标的对比实验结果如表2所示。可以看出,HRNetED 在CVC-ClinicDB 和CVC-300 数据集上的Dice 系数和mIoU 指标均优于现有其他算法,在CVC-ClinicDB 数据集上相较于先前最优算法分别获得了1.25%和1.37%的提升;在ETIS 数据集上,本文算法的Dice 和mIoU 分别为82.41%和71.21%,Dice 系数表现优于对比最优算法;在CVC-ColonDB 数据集上,本文算法的Dice 和mIoU 分别为80.55%和71.56%,处于较优水平;在Kvasir-Seg 数据集上,本文算法表现较为一般。
表2 5个公开结肠镜息肉数据集上的Dice系数和mIoU对比实验结果Table 2 Comparative trial results of Dice and mIoU on five public polyp datasets
HD95指标的对比实验结果如表3 所示。可以看出,HRNetED 在Kvasir-Seg、ETIS、CVC-ColonDB 数据集上的HD95指标均优于现有算法,分别降低了0.315%、29.19% 和2.95%,在CVC-ClinicDB 和CVC-300 数据集上,HD95表现排在次优处,同样具有良好的性能,可以说明本文算法对息肉轮廓形状具有良好的感知能力。
表3 5个公开结肠镜息肉数据集上的HD95对比实验结果Table 3 Comparative trial results of HD95 on five public polyp datasets
为了更直观地对比本文算法与其他算法效果,图8在上述数据集中选取了部分分割结果进行可视化对比。可以看到,本文算法在不同形态的息肉图像上均有较为优秀和稳定的分割表现。同时,对于小目标、模糊目标有较为鲁棒的感知能力,在息肉轮廓形态上与标注值更贴近。
图8 部分息肉分割结果对比Fig.8 Comparison of partial polyp segmentation results((a)input;(b)ground truth;(c)ours;(d)ESFPNet-L;(e)BDG-Net;(f)UACANet-L;(g)Par-Net;(h)HRNetv2)
3.4.2 参数设置实验结果
为了探究息肉边缘概率描述中二维高斯核参数σ对模型性能的影响,本文进一步开展实验探究:分别设置σ为1、3、5 和7,按照3.3 节相同的实验设置步骤进行训练。此外,由式(11)和式(12)结合3.4.1 节实验结果可以推知,Dice 系数和mIoU 指标基本呈正相关。因此在本节实验中,评估指标选择Dice 系数和HD95,以反映不同参数设置对算法在主体分割和轮廓分割上的影响,最终实验结果如表4所示。可以看出,在输入图像大小为256 × 256 像素的情况下,σ取值为5时模型平均表现最优。合理推测可知,在归一化高斯核函数中,σ过小会导致数值变化过大,在图像中直观表现为边缘区域狭小;而σ过大则会导致边缘概率变化缓慢,边缘分布区域过大,使得边缘检测这一辅助任务无法获取到足够意义的边缘语义信息。
3.4.3 消融实验结果
为了进一步验证本文所提模块的有效性,一共设计了5 组消融实验:首先将本文网络结构中的堆叠残差卷积模块SRC 替换为普通残差卷积模块;其次,去除本文多尺度解码器中的边缘检测任务;最后去除多尺度输入,仅保留最高分辨率支路的输出结果,得到消融实验的基线模型baseline,最终消融实验结果如表5所示。其中edge 表示引入边缘检测辅助任务,scale 表示解码器输出多尺度预测结果,src表示使用堆叠残差卷积模块,实验指标与3.4.2 参数设置实验保持一致。从表5 结果可以看出,本文所提的3 个模块均能有效提高HRNetED 在结直肠息肉分割任务上的表现。通过引入边缘检测辅助任务,能够有效提高HRNetED 在各个数据集上Dice和HD95距离的表现,特别是在降低HD95方面效果显著,说明本文提出的边缘概率分布模型能增强网络对息肉边缘区域的感知能力;多尺度解码器的引入同样能有效提升各项指标,这得益于多尺度输出能够对语义级别支路同样进行有监督学习,提高了HRNetED 对不同尺度息肉的检测能力;堆叠残差卷积模块SRC 在减少将近50%参数量的同时带来了小幅度的性能提升,说明通过拆分卷积核并获取混合感受野特征的方法,能有效满足轻量化和提高性能的要求。
表5 消融实验结果Table 5 Ablation study results
本文针对结直肠息肉图像自身特点和息肉边缘语义模糊现象,提出了一种基于边缘概率分布模型的结直肠息肉高分辨率分割网络HRNetED。该网络使用HRNet 结构作为网络主干,设计了一种混合多尺度感受野的卷积模块SRC,该模块可以在显著降低模型参数量的同时提高模型性能;在解码器侧,通过引入边缘检测任务来增强模型对息肉边缘区域的特征感知,使用边缘概率分布模型描述边缘情况,有效降低了模型训练难度。
实验结果表明,HRNetED 在CVC-ClinicDB 和CVC-300 数据集上的Dice 系数和mIoU 指标均优于现有其他算法,且在CVC-ClinicDB 数据集上相较于先前最优算法分别获得了1.25%和1.37%的提升;在ETIS 数据集上,HRNetED 的Dice 和mIoU 分别为82.41%和71.21%,Dice 系数表现优于对比最优算法;在CVC-ColonDB 数据集上,本文算法的Dice 和mIoU 分别为80.55%和71.56%,处于较优水平;此外,HRNetED 在Kvasir-Seg、ETIS、CVC-ColonDB 数据集上的HD95距离相较于对比最优算法分别降低了0.315%、29.19% 和2.95%,在CVC-ClinicDB 和CVC-300 数据集上表现排在次优处,同样具有良好的性能;在主观感受上,本文算法对于小目标、模糊目标也有较好的主体提取能力,在多个数据集中表现稳定。
从实验结果可以看出,对于ETIS、CVC-ColonDB这两个难度较大的数据集来说,本文模型和对比模型均存在性能下降的问题。其主要原因是该两个数据集与训练集的数据分布存在差异;在临床医学中,结直肠息肉成像质量通常会受到结肠内部环境、息肉形态和采集设备质量等影响,这就要求模型有更强的泛化能力,才能提供更可靠的医学辅助诊断。后续工作将围绕这一问题继续展开研究,包括适合结直肠息肉数据的数据增强和模型泛化能力提升等。