基于极坐标变换和深度学习的腔镜图像气泡分割方法研究

2023-10-20 05:53李大永胡袁哲

医疗卫生装备 2023年8期

周阳，顾伟，张杰，戴伟，李大永，胡洁，胡袁哲*

（1.上海市胸科医院/上海交通大学医学院附属胸科医院采购中心，上海 200030；2.上海市胸科医院/上海交通大学医学院附属胸科医院胸外科，上海 200030；3.上海交通大学机械与动力工程学院，上海 200240）

0 引言

腔镜手术以其适应性广、创伤小、康复快等优点，在胸外科、普外科、妇科等疾病的诊治中得到了广泛的应用[1-2]。如在宫腔镜电切手术中，需借助膨宫压力、膨宫介质来建立手术操作中清晰的视野，并使用电切能量切除异常组织。然而，在手术期间，室内的空气[3]和高频电刀的汽化产物[4]会通过暴露的子宫静脉进入体内循环，从而产生大量气泡。这些连续的小气泡或单个大气泡极易遮挡手术视野，增加手术难度，且容易导致气体栓塞等严重并发症[5-6]。

鉴于宫腔镜电切手术的工作原理，气泡的产生无法避免。为确保子宫内的气泡保持在最低限度，通常使用连续的流入和流出系统从宫腔中排空气泡和其他碎屑[2]。然而，现有的腔镜仪器没有自动气泡清除装置，外科医生需要暂停手术，反复插入和取出器械，以手动清除气泡。手动清除气泡的过程需要外科医生根据经验调整流入和流出系统，其不仅作用受限，还会影响宫内压的稳定性。因此，迫切需要找到一种实时自动去除气泡的方法，缩短气泡在子宫腔内的停留时间。该方法应能保持手术视野清晰，同时有效避免腔镜手术导致的并发症。

计算机视觉技术为解决腔镜手术期间的气泡问题提供了一种可行的方案，其能分割提取内窥镜图像中的气泡并统计分布模式，以此辅助医生诊断并推动后续的自动气泡去除装置的开发。为获得气泡的尺寸分布，需要借助医学图像分割技术从腔镜图像中分割得到气泡区域。但是准确提取腔镜图像中的气泡区域仍是一项艰巨的任务。腔镜图像中气泡的边缘模糊不易检测是由于气泡区域和背景比较相似导致其对比度较弱，并且不同图像间气泡大小和数量变化巨大而导致气泡分割的精确度有待提升。传统的图像分割技术[7]一般基于阈值方法，但在实际应用中很难选择合适的阈值。Vincent 等[8]提出了标记控制的分水岭分割算法，通常需要获得不同区域的种子点，以避免过度分割。Zhang 等[9]提出了一种基于最佳标记的分水岭分割算法，用于测量泡沫图像中的气泡大小分布。这些传统图像分割技术过于依赖参数选择和研究人员的经验，其准确性和鲁棒性十分有限。

随着深度学习的快速发展，基于卷积神经网络的端对端图像分割方法在语义分割领域取得了很大的成功。其中，U-Net[10]是医学图像分割任务中较为流行的深度学习模型。U-Net 是一种编码器-解码器架构，并把编码器提取的特征跳跃连接到对称的解码器上，从而实现高维语义信息和低维边缘细节信息的融合。由于U-Net 在小数据集上的良好性能，其被广泛应用于医学图像分割[11-15]。针对研究问题的特异性，U-Net 模型在实践中不断得到发展和改进。Zhou 等[12]提出了一种嵌套的U-Net++模型，通过逐步融合编码器和解码器的特征，减少融合对象的语义信息差异，获得比原始的U-Net 更加精确的医学图像分割结果。针对U-Net 网络中各个尺度信息之间融合不足的问题，Huang 等[13]提出了一种全尺度跨越连接的U-Net 3+，每个解码器都融合了所有尺度编码器的信息，进一步提升了网络对于细粒度问题的学习能力。周鑫等[15]在U-Net 中加入了形状特征提取层，回归得到细胞的几何信息并纳入损失函数，从而实现对相邻粘连细胞的有效分割。

近年来，极坐标变换被引入到深度学习中以提升网络对空间变换的泛化能力[16]或进行数据增强[17]。此外，其还应用于分割生物医学图像中形状近似椭圆的物体[18-19]，例如各类器官、息肉、心脏脂肪组织等其他结构。Esteves 等[16]训练了一个端对端的神经网络，该网络能预测极坐标变换的原点，并将图像转换到极坐标系进行分类，具备对平移、旋转和缩放的鲁棒特性。此外，Bencevic 等[19]提出了一种包含2 个神经网络的级联模型，先使用U-Net 模型粗略地分割图像以获取极坐标变换的原点，再使用另一个U-Net模型将图像转换到极坐标系中进行最终预测。实验结果表明该方法在对主动脉、息肉、血管和肝脏的分割任务中均表现出优异的性能。本文研究的腔镜气泡在图像中通常以单个大气泡或者连续密集的小气泡分布，亦属于椭圆形状目标识别的范畴。

针对腔镜手术中气泡边缘模糊、数量形态浮动较大所造成的图像分割困难以及气泡本身近似椭圆形的特征，本文提出一种基于极坐标变换和深度学习的腔镜图像气泡分割方法。

1 腔镜气泡分割模型的设计

1.1 数据集的选取与分析

本研究选用一组腔镜图像数据集来训练和验证所提出的网络模型。数据集图像来源于腔镜手术中Olympus ESG-400 超声高频电刀获取的视频，而后由专业的影像医生从视频中提取图像并手工标注气泡区域。腔镜图像数据集由1 385 张尺寸为288×352像素的腔镜气泡图像和对应的气泡区域标注图像构成。图1 显示了腔镜数据集的样本示例，该分割问题为二分类问题，白色部分为气泡区域，黑色部分为非气泡区域。图像中的气泡在形状、外观和大小上有很大差异。同时，图像中前景和背景的对比度不明显，气泡分布密集，边缘较弱，不易检测。上述因素的综合影响使腔镜气泡分割任务极具挑战性。

图1 腔镜数据集样本示例

1.2 图像的极坐标变换

图像通常呈现在笛卡尔坐标系中，此时像素沿x轴和y轴排列。在极坐标系中图像也可由2 个坐标轴表示：（1）径向坐标轴ρ，表示点与极坐标变换原点的距离；（2）角坐标轴ø，表示点与参考方向之间的旋转角度。

给定H（高度）×W（宽度）像素的输入图像I（x，y），将其转换到极坐标系并记作I'（ρ，ø），转换公式为

式中，（xc，yc）为极坐标变换原点。为保持极坐标变换前后相同的图像尺寸，对（ρ，ø）进行线性缩放，具体公式如下：

图2 展示了包含单个气泡的标注图像经过极坐标变换的结果和上述算法的过程。极坐标系下对于类椭圆形对象（例如气泡）的分割具有以下优势：（1）当每个对象以自身质心为极坐标原点进行极坐标变换后始终处于图像的左边缘，因而网络不需要学习目标的定位问题。（2）极坐标变换对于分割椭圆形的对象可以降低模型的复杂度。在笛卡尔坐标系中，椭圆形的决策边界至少需要4 个维度的函数建模。当转换为极坐标时，笛卡尔坐标系中的椭圆将转变为曲线。极坐标下的椭圆形对象的决策边界得到了相对简化，分割模型复杂度也有所降低。（3）由于极坐标变换中最大变换半径的限制，单连通域极坐标变换后的气泡存在表征不足的潜在问题。考虑到腔镜气泡图像中通常包含多个连通域，预测过程中对于每个连通域的质心分别进行极坐标变换，而后分割预测并综合预测结果，以过采样的方式实现气泡的充分表征。

图2 极坐标变换示意图

1.3 基于极坐标变换的级联U-Net 模型

针对腔镜气泡形状类似椭圆形、数量与形态浮动大、边缘模糊的特点，本文提出了一种基于极坐标变换的级联U-Net 模型进行腔镜气泡分割，算法框架如图3 所示。级联U-Net 模型包含了2 个U-Net网络，即笛卡尔坐标系下的U-Net 网络和极坐标系下的U-Net 网络，两者分别使用2 个坐标系下的数据集进行训练。其中，极坐标系下的训练数据由笛卡尔坐标系下图像以标注图像的气泡区域总体质心为原点经极坐标变换得到。

图3 基于极坐标变换的级联U-Net 模型的算法框架

获取极坐标变换原点是极坐标系U-Net 网络分割图像的先决条件。首先，笛卡尔坐标系下的U-Net网络被用于气泡的初步分割。而后，对于分割结果进行连通域分析，计算每个连通域的质心坐标和气泡区域的总体质心坐标。以这些质心为原点分别将图像变换到极坐标系下，并输入极坐标系下的U-Net网络中进行预测，再将预测结果以相同的原点逆变换回笛卡尔坐标系。其中，气泡的初步分割并不要求精确完整，只需保证每个连通域的质心位于气泡内部。鉴于腔镜中的气泡分布密集连续的特征，即使初步分割中存在遗漏的气泡，也能在附近连通域质心为原点的极坐标变换中得到较精确的预测。

根据极坐标变换原点的不同，极坐标系U-Net网络一般会输出多张分割预测图像，为获得最终的预测结果需要对各个输出进行融合。对不同的极坐标变换原点，网络对于目标的预测表现差异较大。如文献[18]所述，极坐标网络通常在包含极坐标原点的对象上表现最好，而在预测图像中的其他对象时表现较差。因此，对于每个像素位置采用加权求和的方式得到最终的预测结果，并对连通域质心施加较大的权重。假设腔镜气泡图像初步分割得到n 个连通域，经变换后得到的预测图像记作Pi（Pi为H×W 的逐像素预测结果，i=1，2，…，n），连通域的总体质心对应的预测图像记作Pn+1，则最终预测的气泡分割图像Pfinal的计算公式如下：

本文使用的U-Net 网络结构如图4 所示，由对称的编码器和解码器组成。每个编码器使用卷积模块提取特征，而后用最大值池化压缩特征维度。解码器中的卷积模块作用相同，同时采用转置卷积的方式进行上采样。在编码过程中，随着卷积和池化的操作不断提取特征并压缩维度，单个3×3 的卷积核在原始图像中的感知视野越来越大。靠近输入的编码器所提取的特征称为浅层特征，包含边缘细节信息；靠近瓶颈层的编码器提取的特征称为深层特征，包含语义信息，但是丢失的边缘细节信息也越来越多。以跳跃连接（本文使用拼接的方式）的方式将浅层的信息传递到更深的网络，有利于网络把握语义特征的同时更好地学习边缘细节。

图4 U-Net 网络结构

腔镜图像中气泡的分割被视为一个逐像素分类问题。本文采用Dice 损失函数来监督极坐标系和笛卡尔坐标系下U-Net 网络的学习，其计算公式如下：

式中，X 和Y 分别对应预测分割图像和真实分割图像；λ 为平滑系数，设置为1。

1.4 模型评估标准

本研究中，将Dice 系数和平均交并比（mean intersection over union，mIoU）作为评估模型对气泡分割效果的主要指标。对于二分类问题，正确预测的气泡区域定义为真阳性（true positive，TP），实际属于气泡但被预测为非气泡的区域定义为假阴性（false negative，FN），正确预测的非气泡区域定义为真阴性（true negative，TN），实际属于非气泡但被预测为气泡的区域定义为假阳性（false positive，FP）。

Dice 系数反映了预测结果和目标之间的相似性，计算公式为

平均交并比mIoU 是每一类对象预测结果和实际目标交并比的平均，数值越接近1 则两者相似程度越高。对于二分类问题，计算公式为

同时，使用精确率（precision，Pre）和召回率（recall，Rec）作为评估分割效果的辅助指标。精确率反映了预测为正的样本中正确的比例，其具体定义为

召回率反映的是原始正样本中被正确预测的比例，计算公式为

1.5 模型训练

为检验模型的准确性和鲁棒性，将所提出的级联模型在腔镜图像数据集上采用五折交叉验证的实验方法。具体如下：先将腔镜图像数据集等分为5 个子集；然后在每次实验中，将1 个子集作为测试集，其余4 个子集作为训练集，重复实验5 次，使得每个子集均有机会作为测试集。该模型需要在笛卡尔坐标系和极坐标系分别训练和测试U-Net 网络。在笛卡尔坐标系U-Net 网络的训练阶段，首先预处理图像，将原始的气泡图像归一化到[-0.5，0.5]，对应的标注图像则归一化到[0，1]。对极坐标系U-Net 网络的训练过程中，还需要将数据集中的图像转移到极坐标系下。根据标注图像可计算出气泡区域的总体质心坐标，添加随机偏移量后将其作为极坐标变换的原点。在每个训练周期中，质心坐标有30%的概率沿任意方向移动-3~3 个像素，这增加了网络推理过程中对不准确原点预测的鲁棒性。以偏移后的质心坐标为原点进行极坐标变换，将笛卡尔坐标系的气泡图像和标注图像均转换到极坐标系作为训练极坐标系U-Net 网络的数据集。其中极坐标变换可以通过OpenCV 库中的函数实现。

对于2 个坐标系的网络均采用正态分布随机初始化网络参数，而后从零开始各训练100 个周期，批次大小设置为8。在网络学习过程中采用Adam 优化器，初始学习率设置为10-3，权重衰减设置为10-6。所提出的网络模型基于Pytorch 框架实现，使用NVIDIA 3080 Ti 显卡进行加速。

2 实验结果与分析

为验证本文方法的有效性，将提出的基于极坐标变换的级联U-Net 模型与笛卡尔坐标系下的U-Net模型、Chen 等[20]提出的深度轮廓感知模型（deep contour-aware network，DCAN）和Wang 等[21]提出的边缘感知网络（edge-aware network，EAN）模型在腔镜气泡分割任务上进行横向比较。

表1 对比了4 种模型在相同的训练参数下对于气泡分割的表现。DCAN 和EAN 模型对腔镜气泡的分割效果相比U-Net 模型在主要评价指标Dice 和mIoU 上略微占优，Dice 系数提升1%左右而mIoU的提升小于0.5%。但是本文提出的级联U-Net 模型在各个指标上均显著优于其他模型，其中Dice 系数相较U-Net 提高约4.0%，而mIoU 提升约5.9%，辅助评价精确率和召回率也明显优于其他模型。在评价指标上的定量比较说明了本文方法对腔镜气泡分割的精确性和鲁棒性。

表1 各类模型对腔镜气泡分割的性能比较

图5 展示了气泡分割的可视化结果。由图可见，由于腔镜中的气泡存在边缘模糊、与背景相近及数量与大小浮动较大等特征，U-Net 模型对于气泡的分割存在形状不准确、数量有遗漏、边缘不清晰等缺陷。本文方法的分割结果与真实值更为接近，每个气泡的形状也更加相似。但是本文提出的极坐标变换方法受限于最大变换半径，对于远离气泡区域整体质心的微小气泡很容易出现预测遗漏的问题，因此更加适合于连续、集中的气泡预测。

图5 气泡分割结果的可视化

3 结语

本文提出了一种基于极坐标变换的级联U-Net架构，用于准确分割腔镜图像中的气泡。鉴于气泡形状接近椭圆形，极坐标下的气泡表征具有无需定位、决策边界简化和模型复杂度降低的优势。该方法首先使用笛卡尔坐标系下的U-Net 初步分割气泡并确定极坐标变换的原点。随后，图像以初步分割得到的每个连通域的质心和气泡区域的总体质心为原点分别转换到极坐标系下，输入极坐标U-Net 进行预测。最终预测结果为各个质心极坐标变换后分割结果的加权求和，并对气泡区域总体质心予以更高的权重。与其他模型的对比结果表明，本文所提出的方法在腔镜气泡分割的各项指标上均有较高的精度，有效提高了气泡分割的质量。

需要指出的是，本文提出的气泡分割模型存在一定的局限性。极坐标网络对包含极坐标原点的目标分割效果最优，而对远离原点的目标性能较差，同时气泡表征还受限于极坐标变换的最大变换半径。对连续、集中的气泡，由于其接近各自的极坐标变换原点，每个连通域单独预测结果在加权求和后具备过采样的特性，分割较为精确。然而，对远离气泡区域整体质心的孤立气泡分割则易出现遗漏的问题。因此，如何提升极坐标网络对于远离变换原点目标的表现以及突破最大变换半径带来的感受野的局限性，是下一步研究的重点。总体而言，该方法能实现腔镜气泡的精确分割，为腔镜手术中气泡自动去除装置的设计提供了重要的参考，并在其他类似椭圆物体的分割上具有较大的应用价值。