邓仕俊 汤红忠,2* 曾 黎 曾淑英 张东波
1(湘潭大学自动化与电子信息学院,湖南湘潭 411104)
2(湘潭大学智能计算与信息处理教育部重点实验室,湖南湘潭 411105)
放射治疗是治疗癌症相对有效的手段之一,它是利用放射线(如放射性同位素)产生α、β、γ 射线和各类X 射线等,直接破坏癌变细胞的DNA,使癌细胞停止异常的分裂增殖,从而达到治疗恶性肿瘤的目的[1]。癌变区域附近的健康器官被称为危及器官(organs at risk,OARs)[2],临床医生在放射治疗计划中需要勾画出这些器官的轮廓及边界,其目的是为了将放射剂量集中在靶区内破坏癌细胞,同时避免周边区域的正常组织或器官遭受不必要的辐射。基于患者的计算机断层成像(computer tomography,CT)引导的放射治疗是癌症治疗的重要手段,因此勾画靶区与危及器官是临床放射治疗中的关键任务,这对于提高治疗准确性、避免正常组织的放射性损伤,具有重要的指导意义与研究价值。
胸腔CT 图像中包括了多类重要器官,这些器官体积和边界差异明显,位置集中且解剖关系较为复杂,这些都增加了胸腔CT 图像中器官分割的难度。对传统的危及器官勾画,通常要求临床医生手工勾勒靶区与危及器官的轮廓边界[3]。一般情况下,一个标准的CT 图像包含多张切片,手动勾勒费时费力;在不同时间内,不同医生或同一医生对同一危及器官区域的勾画也有可能存在一定的差异,这些差异会影响治疗计划的质量与优化。因此,实现危及器官的自动分割可以辅助医生高质、高效地完成放射治疗任务。近年来,它也迅速成为计算机辅助诊断领域中的研究热点,并引起国内外学者的关注[4-6]。
CT 图像的质量受多种因素影响,如CT 成像对软组织或器官的图像分辨率不高,图像对比度低;受各类噪声与伪影的干扰,图像变得模糊;因人体器官的运动、疾病的发展,都会使图像发生畸变。因此,要想获得比较精确的危及器官分割结果,仍然面对巨大的挑战。围绕这一问题,许多学者提出了相关解决方法[7-8]。
近年来,随着计算机处理能力的大幅度提高,深度神经网络发展迅速,并已广泛应用于医学图像分类[9]、组织病理图像分割[10]、多目标分割与检测[11]等领域。医学图像分割是一种密集型像素分类,Long 等[12]提出一种全卷积神经网络(fully convolutional networks,FCN),并在语义分割领域中获得突破性的进展。Trullo 等[5]结合FCN 与循环神经网络(recurrent neural network,RNN),解决了胸腔危及器官的分割问题。Olaf 等[13]提出了基于U-Net网络的医学图像分割方法,相比FCN 更能捕捉上下文信息。以此为基础,Gali 等[14]提出了一种带空洞卷积的U-Net 网络,以实现胸腔图像危及器官的分割。Zhang 等[15]结合DenseNet 与U-Net 两个网络的优点,实现了组织病理图像的自动分割。Huang等[16]基于粗细分割策略,提出一种新的网络框架,主要包括感兴趣区域的定位网络与细分割网络,实现胸腔各类危及器官的分割。胡玉进等[17]设计了双路径的分割网络,利用该网络的两个分支分别提取浅层与深层特征,并结合特征融合实现了小儿超声心动图左心室的分割。Gao 等[11]提出了一种FocusNet 分割网络,利用小目标定位的子网络,提升了头颈部危及器官中小目标器官的分割性能。
更进一步地,解决3D 医学图像的分割问题,田娟秀等提出了一种3D 全卷积残差网络[8],较好地解决了头颈部危及器官分割中的类不平衡问题。Han 等[18]提出了一种基于V-Net 网络的3D 图像危及器官的分割方法,大大提升了3D 图像危及器官分割的性能。鉴于U-Net 网络在医学图像分割上的成功,广大学者开展了U 型对称结构的相关变体网络模型的研究。Dong 等[19]提出了一种U-net-GAN的分割模型,利用生成对抗的策略,完成胸腔危及器官的精细分割。Charles 等[20]利用U-Net 网络,采用迁移学习的思想,实现了对胸腔中各类危及器官的分割。
胸腔CT 图像对比度低,不同器官之间外形尺寸都存在较大差异。不同患者的同一器官也有一定程度的形变,这些因素给精确分割造成了一定困难。其主要困难总结如下:
1)胸腔危及器官CT 图像中的4 类器官是高度类别不平衡的。其中,心脏与主动脉的体积最大,食道与气管次之。特别是食道,体积最小。受成像设备的影响,食道与气管只在少数CT 切片中出现。
2)胸腔危及器官CT 图像的分辨率存在一定的差异。胸腔危及器官CT 图像的尺寸为512×512×(150~284)体素,层间的分辨率为2 ~3.7 mm,平面分辨率为0.9~1.37 mm。由此可以看出,不同切片中器官分辨率会有不同。
3)图像存在较多的噪声与伪影,与自然图像相比,这些噪声与伪影会大大影响分割性能。
为此,提出一种多尺度特征感知的编码-解码网络(FA-Unet),实现了胸腔CT 图像危及器官的自动分割。具体地,首先设计输入感知模块,提取图像中各类器官的多尺度特征;其次,在编码-解码中融入改进的inception 模块,同时捕捉不同尺度的细节信息与语义特征,实现不同尺度特征的编码。上述两个模块可以有效提升体积较小器官的分割性能。进一步地,将ESP 与PSP 模块代替传统的串行卷积运算,使得网络模型更为轻量化,从而缓解了数据量不足带来的过拟合问题。为解决类别不平衡的问题,提出一种结合Dice 系数与交叉熵的损失函数。在SegTHOR 数据集[21]上的实验结果表明,提出的方法具有更好的分割性能及更高的计算效率。
U-Net 的网络结构呈左右对称。左侧为编码路径,由一系列反卷积与池化层组成。首先,卷积层提取特征信息,然后利用池化操作,以一定的比例缩小特征映射图的尺寸,同时增加通道数。右侧为解码路径,由一系列卷积层组成,即首先采用反卷积对特征映射图进行尺寸扩张;然后将扩张后的特征映射图与编码路径中相对应尺寸的特征映射图进行拼接,对拼接后的特征映射图进行卷积操作,并采用一个1×1 的卷积进行特征降维,得到输出特征图,最后利用softmax 分类函数,预测特征图中每一个像素类别。尽管在U-Net 的网络医学图像中有许多成功的应用,但胸腔CT 图像具有标记的数据量较少,如果直接使用原始U-Net 对其进行训练分割,会出现特征利用率低、网络收敛难等问题。
本研究提出的FA-Unet 模型是一种多尺度全卷积的对称U 型结构网络,如图1所示。整个构架由编码路径与解码路径组成,分为3 个层级。编码路径包含输入感知模块、编码模块、残差连接以及卷积下采样等模块,解码路径由解码模块与双线性上采样组成。值得注意的是,仅仅进行2 次上采样与2 次下采样,其原因在于胸腔CT 图像中食道与气管体积特别小,如果进行过多的下采样操作,会导致体积较小器官的位置信息与边缘细节丢失严重,而减少下采样与上采样的次数,可以保存更多小目标器官的位置信息。
图1 的网络结构Fig.1 The structure of the proposed network
在左侧的编码路径中,第1 层为输入感知模块,由1×1、3×3、5×5 的组合卷积构成,其目的旨在从原始图像中提取多尺度特征。第2 层与第3 层的结构相同,均由卷积块与编码块组成。一方面,卷积块包括3×3 卷积、批量归一化层(batch normalization,BN)、非线性ReLU 激活函数,其中3×3 卷积可以进一步感知较深层次的信息;BN 层主要解决因输入数据分布不一导致的网络泛化性能差的问题,非线性ReLU 激活函数提高了网络对非线性映射的学习能力;另一方面,编码块包含4 个串行连接的空间金字塔卷积(efficient spatial pyramid,ESP)[22]模块,在增加网络的深度同时降低了网络复杂度。借鉴残差网络[23]的思想,将编码块输入与输出串联起来,以期提高特征的利用率。最后,每层之间利用卷积下采样操作,减少特征映射尺寸,增加通道数。
在右侧的解码路径中,每级都采用了相同的结构设计,均由解码模块与双线性上采样构成。其中,解码模块包含了4 个并行的金字塔池化(pyramid spatial pooling,PSP)模块[24],这些模块可以获取多尺度全局信息,并大大降低了网络复杂度。另外,通过双线性上采样,可逐步恢复图像尺寸。
特别地,在编码路径与解码路径之间的跳跃连接上,融入了改进的inception 模块。该模块的引入,不仅可以编码不同的尺度特征,也能有效消除直连带来的语义差距。最后的输出层包含了1 个1×1的卷积与softmax 分类函数,前者对特征进行降维,后者用来计算特征图中每个像素的类别。
1.2.1 输入感知模块
胸腔CT 图像中各危及器官的大小不同,形状差异较大。心脏呈团状、体积最大,主动脉呈藤条状,食道与气管都呈管状结构,其中食道体积最小。若直接在网络的第1 层设置一个较大的卷积核,会导致食道与气管这两类体积较小目标器官的特征丢失。因此,提出的输入感知(input-aware)模块主要由1×1、3×3、5×5 的3 种不同密集稀疏卷积子矩阵并列构成,如图2所示。较大的卷积核因感受野较大,适合提取全局信息,较小的卷积核虽感受野较小,却能捕获体积较小器官的细节信息,从而可实现尺寸差异较大的各类器官多尺度特征感知。因此,输入感知模块的设计能避免小目标的细节与位置信息丢失问题,也能极大程度地提高像素预测的真阳性率(true positive rate,TPR)。
图2 输入感知模块Fig.2 Input-aware module
1.2.2 改进Inception 模块
在传统U-Net 网络中,一般采用跳跃连接的方式,将浅层特征与深层特征相结合。然而,这种直连方式无法避免两类特征的语义差距,仍无法探索更为丰富的多尺度特征或信息。浅层次特征中蕴含着丰富的细节信息(如器官的边界、形状、纹理、轮廓等),而深层次特征则更多地包含语义信息等。为了充分编码不同的尺度特征,基于inception 思想[25],重新设计编码块与解码块二者之间的连接方式,特别融入了改进的inception 模块,由1×1、1×3、3×1、1×5、5×1 的5 种大小不同的卷积核组成(见图3)。其中,1×1 卷积可以最大程度保留较小目标(食管与气管)的浅层次特征,且大大降低噪声干扰。另外,采用不同尺寸的卷积核,可以挖掘不同形状与大小的目标器官的细节信息与语义信息,从而有效解决二者之间的特征差距,实现浅层特征与深层特征的编码。同时,在跳跃连接中融入改进的inception 模块,虽然增加了模型的深度与宽度,但并没有增加过多的参数。
图3 Inception 模块Fig.3 Inception module
1.2.3 ESP 与PSP 模块
SegTHOR[20]数据集共包括40 个患者的胸腔CT 图像。在每个患者的CT 图像中,食道体积最小,甚至在个别切片中基本不可见。若采用传统的U-Net 进行训练,容易出现过拟合的问题。为了实现模型的轻量化,采用ESP 与PSP 构成了编码块与解码块。
ESP 模块[21]由逐点卷积和基于空间金字塔的膨胀卷积两部分组成,如图4所示。该模块首先进行1×1 卷积操作,实现了特征图的降维,然后采用4个不同膨胀率的空洞卷积核对特征进行卷积,最后对4 个并行的特征图进行拼接。其中,卷积核尺寸均为3×3,膨胀率(R)分别为1、2、4、6。采用4 个ESP 模块串连构成编码块,不仅能充分利用空间金字塔架构获得多尺度特征,更加明显的是可以大大降低网络模型的复杂度与计算量。
图4 ESP 模块Fig.4 ESP module
网络模型中的解码部分由4 个并联的PSP 模块[23]组成,其中每个PSP 模块结构如图5所示。首先,该模块将4 个不同尺寸的池化层(1×1、2×2、3×3、5×5)进行并联,并在每个池化层后增加一个1×1卷积层,得到每个不同尺度的特征图;然后,利用双线性上采样,将每个特征图恢复到原始特征图尺寸大小;最后,将4 个尺度特征图与原始特征图进行串接。由此可见,PSP 的引入不仅能简化网络复杂度并加宽网络,而且能在不同的感受野与多尺度下捕获更完整的输入图像的全局信息。与传统的连续卷积池化相比,网络参数更少,变得更为轻量化,使面向胸腔CT 图像的网络训练更易拟合。
图5 PSP 模块Fig.5 PSP module
1.2.4 损失函数
胸腔CT 图像中心脏、主动脉、食道与气管这4类器官大小不同,形状也各有较大差异。心脏与主动脉的体积较大,食道与气管体积较小;主动脉呈藤条状,心脏呈团状,食道与气管呈管状结构。这4类器官中,食道体积最小。在胸腔CT 图像中,背景像素约占整张切片的99%;在目标像素中,心脏、主动脉、食道与气管分别占70.7%、23%、3.7%与2.6%。对于分割来说,更为严峻的问题在于许多切片中并没有同时包含这4 类器官,如食道与气管在很多切片中基本不可见。由此可见,胸腔图像中类别高度不平衡。针对这一问题,采用一种联合交叉熵与Dice 系数的损失函数训练分割网络,函数定义为
式中,α 为惩罚因子,α∈[0,1],主要平衡交叉熵与Dice 函数在器官分割中的性能。
交叉熵损失函数定义如下:
式中,Nc=5 为器官分割类别数,gi为第i个像素的类标,pi为第i个像素预测类标。
交叉熵损失函数的训练较稳定,且对较大目标的对象具有较好的分割效果,如心脏、主动脉。但是,若直接采用交叉熵损失函数,网络训练过程中的反向传播每一个目标器官分配了相同的权重,影响了小目标器官的分割性能。
结合Dice 系数来解决前景在图像中占比较小的分割问题,给不同目标器官分配相应不同的权值。Dice 系数定义为
由此可知,为了解决类别高度不平衡的问题,结合了交叉熵与Dice 系数二者的优点,提出的损失函数(见式(1))有助于不同尺度、不同形状器官的精确分割。
硬件配置如下:处理器为Intel(R)Core(TM)i7-8700 CPU @ 3.2 GHz,内存(RAM)为32.0 GB,GPU 为GeForce GTX 2080 Titan 11 GB 显存,计算机操作系统为Windows 7,开发工具为Python、Pytorch框架。
胸部CT图像数据集共包括40 例患有肺癌或霍奇金淋巴瘤的患者胸腔CT,并具有人工标记的心脏(heart)、主动脉(aorta)、食道(esophagus)和气管(trachea)。其中,胸腔CT 层间的分辨率为2.0 ~3.7 mm,平面分辨率为0.90~1.37 mm,原始图像尺寸为512×512×(150 ~284)体素,背景像素在整个CT 图像中占比非常高。
为了突出目标区域且减少参数计算量,首先对原始图像进行裁剪,裁剪后的图像尺寸为384×384×(150~284),通过这种方式既能保留前景目标,又降低了背景在整个图像的占比度。为了获得均值为0、方差为1 的正态分布,对所有数据进行Z-score 标准化处理(zero-mean normalization),即减去数据均值,再除以数据的标准差。受成像设备拍摄角度的影响,食道与气管体积较小的器官在一些切片中并不可见。由图6 可知,同一个患者的不同CT 图像的相邻切片之间相似度高。而在图6(b)、(c)的切片中,出现了一些器官边缘丢失的情况,若直接采用单张切片进行训练,则会产生较大网络训练误差。因此,将相邻的3 张切片进行叠加处理,将其作为一张切片,可以有效解决网络训练误差问题。进一步地,针对数据不足的问题,采用了水平翻转、随机旋转等方法对数据进行增广。最后,采用5-fold交叉验证法来评估模型的性能。
图6 切片叠加处理。(a)切片1;(b)切片2;(c)切片3;(d)叠加图Fig.6 Slice overlay processing.(a)Slice1;(b)Slice2;(c)Slice3;(d)Overlay slices
为了对分割结果进行定量性能评估,采用Dice相似系数(dice similarity coefficient,DSC)、Hausdorff距离(hausdorff distance,HD)作为评价指标。DSC测量了真实标注与预测类标的重叠区域,其定义如下:
式中:gi为第i个像素的标注类别,pi为第i个像素的预测输出,gi∩pi为真实标注区域与预测输出区域的交集,为真实标注区域与预测输出区域并集;DSC 的值介于0 ~1 之间,其值越大表示网络的预测输出与真实标注之间的重合率越高。
Hausdorff 距离(Hausdorff distance,HD)定义如下:
在训练过程中,采用自适应动量估计(adaptive moment estimation,Adam)优化器对网络进行优化与梯度更新。训练批次(batchsize)设为16,初始学习率(learning rate)设为0.001,动量值设为0.9。为了讨论式(1)中交叉熵与Dice 系数对分割性能的影响,评估了不同α 值对FA-Unet 网络性能的影响。表1 给出了不同α 值下FA-Unet 网络的分割结果,当α=0.2 时,FA-Unet 网络的分割性能为最佳。
表1 不同α 值对FA-Unet 模型的影响Tab.1 The influence of different α on FA-Unet model
为了评估的FA-Unet 模型中不同模块(包括输入感知模块、改进的inception 模块、ESP 以及PSP 模块等)在胸腔CT 图像危及器官分割任务中的性能,设计了5 组不同实验来进行消融性实验。表2 给出了在不同模块组合下的不同模型对4 类器官的平均分割性能,不同模块的融合都能在一定程度上提升网络模型的性能。最终的FA-Unet 网络在性能上达到最佳,DSC值达到0.868 2,Hausdorff 距离为0.784 4 mm。
表2 不同改进方案下的网络性能Tab.2 The performance of network with different improved strategies
进一步地,表3 给出了多尺度特征感知模块(输入感知与改进的Inception 模块)对胸腔CT 图像中4 类器官的分割性能的影响。通过对比FA-Unet与U-Net4 的结果可知,F A-Unet 模型在跳跃连接中融入了改进的Inception 模块,可以实现不同尺度的特征编码,能够填补浅层特征与深层特征的语义鸿沟,因此在4 个器官的DSC 值或HD 指标上都有稳步的提升。通过对比FA-Unet 与U-Net5 的结果可知,FA-Unet 模型在食道与气管的分割中大大提高了真阳性率(TPR)。其原因在于构建的输入感知模块,可以极大程度地解决小目标器官在网络加深同时的细节与位置信息丢失问题。
表3 输入感知及改进的inception 可行性分析Tab.3 Feasibility analysis of Input-aware and modified inception modules
为了进一步对比不同模型的复杂度,将提出的FA-Unet 与 FCN[12]、 U-net[13]、 Dense-Unet[15]与SegNet[26]等4 种经典分割网络模型进行对比。表4给出不同网络模型的参数计算量,可见与同类型传统网络相比,其FA-Unet 更加轻量化,参数量仅为2.8 M,更适合于数据集较小的危及器官分割以及相关的工程应用。
表4 模型参数Tab.4 Model parameters
为了验证所提出方法的准确性与有效性,将的FA-Unet 与 FCN[12]、 U-Net[13]、 Dense-Unet[15]、SegNet[26]等模型进行对比分析。
表5 为各个模型在测试集上不同器官的DSC与Hausdorff 指标值。可以看出,所提出的模型对心脏的分割效果最好,依次是主动脉、气管与食道。尤其是在小目标器官的分割上,如食道与气管,其FA-Unet 性能最优,食道的DSC 值与Hausdorff 距离分别达到了0.793 2 与1.420 7,气管的DSC 值与Hausdorff 距离分别达到0.854 9 与0.627 3。
表5 不同算法性能对比Tab.5 Performance comparison of different algorithms
用不同网络模型对胸腔CT 图像中危及器官进行分割,其结果如图7所示。其中,(a)中第1 ~5 行分别代表了来自5 个不同患者的胸腔CT 图像,(b)~(f)分别为 FCN[12]、 SegNet[26]、 U-Net[13]、Dense-Unet[15]与FA-Unet 的分割结果,(g)为金标准。
由图7(b)、(c)可知,在FCN 与SegNet 模型的分割结果中,目标细节信息丢失较多;由图7(d)、(e)可知,U-Net 与Dense-Unet 网络在一定程度上解决了目标细节信息丢失的问题。但是,U-Net 及Dense-Unet 网络对器官中体积较小的目标分割效果都不佳。
与其他网络相比,提出的FA-Unet 网络模型获得更优的分割性能,尤其在不同器官边界与体积较小目标(食道与气管)的分割效果更好,如图7(f)所示。为了更清楚地观察原图的局部区域,对原始图进行前景加强操作,如图7 的第2 行与第4 行中的(a)所示。图7 中的第2 行与第4 行分别是第1 行与第3 行图中红色方框细节的放大。由图7(f)可知,所提出的FA-Unet 网络模型尤其在器官边界分割效果明显,与其他4 种网络相比更为精细,特别是能保持器官之间的连续边界。
本研究探索了一种多尺度特征感知的胸腔危及器官分割方法,其出发点是实现胸腔危及器官的自动勾画,有效提高分割的准确性,为患者的放射性治疗计划提供保障,同时在一定程度上降低医生的工作强度,辅助临床医生完成治疗任务。
在本研究过程中,为了直观对比胸腔危及器官分割的性能,对前期一系列的自动分割模型,如FCN[12]、U-Net[13]、Dense-Unet[15]、SegNet[26],进行了探索,并从定量衡量指标与2D 切片分割结果的可视化来评价不同方法的有效性。基于FCN[12]与SegNet[26]的网络模型能有效实现危及器官分割,但是目标细节信息丢失较多,造成心脏与主动脉等器官边界的分割边界不连续。因为这两种模型没有考虑浅层网络与深层网络之间的特征映射关系,从而缺乏危及器官图像中的上下文信息。U-Net[13]、Dense-Unet[15]网络扩展了FCN 的结构,引入跳跃连接,实现了编码层与解码层之间的特征映射,增加了大量的上下文信息,较好地解决了目标细节信息丢失的问题,在体积较大的器官分割上呈现出不错的性能,例如心脏。但是,U-Net[13]与Dense-Unet[15]网络在体积较小的器官分割上性能欠佳,在食道与气管的分割中很明显地出现了过分割与欠分割的情况,其主要原因在于U-Net[13]与Dense-Unet[15]网络模型中对图像进行了多次的卷积、下采样与上采样,造成食道与气管体积较小器官的细节信息丢失,同时破坏了二者的语义信息。
为了解决危及器官中较小目标的分割问题,本研究提出了一种基于FA-Unet 的分割模型,采用编码-解码网络作为基本架构,首先构建了输入感知模块,利用不同感受野的卷积核,挖掘尺寸差异较大的各类器官的多尺度特征,避免小目标的细节与位置信息丢失;在新的网络结构中,在编码-解码的跳跃连接中改变了直连方式,融入改进的inception模块来优化U-Net 的网络结构,主要是为了弥补浅层特征与深层特征之间的语义鸿沟。最后,对模型进行轻量化的设计,仅采用2 次上采样与下采样,同时利用ESP 与PSP 构建编码模块与解码模块,以加强多尺度特征的编码与解码,其目的是为了提高气管与食道等小目标器官的特征利用率,同时降低计算复杂度。最后,在公开的数据集SegTHOR[20]上的验证了本模型的有效性。由表5 可知,与FCN[12]、U-Net[13]、Dense-Unet[15]、SegNet[26]相比,本研究提出的FA-Unet 模型在食道与气管等小目标器官的分割性能有较大的提升,获得了更高的DSC 值与更低的HD 值。由图7(f)可以看出,通过FA-Unet 模型自动分割的不同器官形状与金标准(见图7(g))总体上更为一致,不仅保持了不同器官边界的连续性,而且对形状不规则的器官分割亦较为准确。最后,从表4 中可以看到,FA-Unet 模型的参数仅为2.8 M,具有更高的计算效率,这说明本模型更适用于小数据量的医学图像的分割。
图7 5 个不同患者胸腔图像的分割结果。(a)~(g)原始图、FCN、SegNet、U-Net、Dense-Unet、FA-Unet 的分割结果与金标准Fig.7 Segmentation results of thoracic CT images of 5 patients.(a)~(g)Original images, the segmentation results of FCN、SegNet、U-Net、Dense-Unet、FA-Unet and ground truth
本研究的分割模型虽然取得了一定的效果,但是仍然存在一些不足,特别是在体积极小且形状极不规则的器官边缘等细节的分割上,如会出现食道边界的断裂情况,表明该模型对于极小目标的特征提取仍然存在提升的空间。这根本原因在于,受成像设备以及图像配准等诸多因素的影响,许多切片中食道、气管的图像信息丢失较为严重。尽管本研究采用了切片叠加处理,但并不能彻底解决切片中信息丢失的问题。因此,还需要在前期进行数据预处理,并结合胸腔危及器官的先验知识与深度网络进行训练,才能进一步在深度网络中学习到极小目标区域的潜在特征,以此来提高胸腔CT 图像危及器官分割的整体性能,这将是本课题下一步的工作重点。另外,医学图像数据规模小,由于医学图像涉及患者的私人信息,在数据获取方面比较困难,同时数据的标注亦需要大量的专业医师付诸多番精力,所以未来需要采用更多的医学图像来验证模型的泛化性能。
提出一种多尺度特征感知的编码-解码网络模型,实现了胸腔CT 图像危及器官的自动分割。一方面,该模型通过构建输入感知模块与改进的inception 模块,同时提取图像中各类器官的多尺度细节特征与语义特征,提高了模型的分割精度;另一方面,利用有效的ESP 与PSP 模块替代串行卷积运算,使得网络模型更为轻量化,在一定程度上缓解数据量不足带来的过拟合问题。提出的网络模型参数量仅为2.8 M,该网络与同类型的U 型编码解码网络相比,在精度与运算效率上具有竞争性的优势,对形状大小存在差异较大的危及器官的分割较为精细。轻量化网络对胸腔中的食道与气管的分割更加准确,亦更适用于医学小数据集图像的分割以及临床应用。