潘沛克 王艳 罗勇 周激流
摘 要:鼻咽肿瘤生长方向不确定,解剖结构复杂,当前主要依靠医生手动分割,该方法耗时久同时严重依赖于医生的经验。针对这一问题,基于深度学习理论,提出一种基于U-net模型的全自动鼻咽肿瘤MR图像分割算法,利用卷积操作替换原始U-net模型中的最大池化操作以減少特征信息的损失。首先,从所有患者的肿瘤切片中提取大小为128×128的区域作为数据样本;然后,将患者样本分为训练样本集和测试样本集,并对训练样本集进行数据扩充;最后,选择训练样本集中所有数据用于训练网络模型。为了验证所提模型的有效性,选取测试样本集中患者的所有肿瘤切片进行分割,最终平均分割精度可达到:DSC(Dice Similarity Coefficient)为80.05%,PM系数为85.7%,CR系数为71.26%,ASSD(Average Symmetric Surface Distance)指标为1.1568。与基于图像块的卷积神经网络(CNN)相比,所提算法DSC,PM(Prevent Match)、CR(Correspondence Ratio)系数分别提高了9.86个百分点、19.61个百分点、16.02个百分点,ASSD指标下降了0.4364;与全卷积神经网络(FCN)模型及基于最大池化的U-net网络相比,所提算法的DSC、CR系数均取得了最优结果,PM系数较两种对比模型中的最大值低2.55个百分点,ASSD指标较两种对比模型中的最小值略高出0.0046。实验结果表明,所提算法针对鼻咽肿瘤图像可以实现较好的自动化分割效果以辅助医生进行诊断。
关键词:鼻咽肿瘤;医学图像分割;深度学习模型;端到端模型;U-net模型
中图分类号:TP391.41
文献标志码:A
文章编号:1001-9081(2019)04-1183-06
Abstract: Because of the uncertain growth direction and complex anatomical structure for nasopharyngeal tumors, doctors always manually delineate the tumor regions in MR images, which is time-consuming and the delineation result heavily depends on the experience of doctors. In order to solve this problem, based on deep learning algorithm, a U-net based MR image automatic segmentation algorithm of nasopharyngeal tumors was proposed, in which the max-pooling operation in original U-net model was replaced by the convolution operation to keep more feature information. Firstly,the regions of 128×128 were extracted from all slices with tumor regions of the patients as data samples. Secondly, the patient samples were divided into training sample set and testing sample set, and data augmentation was performed on the training samples. Finally, all the training samples were used to train the model. To evaluate the performance of the proposed U-net based model, all slices of patients in testing sample set were selected for segmentation, and the final average results are: Dice Similarity Coefficient (DSC) is 80.05%, Prevent Match (PM) coefficient is 85.7%, Correspondence Ratio (CR) coefficient is 71.26% and Average Symmetric Surface Distance (ASSD) is 1.1568. Compared with Convolutional Neural Network (CNN) based model, DSC, PM and CR coefficients of the proposed method are increased by 9.86 percentage points, 19.61 percentage points and 16.02 percentage points respectively, and ASSD is decreased by 0.4364. Compared with Fully Convolutional Network (FCN) model and max-pooling based U-net model, DSC and CR coefficients of the proposed method achieve the best results, while PM coefficient is 2.55 percentage points lower than the maximum value in the two comparison models, and ASSD is slightly higher than the minimum value of the two comparison models by 0.0046. The experimental results show that the proposed model can achieve good segmentation results of nasopharyngeal neoplasm, which assists doctors in diagnosis.
Key words: nasopharyngeal neoplasm; medical image segmentation; deep learning model; end-to-end model; U-net model
0 引言
医学图像在临床诊断中发挥着极其重要的作用。近年来,随着医学成像技术的进步和图像处理技术的不断发展,针对医学图像的图像处理技术逐渐发展成为一个重要的研究领域,其中医学图像分割更是一个具有很高临床应用价值的研究方向。医学图像分割技术的目的是通过设计自动或半自动的分割算法,将医学图像中医生感兴趣的部分分割出来,并使分割结果尽可能地接近该区域的原始结构。医学图像分割在临床诊断、病理诊疗方面具有重要意义,利用分割后的图像测量病灶体积可以辅助医生确定病情以制定治疗计划,利用肿瘤分割图像可以辅助医生标定放疗靶区。在医学图像分割问题中,针对肿瘤的图像分割问题是一个难点,其中针对鼻咽肿瘤的分割尤其困难。
鼻咽肿瘤是一种常见的恶性头颈部肿瘤,其生长于鼻咽部位置,具有较高的致死率。鼻咽肿瘤多发于中国的南部地区、中东地区、东南亚地区以及北非地区[1],根据一份公开的报道[2],2012年在世界范围内有超过8万例的新增鼻咽肿瘤患者被诊断出,有3万例患者因患鼻咽肿瘤死亡,在这些患者中,有大量患者被检出时已是肿瘤晚期,因而错过了最佳的治疗阶段。当前,医生对鼻咽肿瘤的诊断大部分基于病人的核磁共振成像(Magnetic Resonance Imaging, MRI)图像,通过医生的手工勾画实现对MRI图像中鼻咽肿瘤区域的提取。手工勾画的方式主要存在两个问题:一是耗时长,医生需要花费大量的时间为病人勾画肿瘤区域,效率低下;第二是手工勾画结果严重依赖于医生的经验,对于同一个病人的MRI图像不同医生可能得到不同的勾画结果。针对传统的由医生手工进行勾画存在的问题,一些研究人员开始研究自动化或半自动化的鼻咽肿瘤图像分割算法,通过软件对鼻咽肿瘤区域进行分割,从而辅助医生进行鼻咽肿瘤的诊断和治疗。
1 国内外研究现状
当前,在医学图像分割领域,已经有大量应用传统机器学习算法的模型,这些模型被广泛应用到如脑肿瘤分割、海马体分割等领域[3-5]。但对于鼻咽肿瘤分割,由于鼻咽肿瘤生长区域不确定,在电子计算机断层扫描(Computed Tomography, CT)图像和MRI图像中边界不明显,同时鼻咽部解剖结构复杂,包含多种组织,且鼻咽肿瘤区域常与正常组织发生混叠,因此针对鼻咽肿瘤的分割十分困难。当前国内外对鼻咽肿瘤自动分割算法的研究较少,但仍有一些研究学者在该领域作出了卓有成效的工作。如Tatanun等[6]提出了一种基于区域生长的分割算法,该算法利用像素点灰度值、非肿瘤区域等先验知识初始化种子点实现对鼻咽肿瘤CT图像的分割;Fitton等[7]采用加权CT及MRI图像进行鼻咽肿瘤分割,该方法基于一种交互的方式,以医生初步勾画的肿瘤区域为基准进行优化,该方法在一定程度上可以提高分割效率,但无法显著提升肿瘤分割精度;Huang等[8]提出了一种基于最大熵的隐马尔可夫随机场模型对鼻咽肿瘤MRI图像进行分割;Zhou等[9]提出了一种基于支持向量机的模型,其将T1权重及加权的T1权重MRI图像的特征投影到多维空间,通过支持向量机对多维空间中的特征进行分类,从而实现对鼻咽肿瘤图像的分割。
近些年来,随着深度学习的发展,基于深度卷积神经网络及其变种的模型被广泛应用于医学图像处理的各个领域中并取得了相当好的效果[10-12]。其中医学图像分割是最为常见的一类研究课题,而卷积神经网络(Convolutional Neural Network, CNN)及其变种是医学图像分割问题中最为常见的算法模型之一。如Ciresan等[13]利用二维卷积神经网络实现了对电子显微镜成像图像的分割;Zhang等[14]利用深度卷积神经网络实现对多模态脑部图像的分割。虽然这些基于CNN的算法模型在相关问题上已经取得了较好的表现,但是这些方法都存在着共同的问题,即:所有网络都是以图像块作为输入,大量重叠的图像块带来的冗余计算增大了对网络进行测试的时间开销,同时图像块大小会影响所训练网络的性能。针对这一问题,有很多研究人员开始采用基于全卷积神经网络的模型来解决图像分割问题,全卷积神经网络(Fully Convolutional Network, FCN)[15]是一种端到端模型,它可以将整张图片作为网络的输入并生成相应整张图片输出,从而避免了使用图像块带来的問题。
虽然目前深度学习模型被广泛应用到医学图像分割中,但针对鼻咽肿瘤的深度学习算法模型还很少,受此启发,本文基于深度学习理论,提出一种基于U-net模型[16]的鼻咽肿瘤分割算法,U-net模型作为一种端到端模型,因其在少量训练数据下仍能获得较好的训练效果因而适用于往往只有少量可用数据的医学图像处理领域。
2 相关知识
2.1 线性整流激活函数
相对于最原始的感知机结构不采用激活函数,输出始终是输入的线性组合。
在当前的神经网络模型中,往往在卷积层之后引入非线性激活函数,从而使得神经网络的输出不再是输入的线性组合,因此相关网络模型理论上可以逼近任意函数,从而有效地提升了网络模型的表达能力。常用的非线性激活函数主要有:sigmoid函数、tanh函数、线性整流(Rectified Linear Unit, ReLu)函数及maxout函数。其中ReLu激活函数定义如下:
相对于sigmoid函数和tanh函数由于饱和区域带来的梯度消失的问题,ReLu激活函数采用单侧抑制非饱和计算公式,能有效解决深层网络的收敛问题并加速收敛过程。同时相对于maxout函数,ReLu函数参数数量较少,更易于使用。当前ReLu函数被广泛应用于各类网络模型中,在本文网络结构中同样选择采用ReLu函数作为激活函数。