肖波,朱旭东,魏华江,魏波,陈同生,3
1. 华南师范大学生物光子学研究院 a. 教育部激光生命科学重点实验室;b. 广东省激光生命科学重点实验室,广东 广州 510631;2. 中山大学第三附属医院 胃肠外科,广东 广州 510630;3. 华南师大(清远)科技创新研究院有限公司,广东 清远 511517
直肠癌是指从齿状线至直肠乙状结肠交界处之间产生的癌变,是临床常见的恶性肿瘤,属于一种消化系统恶性肿瘤,具有较高的发病率和死亡率[1]。相关数据显示,世界各国每年新发直肠癌患者数量超过120万,其中死亡患者将近60万,死亡率接近50%[2]。术前准确T分期是临床治疗直肠癌的前提和基础。目前,临床对于直肠癌术前分期的判定,主要是通过影像学检查实现,其中CT扫描速度快、操作简单,但是由于难以分辨直肠壁层次结构,导致术前T分期诊断准确性受到一定的影响,因而符合率相对偏低。且直肠肿瘤的分割主要依赖放射科医生手动勾画,这种方法不仅主观性强且耗时费力[3]。所以准确且快速地在直肠癌CT图像中分割出肿瘤和确定其T分期对直肠癌临床治疗是非常有帮助的。
过去对直肠癌T分期大多是基于图像的纹理特征[4-6]。基于深度卷积神经网络的医学图像处理方法不同于影像学检查,其构建的模型可以自动学习提取和选择图像特征并进行预测,从而能更全面、深入地挖掘图像中的信息[7]。如Shelhamer等[8]2015年提出全卷积网络(Fully Convolution Network,FCN),实现了从端到端的图像分割,将图像级分类提升到像素级分类。Ronneberger等[9]2015年在全卷积网络的基础上提出U-Net网络,它是一个完全对称的U型结构且采用维度拼接的方式进行特征融合,在医学图像分割上应用广泛[10-12]。Badrinarayanan等[13]2017年在全卷积网络的基础上提出了SegNet网络,主要在网络的编码和解码上做出了改进。分类网络中Krizhevsky等[14]提出的AlexNet模型在同年举办的图像分类竞赛中获得冠军,此后,更多的更深更宽的神经网络被提出[15-16]。Szegedy等[17]提出的InceptionV1模型在2015年ILSVRC比赛分类任务上以93.3%的正确率获得该届比赛的冠军,后改进模型提出InceptionV3[18]。这些分类器模型在医学图像分类上都取得了很好的效果[19-20]。
放射科医生主要根据直肠和肿瘤的相对位置来确定直肠癌肿瘤T分期,因此本研究先利用深度卷积神经网络模型单独分割直肠和肿瘤区域,再根据分割的结果进行分类,最终得出不同深度卷积神经网络模型在直肠癌CT图像上肿瘤分割和肿瘤T分期的情况,判断能否为直肠癌临床诊断中治疗方案的制定提供有价值的参考信息。
本研究获取了2010年3月至2019年7月广州市中山大学附属第三医院收治的763例直肠癌患者的临床资料。每位患者的CT图像中均包含动脉期、静脉期、平扫期和延时期4个扫描时期的图像。在医生的指导下从240名患者的4个扫描时期中各挑选一张较为典型和清晰的图像共960张作为数据集,由放射科医生标注出直肠和肿瘤区域,所有患者的直肠癌肿瘤T分期均有病理诊断结果。图1为放射科医生标注后的直肠癌CT图。
图1 放射科医生的标注结果
本研究用到的网络模型包括分割模型和分类模型。分割模型采用FCN、U-Net、SegNet作为基础网络构架,通过网络中间层得到包含多尺度信息的特征图。FCN全卷积网络中无全连接层,可以输出与输入图像相同的尺寸。其中FCN分割网络下采样过程中直肠癌图像经过5个卷积层和5个最大池化层得到特征图pool5,FCN-32s网络为直接用pool5预测分割区域。将pool5经过反卷积得到特征图pool6,FCN-16s网络为用pool6与pool4叠加的特征图预测分割区域。pool6与pool4叠加后的特征图经过反卷积得到特征图pool7,使用的FCN-8s网络为用pool7与pool3叠加的特征图预测分割区域。利用U-Net分割网络分割直肠癌CT图像,其中下采样过程中直肠癌图像经过5个卷积层和5个最大池化层;上采样过程中图像经过5个反卷积层,且每层得到的特征图与下采样过程中对应的特征图拼接融合,最终分割出目标区域。SegNet分割模型与U-Net模型基本类似,仅在下采样最大池化操作时记录各个位置并在上采样时将记录的位置反馈回去得到更加准确的特征图。分类模型采用简单CNN、AlexNet和InceptionV3。作为基础网络构架。简单CNN模型分类器包含3个卷积层,2个池化层和2个全连接层。网络使用3×3的卷积核以及用线性激活函数ReLU激活,学习率设为0.01、迭代次数为100次。
本研究采用目前应用广泛的深度卷积神经网络模型对直肠癌CT图像进行分割和T分期研究,处理流程如图2所示。将训练集中所有标注后的CT图像的直肠模板图和肿瘤模板图分割出来;将无标注的原图和肿瘤模板图输入肿瘤分割网络进行训练;将无标注的原图和直肠模板图输入直肠分割网络进行训练;将测试集中的图像分别输入训练好的肿瘤分割网络和直肠分割网络,分别得到肿瘤和直肠的模板图;与标注的肿瘤区域和直肠区域对比得出评估指标Dice、精确度和召回率。分类中首先不用分割网络将训练集中原图直接输入分类器训练分类网络、测试集中图像直接输入训练好的分类器网络得出分类结果,与病理结果对比得出分类的准确率、特异性和灵敏度。配合分割网络一起使用时,将训练集中原图、肿瘤模板图以及直肠模板图共同输入分类器训练分类网络,然后先将测试集中的图像输入肿瘤分割网络和直肠分割网络得到肿瘤和直肠的模板图,再将原图和分割的模板图输入训练好的分类器进行分类得到分类的准确率、特异性和灵敏度。
图2 图像分割和分类处理流程
因为直肠区域和肿瘤区域存在重叠部分,所以需要将他们单独分割。图3为测试集中随机选取的4张直肠癌CT图像的肿瘤标注和分割结果。第1列为未标注原图,第2列为肿瘤标注图(其中红色区域为肿瘤),第3列为真实的肿瘤区域图,第4、5和6列分别为FCN-8s、U-Net和SegNet分割出的肿瘤模板图。图4为图3中选取的4张直肠癌CT图像的直肠标注和分割结果。第1列为未标注原图,第2列为直肠标注图(其中红色区域为直肠),第3列为真实的直肠区域图,第4、5和6列分别为FCN-8s、U-Net和SegNet分割出的直肠模板图。从图中基本可以看出U-Net模型分割的结果与真实结果重合度最好,FCN-8s分割的结果与真实结果重合度较差。
图3 肿瘤分割结果
图4 直肠分割结果
模型的分割性能通过戴维斯系数、精确度和召回率来评估,评估指标值越大分割性能越好,评估公式如公式(1)~(3)所示。
式中,Dice为戴维斯系数,Precision为精确度,Recall为召回率;TP、FP和FN分别代表分割结果中真阳性、假阳性和假阴性的体素数量。
表1为测试集上3种分割模型分割肿瘤区域的平均统计结果。表2为测试集上3种分割模型分割直肠区域的平均统计结果。其中U-Net模型对直肠和肿瘤分割的戴维斯系数、精确度和召回率都是最高的。FCN-8s模型分割效果相对较差。
表1 肿瘤分割结果(%)
表2 直肠分割结果(%)
本研究用简单CNN、AlexNet和InceptionV3分类模型对直肠癌CT图像进行分类,并比较了直接分类直肠癌CT图像和先用U-Net网络分割后再进行分类的结果。分类性能用准确率 、特异性和灵敏度评估,评估指标值越大分类性能越好,评估公式如公式(4)~(6)所示。
式中,Accuracy为准确率,Sensitivity为灵敏度;Specificity为特异性;TP、FP、TN、FN分别代表分割结果中真阳性、假阳性、真阴性、假阴性的体素数量。
表3为测试集上T2和T3期分类结果统计。其中当不用分割网络时简单CNN模型的分类准确率、特异性和灵敏度接近50%,分类性能很差;AlexNet模型的分类准确率、特异性和灵敏度接近80%,分类性能较好;InceptionV3模型的分类准确率、特异性和灵敏度接近85%,分类性能最好。当先用U-Net分割后再分类时简单CNN模型的分类性能大幅提升,AlexNet模型和InceptionV3模型的分类性能略微提高。且InceptionV3模型对直肠癌的分类效果总是最好的。
表3 T2期和T3期分类结果(%)
表3的结果表明在U-Net分割基础上InceptionV3 模型的分类效果是最好的。表4为U-Net分割的基础上用InceptionV3模型分别分类T1期和T2期、T2期和T3期、T3期和T4期的结果。对直肠癌T1期和T2期的区分主要看肿瘤是否穿过直肠内壁,对T2期和T3期的区分主要看肿瘤是否穿过直肠壁肌肉层到达直肠外壁,对T3期和T4期的区分主要看肿瘤是否穿过直肠外壁。因直肠壁肌肉层相对较厚,所以InceptionV3模型对直肠癌T2~T3期的分类效果最好,对T1~T2期、T3~T4期的分类相对较差。
表4 U-Net分割后使用InceptionV3模型的分类结果(%)
为防止训练的时候出现过度拟合的问题将所有分类网络的迭代次数设置为100次。其中分类直肠癌T2期和T3期的网络中学习情况和迭代次数的关系如图5a所示,训练的损失和迭代次数的关系如图5b所示。迭代100次左右后训练的准确率几乎不变,且除了简单CNN模型外其余模型损失函数都收敛。
图5 分类器模型训练结果
受试者工作特征 (Receiver Operating Characteristic, ROC)曲线分析技术越来越多地被应用在机器学习和数据挖掘领域中,用来全面度量分类器的性能。图6为不同分类器分类直肠癌T2和T3期的ROC曲线。InceptionV3分类器模型曲线下面积(Area Under Curve,AUC)值最大,模型分类性能最好;AlexNet分类器模型AUC值相对较大,模型分类性能也很好;简单CNN分类器模型与U-Net分割网络一起使用时模型分类性能好,而单独使用时分类性能很差。
图6 分类器模型的ROC曲线
直肠和肿瘤的分割中由于肿瘤和直肠区域存在一定的重合且有些形状较为类似,难以在一个分割网络中同时准确分割出来,所以本研究使用两个网络分别分割直肠和肿瘤。其次就是部分患者的CT图像成像不清晰或直肠区域较为模糊不清使得最终的可用数据集大小有限。专业的放射科医生稀缺,数据仅由一个放射科医生进行标注可能导致标注的区域存在一定的随机性和误差。目前尚无开放的直肠肿瘤CT图像数据库,难以保证在其他数据集上也有很好的分割和分类效果。而U-Net模型是目前公认的在医学图像分割上性能很好的,这一点在我们的数据集上也得到了验证。
2014年美国国立综合癌症网络直肠癌临床实践指南推荐分期为Tl~T2的患者使用直肠全系膜切除术;T3~T4的患者则推荐先接受新辅助放化疗,所以临床上区分直肠癌T分期是很有意义的。本研究先直接用没有标注的原图训练简单CNN、AlexNet和InceptionV3分类模型,简单CNN模型分类效果很差,准确率仅为50%左右;InceptionV3模型分类效果相对较好,准确率为85%左右。配合U-Net分割网络后模型分类性能都有较大的提升,其中InceptionV3模型分类效果最好,准确率为95.4%。说明从直肠和肿瘤的相对位置入手让机器自动确定T分期具有一定的可行性。
深度卷积神经网络模型在直肠癌T分期上有很好的预测效果,如Kim等[21]2019年用AlexNet和InceptionV3模型分类133例直肠癌T2和T3期患者的MRI图像,分类的准确率分别为89%和94%。未来深度卷积神经网络模型在预测局部晚期直肠癌在新辅助放化疗后的缓解情况、直肠癌术前N分期、直肠癌术前M分期、预测患者的生存期以及预测肿瘤的基因突变等方向也都将有广泛的应用。尽管预测效果很好,但计算机视觉诊断只能作为一种辅助工具和手段,还不能成为最终的结果,最终的结果通常需要病理医生根据病理结果确认。但是计算机辅助诊断的作用也是不容忽视的,且未来的发展前景巨大。
直肠癌CT图像的分割中U-Net模型的分割性能优于FCN-8s和SegNet模型。直肠癌CT图像的分类中InceptionV3模型的分类性能优于简单CNN和AlexNet模型。在U-Net分割的基础上使用简单CNN、AlexNet和InceptionV3分类模型能显著提高分类准确率。因此深度卷积神经网络模型在直肠癌CT图像上进行肿瘤分割和术前T分期有较好的应用前景,能为直肠癌临床治疗方案的制定提供有用的信息。