摘要:乳腺癌在女性癌症发病中一直位居首位,已成为危害女性健康的重要因素。在乳腺检查方面,医生通过X射线、超声、磁共振等影像资料可以获得有效信息。然而随着影像数据不断增长,以及患者对影像诊断精准度的追求不断增高的背景下,影像医生的工作量明显增大,亟需可以快速、精准诊断疾病的工具。随着人工智能的技术发展,深度学习在各个领域大放异彩,利用深度学习技术准确无误的进行乳肿块的分割对于乳腺癌的诊断以及后期治疗具有重要的意义。
关键词:深度学习;图像分割;乳腺癌
1.引言
2018年2月国家癌症中心发布的《2018年全国最新癌症报告》[1]中指出中国2014年新增癌症患者380.4万人,229.6万人死于癌症,乳腺癌在女性癌症发病中一直位居首位,已成为危害女性健康的重要因素之一[2]。美国癌症协会(American Cancer Society,ACS)研究表明早期肿瘤在癌细胞未扩散的情况下,5 年生存率明显高于中晚期肿瘤,尤其是乳腺癌可高达 98%。因此及早发现癌症可以提高患者的生存率和生存质量。
通常情况下,影像检测是对疾病进行诊断的首选检查方式,医生会根据患者在入院检查时得到的影像图片及相关文字说明直接得出诊断结果进行治疗或者制定进一步的检查方案。在乳腺检查方面,主要的影像检查为X射线、超声、磁共振等。而钼靶检查,又称乳腺钼靶软X线摄影检查[3],是一种常规的检查手段,简便可靠,并且图像分辨率高,对乳腺癌的早期发现和诊断具有重要的作用。传统的乳腺X线摄影检查优势在于发现细小钙化,而对于影像医生来说,想要利用乳腺X线摄影图像做出精确诊断尤其是对那些非均质乳腺以及致密型乳腺的患者来说并非易事[4]。随着影像数据不断增长,以及患者对影像诊断精准度的追求不断增高的背景下,影像医生的工作量明显增大,亟需可以快速、精准诊断疾病的工具。因此,人工智能在医学图像上的应用将成为解决主要矛盾的关键[5]。
训练深度神经网络需要大量的样本,在樣本不充足的情况下,可能导致网络在训练过程中无法有效提取足够多的特征或训练出来的模型分割能力差。而医学图像尤其是乳腺方面的图像,基于患者隐私的问题,很少有公开的样本可以用于训练。基于目前公开且已完成标注的乳腺数据集,提出了基于全卷积神经网络模型的乳腺肿块图像分割系统,选择FCN全卷积深度网络模型作为基本的网络模型,通过对下采样部分的改进和微调实现对乳腺肿块的精准分割。同时,为了提高分割速度及准确率,本文还针对乳腺图像进行进一步处理,去除了大量噪音,提取了乳腺图像的主要区域。与传统的分割方法相比,本文提出的网络优化模型可以达到更好的分割效果。
2乳腺肿块分割模型设计
本文搭建的乳腺肿块分割过程如图1所示。该系统由数据集预处理部分、全卷积神经网络的模型训练与特征提取部分、反卷积输出肿块分割结果组成。在对乳腺图像进行分割时,需要首先对原数据集进行去除噪音的预处理操作,之后将预处理好的图像输入到网络优化模型中进行训练与特征提取,最后将提取到的特征通过反卷积操作进行逐像素分类,实现乳腺肿块的分割。
2.1数据集预处理
由于获取的原始数据集存在噪声污染、样本容量小等问题,如果直接将原数据集用于网络模型训练,模型精准率非常不理想。因此,为了更方便的提取乳腺肿块特征,得到更高的乳腺肿块识别准确率,需要对原始数据集进行加工。处理步骤为:(1)删除无使用价值的图像。(2)对图像进行伽马调整。(3)提取乳腺区域。(4)对数据进行增广。
2.2网络模型
近年来随着CNN技术的不断发展,越来越多的网络架构出现在各大开源平台上,其中VGGNet模型以其泛用性及在图像识别领域的显著贡献而被广泛使用。
本文提出的FCN-RVGG19-8s模型以FCN网络模型[6]作为基本结构,结合R-VGGNet模型思想[7],对FCN-VGG19模型进行优化,其网络结构如图2所示。FCN-8s模型以VGG-19[8]作为基础网络结构,卷积层共分8个阶段,前5个阶段和VGG19网络是相同结构,由3x3的卷积核和2x2的最大池化层组成,最后3层将全连接层替换为卷积层,构成全卷积网络。针对卷积层庞大的参数进行优化。因本次研究主要针对乳腺区域是否存在肿块进行识别,缩减最后三个卷积层庞大的参数。其中设置第6、7段卷积层输出神经元个数均为1024个,第8段卷积层输出神经元个数为2个,这样得到的网络相对之前的网络,训练参数相较于VGG19网络的1.44亿个减少到大约0.46亿个,训练模型的参数存储文件大小也由1.67GB缩减到543MB,提升了模型的训练速度,缩短了训练时间。
整个模型主要由上采样和下采样两个过程组成,下采样部分由卷积层、激活层、池化层组成。卷积层是基于FCN的深度学习网络中重要的组成部分,卷积运算的主要目的在于提取特征。本文卷积层的设置为若干个3×3大小的卷积核的堆叠,并使用ReLU函数增加模型的非线性。
池化层是为对数据进行下采样操作而设计的,通过对输入特征图进行压缩减少网络计算复杂度,而对于特征的压缩,也更利于提取主要特征。池化层连接在卷积层后面,通过池化操作来降低卷积层输出的特征向量,改善结果,避免发生过拟合。
上采样部分主要由反卷积操作完成,将从最后一个卷积层中获得的特征图恢复到输入图像的原始尺寸,并通过卷积和补位的操作还原多出的空白像素点。本次研究FCN-VGG19-8s网络结构的反卷积操作采用转置卷积的方法进行反卷积,具体操作过程如图2中橙色方块所示,经过三次反卷积上采样后,最终得到与输入乳腺图像大小相同的乳腺分割结果图。
3实验设计与分析
3.1实验设计
本文使用的神经网络模型基于TensorFlow框架搭建。实验基于CPU为Intel i5-7300HQ,显卡为NVIDIA GeForce GTX 1050图形处理单元(Graphic Processing Unit,GPU)上搭建的TensorFlow框架平台,主要编程语言为Python。
在实验中,本章设置学习率(learning rate)为 0.0001,使用Adam优化算法,动量设置为0.9,在动量的作用下,如果该时刻的梯度和之前梯度方向相似,则这种更新趋势在当前时刻得到加强,如果不同,则当前时刻梯度方向被减弱,加速网络的收敛速度。
为了降低计算复杂度,在调整网络参数时,一般采用分批进行训练,使用的批次大小(batch size)为6,迭代周期(epoch)为40次。使用开源工具PyCharm搭好实验的模型框架后,直接从初始值开始训练。损失函数设置为交叉熵损失函数,计算预测值和真实值之间的差异,通过前向传递损失的梯度更新网络参数。为了对比提取乳腺区域对分类精度的影响及本次研究提出模型的优化度,设计两组组对比试验。
3.2实验结果分析
第一组实验:为了验证提取乳腺区域对分割精度的影响,分别使用未进行乳腺区域提取的图片和提取了乳腺区域的数据集进行训练,结果用损失函数的损失值(loss)作为评价标准。
图3为对不同数据集的训练时,网络模型中loss随迭代次数的增加而变化的曲线图。从下图中可以看出,使用提取乳腺区域的数据集,网络收敛速度更快,loss值更小。因此使用预处理过的数据集,可以减少训练时间,减少训练损失,增加模型识别精度。
第二组实验:为了证明对模型参数的优化程度,分别使用原始FCN-VGG19-8s模型和改进后的FCN-RVGG19-8s模型对同一训练集进行训练,最后从测试时间与loss值、整体准确率(Overall Accuracy,OA)与F1分数对本文方法的实验结果进行量化评价[9]。
优化了参数后的模型在迭代100次后,loss值从0.03讲到了0.01,但训练时间缩短了106秒,每次迭代将节省时间约为1秒。通常卷积神经网络的训练次数均在万次以上,使用优化了函数后的模型,可以节约大量的时间,提高了網络运行速度。
优化后的网络模型分别对乳腺X射线图像进行肿块分割的结果如图4所示,从左到右分别为预处理后的乳腺图像、专家标注的肿块区域图、FCN-VGG19-8s模型分割结果和本文优化模型训练后得到的分割结果图。可以看到,乳腺区域的识别基本可以达到要求,得到的分割结果和乳腺区域的轮廓基本接近。乳腺区域分割的网络的训练时间为3个小时,在测试集上平均分割一张图像的时间为0.6秒,分割速度较为满意。
表1中展示了图4的三张乳腺图像的分割结果,三张图像自上到下标号为1至3号,其中黑色加粗字体表示每组实验的最优值。从整体准确率可以看到,本次实验提出的优化模型对肿块的分割都达到了优异的成绩。而从F1分数可以看出,使用优化后的神经网络模型,肿块分割的准确率有了明显的提升。结果表明,优化后的神经网络模型优于FCN-VGG19-8s的神经网络模型。
4 结束语
本文主要研究了乳腺X射线图像中的乳腺肿块的分割技术。该技术使用全卷积网络实现了乳腺肿块的分割,通过改进网络优化分割结果,实现了乳腺肿块的识别,证明了优化方案在乳腺肿块分割问题上的有效性。本文虽然实现了乳腺肿块的分割,但没有设计肿块良恶性分类的问题,后续可以实现肿块识别、分割及分辨良恶性的联合检测,进一步提高乳腺癌的确诊率。
参考文献
[1]Wanqing Chen;Kexin Sun;Rongshou Zheng;Hongmei Zeng;Siwei Zhang;Changfa Xia;Zhixun Yang;He Li;Xiaonong Zou;Jie He;;Cancer incidence and mortality in China,2014[J];Chin J Cancer Res 2018;30(1)
[2]陈万青,郑荣寿.中国女性乳腺癌发病死亡和生存状况.中国肿瘤临床,2015,42(13):668-674.
[3]牟灿.钼靶X线在乳腺肿瘤诊断中的应用价值[J].中国医药指南,2016,14(16):19-20.
[4]Li J,Ke CL.Breast imaging protocol options and the attention in clinical application.Chin J Gen Practitioners,2018,17(3):167-170.
[5]陈永晔,张恩龙,张家慧,等.基于影像学的多种人工智能算法在肿瘤研究中的应用进展[J].磁共振成像,2018.9(10):769-800.
[6]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C].IEEE Conference on Computer Vision and Pattern Recognition,2015:1-9.
[7]徐志京,汪毅.青光眼眼底图像的迁移学习分类方法[J].计算机工程与应用,2021,57(03):144-149.
[8]He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C].IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.
[9]Kraemer H C,Periyakoil V S,Noda A.Kappa coefficients in medical research[J].Statistics in Medicine,21(14):2109-2129.
作者简介:金徐恒,1991.02,男,回,江苏徐州,研究生在读,软件工程。