基于数据扩增和迁移学习的Mask R-CNN脑CT图像自动分割研究

2021-11-12 00:58王琮智许梓璧马祥园洪子澜郭燕春

中国生物医学工程学报 2021年4期

王琮智许梓璧马祥园洪子澜方强* 郭燕春

1(汕头大学生物医学工程系，广东汕头 515063)2(汕头大学医学院第二附属医院神经外科，广东汕头 515000)3(上海交通大学生物医学工程学院，上海 200240)

引言

脑出血或者脑溢血(cerebral hemorrhage)是指非外伤性的脑实质内出血，脑出血具有高发病率、高死亡率的特点，年发病率达每10万人中60～80人，急性期病死率达到30%～40%[1]。脑出血发病急，病情进展快，应尽早评估病情发展和临床预后，制定治疗方案并采取干预措施，进而改善预后效果，特别是降低致残率。目前随着科技的发展，CT影像已成为诊断脑出血的重要手段。医师在对脑出血进行诊断和治疗时，需要将目标区域的位置、形状及周围重要脑组织的边界分割出来。文献[2-3]显示，位于脑深部(基底节区、丘脑)的脑出血，占所有脑出血病例的63.2%～63.3%，脑干出血占比8.3%～9.0%，小脑出血占比2.5%～3.3%。因此，本研究着力于分割脑出血常见部位即选择脑干、小脑、基底节区和背侧丘脑这4个部位进行脑组织的分割，以期为医生判断病情提供帮助。

医学图像分割的方法主要分为两大类，一类是传统方法，主要包括基于边缘检测的方法[4]、基于阈值的方法[5]、基于聚类的方法[6]，基于区域生长的方法[7]等；另一类是基于卷积神经网络的方法[8]，通过卷积进行特征提取，然后再进行分割[9]。

目前国内外对脑出血血块分割的研究很多,如张天麟等[10]采用U-net分割脑出血部位；陈铭林[11]采用分组胶囊网络分割CT图像上的脑出血区域；Zhang等[12]使用Mask R-CNN分割CT图像上的脑出血区域，并进行三维可视化。虽然针对脑出血区域分割的研究已经有不少，但是为了探究脑出血常发脑区与血块的位置关系而专门针对几个脑出血常发脑区进行分割的研究却不多见。目前已有一些关于脑区自动分割的研究中涉及到了脑干、小脑、基底节区和丘脑中的一种或几种部位，尽管他们的研究目的与脑出血无关，且有一些发表的研究是用磁共振(magnetic resonance imaging，MRI)图像而非CT图像，但是也为本研究带来了一些启示。如Shakeri等[13]提出了一种将马尔科夫随机场(Markov random field, MRF)与全卷积神经网络(fully convolutional networks, FCN)相结合的丘脑分割算法；贺宝春等[14]提出一种组合U-net分割脑干CT图像；戴向昆等[15]使用3D U-net DCNN分割脑干CT图像；杨延武等[16]提出了一种基于全卷积神经网络的SUF-Net方法，用于在MRI图像分割脑干、小脑；李贞国等[17]提出一种基于最短路径思想的交互式方法，用于在基底节区上分割壳核；Iqbal等[18]提出了一种基于Mask R-CNN的SeBRe算法，在人脑MRI图像上分割丘脑、壳核、尾状核和苍白球。针对CT图像上的脑出血常见部位分割研究较少、自动化程度较低的问题，本研究提出一种基于Mask R-CNN,并在ResNet-101[19]上进行迁移学习的脑区分割方法，从而在人脑CT的脑出血常见区域进行自动化分割。

1 材料与方法

1.1 Mask R-CNN

1.1.1Mask R-CNN结构

2017 年，He等[20]提出了 Mask R-CNN 实例分割网络，Mask R-CNN是在Faster R-CNN[21]的基础上，添加一个掩模预测分支，并将特征金字塔网络(feature pyramid networks，FPN)[22]结合到ResNet中，改进ROI Pooling层为ROI Align层，在预测框提取过程中,使用了双线性插值法，代替了Faster R-CNN中的四舍五入取整。在2018年的ISIC竞赛中，即使是未添加适应性修改的情况下，使用基于Mask R-CNN的模型，效果仍然好于ISIC 2017年最好的基于U-net的模型[23]。由此可见，在图像分割方面，Mask R-CNN模型的分割准确度不亚于常见的U-net网络，有着很大的潜力。

如图1所示，Mask R-CNN的结构主要分为四大部分，第1部分是共享的卷积层-backbone，用于生成公共特征图；第2部分是候选区域生成网络(region proposal network, RPN)，用于生成候选框proposals以及对候选框的评分、筛选；第3部分是用于提取感兴趣区域(region of interest, ROI)特征的ROI Align；第4部分是最终输出的3个分支(类别、坐标和二值掩模)。其中，RPN与输出部分均对目标框有修正。

图1 Mask R-CNN的结构Fig.1 The structure of Mask R-CNN

与Faster R-CNN相比，Mask R-CNN增加了Mask分支，因此每个ROI的损失函数为分类损失+定位损失+分割损失，即

L=Lcls+Lbox+Lmask

(1)

式中，Lcls为分类损失，Lbox为定位损失，Lmask为分割损失。

1.1.2区域生成网络

区域生成网络(region proposal network,RPN)[21]的首次出现，是在Faster R-CNN这个结构中，专门用来提取候选框。Mask R-CNN完整地继承了Faster R-CNN中的RPN部分。RPN的速度明显快于以前用在R-CNN上的传统方法selective search。RPN的本质是1个树状结构，树干是1个3×3的卷积层，树枝是两个1×1的卷积层，第1个1×1的卷积层解决了前后景的输出，第2个1×1的卷积层解决了边框修正的输出。RPN的工作原理如图2所示。首先，原图经过共享卷积层backbone，形成公共特征图，输入RPN。RPN依靠一个在共享特征图上滑动的窗口，为每个位置生成k种预先设置好长宽比与面积的目标框(anchor)，通常，k=9。这9种初始anchor包含3种面积(128×128，256×256，512×512)，每种面积又包含3种长宽比(1∶1，1∶2，2∶1)。

图2 RPN的工作原理[21]Fig.2 How RPN works

由于共享特征图的height(H)和weight(W)一般在40～60，RPN生成的初始目标框的总数达到20 000个(W×H×k)甚至更多。对于RPN输出的特征图中的每1个点，1个1×1的卷积层输出了18个值，因为是每1个点对应9个目标框，每个目标框有1个前景分数和1个背景分数。另1个1×1的卷积层输出了36个值，每1个点对应9个目标框，每个目标框对应了4个修正坐标的值(x,y,w,h)。修正公式为[24]

(2)

对于生成的目标框，RPN将判断这个目标框是否覆盖了目标，且为属于前景的目标框进行第1次坐标修正。RPN利用上述3种倍数和3种比例的共9种尺度窗口的方法对特征图进行滑窗，当IoU≥0.5时，认为其为正例，并对其进行回归[25]。

(3)

1.1.3ROI Align

ROI Align的提出是为了解决Faster R-CNN中RoI Pooling的区域不匹配的问题，是Mask R-CNN中必不可少的一步，用于提取特征。ROI Pooling会产生长度固定的特征向量，有了长度固定的特征向量才能进行softmax计算分类损失。但是，由于ROI Pooling中的取整操作，在面对小目标检测及实例分割的任务时，ROI Pooling达不到精准的特征点定位要求，会产生区域不匹配操作，也就是误差。

为了解决这一问题，Mask R-CNN提出了新方法ROI Align。ROI Align不直接填补出候选区域边界上的坐标点，而是有着一套独特的操作流程: 先是遍历全部候选区,但对边界坐标值不做取整处理;接着将候选框边界区域均分为k×k个单元，亦不对单元数值做取整处理[26]; 然后采用双线性插值法计算每个单元中固定的4个坐标值，最后最大池化操作。实际上ROI Align的遍历采样点比ROI Pooling 要少，它却能得到更优的效果，很好地处理了像素不对齐的问题。

1.1.4迁移学习

近年来,迁移学习已经引起了广泛的关注和研究[27-29]。迁移学习是一种运用已有知识对不同但相关的领域进行求解的机器学习方法，它放宽了传统机器学习中的两个基本假设[26]：一是用于学习的训练样本和新的测试样本应满足独立且同分布的条件；二是必须有足够多的训练样本才能得到一个好的模型。本研究采用基于MS-COCO训练集[31]上预训练好的权重，在此基础上进行迁移学习。

本研究采用的模型，是通过优化Mask R-CNN架构设计的，并使用卷积骨干网构建。首先采用FPN的方式，形成公用特征图，然后用RPN的方式生成32 328个候选框，并用非极大值抑制的方法进行筛选。使用ROI Align的方式进行提取特征，最终输出预测图像的二值mask，坐标和类别。

1.2 实验

1.2.1实验流程

实验主要包括7个步骤。

步骤1：收集原始健康人脑CT数据；

步骤2：医师对CT图像进行金标准(ground-truth)勾画；

步骤3：图像扩增及预处理；

步骤4：调整参数，放入模型训练；

步骤5：根据模型训练的训练loss、验证loss等情况进行进一步调参、调优模型；

步骤6：在测试集上进行测试，并算出DICE和mAP；

步骤7：设计对比实验，测试迁移学习和数据扩增对最终结果的影响，并重复前6个步骤。

1.2.2实验设备

分割算法处理平台为服务器，处理器为 Inter E5-2650，主频为2.20 GHz，128 GB内存，5 TB硬盘，显卡为NVIDIA Tesla P40。软件环境为Windows Server 2016 64位系统，编程语言为Python，采用TensorFlow和Keras深度学习开源框架，IDE使用Jupyter Notebook。

1.2.3数据获取

经过汕头大学附属第二医院伦理委员会批准，采用汕头大学附属第二医院提供的100例健康人(未患脑卒中的人)的共1 549张脑CT图像，由汕头大学附属第二医院神经科的3名资深医师手动勾画出脑干、小脑、基底节区和背侧丘脑的金标准，如图3所示。选取其中的80例(1 239张图像)作为训练集，其余的20例(310张图像)作为测试集。评估精准度的标准为DICE、mAP和mIOU，DICE值即

图3 医师绘制ground-truth。(a)CT原图；(b)医师绘制的ground-truth；(c)脑干部位的二值掩模；(d)小脑部位的二值掩模Fig.3 Physician's drawing of ground-truth. (a) The original CT image; (b) The ground-truth drawn by physicians; (c) The binary mask of brainstem; (d) The binary mask of cerebellum

DICE(A,B)2(A∩B)/|A|+|B|

(4)

mAP即mean(AP)，是测试集每张图片的AP值的平均值。AP即PR曲线下的面积，PR曲线则是横坐标是recall(正确分类占应该正确被分类的比例)，纵坐标是precision(分类正确的占总样本的比例)的函数。

recall=TP/(TP+FN)

(5)

precision=TP/(TP+FP)

(6)

mIOU为所有图片的所有部分的IOU平均值。

1.2.4数据预处理及数据扩增

针对深度学习中数据量不足的问题，数据扩增是常见的处理方式之一，其目的是在原有数据基础上，通过一些确定的变换操作，生成额外的更具多样性的数据。数据扩增是一种有效的正则化方法，实时地产生大量的、与原数据相似、标签不变的训练数据．减轻模型训练过拟合。使模型获得更好的泛化性能。常用的数据扩增方法有图像裁切、旋转、缩放、水平翻转等[32-33]。常见的数据扩增库有imgaug等，在机器学习中，经常使用imgaug进行图像数据扩增[34-36]。本研究使用imgaug库，以旋转的方式，对数据进行扩增。为了增加每个脑切片的样本图像的可变性，对每个原始图像和其对应的ground-truth都进行旋转操作，旋转角度分别为-20°、-16°、-12°、-8°、-4°、0°、4°、8°、12°、16°、20°，使得输入Mask R-CNN的训练集数据量，从扩增前的1 239张扩增至13 629张，即扩增前的11倍。测试集的数据集不变，因为从临床医学角度考虑，并不需要对旋转后的CT图像进行测试。

在进行数据扩增后，医师使用矢量图绘制软件InkScape[37]绘制ground-truth，不同的颜色代表了不同的部位。将彩色的ground-truth的尺寸统一为512像素×512像素，并转换成Mask R-CNN所能识别的二值掩模(见图3)。

1.2.5实验设置

为了探究数据扩增与迁移学习对模型准确度的影响，Mask R-CNN模型的实验分为4项。实验1：训练集未进行数据扩增，未使用迁移学习；实验2：训练集未进行数据扩增，使用了迁移学习；实验3：训练集进行了数据扩增，未使用迁移学习；实验4：训练集进行了数据扩增，使用了迁移学习。

4次实验的训练参数具体见表1。在100个病例中，选择其中的80个病例作为训练集，数据扩增前为1 239张图像，数据扩增后为13 629张图像；其余20例，共310张图像，作为测试集。在实验1中，直接对网络进行训练，未使用其他训练的预训练权重。在实验2和实验4中，进行迁移学习来的方法来进行训练。在经过数据扩增后的实验3和实验4中，训练epochs数由100次减少为30次，因为经过实验，epochs数过多会引起过拟合现象，降低了分类的准确性。在4次实验中，为保证控制变量，batch-size均设置为16，学习率均设置为0.001，输入模型的图像大小均为512像素×512像素，即不进行任何缩放操作的原图像。

表1 4次实验的主要参数Tab.1 The main parameters of four experiments

1.2.6模型调整

在个别不典型的小脑图像上，因模型未限制同一个区域的预测个数，极个别情况下，会预测出两个小脑，其中预测分数较大的为真正的小脑，预测分数较小的为小脑的一部分，通常为小脑扁桃体。分析了造成该问题的原因，即小脑的局部被误判为小脑整体(但预测分数不会比小脑整体更高)。故对Mask R-CNN模型进行了调优，在同一个区域预测出多个实例时，模型只保留预测分数最大的实例。这样得以解决了小脑的局部被误判为小脑整体的情况，从而让模型更加适应脑区分割的项目。

2 结果

2.1 实验结果

实验1和实验2的训练及验证的loss曲线均良好收敛，实验3验证loss收敛但震荡较大，实验4的验证loss快速下降后剧烈震荡。经比对，分别选综合训练效果较最佳的一次epoch的权重，对测试集进行测试和记录测试数据。实验1选取第100个epoch的训练权重，实验2选取第37个epoch的训练权重，实验3选取第24个epoch的训练权重，实验4选取第8个epoch的训练权重。经过4种不同方案的迭代训练后，在同一批测试集上的测试效果如图4和图5。由图可见，与ground-truth相比，Mask R-CNN对脑CT图像中的脑干、小脑、基底节区和背侧丘脑有着较高的识别精确度，且数据扩增和迁移学习分别都让测试图像的预测效果比未进行图像扩增或迁移学习之前，更接近图像的ground-truth。

图4 含有基底节区和背侧丘脑的图像测试效果图。(a)经过医师绘制的原图ground-truth； (b)未进行数据扩增、迁移学习的测试结果，基底节区和背侧丘脑的DICE系数分别为0.85和0.88； (c)进行迁移学习，但未进行数据扩增的测试结果，DICE系数分别为0.89和0.90； (d)进行数据扩增，但未进行迁移学习的测试结果，DICE系数均为0.90； (e)进行数据扩增、迁移学习的测试结果，DICE系数分别为0.90和0.89Fig.4 Image test renderings containing basal ganglia region and dorsal thalamus. (a) The original ground-truth drawn by physicians; (b)Without data augmentation and transfer learning, the DICE coefficients of basal ganglia and dorsal thalamus were 0.85 and 0.88, respectively; (c)After transfer learning, the test results without data augmentation showed that the DICE coefficients of basal ganglia and dorsal thalamus were 0.89 and 0.90, respectively; (d)After data augmentation without transfer learning, the DICE coefficients of basal ganglia and dorsal thalamus were both 0.90; (e) Test results of data augmentation and transfer learning show that the DICE coefficients of basal ganglia region and dorsal thalamus are 0.90 and 0.89, respectively

图5 含有脑干、小脑的图像测试效果图。(a)经过医师绘制的原图ground-truth；(b)未进行数据扩增、迁移学习的测试结果，脑干和小脑的DICE系数分别为0.90和0.96；(c)进行迁移学习，但进行未数据扩增的测试结果， DICE系数分别为0.91和0.97； (d)进行数据扩增，但未进行迁移学习的测试结果，DICE系数分别为0.91和0.96； (e)进行数据扩增、迁移学习的测试结果，DICE系数分别为0.91和0.97Fig.5 Image test renderings containing brainstem and cerebellum. (a) The original ground-truth drawn by doctors; (b) Without data augmentation and transfer learning, the DICE coefficients of brainstem and cerebellum were 0.90 and 0.96, respectively; (c)For transfer learning, the test results without data augmentation showed that the DICE coefficients of brainstem and cerebellum were 0.91 and 0.97, respectively; (d)After data augmentation, the test results without transfer learning showed that the DICE coefficients of brainstem and cerebellum were 0.91 and 0.96, respectively; (e)Test results of data augmentation and transfer learning show that the DICE coefficients of brainstem and cerebellum are 0.91 and 0.97, respectively

对测试集中的全部图像(共310张)均进行测试，测试集的mAP及各部位的平均DICE值如表2所示(数值四舍五入到小数点后4位)。对比实验1和实验2的测试结果，在同样没有进行数据扩增的情况下，测试集mAP从迁移学习前的0.870 8提升至0.909 7，提升了4.47%，小脑、基底节区和背侧丘脑的DICE值分别提升了2.54%、4.24%、0.57%；而小脑的DICE值轻微下降了0.42%。总体的mIOU从0.715 9提升到0.736 2，提升了2.84%。总体来说，迁移学习对模型训练的效果提升较为显著，尤其是使用mAP衡量时；而且，对之前训练效果较差的基底节区的效果提升尤为显著。

表2 不同情况下Mask R-CNN测试效果对比Tab.2 Comparison of test results of Mask R-CNN under different conditions

对比实验1和实验3的测试结果，在同样没有进行迁移学习的情况下，测试集mAP从数据扩增前的0.870 8提升至0.894 1，提升了2.68%；小脑、基底节区和背侧丘脑的DICE值分别提升了1.03%、3.51%、0.96%；而小脑的DICE值轻微下降了0.63%。总体的mIOU从0.715 9提升到0.729 7，提升了1.93%。总体来说，数据扩增对员模型训练效果有一定提升，且对之前训练效果较差的基底节区提升较为显著。

与实验2和实验3相比，同时使用迁移学习和基底节区的实验4，并没有在单独使用迁移学习或者数据扩增的基础上，效果有进一步提升。虽然总体来看训练效果与未经任何改动的实验1有所提升，但基本与实验2的结果持平。总体来说，同时使用了迁移学习和基底节区的实验4，并没有优于只运用迁移学习的实验2。

值得注意的是，迁移学习提升了模型的收敛速度。实验2的第37个epoch的训练权重的测试效果，已经比实验1的第100个epoch的效果更好了，而两者训练用时分别为166和381 min，所以本研究中的迁移学习，既明显提升了训练效果，也明显节约了训练时间。最终可以看出，实验2的综合训练效果最好，即在原模型的训练基础上，采取了迁移学习，但未采用数据扩增。与未经过数据扩增和迁移学习的Mask R-CNN模型相比，迁移学习对总体mAP提升了4.47%，提升较为显著，且可显著节约训练时间。

2.2 与其他方法对比

基于全卷积网络(fully convolutional networks for semantic segmentation)的U-net[11-12,38]方法，也是目前主流的脑区分割方法之一。U-net是比较早的使用全卷积神经网络进行语义分割的算法之一，因网络形状形似一个“U”字母而得名，是一种典型的全卷积神经网络。为与Mask R-CNN方法进行对比，本研究亦使用了一个基于Pytorch的U-net模型，在同一个服务器、同一个训练集与测试集下，经过多次调整参数(包括但不限于引入迁移学习、调整epochs及batch size数量等)，分别取U-net方法与Mask R-CNN方法经多次调参后最好的一次实验结果，DICE值及mAP对比结果见表3。由表可见，在脑干、小脑、基底节区和背侧丘脑的预测中，Mask R-CNN比U-net的DICE值分别高出6.41%、6.05%、4.93%和3.94%，mIOU高出9.70%，mAP值高出8.43%，所以可以看出，与基于Pytorch的U-net方法相比，本研究所用Mask R-CNN模型，效果更好，预测结果更加接近ground-truth。

表3 U-net方法与Mask R-CNN的实验效果对比Tab.3 Comparison of experimental results between U-net method and mask R-CNN

3 讨论

脑出血作为一种常见疾病，发病急、进展快、死亡率及致残率均较高，所以根据影像学及时判断脑出血的范围、位置，以及与周边关键脑组织的位置关系，及时对患者的情况进行评估很有必要。本研究采取基于卷积神经网络的自动分割方法，在脑CT图像上，分割出脑出血常见的几个脑区，弥补了以前在脑CT图像上，脑出血相关脑区的自动分割方面研究较少的问题，同时比人工分割省时和省力。但研究中使用的是健康人图像，脑区分布得更规律，但是对于脑出血患者CT图像的脑区分割，显然是不够的。下一步要做脑出血病人CT图像的脑区分割，以及脑出血的血块分割，同时计算出血块与脑区的距离、位置关系。

在本研究中，迁移学习对模型预测准确率的提升较为显著，尤其是在之前训练效果较差的基底节区上，提升效果尤为显著。迁移学习对mAP的提升比mIOU的提升更为显著，其主要提升点，主要为之前测试效果较差的部位，或测试效果较差的图像个体。因为，在统计mAP时，IOU≥0.5视为正例，反之为负例。mAP提升较大则说明，有较多之前的负例个体被提升成了正例。与此同时，迁移学习可以让模型更快地收敛，使验证loss曲线在较短时间内就可以得到明显下降，之后开始收敛，从而有效地节约了训练时间。

但与此同时，迁移学习在小脑这个训练效果较好的部位上，DICE值轻微下降了，造成了一定程度上的负迁移[39-40]。负迁移，即已有的经验知识影响来新知识的学习。解决负迁移的知识主要有三[41]：一是增加有效的源域知识数量；二是增加目标领域的样本数量；三是减少领域间的数据分布差异。MS-COCO数据集含有91个类别，共165 482张图片。本研究的数据集在扩增前也达到1 549张，所以，应该是领域间数据分布差异较大的原因。MS-COCO图片集主要是自然物体的图像，与医学图像差别较大，所以导致迁移学习的效果不佳。针对这个问题，可以采用医学图像的数据集进行迁移学习，尤其是脑CT相关的医学图像。

在本研究中，数据扩增的方法，与未经数据扩增的模型相比，对训练效果有一定提升。但是在同时进行数据扩增和迁移学习的实验中，效果未在迁移学习的基础上进一步提升。原因可能是迁移学习覆盖了数据扩增的效果；亦或是相对旋转而言，有其他更适合该模型的数据扩增方法。

在实验中，不同脑区的拟合时间不同，脑干和背侧丘脑等容易识别的部分拟合较快，而基底节区等不易识别的区域拟合较慢。拟合快的区域的过拟合现象出现较早，而此时基底节区还没有拟合，从而不太容易取到各部位训练效果都较好的“平衡点”，即各脑区都拟合地较好的epoch。在未来模型可能还会有一定的提升空间，可以想办法让各脑区的拟合速度更加相近。

Mask R-CNN作为目前图像处理领域常用的卷积神经网络框架，在各种医学图像上的应用(超声、胸片、磁共振成像、CT等)，都有较为良好的效果。如李宗桂等[42]使用Mask R-CNN，用于测量超声图像中的婴儿头围，Dice系数达到了96.89%± 1.01%，且测量速度比人工测量明显提高；李思穆[43]使用Mask R-CNN分割经直肠超声图像(TRUS)，特异性达到0.998 3，灵敏度达到0.976 4，效果良好；储春洁等[44]使用Mask R-CNN，结合了特征增强工具后，在胸片上检测肺结节，平均假阳性为5.0时的灵敏度为93.57%；Iqbal等使用Mask R-CNN的SeBRe算法[18]，在人脑MRI图像上分割丘脑、壳核、尾状核和苍白球；使用Mask R-CNN对CT图像进行分割的文献也有不少，如肺、脑出血、肝肿瘤等区域的自动分割[12,45-46]。综上可见，Mask R-CNN各种各样的医学图像上的分割潜力是巨大的，即使是在受噪声影响较大的超声等图像上。Mask R-CNN用于分割CT图像上的脑区的例子较少，尤其是在分割脑出血区域相关脑区方面。本研究有效地弥补了Mask R-CNN分割脑出血相关脑区的领域空白，且分割效果较好，具有一定的医学意义。

4 结论

本研究基于脑CT图像，先由专业医师进行ground-truth绘制，然后使用Mask R-CNN 对脑出血常发的4个部位进行自动分割。在此基础上，分别设计了迁移学习和数据扩增的对比实验。研究发现迁移学习对该数据集的测试效果提升较显著，尤其是对测试效果较差的部位或测试效果较差的图像个体。数据扩增对测试效果也有一定的提升，但如果同时应用数据扩增和迁移学习，则并不能得到比单独应用迁移学习更好的效果。

经过多次调参，基于迁移学习的Mask R-CNN模型最终得出了比U-net分割更好的结果(mAP提升了8.43%)，显示了Mask R-CNN模型在脑区CT图像分割上的潜力。后续将在脑出血患者的脑区CT图像上进行分割，并同时分析血块与主要脑组织之间的位置关系，从而提供辅助诊断。

(致谢：感谢汕头大学生物医学工程系David Ng教授在本研究开始阶段的帮助，以及汕头大学附属第二医院提供的脑CT图像)