付 玏 易思琦 龚华荣 罗 烨 黄群英 李 克
子宫是女性特有的生殖器官。妇科肿瘤发病率在我国逐年上升,严重危害女性身体健康,影响生活质量。目前临床上常用的早期发现子宫病变的主要手段包括阴道镜,超声检查和磁共振检查。阴道镜是由德国医生首创用于临床作为观察宫颈病变的仪器,是妇科领域中较早作为辅助诊断宫颈癌的光学设备,阴道镜主要通过放大,直接观察宫颈表面血管上皮[1]。子宫颈的转化区是细胞介导的免疫场所,其不断受到损伤并不断受到细胞内病原体感染。T淋巴细胞、自然杀伤细胞、靶向抗体细胞等在转化区大量聚集,观察转化区的类型是进行妇科宫颈筛查的基础[2]。近年来,随着磁共振仪器的普及,磁共振检查凭借其较强的软组织分辨能力在妇科肿瘤方面得到广泛应用。磁共振检查具有多方位、多角度客观成像的特点,能够早期、及时发现子宫病变[3]。然而随着阴道镜、磁共振的不断应用,其图像数量也成指数级增加。临床医师的阅片任务大大增加,长期的肉眼机械观察很容易使人疲劳,因而会影响到临床医师的主观判断,増加了诊断结果中的人为诊断误差。
随着计算机科学技术的高速发展,人工智能已逐步应用到临床诊疗的各个阶段。通过构建深度学习神经网络,训练机器学习,能够达到图像识别,甚至疾病诊断的效果。本文旨在通过构建一个深度学习神经网络(本文应用的是ResNet残差学习网络),将阴道镜和磁共振图像作为训练数据输入,比较该算法识别的准确性。
本文使用2015年英特尔举办的宫颈癌筛查比赛中提供的数据,共计8000例。数据内容为患者的阴道镜彩色图片,即为女性的子宫颈部分。根据子宫颈病理和阴道镜国际联盟2002年公布的阴道镜国际通用术语[4],将数据分为三种类型:Ⅰ型(typeⅠ):可见完整的转化区;Ⅱ型(TypeⅡ): 转化区部分可见,部分转化区位于宫颈管内,通过检查器械的帮助,可以看到生理性鳞-柱交界;Ⅲ型(Type Ⅲ):不能看到完整的转化区。
回顾性分析2017年6月至2018年5月,于我院进行盆腔磁共振检查妇女200例。磁共振扫描仪器为GE Verio 1.5T MR 扫描仪,采用相控阵线圈,取仰卧位进行盆腔扫描,采用常规SE序 列 T1WI (TR400~ 600ms,TE5~ 0ms) 、T2WI(TR1500~2000ms,TE80~150ms) 及STIR扫描,其中每位患者均进行了本研究所需要的T2WI矢状位成像,参数: 矩阵256×256,采集次数2~3,层厚3~5mm,层间距0.5~1.0mm。根据子宫矢状位图像,进行子宫倾斜度分类。子宫倾斜度: 测量阴道轴线与子宫颈轴线的夹角评价子宫倾斜方向和程度,当两轴线夹角小于180°称子宫前倾位,当两轴线呈一直线,夹角为180°,称子宫平直位,当两轴线夹角大于180°,称子宫后倾位( 图1) 。
首先应用一些普遍的机器学习的方法对数据进行基本的分析,为了探究数据集是否具有很好的可分性,本文通过t-SNE的方法对数据进行降维和可视化,即通过t-SNE投影到二维或者三维的空间中进行观察。同时,通过计算图片之间的距离可以构建相似性矩阵,从而找到最不相似图片和最相似图片,观察图片的形态。接着,为了观察不同类型的图片之间是否存在线性关系,本文训练了一个简单的线性模型,并用混淆矩阵分析训练结果。
其次根据分析结果进行统一的预处理工作。本文主要用了两个方法。一是使用最大内切矩形的方法裁剪图片的空白边缘。二是使用高斯混合模型标记出图片中子宫颈部分的边界。这两个方法的目的在于数据的特征更加明显、更易被提取。
最后将处理过后的图片作为新的数据集应用深度学习神经网络(本文应用的是ResNet残差学习网络)进行机器学习。将处理后的图片作为训练数据输入,得到一个输出为分类结果的模型,并将分类结果与标准标注进行对比,即可应用评价标准获得算法表现的优劣。
我们首先对进行数据的分析和处理,然后对处理后重新得到的数据进行基于ResNet网络的分类工作。
在数据分析阶段,一共有三个步骤:一是将高维的图像数据降维到二维和三维,查看数据之间的关系,发现数据之间低关联。二是计算图像之间的距离,构建相似性矩阵,并通过相似性矩阵找到与其他所有图片距离最大(小)的图片。观察发现最不相似图片为不满意图片,特征信息少,人眼也很难辨认,类似的图片应做处理。三是训练一个最有可能的线性模型(本文采用逻辑回归)探究数据是否线性可分,探索的结果是线性不可分,因此,分类算法将采用更鲁棒的深度学习的方法。
1.1 t-SNE降维和可视化:通过对数据进行的简单分析,我们发现数据具有高噪声、低关联的特性,很难进行区分,具体分析结果如下。每个图像将保留其RGB信息,并转换为100×100×3=30.000维向量。初始量设置为init=’pca’(也可以设置为random,但是pca效果更好),Mean sigma=0.121709,n_iter=500,迭代500次以后error从 85.6734314下降为 1.884898。将 100×100×3的图像投影到二维上来查看低维图案,如图2所示,我们可以清楚地看到,存在一个巨大的异构集群和几个相当遥远的异常值。
1.2.线性模型:通过前面对数据的处理和分析,现在我们已经建立了关于数据的一个基本概念,让我们做最直接的方法——在这一步,用调整过大小的彩色图像以及对应的标签,训练一个最有可能规则化的线性模型,比如逻辑回归。
图1 子宫倾斜度测量示意图。A.子宫倾斜和弯曲测量图示; a.阴道轴线; b.子宫颈轴线;α.子宫前倾角;B. MR T2WI示子宫前倾位。
图2 图像的聚类。
图3 逻辑回归预测结果。
图4 混淆矩阵。
图5 ResNet50和VGG16对比的分类结果。
对于我们在这里面临的多类问题,可以使用OVR的标准方法(one vs rest),这意味着我们将训练三个模型,其中每个模型分别被设计为把类别1、2、3与其他类别区分开。
将输入的数据集按照2:1的比例分为训练集和测试集(均有标签),选择逻辑回归模型。用训练集训练模型,再用训练好的模型预测测试集的类型,分别用红色蓝色绿色表示不同类型标签,结果如图3所示。
接着,用混淆矩阵分析逻辑回归模型的预测结果。如图4所示,我们可以看到,上一步训练得到的模型在class 0(即Type_1)与class 2(即Type_3)的预测上存在很大问题,几乎只预测了class 1(即Type_2)。
在这一步,我们用深度学习神经网络来对标注好的图片进行分类。在各类神经网络中,最近出现的ResNet(残差学习网络)在各大分类比赛上表现较好,因此,本文也选用了该网络进行分类。
用在ImageNet上预先训练好的ResNet 50图像分类模型并在此数据集上对其进行微调,(实验设备支持ResNet最高的层数为50层,再添加层数会报错显存溢出,无法训练)。
(1)输入:加载所有加标签的图片,并将它们统一调整为224×224的大小,用于ResNet的输入。接着,按80:20的比例随机分成训练集和验证集。
(2)模型:使用在ImageNet数据集上预先训练的ResNet50模型和权重,除了第一层卷积层之外的所有层的学习率(learning rate)0.001,重新训练。同时采用小批量梯度法,计算损失(loss)。
采用边训练边验证的方法,一共90个epoch,前20个迭代(epoch)中,验证集的准确率在前一半中为0,后一半中表现为100%,说明模型还没有学到正确的特征用来区分数据类型,因此预测时将所有图片都判断为同一类。在后面的迭代(epoch)中前一半的准确率逐渐上升,后一半的准确率略微下降,表现正常。实验结果如图5所示,ResNet50在验证集上准确率为88%,在测试集上为84%。同时,我们还将所采用的网络模型(ResNet50)与VGG16(经典的分类网络)进行了对比,对比结果如图5所示。两者都取得了较好的分类效果,但是我们的方法(基于ResNet50)是目前已公开的、基于此子宫颈阴道镜图片数据集上最好的分类结果。
人工智能在近年来飞速发展,已经逐渐从生活领域深入医疗领域。由于医疗图像的特性人和人之间同一器官差异性很大,同一人不同序列图之间差异性也很大,而且面对海量的医疗数据用传统的人工选择特征浅层学习模型的方法并不能很好解决医学图像的识别问题。
因此在本次实验中,我们前后设置了两个步骤:图像预处理步骤、深度学习模型训练步骤。其中分别应用了基于高斯混合模型的图像分割方法和基于ResNet的图像分类方法。最终得到了较好的结果,但是这两个步骤都还存在着一些有待改进的地方,仍有提升的空间。
在数据分析过程,我们发现医学图像和一般的数据集不一样,具有数据量少,标注的数据量更少的问题,很容易出现过拟合的问题。本次实验的阴道镜数据来源于互联网的开源数据,数据量较大,但磁共振数据来源于单一专科医院的检查数据,由专业医生进行人工手动标注,数据量较少。虽然本次实验中没有出现过拟合的现象,但是实验的数据仍然是不够的,首先对于现有的数据集可以通过数据增强的方式,比如旋转平移拉伸等方法(由于颜色和清晰度对病灶较为重要因此数据增强时不应该对图像的相关特征进行改变),其次可以和其他多家医院联合合作,拿到大量的未标注数据,通过非专业性人工标注的方式(根据前面列举的人眼辨别标准)对图像进行分类,医生辅助做审查,或许能让该类问题有更好的应用价值。
本次实验由于实验设备等客观因素,只对ResNet 50和部分层数较少深度学习模型进行了实验,如果能加深网络的层数(比如ResNet1000)应该能提高模型的学习能力。除此之外,本次实验对深度学习网络本身没有进行大幅度的更改,只是在原本的基础上进行了调参工作,今后在进一步的研究中,可以针对该问题调整网络结构,将几个网络结合起来以期得到更好的结果。
综上所述,本研究中采用的基于ResNet50神经网络的深度学习在阴道镜及磁共振子宫识别方面取得了较好的成果,但其准确性可通过更深层次深度学习模型进行进一步提升。