邓成龙,关 贝,刘德丰,刘兰祥,石清磊,王浩然,王永吉1,
1(中国科学院 软件研究所 协同创新中心,北京 100190)
2(计算机科学国家重点实验室(中国科学院 软件研究所),北京 100190)
3(中国科学院大学,北京 100049)
4(秦皇岛市第一医院 核磁科,河北 秦皇岛 066000)
5(山东大学 软件学院,山东 济南 250101)
宫颈癌在女性癌症疾病中发病率较高,且致死率较高[1].引发女性患宫颈癌的主要因素是感染人乳头瘤病毒(human papilloma virus,简称HPV).此外,过早的性生活、免疫抑制以及吸烟都可能引发宫颈癌[2].
宫颈癌多发于阴道和子宫之间的宫颈转换区,发展一般较为缓慢[3].国际妇产科联合会FIGO(International Federation of Gynecology and Obstetrics)妇科肿瘤学委员会根据临床上肿瘤大小、周围组织结构受累情况、远处转移以及影像学和病理结果将宫颈癌病变分为I 期~IV 期.其中:I 期表现为癌灶局限在宫颈(包括累及宫体); II 期表现为癌灶已超出宫颈,但未到达盆壁,癌灶累及阴道,但未及阴道的下1/3;III 期表现为癌灶扩散至盆壁,并且累及阴道下1/3,导致肾盂积水或无功能肾;IV 期表现为癌扩散超出真骨盆或癌浸润膀胱黏膜或直肠粘膜,甚至远处转移[4-6],详见表1.
Table 1 Criteria of FIGO in staging for cervical cancer and recommended treatment options表1 FIGO 宫颈癌分期标准及推荐疗法
不同分期的宫颈癌所对应的治疗方案不同.根据美国国家综合癌症网站NCCN(National Comprehensive Cancer Network)制定的宫颈癌治疗方法,手术治疗、放射治疗以及化疗是宫颈癌治疗过程中具有根治效果的方法[7].其中,
• 早期宫颈癌(≤IIA 并且肿瘤到内部宫颈口距离>5mm)主要选择根治性宫颈切除术治疗.该手术局部切除宫颈,可以保证子宫体的完整性,保存患者的生育能力[8];
• 中晚期宫颈癌(IIB~IV 并且肿瘤≥4cm)除肿瘤较大外,还可能出现宫外扩散以及淋巴结受累.因此,进展至这些时期的病变需要进行腔内放疗和体外照射治疗(早期宫颈癌以腔内放疗为主,体外照射为辅;出现宮旁浸润严重的情况以腔内放疗为辅,体外照射为主;中晚期宫颈癌需腔内放疗、体外照射并重);
• 对于晚期或复发转移的患者,主要的治疗手段为化疗(目前多采用以顺铂为主的多药联合化疗).
对于IIB~IVA 期的宫颈癌患者来说,放化疗是主要的治疗手段.根据患者接受放化疗后3 个月内MR 图像检查,依据RECIST[9]标准及肿瘤临床特征[10]对肿瘤的转归情况进行判断,将放化疗结果分为完全缓解(放化疗敏感)和不完全缓解(放化疗不敏感)两类,如图1 所示(红色区域为肿瘤区域).如果患者接受放化疗后,肿瘤出现不完全缓解情况,那么该患者不能继续接受放化疗,而需要探索个性化治疗方案,如口服靶向药治疗等.但即使调整治疗方案,该部分的患者在放化疗后前两年的无病生存率(disease free survival,简称DFS)仅为14.3%,而肿瘤完全缓解的患者为85.7%[10].因此,在放化疗疗效欠佳的情况下,患者由于丧失了最佳治疗时机,同时化疗对正常组织产生损伤,导致患者很难再进行及时有效的治疗,严重影响患者预后[11].因此,在宫颈癌患者治疗初期预测该患者对放化疗敏感性,进而选择合适的治疗手段,提高患者的生存率具有重要意义.
Fig.1 Complete and incomplete remission of the tumor area after radiotherapy and chemotherapy of SCC图1 宫颈鳞癌放化疗后肿瘤区域完全缓解与不完全缓解
磁共振成像(magnetic resonance imaging,简称MRI)不但具有良好的组织分辨率,能够同时对宫颈及周围组织,如盆腔内部器官,进行多方位、多序列地扫描[12],而且提供形态学、肿瘤功能及生物学特性方面信息[13],在宫颈癌分期及疗效预测方面具有重要作用.T2WI(T2-weighted imaging)结合脂肪抑制技术可较好显示宫颈管的形态结构与信号,为病变显示、病变范围及周围组织受侵状况评估提供良好参考[13].因此,本文旨在依据患者放化疗前的宫颈MR T2WI 预测患者接受放化疗后的治疗疗效,提出一种基于随机森林[14]的计算机辅助预测模型.该模型首先利用小波变换及高斯拉普拉斯算子对宫颈癌MR 去噪并增强图像,排除噪声影响;其次,利用在小数据集下能准确分割的U-net 模型分割肿瘤区域;在U-net 模型训练阶段,为防止U-net 模型出现梯度下降甚至消失现象,在该模型中加入深度残差学习;然后,对分割出的肿瘤区域提取多种形状及纹理特征,并且引入特征筛选机制对提取出的冗余及贡献较小特征进行淘汰;最后,优化在小样本下分类优异的随机森林算法对图像进行分类,并评估该模型在预测宫颈癌放化疗疗效中的价值.实验所用MR 都是放化疗前图像,这些图像根据患者接受放化疗后的远期治疗效果分为完全缓解组与不完全缓解组.
本文首先介绍宫颈癌相关背景.第1 节列出已存关于宫颈癌的相关工作.第2 节列出已存工作不足之处及本文研究重点.第3 节介绍本文提出的预测模型并详细阐述该模型下各步骤的实现细节.第4 节列出对比实验结果并分析.第5 节总结全文.
基于MRI 进行宫颈癌放化疗疗效预测相关研究主要分3 个研究方向.
第一,通过MRI 的定量参数对宫颈癌放化疗疗效进行预测.如:文献[15]计算并比较动态增强磁共振功能成像(dynamic contrast enhancement magnetic resonance imaging,简称DCE-MRI)的定量参数Ktrans,kep,ve在肿瘤以及正常臀肌的值,论证DCE-MRI 的定量参数可以对早期放化疗疗效进行评估;文献[16]测量患者放化疗前后DCE-MRI 的定量参数Ktrans,kep,ve的平均值,并与治疗后肿瘤缩小率进行Spearman 相关性分析,实现对宫颈癌患者放化疗疗效预测;
第二,基于MR 图像提取宫颈癌的形态学及纹理等特征,并利用传统机器学习算法预测放化疗疗效.如:文献[17]首先通过影像医师手动勾画宫颈癌病灶区域提取纹理特征,然后利用LASSO-Logistic 回归分析,建立宫颈癌治疗敏感性预测模型;
第三,计算成像方式的参数值,预测宫颈癌放化疗疗效.如:文献[18]基于国内外的大数据库,如MEDLINE,Science Citation Index database 以及中国生物医学数据库等已发表的研究,利用STATA 12.0 统计软件进行分析,发现扩散加权磁共振成像(diffusion-weighted magnetic resonance imaging,简称DWI)的表面弥散系数(apparent diffusion coefficient,简称ADC)值可以预测宫颈癌放化疗疗效;文献[19]除了研究ADC 值在预测宫颈癌患者接受放化疗治疗反应外,还分析了不同b值对治疗反应的评估结果;文献[20]证明DWI 预测及早期评估宫颈癌患者放化疗效果有帮助,但对局部无病生存的判断能力有限;文献[21]研究了3.0T MRI 及DWI 在宫颈癌放化疗治疗过程中的监测作用;文献[22-25]在临床上分别获取宫颈癌患者接受放化疗前及放化疗后的DWI,计算DWI的ADC 值,验证ADC 值与宫颈癌放化疗后肿瘤反应的关系;文献[26]利用ADC 值评估放射治疗后宫颈癌细胞是否残存;文献[27]通过ADC 值预测局部晚期宫颈癌患者放化疗后的生存期;文献[28]通过获取251 例宫颈癌IB2~ IVA 期宫颈癌患者在同步放化疗前和疗后6 周的18F-FDG PET/CT,计算该图像的参数SUVmax 和SUVmean 值,验证18F-FDG PET/CT 可以预测放化疗疗效;文献[29]研究了PET 能预测宫颈癌局部晚期患者接受标准放化疗后肿瘤反映和患者存活率,方法是通过获取疗前PET 图像和每周6 次的顺铂化疗和大规模放疗后PET 图像,计算标准摄取值(SUV)和治疗前后SUVmax 的比值;文献[30]在宫颈癌患者MR 图像的冠状面、矢状面及水平面分别分割肿瘤区域,提取其形状及纹理特征并输入分类器,得到宫颈癌放化疗疗效预测结果.
MRI 技术在评估放化疗后肿瘤大小方面敏感性较高,但大量文献通过计算弥散加权MR 图像(DWI)中肿瘤区域的ADC 来预测宫颈癌放化疗疗效.此外,还有利用DCE-MRI 的定量参数以及PET 图像的SUV 值预测疗效.这两种方法除需大量人力,如计算肿瘤面积、肿瘤消退率等,还可能出现计算误差,如计算ADC 值等.
对于文献[17]提出利用机器学习方法预测放化疗疗效,该方法可以有效地减少人力投入.但宫颈癌数据集相对其他数据集是极小的.而该方法只提取肿瘤纹理特征,并用较为传统的方法进行分析,可能造成预测准确率低下.文献[30]提取的肿瘤区域特征数量较少,精度不够,并且提取特征后没有对特征进行筛选,可能最终影响分类性能.
因此,本文根据上述问题提出基于随机森林算法预测放化疗疗效.为得到准确预测结果,本文利用U-net 模型准确分割MR 图像肿瘤区域,并提取肿瘤区域的形状、大小及纹理等特征,采用小数据集下分类性能优异的随机森林算法预测放化疗疗效.
依据RECIST[9]标准和肿瘤临床特征[10],宫颈癌患者接受放化疗后3 个月内MR 图像检查,对肿瘤的转归情况进行判断,将放化疗结果分为完全缓解(放化疗敏感)和不完全缓解(放化疗不敏感)两类.现有文献对放化疗敏感性预测大多依靠局限性较大的方法或者依靠统计学方法,这些方法不仅耗时而且准确率较低.本文根据MR图像对肿瘤大小及放化疗后肿瘤转归情况是最敏感的特性,提出利用宫颈MR 图像进行疗效预测.框架如图2所示.
Fig.2 Prediction model of radiotherapy and chemotherapy for SCC based on random forests图2 基于随机森林的宫颈鳞癌放化疗疗效预测模型
在宫颈MRI 成像过程中,因成像对象与硬件电路两方面的原因,导致MR 图像存在生理学噪声和热噪声[31].此外,由于成像机制的限制,MR 图像的时间分辨率使得图像的信噪比和空间分辨率降低[32],导致图像组织边界模糊.因此,为消除图像中噪声并增强图像中组织边缘细节,使得图像中肿瘤区域的特征更加容易提取,本文利用小波变换(wavelet transform)和高斯拉普拉斯算子(Laplacian of Gaussian,简称LOG)对宫颈MR 图像进行预处理,其流程如图3 所示(包括多尺度小波变换去噪和LOG 增强).
Fig.3 Process of MR image preprocessing图3 MR 图像预处理流程
3.1.1 小波变换
MR 图像中的噪声属于加性噪声且对比度较高[33],可直接利用多尺度小波变换将MR 图像分解为高频部分和低频部分.其中:噪声主要对应图像分解后的高频部分,该部分小波系数幅值较小、数目众多;图像中有效信息主要对应图像分解后的低频部分,该部分小波系数幅值较大、数目较少[34].通过对图像的高频部分设置合理阈值,就可消除MR 图像中的噪声.
本文分别采用7 种不同的小波基函数对MR 图像进行二维小波变换,分别为Haar 小波、Coiflet 小波、Daubechies 小波、Symlet 小波、Biorthogonal 小波、ReverseBior 小波及Dmeyer 小波.每一种小波基函数都经过两级小波变换,每次小波变换都产生4 组系数图像,共产生56 组系数图像用于特征提取.
3.1.2 高斯拉普拉斯算子
为强化MR 图像中组织边界细节,增强MR 图像的纹理信息,提高肿瘤区域特征提取的准确度,本文利用LOG 算法对MR 图像进行增强操作.LOG 是高斯滤波和拉普拉斯算子结合生成(其中,高斯滤波对MR 图像进行平滑处理,拉普拉斯算子提取MR 图像中边缘,详细如文献[35]所述).根据LOG 公式定义,通过调整取值,可达到对MR 图像的纹理特征强化目的.
宫颈鳞癌图像数据相对于自然图像数据较少,且预测宫颈鳞癌放化疗疗效需要精确提取MR 图像中鳞癌区域的纹理及形状等特征.因此,本文利用在小样本下能准确分割的U-net[36]模型(如图4 所示:红色虚线框内所示跳跃连接操作,绿色虚线框内所示残差块结构)来分割MR 图像中肿瘤区域.同时,为提取肿瘤区域更多特征信息,如空间信息,本文将宫颈鳞癌3D MR 图像作为网络输入.
Fig.4 MR image segmentation network model图4 MR 图像分割网络模型
图4 所示网络结构中,卷积层(conv)都包含2 次卷积操作,卷积核大小为(n=1,2,3,4).网络激活函数为修正线性单元(rectified linear unit,简称ReLU).下采样采用2×2×2 大小,步长为2 的最大池化(max-pooling)操作.在下采样后,将提取的特征通道数变为原来2 倍.反卷积层中反卷积核大小为2×2×2,且反卷积后将特征通道数减半.跳跃连接操作是将编码器结构中的卷积操作获取的特征与解码器结构相对应的特征进行连接(如图4 中红色虚线框所示).
在网络前向传播过程中,随着网络层的递增,隐藏层的输入数据分布逐渐向激活函数取值区间的两端产生偏移和变动,导致网络收敛速度下降甚至梯度消失.因此,本文在U-net 中加入残差学习[37](图4 中绿色虚线框所示)来避免学习过程中产生此类问题.
残差学习通过在神经网络添加恒等映射方式构建残差块结构,将网络映射问题转换为多个尺度的残差问题,降低模型学习难度.同时,恒等映射也能在网络训练过程中将梯度通过反向传播向浅层传递,提升模型训练效果.图4 中的残差单元首先通过1×1 的卷积操作对输入数据进行降维处理,在输出之前,再通过1×1 的卷积进行还原.这样,在保证精度的前提下有效地降低网络计算量.
分割得到图像病灶区域后,本文对病灶区域提取6 种包括形状及纹理特征,分别为一阶统计量(first order features)、形状(shape)、灰度共生矩阵(gray level co-occurrence matrix,简称GLCM)、灰度区域大小矩阵(gray level size zone matrix,简称GLSZM)、灰度游程矩阵(gray level run length matrix,简称GLRLM)以及局部灰度差分矩阵(neighbouring gray tone difference matrix,简称NGTDM),共97 个特征,详见附录A.
First Order Features 通过获取熵、灰度最小值以及灰度值方差等特征统计生成MR 图像中肿瘤区域像素点的灰度值分布;Shape 描述MR 图像中肿瘤区域的体积、面积以及最大直径;GLCM,GLSZM,GLRLM 以及NGTDM 根据图像灰度在空间上的特性及相互之间的关系,描述MR 图像中肿瘤区域的纹理特征.
据第3.3 节描述提取的图像特征中,存在贡献较小及冗余特征,这些特征会加大模型训练及特征分析时间,增加模型的学习难度.因此,需对提取的肿瘤区域特征进行筛选,以减少特征个数,降低模型过拟合风险,提高模型的精确度,并减少模型训练时间.
特征筛选主要包括特征子集的搜索和评价过程.该方法的思想为:先产生一个特征子集,然后对其进行评价,根据评价结果选择下一个特征子集并评价.重复上述过程,直到无法找到下一个特征子集为止.详细如下.
(1) 特征子集搜索
特征子集搜索分为前向(forward)搜索、后向(backward)搜索和双向(bidirectional)搜索.本文采用双向搜索方法选择特征子集.该方法分别从完整特征集的开始和结尾处进行遍历,每一次迭代增加选定的相关特征,同时去掉无关特征,直到第N次迭代增加的特征构成的特征子集评价不如第N-1 次迭代形成的特征子集评价,或者每次迭代去掉一个无关特征形成的特征子集评价明显下降为止.
(2) 特征子集评价
本文利用信息增益(information gain,简称IG)作为评价特征子集的方法.信息增益公式如公式(1)所示:
其中,假设根据特征子集A将特征集D分为V个子集{D1,D2,…,DV},H(·)表示信息熵函数(information entropy),公式如公式(2)所示:
信息增益IG(A)越大,表示该特征子集包含的有用特征越多,训练随机森林分类器效果越好.
• 实验数据集
根据宫颈癌细胞病理类型,可将宫颈癌分为宫颈鳞癌、宫颈腺癌、宫颈鳞腺癌、腺样囊性癌、小细胞癌和淋巴癌[38].其中,宫颈鳞癌病例数约占宫颈癌病例数的85%[2].根据肿瘤的恶性程度,不同类型的宫颈癌又可以细分为高分化、中分化以及低分化[39].实验数据由85 位鳞癌IIB~IVA 期患者(其中,高分化3 例,中分化75 例,低分化7 例,共1 785 幅原始MR 图像及对应标签数据)的三维T2 权重MR 图像(详见表2)组成.
根据患者在临床上接受放化疗治疗的远期效果,将85 例病例分为不完全缓解组和完全缓解组.其中,不完全缓解组40 例(共840 幅图像,672 幅图像用于训练,168 幅图像用于测试),完全缓解组45 例(共945 幅图像,756幅图像用于训练,189 幅图像用于测试).本文的所有实验(包括各对比算法)均在上述实验数据集中进行.
Table 2 Function of T2-weighted sequences表2 T2 权重图像各序列作用
所有病例的MR 图像均为512×512×21,空间分辨率分别为0.50mm,0.50mm 以及5.2mm.MR 图像中,宫颈鳞癌肿瘤区域由资深影像科医生通过手动勾画方式对85 位患者的MR 图像序列逐一识别并标注(如图5 所示:第1 行和第2 行分别是两个患者的部分MR 图像,红色区域为医生手动勾画的宫颈鳞癌区域,每一行最右侧图像为宫颈癌区域分割后三维重建图像).
Fig.5 SCC MR images with manual labeling图5 手动标记宫颈鳞癌MR 图像示例
• 模型训练
融合残差结构的U-Net 网络训练时设定初始学习率、衰减率及动量分别为1e-4、1e-4 和0.3,最大迭代次数为1 000.对随机森林算法的超参数设置,如决策树数量,是根据随机森林在训练集上针对不同超参数进行实验确定(详见第4.4 节).
在放化疗疗效对比实验中,Inception-ResNet-v2 及Inception-v4[40]网络设置及训练策略如下.
(1) 上述两种网络的层数及结构等超参数设置均采用TF-slim(https://github.com/tensorflow/models/tree/ master/research/slim)代码库默认值;
(2) 由于宫颈鳞癌训练集数据有限,无法充分训练上述两种网络,本文采用数据扩增(Tensorflow 框架)策略,将完全缓解组与不完全缓解组训练数据中的每幅图像分别进行水平方向的翻转与旋转(角度为4,8,12,16,20 度);
(3) 上述两种网络设定初始学习率1e-4,1 000 轮迭代后学习率设置为1e-5,共训练2 000 轮;衰减率及动量分别设置为1e-4,0.3.
• 实验环境
本文实验环境基于Ubuntu 18.04 操作系统中的Tensorflow 框架,配置NVIDIA 显卡及深度学习库,编程IDE为PyCharm,编程语言为Python 3.5;硬件配置:Intel(R) Core(TM) i7-8700K CPU@3.70GHz,NVIDIA GeForce GTX 1080 Ti,32GB 内存.
• 分割算法评估
为定量评估分割算法性能,本文采用3 种常见的评价标准来评估图像分割算法准确率,分别为Dice 相关系数、PPV(positive predicted value)以及敏感度(sensitivity).PPV 衡量预测的准确率,Sensitivity 衡量预测的召回率,Dice 系数综合PPV 和Sensitivity 的评价指标.计算公式如公式(3)~公式(5)所示:
其中,P表示预测结果,T表示肿瘤区域标记,|P∩T|表示肿瘤区域预测结果与标记之间重叠部分.
• 疗效预测算法评估
本文将放化疗疗效问题归结为二分类问题(完全缓解与不完全缓解),而 ROC(receiver operating characteristic)曲线在二分类问题上能有效地反映分类性能.对ROC 曲线下各部分面积求和得到AUC(area under curve),AUC 是判断模型分类性能重要标准,本文利用AUC 反映不同放化疗疗效预测算法准确度.
4.2.1 不同损失函数对比
本文基于U-net 分割宫颈MR 图像中肿瘤区域.在网络训练过程,分别使用交叉熵(cross entropy)损失函数、Dice 损失函数以及Softmax 损失函数作实验对比.表3 和图6 分别列出基于不同的损失函数训练得到的U-net模型分割肿瘤区域的精度和结果图.
Table 3 Segmentation accuracy of U-net on test set with different loss functions表3 基于不同损失函数的U-net 模型在测试集上分割准确率
Fig.6 Segmentation results of U-net on test set based on different loss functions图6 基于不同损失函数的U-net 模型在测试集上分割结果图
由表3 及图6 可知,基于Softmax 损失函数的U-net 网络分割肿瘤区域准确率高于基于交叉熵和Dice 损失函数的分割模型.基于交叉熵损失函数的分割模型在模型训练阶段对宫颈MR 图像中所有像素同等考虑,但在三维宫颈MR 图像中,肿瘤区域只占整幅MR 图像很小部分,这使得交叉熵损失函数大量计算肿瘤区域以外的像素点,无法对肿瘤区域的特征进行有效地提取,导致分割肿瘤区域准确率较低.Dice 损失函数本质上是衡量两个样本的重叠部分,在样本极度不均匀的情况下效果较好.而本实验使用的数据都是同一类别,使用Dice 损失函数可能会使得U-net 网络训练变得不稳定,造成分割准确率低.
4.2.2 不同分割算法对比
为验证加入深度残差学习的U-net 模型能提升分割精度,本文通过与未加入深度残差学习的U-net 模型、阈值分割、全卷积网络(FCN)以及DeepMedic+CFR[41]模型进行实验对比.各模型分割肿瘤区域的平均分割精度见表4,分割结果如图7 所示.
Table 4 Segmentation accuracy of different algorithms on test set表4 不同分割算法在测试集上分割准确率
Fig.7 Segmentation results obtained by different algorithms on test set图7 不同算法在测试集上分割结果图
从表4 可知:深度残差学习能降低U-net 网络的拟合难度,使得U-net 模型在Dice 系数、PPV 及Sensitivity标准上比原始U-net 模型分割准确率分别高0.061、0.057 及0.042 个百分点.基于阈值分割模型首先需要确定肿瘤区域的大致位置,然后才能进行分割.但肿瘤的形状及位置复杂多变,确定某一例宫颈鳞癌肿瘤区域位置不能推广到其他患者的肿瘤区域,所以分割精度较低.FCN 模型虽然在分割上提升了效率与准确率,但没有充分考虑像素与像素之间的关系;且在训练阶段没有进行充分地训练,导致分割准确率低于本文方法.DeepMedic+CRF模型在分割脑肿瘤上取得了不错的成绩,但在本实验中分割准确率低于U-Net+Resblock.可能因为宫颈鳞癌数据少,导致网络模型在训练阶段没有使参数最优化,使得分割的准确率低.
本文利用U-net 模型分割肿瘤区域后,对肿瘤区域提取6 种97 个特征,包括纹理及形状等特征.宫颈鳞癌实验数据集包含1 785 幅图像,共提取173 145 个特征.但提取的特征存在贡献较小及冗余特征,因此,本文利用双向特征搜索及信息增益对特征集进行筛选,筛选结果见表5.
Table 5 Types of tumor area features and number before and after screening表5 肿瘤区域特征种类及筛选前后数量
本文基于随机森林算法预测放化疗不敏感的宫颈鳞癌患者.实验将疗效预测问题归结为分类问题(完全缓解或不完全缓解两类).因此,为了验证本文方法的有效性,加入Inception-ResNet-v2 算法以及Inception-v4[40]算法作为预测疗效效果对比模型.通过多种实验验证算法的有效性,实验包括决策树数量实验、决策树剪枝策略实验以及不同预测算法对比实验.实验所用AUC 取值范围是0.5~1,0.5 对应随机猜想模型,1 对应理想模型.
4.4.1 决策树数量实验
随机森林通过集成大量决策树达到较好的泛化性能,但随机森林中决策树数量对模型有重要影响.为了使疗效预测算法性能达到最优,本实验在保持最优划分属性选择标准与最大特征数等参数不变的前提下,对包含不同数量决策树的随机森林算法在训练集上预测放化疗疗效,实验结果如图8 所示.
Fig.8 Prediction results on training set based on the number of different decision trees图8 训练集上基于不同决策树数量预测结果
实验结果表明:随着决策树数量的增加,随机森林的预测性能也在提升.当决策树数量为55 时,预测性能达到最优.之后,随着决策树数量的增加,预测性能出现下降趋势.可能因为随着决策树数量增多,随机森林模型的复杂度增大,模型的泛化能力下降,出现过拟合现象.因此,本文将随机森林中决策树数量设置为55 进行以后的预测实验.
4.4.2 决策树剪枝策略实验
对随机森林中的决策树进行剪枝可以最大限度地平衡模型复杂度与模型泛化性能.本实验在与剪枝参数有关的最大特征数量上对随机森林预测放化疗疗效进行实验.
最大特征数量不但能影响决策树的复杂度,而且还影响随机森林模型中不同决策树之间的关联程度.假设 共有N个特征用于决策树的构造,本实验分别设置N,log2N以及为决策树生成过程中使用到的最大特征数 量.图9 展示了在训练集上基于不同最大特征数下放化疗疗效预测结果.
Fig.9 Prediction results on training set based on different maximum feature quantity图9 训练集上基于不同最大特征数量预测结果
根据图9 可知:将最大特征数量设置为log2N时,疗效预测结果达到最优;而使用全部特征来生成决策树的预测结果最低.
4.4.3 不同预测算法对比
由于目前宫颈癌疗效预测方法较少,因此,为验证本文提出的放化疗疗效预测算法优于其他算法,选取目前图像分类准确率较高的两种算法(Inception-ResNet-v2 和Inception-v4)、文献[17]方法与本文算法在训练数据集及测试数据集上进行实验对比.图10、图11 分别展示了4 种算法在训练集及测试集上预测放化疗疗效准确率.
Fig.10 Prediction results obtained by different classification algorithms on training set图10 不同分类算法在训练集上预测结果
Fig.11 Prediction results obtained by different classification algorithms on test set图11 不同分类算法在测试集上预测结果
根据图11 可知:本文利用随机森林算法预测宫颈鳞癌放化疗疗效的AUC 值达到0.921,分别高于其他两种神经网络分类算法.Inception-ResNet-v2 和Inception-v4 模型虽然分类性能优越,但在数据量较少的情况下分类效果欠佳.文献[17]只提取了纹理特征,导致描述肿瘤的特征数量及种类不足,使得LASSO-Logistic 建立的宫颈癌治疗敏感性模型预测疗效结果的AUC 值仅为0.7867,远低于本文采用的预测模型.
本文针对部分宫颈鳞癌患者对放化疗不敏感的问题,提出了基于随机森林算法的疗效预测模型.在该模型中,为提高MR 图像肿瘤区域的分割精度,采用了在小样本下分割性能较好的U-net 模型.同时,为防止U-net 模型训练阶段出现梯度消失情况,在U-net 模型中加入了残差学习.此外,为训练泛化能力较强的随机森林模型,实验对提取的图像特征进行筛选,并调整了随机森林中决策树的数量以及训练最大特征数量.实验结果表明:本文提出的预测模型在分割肿瘤区域敏感性达到0.801,预测放化疗疗效的准确度达到0.921.
本文未来工作包括:第一,开发基于不同权重类型图像的预测模型,包括T1W1,DWI 等MR 图像,综合运用多种权重类型的图像可以得到更全面的诊断信息,进一步提高宫颈鳞癌放化疗疗效预测性能;第二,未来将收集更多病例数,尤其是部分少见病理类型,进一步丰富实验数据集来训练预测模型,提升模型预测能力.
致谢在此,我们向对本文工作提供帮助和支持的同行以及对本文提出宝贵意见的各位审稿专家表示衷心的感谢.
附录A.特征种类及数量
Table A.1 Type and quantity of features表A.1 特征种类和数量
Table A.1 Type and quantity of features (Continued 1)表A.1 特征种类和数量(续1)
Table A.1 Type and quantity of features (Continued 2)表A.1 特征种类和数量(续2)