莫紫文 李培源 张应亮
(南宁市第九人民医院1 妇科,2 内四科,广西南宁市 530409)
子宫内膜癌是发生在子宫内膜的上皮性恶性肿瘤,是我国三大常见妇科恶性肿瘤之一,手术是子宫内膜癌最主要的治疗方法[1]。早期子宫内膜癌患者的5年生存率高于80%,但仍有10%左右的早期子宫内膜癌患者因肿瘤术后复发和/或转移而死亡;中晚期子宫内膜癌患者的术后复发率更高,且大多发生在术后3年内,一旦复发则治疗困难,病死率高[2-3]。术后复发风险的精准预测,对于中晚期子宫内膜癌患者术后管理及治疗效果的提高具有重要的临床意义。目前已有研究报告,国际妇产科协会(International Federation of Gynecology and Obstetrics,FIGO)临床分期及多种生物标志物可用于中晚期子宫内膜癌患者术后复发风险的预测,但是缺乏针对性,临床价值有限[4-5]。机器学习是人工智能及模式识别领域的共同研究热点,其能通过不同计算方法对大规模、复杂的数据进行集中学习与分析,在临床疾病诊断及预后评估方面具有很好的价值[6]。目前国内关于机器学习在子宫内膜癌患者中的应用研究很少见。本研究基于临床数据探讨5种机器学习模型对中晚期子宫内膜癌患者术后近期(术后3年内)复发的预测价值,以期为临床预测子宫内膜癌的复发风险提供参考。
1.1 临床资料 回顾性分析2016年1月至2020年12月在我院接受手术治疗的260例中晚期子宫内膜癌患者的临床资料,年龄35~80(56.69±7.14)岁。将260例子宫内膜癌患者分为训练集(144例)与测试集(116例)。训练集患者的年龄(55.24±6.30)岁,肿瘤最大直径(5.08±1.70)cm,FIGO分期Ⅱ期30例、Ⅲ期68例、Ⅳ期46例;测试集患者的年龄(56.98±7.11)岁,肿瘤最大直径(5.12±1.69)cm,FIGO分期 Ⅱ 期26例、Ⅲ期50例、Ⅳ期40例。两组患者的基线资料比较,差异均无统计学意义(均P>0.05)。本研究已通过我院医学伦理委员会审查,患者及家属均对研究内容知情同意。
1.2 研究对象的纳入及排除标准 纳入标准:(1)中晚期子宫内膜癌的诊断符合2015年美国国立综合癌症网络制定的诊断标准[7],并经术后病理确诊;(2)患者年龄≥18岁;(3)FIGO分期为Ⅱ~Ⅳ期;(4)具备手术治疗指征,术前未进行相关放化疗;(5)临床、病理、实验室及随访资料完整。排除标准:(1)不能耐受手术治疗者;(2)仅行单纯放化疗治疗者;(3)伴有其他恶性肿瘤者;(4)伴有严重心脑肺疾病、肝肾功能不全等者;(5)精神异常或意识障碍者;(6)依从性较差者;(7)哺乳期女性。
1.3 临床及病理资料的收集 收集患者年龄、绝经情况(是或无)、孕次、产次、分娩方式(剖宫产或阴道分娩)、体质指数(体质指数≥24 kg/m2判定为超重或肥胖)、FIGO分期、病理类型(腺癌、腺癌伴鳞状上皮化生、透明细胞癌、浆液性乳头样腺癌)、组织学分级(G1、G2、G3级)、肿瘤最大直径(≤4 cm或>4 cm)、肌层浸润深度(≤1/2或>1/2)、宫颈管浸润情况(有或无)、淋巴结转移情况(是或无),术前糖类抗原125(carbohydrate antigen 125,CA125)水平(CA125≥80 U/mL判定为异常)以及Ki-67、雌激素受体(estrogen receptor,ER)、孕激素受体(progesterone receptor,PR)表达情况(阳性或阴性),手术方式(腹腔镜或开腹手术)、术后辅助化疗(有或无)、术后3年内复发情况(定义为盆腔、阴道残端、腹股沟区出现肿瘤,或者肝、肺、纵隔及锁骨上淋巴结出现转移灶)。
1.4 随访方法 手术结束后开始随访,随访时间截至2021年12月,随访终点为患者术后发生复发或转移,随访方式包括电话或门诊随访。术后前2年每3个月随访1次,2年后每6个月随访1次,随访内容主要包括生化指标、肿瘤标志物,以及腹部B超、CT检查或MRI检查。
1.5 机器学习模型的构建及验证方法 以训练集患者数据为基础,采用单因素Cox回归模型分析影响中晚期子宫内膜癌患者术后复发的危险因素,以单因素Cox回归分析得到的危险因素为基础,采用R 4.0.2软件构建以下5种机器学习模型:随机生存森林(random survival forest,RSF)、梯度提升机(gradient boosting machine,GBM)、支持向量机(support vector machine,SVM)、K最近邻(K-nearest neighbor,KNN)、Cox回归。采用一致性指数(concordance index,C-index)评估模型预测的准确性;采用10折交叉验证法进行模型训练和内部验证;采用受试者工作特征(receiver operating characteristic,ROC)曲线分析5种机器学习模型对中晚期子宫内膜癌患者术后近期复发的预测效能,参数包括曲线下面积(area under the curve,AUC)、敏感度、特异度及准确度。
1.6 统计学分析 采用SPSS 22.0软件进行统计分析。符合正态分布的计量资料以(x±s)表示,组间比较采用独立样本t检验;计数资料以例数表示,组间比较采用χ2检验,等级资料的比较采用Wilcoxon秩和检验;进行单因素Cox回归分析和ROC曲线分析;计算C-index,其中C-index为0.50表示与实际结果完全不一致,0.51~0.70表示较低一致性,0.71~0.90表示中等一致性,0.91~0.99表示高度一致性,1表示完全一致。以P<0.05为差异具有统计学意义。
2.1 中晚期子宫内膜癌患者术后近期复发情况 所有患者均获得完整随访,随访时间为6~36(32.47±5.16)个月。260例患者术后复发率为21.15%(55/260);训练集与测试集患者术后复发率分别为21.53%(31/144)、20.69%(24/116),两者差异无统计学意义(χ2=0.175,P=0.638)。
2.2 中晚期子宫内膜癌患者术后近期复发机器学习模型的构建结果 共纳入19个临床及病理特征作为自变量,以术后是否复发作为因变量,基于训练集数据进行单因素Cox回归分析(变量的赋值情况见表1),结果显示,年龄≥60岁、体质指数≥24 kg/m2、FIGO分期 Ⅲ~Ⅳ期、组织学分级G3级、肌层浸润深度>1/2、开腹手术、有淋巴结转移、术前Ki-67阳性表达、术前ER阴性表达是中晚期子宫内膜癌患者术后近期复发的危险因素(均P<0.05),见表2。年龄≥60岁、FIGO分期Ⅲ~Ⅳ期、组织学分级G3级、肌层浸润深度>1/2、有淋巴结转移、术前ER阴性表达是5种机器学习模型同时筛选的危险因素(均P<0.05),见表3。
表1 单因素Cox回归分析的变量赋值
表2 单因素Cox回归分析结果
续表2
表3 5种机器学习模型所选择的中晚期子宫内膜癌患者术后近期复发的危险因素
2.3 中晚期子宫内膜癌患者术后近期复发机器学习预测模型的验证结果 基于测试集数据的C-index验证结果显示,5种机器学习模型的预测结果与实际结果均呈中度一致性,其中RSF的C-index值最高,Cox回归的C-index值最低。见表4。
表4 5种机器学习模型的C-index
2.4 5种机器学习模型对中晚期子宫内膜癌患者术后近期复发预测效能的比较 预测中晚期子宫内膜癌患者术后近期复发时,RSF的AUC最大,且敏感度、特异度、准确度均最高,GBM的AUC最小,Cox回归的敏感度、特异度、准确度均最低。但5种机器学习模型的AUC比较,差异均无统计学意义(RSF与GBM:z=0.816、P=0.357;RSF与SVM:z=0.729、P=0.410;RSF与KNN:z=1.035、P=0.174;RSF与Cox回归:z=0.913、P=0.218;GBM与SVM:z=0.807、P=0.392;GBM与KNN:z=0.936、P=0.258;GBM与Cox回归:z=0.907、P=0.251;SVM与KNN:z=0.882、P=0.362;SVM与Cox回归:z=0.738,P=0.415;KNN与Cox回归:z=0.924、P=0.280)。见表5和图1。
表5 5种机器学习模型对中晚期子宫内膜癌患者术后近期复发预测效能的比较
图1 5种机器学习模型预测中晚期子宫内膜癌患者术后近期复发的ROC曲线
肿瘤术后复发是影响中晚期子宫内膜癌患者远期生存的关键因素,也是临床医生关注的重点内容。既往有研究基于生物信息学分析结果构建风险评估模型,用于预测子宫内膜癌的预后及复发风险[6];也有研究采用多因素Logistic回归模型对子宫内膜癌患者术后复发的危险因素进行分析[8]。尽管这些模型均具有较好的预测效能,但都是基于传统的统计学理论构建预测模型,预测因子被分配固定权重并按线性公式进行风险评估,而实际上预测因子之间存在复杂的交互作用,并不是简单的线性关联。
疾病发生、预后分层及复发风险预测模型的构建是机器学习在医学领域的主要应用方式[9]。郭冉等[10]的研究结果显示,基于MRI影像组学的随机森林模型在子宫内膜癌肌层浸润深度的预测中具有较大潜力。但是目前国内还未见采用机器学习模型预测中晚期子宫内膜癌患者术后近期复发的研究报告。本研究首先采用单因素Cox回归对训练集患者的临床及病理特征进行了分析,基于所得的危险因素构建了RSF、GBM、SVM、 KNN及Cox回归5种机器学习模型,且通过测试集进行C-index验证,发现上述5种机器学习模型的预测结果与实际结果均呈中度一致性(C-index为0.710~0.862),提示本研究所构建的机器学习模型具有较好的有效性及科学性。5种机器学习模型同时筛选出年龄≥60岁、FIGO分期Ⅲ~Ⅳ期、组织学分级G3级、肌层浸润深度>1/2、有淋巴结转移、术前ER阴性表达6个临床病理特征为影响中晚期子宫内膜癌患者术后近期复发的危险因素。年龄≥60岁的子宫内膜癌患者,基础疾病增多,机体出现衰老,免疫功能低下,子宫肌层萎缩变薄,癌细胞向深肌层浸润程度加深,癌细胞浸润范围增大[11]。手术病理分期增高,肿瘤生长速度加快,转移与扩散的可能性增大;随着组织学分级的进展,淋巴结出现转移,导致子宫内膜癌患者术后近期复发风险增高[12]。有研究显示,子宫内膜癌患者病灶组织中的ER表达情况与肿瘤的恶性程度相关,ER阳性表达患者预后更好;ER持续阴性表达会导致雌激素拮抗受阻,诱导子宫内膜非典型增生进展癌变,导致复发[13]。
本研究通过ROC曲线分析了5种机器学习模型对中晚期子宫内膜癌患者术后近期复发的预测效能,结果显示,RSF的AUC相对较大,且敏感度、特异度及准确度均最高,由此可见该模型在5种机器学习预测模型中具有最好的预测效能。以决策树为基础学习器来构建集成模型,可以明显提高预测性能。RSF是包含大量决策树的一种集成学习算法,其使用的Bootstrap法能根据预测因子间的复杂非线性关系对预后分层进行准确评估[14]。GBM是另一种集成方法,通过合并多个决策树来构建一个更为强大的模型,其可添加更多的决策树,从而可不断迭代以提高预测性能[15]。SVM是一个非常强大而多变的机器学习模型,其能够执行线性或非线性的分类及回归,特别适用于复杂的中小型数据集分类[16]。 KNN是一个在理论上比较成熟的分类或回归技术,是一个非参数学习算法,其可根据K个点的分类确定新样本类别[17]。Cox回归模型是以生存结局和生存时间为因变量的模型,可同时分析众多因素对生存期的影响,是目前生存分析中应用最多的多因素分析方法[18]。李淼等[19]的研究显示,RSF预测肺癌患者预后的错误率及预测误差均低于Cox回归;季顾惟等[20]研究发现,RSF模型对早期肝细胞癌患者术后复发的预测准确性优于GBM、弹性网络-Cox回归和Cox回归模型。以上分析结果均提示RSF的预测价值较好,但是确切定论还需要进一步研究。
综上所述,本研究所构建的5种机器学习模型筛选出6个临床病理特征,能对中晚期子宫内膜癌患者术后近期复发进行有效预测,其中RSF的预测效能相对较好。但是本研究还存在一定的局限性,例如样本量较小、属于回顾性研究等。今后我们将采用前瞻性研究对中晚期子宫内膜癌患者的临床及病理特征之间的相互作用进行机器学习的充分整合,以实现对肿瘤术后复发的精准预测,为医疗大健康的发展提供参考依据。