徐方笛,范晓东
摘要:目的 建立Deepsurv深度神經网络模型与Cox比例风险回归模型并比较两种模型对非转移性前列腺癌症患者生存时间的预测性能。方法 从SEER数据库中选择2014-2018年确定诊断为非转移性前列腺癌的男性患者,将患者数据集按照8∶2划分为训练集和测试集,构建Deepsurv深度神经网络模型的基本结构。利用随机超参数优化搜索算法获得预定义范围内的最优网络超参数,建立模型后在训练集上训练,并在测试集上测试。通过一致性指数(C-index)、ROC曲线下面积(AUC)和Brier分数(Brier Score)比较Deepsurv深度神经网络模型和Cox比例风险回归模型对非转移性前列腺癌症患者1、3年生存情况的预测性能。结果 建立了以患者年龄、前列腺特异性抗原(PSA)水平、前列腺癌组织恶性程度(Gleason分级)、肿瘤分期(T分期)和活检核心阳性总数为预后因素的预测模型。Deepsurv深度神经网络模型的C-index为0.713,高于Cox比例风险回归模型的0.654;Deepsurv深度神经网络模型预测患者1、3年生存率的Brier Score为0.312、0.229,低于Cox比例风险回归模型的0.356、0.241;ROC曲线显示,Deepsurv深度神经网络模型预测患者1、3年生存率的AUC为0.680、0.652,高于Cox比例风险回归模型的0.631、0.649。结论 Deepsurv深度神经网络模型在预测非转移性前列腺癌患者的生存方面的表现优于传统的Cox比例风险回归模型。
关键词:Deepsurv深度神经网络模型;非转移性前列腺癌;生存预测
中图分类号:R737.25 文献标识码:A DOI:10.3969/j.issn.1006-1959.2024.08.009
文章编号:1006-1959(2024)08-0052-04
Prediction on Survival Rate of Patients with Non-metastatic Prostate Cancer Based on Deepsurv Model
XU Fang-di1,FAN Xiao-dong2
(College of Information and Control Engineering1,Faculty of Science2,Jilin Institute of Chemical Technology,Jilin 132022,Jilin,China)
Abstract:Objective To establish a Deepsurv deep neural network model and a Cox proportional hazard regression model and compare the predictive performance of the two models on the survival time of patients with non-metastatic prostate cancer.Methods Male patients diagnosed with non-metastatic prostate cancer from 2014 to 2018 were selected from the SEER database. The patient data set was divided into training set and test set according to 8∶2. The basic structure of the Deepsurv deep neural network model was constructed. The random hyperparameter optimization search algorithm was used to obtain the optimal network hyperparameters within the predefined range. After the model was established, it was trained on the training set and tested on the test set. The predictive performance of Deepsurv deep neural network model and Cox proportional hazard regression model for 1-year and 3-year survival of patients with non-metastatic prostate cancer was compared by consistency index (C-index), area under the ROC curve (AUC) and Brier score (Brier Score).Results A predictive model was established with patient age, prostate specific antigen (PSA) level, malignant degree of prostate cancer tissue (Gleason grade), tumor stage (T stage) and total number of positive biopsy cores as prognostic factors. The C-index of the Deepsurv deep neural network model was 0.713, which was higher than 0.654 of the Cox proportional hazard regression model. The Brier Scores of the Deepsurv deep neural network model for predicting the 1-year and 3-year survival rates of patients were 0.312 and 0.229, which were lower than 0.356 and 0.241 of the Cox proportional hazard regression model. The ROC curve showed that the AUC of the Deepsurv deep neural network model for predicting the 1-year and 3-year survival rates of patients was 0.680 and 0.652, which was higher than 0.631 and 0.649 of the Cox proportional hazards regression model.Conclusion Deepsurv deep neural network model is superior to the traditional Cox proportional hazard regression model in predicting the survival of patients with non-metastatic prostate cancer.
Key words:Deepsurv deep neural network model;Non-metastatic prostate cancer;Survival prediction
前列腺癌(prostate cancer)已成为男性主要癌症之一,其发病率和死亡率是非常高的,每年有近30.7万人死亡,占男性癌症总死亡率的6.6%[1]。数据显示,前列腺特异性抗原检测和疾病发病率显著上升。其中,超过80%的男性被诊断为非转移性疾病[2]。因此,准确的预后对于确定哪些患者可以从治疗中获益至关重要[3,4]。在以往的医学研究中,许多学者在建立Cox比例风险回归模型时允许使用多个预测因子来开发生存函数。但是,该模型并不适用于非线性生存数据,因为它已经假定了线性比例的风险。如李世海等[5]利用Cox比例风险回归模型分析接受全雄激素阻断持续内分泌治疗的前列腺癌患者的临床特点,筛选影响患者预后的危险因素;张悦等[6]通过Cox比例风险回归模型分析其他癌症对前列腺癌患者生存情况的影响。这些研究并未考虑到癌症患者的非线性生存数据,因此这些模型并未达到前列腺癌症患者的准确预后标准。本研究将基于SEER数据库中非转移性前列腺癌症患者的非线性预后因素来探讨Deepsurv深度神经网络模型[7]和传统的Cox比例风险回归模型[8]对前列腺癌患者生存时间的预测性能,现报道如下。
1资料与方法
1.1资料来源 非转移性前列腺癌患者数据集[9]采用 SEER*stat 8.4.0.1软件在 SEER 数据库中提取。收集患者的年龄(40~75岁)、诊断年份(2014-2018年)、性别(男)、病理确诊情况(Positive histology)和站点代码(C61.9),包含212 094例前列腺癌患者(C61.9)。排除无有效生存时间的患者2425例、发生转移性疾病(包括淋巴结转移)患者118 108例、无前列腺特异性抗原(PSA)、前列腺癌组织恶性程度(Gleason分级)和肿瘤分期(T分期)数据[10,11](AJCC 第7版为标准)缺失的患者79 940例,最终纳入11 621例男性非转移性前列腺癌患者,按照8∶2分为训练集(9297例)和测试集(2324例)。在诊断时检测的以下变量作为非转移性前列腺癌患者生存分析的预后因素:年龄、PSA水平、Gleason分级、肿瘤分期和活检阳性总数,患者人口病理特征见表1。
1.2方法
1.2.1构建Deepsurv深度神经网络模型 DeepSurv是一个深度前馈神经网络,能够预测患者的预后因素对其生存率的影响。首先,将基准数据(经过标准化的非转移性前列腺癌症患者的预后因素)输入到神经网络中,该网络通过一些带有权值的隐藏层来传播输入,其中隐藏层由全连通的非线性激活函数组成,然后由单个节点组成的输出层输出作为神经网络的预测值。对于Deepsurv深度神经网络模型,使用现代深度学习技术来优化神经网络的训练。包括:数据类型转化、标准化输入、超参数调节、数据输出。Deepsurv深度神经网络的超参数包括:网络层数(layers)、隐藏层结点数(nodes)、激活函数(activation)、优化器(optimizer)、学习率(learning rate)、神经元丢弃概率(dropout)和动量(momentum)。使用随机超参数优化搜索算法[12]在一个预定义的范围内对每个超参数进行采样,并通过每次测试集的一致性指数(C-index)来评估模型的性能,最终得到一组最优超参数如下:layers为3、nodes为30、optimizer为Adam、learning rate为0.01、activation为relu、dropout为0.2、momentum为0.889。
1.2.2评价指标 通过一致性指数(C-index)、ROC曲线下面积(AUC)和Brier分数(Brier Score)比较Deepsurv深度神经网络模型和Cox比例风险回归模型對非转移性前列腺癌症患者1、3年生存情况的预测性能。
C-index用来测量一致性对中所有可比对的比例(即预测和观察结果是一致的)[13]。通过公式(1)来估计一致性指数:
Brier Score[14]是计算在某时刻t观察到的非转移性前列腺癌症患者的生存状态[Yi(t)=I(Yi≥t)]与预测该患者生存概率[S(t|Zi)]之间的均方误差,通过公式(2)来估计Brier分数,其中Dm是非转移性前列腺癌症患者数据测试集大小,S(t|Zi)是通过训练集数据进行估计,Wi(t)=■+■是带有删失权重G(t)=P(c>t)的逆概率。
BS(t,S) =■∑■W■(t){Y■(t)-S(t|Z■)}■(2)
随时间变化的ROC曲线及其AUC[15]需要推导出具有时间依赖性的特征,如公式(3)所示,其中c是一些任意的截止点,对于给定的时间t,两种特性均决定了在t时刻的ROC曲线及其相关的AUC。
sensitivity(c,t) = P{g(Z;θ)>c|T≤t}
specificity(c,t) = P{g(Z;θ)>c|T>t}(3)
2结果
Deepsurv深度神经网络模型的C-index为0.713,高于Cox比例风险回归模型的0.654;Deepsurv深度神经网络模型预测患者1、3年生存率的Brier Score为0.312、0.229,低于Cox比例风险回归模型的0.356、0.241,见表2。其中,Deepsurv模型的C-index高于 Cox模型并且预测模型具有中等可信度,预测结果可信[16]。Deepsurv深度神经网络模型和Cox比例风险回归模型的ROC曲线见图1,ROC曲线显示,Deepsurv深度神经网络模型预测患者1、3年生存率的AUC为0.680、0.652,高于Cox比例风险回归模型的0.631、0.649。
3讨论
非转移性前列腺癌的发生主要与年龄、种族、地理位置、饮食结构等因素有关。目前,我国已经进入老龄社会,随着人口寿命延长,飲食结构改变,肿瘤筛查及诊断水平的不断提高。虽然我国前列腺癌的发病率远低于西方发达国家,但近年来已经呈现上升趋势,现位于男性泌尿生殖系统恶性肿瘤第3位[17]。同时,癌症的治疗决策特别复杂,需要平衡进展的风险和治疗相关的发病率,针对非转移性前列腺癌症患者的非线性预后生存数据,使用Deepsurv深度神经网络模型可以更有效的预测患者的生存概率,准确的预测患者的生存时间。
本研究是基于SEER数据库对非转移性前列腺癌症患者进行预后分析,SEER数据库拥有大量基于人群的资源,可以用于研究跨人口统计学特征,地理区域及时间病理诊断含义,还提供了不同类型癌症发病率,生存率以及死亡率等数据,并且分子分型的数据也在增加[18]。本研究通过SEER数据库获取非转移性前列腺癌症患者的数据集后,建立Deepsurv深度神经网络模型和Cox比例风险回归模型来对非转移性前列腺癌患者进行生存分析预测,并通过计算得到这两种模型的C-index,ROC曲线及AUC和Brier score,均验证了Deepsurv神经网络模型在预测非转移性前列腺癌患者生存方面的表现优于传统的Cox比例风险回归模型,在医学临床实践中,建立最优模型可以准确的预测患者的生存时间及生存概率并为患者提供有效的个性化治疗建议[19]。
虽然本研究纳入的数据量较大且经过验证有一定的可靠性,但仍存在一定的局限性。首先,本研究是基于SEER数据库的一项回顾性研究,无法获得患者的某些具体信息,仅能观察到结局指标,对疾病进展相关因素无法验证,会产生一定的偏倚[20]。其次,在临床实践中,非转移性前列腺癌症患者的预后影响因素十分复杂,本研究建立的Deepsurv深度神经网络模型仅针对该研究中纳入的预后因素进行讨论,验证了Deepsurv深度神经网络模型优于传统的Cox比例风险模型,如若纳入其他影响前列腺癌症患者生存率的预后因素,仍需进一步分析。
参考文献:
[1]Taitt HE.Global Trends and Prostate Cancer: A Review of Incidence,Detection, and Mortality as Influenced by Race, Ethnicity, and Geographic Location[J].American Journal of Men's Health,2018,12(6):807-823.
[2]Donovan JL,Hamdy FC,Lane JA.Patient-reported Outcomes after Monitoring, Surgery,or Radiotherapy for Prostate Cancer[J].The New England Journal of Medicine,2016,375(15):1425-1437.
[3]Hamdy FC,Donovan JL,Lane JA.10-Year Outcomes after Monitoring, Surgery, or Radi-otherapy for Localized Prostate Cancer[J].The New England Journal of Medicine,2016,375(15):1415-1424.
[4]Wilt TJ,Jones KM,Barry MJ,et al.Follow-up of Prostatectomy versusObservation for Early Prostate Cancer[J].The New England Journal of Medicine,2017,377(2):132-142.
[5]李世海,李强,张卫东,等.前列腺癌长期持续内分泌治疗的临床特点及预后因素分析[J].临床泌尿外科杂志,2020,35(11):891-896.
[6]张悦,武振宇.第二原发结直肠癌对前列腺癌患者生存情况影响的分析[J].中国卫生统计,2020,37(3):444-447.
[7]Katzman JL,Shaham U,Cloninger A,et al.DeepSurv: personalized treatment recomme-nder system using a Cox proportional hazards deep neural network[J].BMC Medical Research Methodology,2018,18(1):18-24.
[8]Austin PC.Generating survival times to simulate cox proportional hazards models with time-varying covariates[J].Stat Med,2012,31(29):3946-3958.
[9]Lee C,Light A,Alaa A,et al.Application of a novel machine learning framework for pr-edicting non-metastatic prostate cancer-specific mortality in men using the Surveillance,Epidemiology, and End Results (SEER) database[J].The Lancet Digital Health,2021,3(3):e138-e146.
[10]Sanda MG,Cadeddu JA,Kirkby E,et al.Clinically localized prostate cancer: AUA/ASTRO/SUOguideline. Part I: risk stratification, shared decision making, and care options[J].The Journal of Urology,2018,199(3):683-690.
[11]Zelic R,Garmo H,Zugna D,et al.Predicting prostate cancer death with different pretreatmentrisk stratification tools: a head-to-head comparison in a nationwide cohort-study[J].Eur Urol,2020,77(2):180-188.
[12]Bergstra J,Bengio Y.Random search for hyper-parameter optimization[J].J Mach Learn Res,2012,13(1):281-305.
[13]邱海波,曹素梅,徐瑞華.基于2020年全球流行病学数据分析中国癌症发病率、死亡率和负担的时间趋势及与美国和英国数据的比较[J].癌症,2022,41(4):165-177.
[14]Gerds TA,Schumacher M.Consistent estimation of the expected Brier score in gener-al survival models with right-censored event times[J].Biometr J,2006,48(6):1029-1040.
[15]Heagerty PJ,Lumley T,Pepe MS.Time-dependent ROC curves for censored survival data and a diagnostic marker[J].Biometrics,2000,56(2):337-344.
[16]田春兰,王烈宏.基于SEER数据库分析年轻T期宫颈癌患者生存的影响[J].医学信息,2023,36(7):36-40.
[17]殷桂草,田浩宇,田锋,等.以PSA筛查为基础前列腺癌早期诊断与治疗的研究[J].蚌埠医学院学报,2023,48(4):441-444.
[18]Doll KM,Rademaker A,Sosa JA.Practical Guide to Surgical Data Sets: Surveillance,Epi-demiology,and End Results(SEER) Database[J].JAMA Surg,2018,153(6):588-589.
[19]Mi X,Zou F,Zhu R.Bagging and deep learning in optimal individualized treatment rules[J].Biometrics,2019,75(2):674-684.
[20]任昱恺,林宗祥,韦柏充,等.基于SEER数据库肺腺鳞癌淋巴结转移预测模型的构建[J].河南医学研究,2022,31(7):1198-1203.
收稿日期:2023-04-23;修回日期:2023-05-16
编辑/成森