李伟栋,杨丽,邹兴文,代伯峰,王平,张晋昕
肿瘤防控已成为世界各国政府的卫生战略重点。在医学研究领域中,肿瘤风险预测模型被用来预测某种肿瘤未来的发病情况。具体来说就是以肿瘤的多病因为基础,建立使多危险因素和肿瘤的发生或预后确定为一种定量关系统计模型。“肿瘤风险预测模型”用途包括:告知患者发病或预后风险,筛选高危人群,帮助医生临床决策[1-2]。预测模型的创建需要考虑足够的样本量、较好的数据质量,并要求模型简单并有较好的预测准确性和区分度,常见的模型包括Logistic回归模型、Cox比例风险模型,这些模型在临床应用也较为广泛[3-4]。
列线图(Nomogram)是基于回归模型对个体的(阳性)结局发生概率进行直观呈现。其基本原理是根据预测模型中自变量回归系数的大小来制定评分标准,给预测因素的每种取值水平一个评分,再计算个体的总得分,最后通过总得分与结局概率之间的转换函数来计算个体结局事件发生概率[5-6]。目前在临床发病及预后预测应用尤其是肿瘤领域较为广泛[7-8]。
列线图应用之前需要对预测模型的效果进行验证,主要评价模型的区分度(Discrimination)和一致性(Accuracy)。区分度(Discrimination)的常用衡量指标:ROC曲线下面积(area under curve,AUC)和C统计量(C-index),一致性(Accuracy)可以通过Calibration plot的形式直观展示肿瘤预测概率值与实际概率值的关系[9-10]。
本文以乳腺癌患者生存预测模型为例,介绍R软件包survival、rms拟合Cox回归模型的计算实现,绘制列线图并评价预测效果。
乳腺癌生存数据来自于SPSS软件自带案例数据[11],在生存分析和Cox模型的教学中被应用广泛,数据文件含1 207例乳腺癌患者的生存状态、生存时间及相关影响因素信息,数据变量列表见表1。
1.2.1 列线图创建 列线图基于案例乳腺癌预后Cox回归预测模型。单因素筛选P<0.1的预测变量经逐步法筛选进入最终预测模型,基于预测模型的回归系数借助R软件的rms、 survival包绘制列线图[12]。
1.2.2 列线图预测效果评价 采用bootstrap自抽样方法用建模数据验证建模效果,自抽样次数=1000, 一致性指数(C-index)及95%CI评价预测区分度,其值为0~1,值越接近1,模型对患者区分性越好;Calibration plot的评估3年、5年、10年列线图肿瘤预测概率值与实际概率值的一致性,散点落在图形45°对角参考线提示预测一致性较好。
表1 乳腺癌生存数据变量信息介绍汇总表
Table 1. Breast Cancer Survival Data Variable Information
VariableLabelAssignment descriptionStatusSurvival outcome0=“survival”,1=“dead”TimeSurvival time(month)-AgeAge group1=“age<35”2=“35≤age<45”3=“45≤age<55”4=“55≤age<65”5=“65≤age<75”6=“75≤age<90”ErEstrogen receptor status0=“-”,1=“+”PrProgesterone receptor status0=“-”,1=“+”Ln_yesnoLymph node metastasis0=“No”,1=“Yes”PathscatPathology tumor size(grade)1=“<2”2=“2≤pathscat≤5”3=“5 1 207例乳腺癌患者经10年随访后,死亡72例,Cox单因素回归分析显示,年龄、雌激素受体状态、孕酮受体状态、淋巴结转移、病理学肿瘤大小为影响患者生存时间的可能危险因素,采用前进法多因素回归分析显示:最终的影响因素为年龄、孕酮受体状态、淋巴结转移、病理学肿瘤大小,具体结果见表2。 表2 1 207例乳腺癌患者预后危险因素的Cox回归分析 Table 2. Cox Regression Analysis of Prognostic Risk Factors in 1 207 Breast Cancer Patients VariableNPercent(%)Univariate analysisMultivariate analysisHR(95%CI)PHR(95%CI)PStatus Dead72 5.97 Survival1135 94.03 Age group(years)0.78(0.65~0.93)0.01 0.73(0.58~0.92)0.007 <3548 3.98 35~20516.98 45~30725.43 55~27923.12 65~25220.88 75~901169.61 (Table 2 continues on next page) (continued from previous page) VariableNPercent(%)Univariate analysisMultivariate analysisHR(95%CI)PHR(95%CI)PEstrogen receptor status0.021 0.150 0338 28.00 1.00 1531 44.00 0.52(0.30~0.91) Unknown338 28.00 Progesterone receptor status0.026 0.090 0389 32.23 1.00 1462 38.28 0.53(0.30~0.93) Unknown356 29.49 Lymph node metastasis 0929 77.00 1.00<0.0011.00<0.001 1278 23.00 2.52(1.58~4.02)2.29(1.29~4.05)Pathology tumor size(cm)∗ <2826 68.40 1.00<0.001 2~5283 23.40 3.52(2.15~5.74)<0.0012.03(1.14~3.62)<0.001 >5121.006.85(1.63~28.75)0.009 3.91(0.90~16.96)0.009 Histological grade 1796.551.00 2514 42.58 2.05(0.49~8.62)0.328 3327 27.09 3.90(0.93~16.40)0.063 4287 23.78 2.13(0.49~9.28)0.312 *In total, 86 cases (7.1%) of pathological tumor size were missing. 2.2.1 Cox比例风险预测模型预测因素赋分 基于多因素Cox回归预测模型入选变量(年龄、孕酮受体状态、淋巴结转移、病理学肿瘤大小)自变量回归系数做转化后确定预测因素赋分值,其计算公式为:预测因素赋分值=(预测因素回归系数/预测因素中回归系数最大值×100)[5],赋分值可以直接通过软件计算,具体结果见表3。 表3 预测因素赋分表 Table 3. Score of Predictive Factor Predictive factorScoreAge group(years) <3510 35~8 45~6 55~4 65~2 75~900 Progesterone receptor status 04 10 Lymph node metastasis 00 16 Pathology tumor size(cm) <20 2~55 >59 2.2.2 列线图创建 绘制列线图-每个因素刻度尺、刻度尺所对应的得分、总得分及3年、5年、10年生存概率,见图1。 2.2.3 列线图使用指引 按患者预测因素属性在列线图中画上竖线计算各因素对应的得分,将各因素的得分累计相加得到总得分,总得分画下竖线与3年、5年、10年生存概率线相交得到该患者的对应预测概率。 例如,有1例乳腺癌患者变量取值分别为“年龄“45~55岁”、孕酮受体状态“阴性”、淋巴结转移状态“转移”、肿瘤大小等级“2~5cm”,在列线图对应的Points分别为6分、4分、6分、5分,总得分(Total Points)=6分+4分+6分+5分=21分,按图1可预测该患者的3年生存概率约为0.88、5年生存概率约为0.67、10年生存概率约为0.60。 2.3.1 一致性指数(C-index) 预测模型一致性指数:0.71(0.62~0.80),肿瘤患者预后模型有较好的预测精度。 2.3.2 校准曲线(calibration plots) 校准曲线原理为:利用列线图计算出研究对象的生存概率,将人群按生存概率均分为3组,分别计算每组研究对象预测生存概率和相应的实际生存概率的均值,并将两者结合起来作图得到3个校准点,校准点连接起来得到预测校准曲线,如果预测校准曲线越贴近45°对角线,则说明列线图的预测能力越好。 图1 1 207例乳腺癌患者Cox比例风险预测模型列线图 Figure 1. 1 207 Cases of Breast Cancer Patients 图2是3年、5年、10年列线图校准曲线,由校准曲线可知3年、5年、10年的预测生存概率与实际生存概率连线、置信区间与45°对角线有交叉,预测与实际关系基本一致。其中5年预测风险值与实际风险值的关系最一致,散点基本落在45°对角线上,预测生存率<0.95时,效应关系最佳。同时部分预测概率置信区间很宽,提示尚需增大样本量进行进一步的考核。 图2 3年、5年、10年列线图校准曲线 Figure 2. Calibration Plot of 3-, 5-, and 10-year Nomogram 癌症是严重威胁人类健康的重大慢性病,是21世纪中国乃至全球最严重的公共卫生问题之一[13]。在医学领域,相比于风险预测模型复杂的公式,列线图优势在于可通过直观图形的形式提供更好的个体化发病预后风险评估,在临床实践中有确切的价值,可为个体化临床决策提供参考依据[14],目前作为肿瘤患者预测预后的工具已经被广泛应用,比传统的肿瘤分期更为准确[15-16]。 本文以乳腺癌患者生存预测模型为例,介绍在R软件绘制基于Cox回归模型的列线图并评价列线图预测乳腺癌患者的预后效果。发病或预后列线图能够提供影响因素的具体分值,通过计算列线图中的各个因素的分值相加推测结局概率,预测效果较公式模型方便、直观,引用方便,能够帮助预后差的患者提前获得更好的治疗方式[17]。 国内学者董英已介绍Cox模型及预测列线图在R软件中的实现[6],但其不足是仅介绍图形绘制,无模型构建指导原则、预测效果评价及使用注意事项等方面的内容,而这些内容是预测模型构建和应用必须考虑,只有当模型的预测效果得到了明确验证之后,方可对模型制作列线图,此时该列线图才会有很好的应用价值[12],本文从理论、软件实现、结果解读对这些内容做了详细介绍。模型构建时需要考虑人群代表性、模型是否纳入了足够多的影响因素、目前的模型是否比其他应用的模型更好、使用的建模统计方法是否合适;模型预测效果评价需提供一致性指数和校准曲线评价模型区分度和一致性,C统计量(C-index)和的值为0~1,值越接近1,模型对患者区分性越好;如果预测校准曲线越贴近45°对角线,则说明列线图的预测能力越好。 除了本文介绍的内部验证,如果是新模型应用效果评价有外部人群验证更好,即使用另外一组研究对象的数据(即外部数据)去验证模型的预测准确性,具体做法是根据建立的列线图计算出验证集每个患者的总得分,然后将总分作为Cox模型的一个变量进行生存分析,得到一致性指数和校准曲线进行预测效果评价验证。本研究纳入预测因素和国内外乳腺癌列线图模型预后的预测变量基本一致,Mazouni等对305例未行辅助治疗的淋巴结阴性乳腺癌患者进行分析指出患者年龄、肿瘤大小、PR状况(孕酮受体状态)以及PAI-1(纤溶酶原激活物抑制因子1)等可作为独立预测因素[15]。 本文以SPSS软件breast cancer survival教学数据为例,主要介绍在R软件实现生存概率风险列线图绘制并评价预测效果,希望能够为相关研究者提供方法学参考。文中示例程序分析仅对相关的函数调用及绘图功能作简要的说明,涉及更多的选项请参照R的帮助文档。 附:R分析代码 ## 案例数据导入 bcs <-read.table("F:/DM/R/RAW/Breast cancer survival.csv", header=TRUE, sep=",") ## 读取rms等相关程序包 library(rms) library(survival) ##创建Cox比例风险预测模型 model1<-cph(Surv(time,status)~agec+er+pr+pathscat+lnyesno+pathscat+histgrad, data=na.omit(bcs), x = T, y = T,surv=T,time.inc=12) stepmodel1<-step(model1) ##根据预测模型,绘制3年、5年、10年生存概率列线图 nom <-nomogram(stepmodel1, fun=list(function(x) surv(36, x), function(x) surv(60, x), function(x) surv(120, x)), lp=F, funlabel=c("3-year survival", "5-year survival", "10-year survival"), maxscale=10,fun.at=c(0.1,seq(0.1, 0.9, by=0.1), 0.9)) plot(nom) ##calibration curve(校正曲线)评价模型预测准确性-以3年为例 f3<-cph(Surv(time,status)~agec+pr+pathscat+ln_yesno,data=na.omit(bcs),x=T,y=T,surv=T,time.inc=36) cal3 <-calibrate(stepf3, cmethod="KM", method="boot", u=36, m=300, B=1121) plot(cal3) 作者声明:本文第一作者对于研究和撰写的论文出现的不端行为承担相应责任; 利益冲突:本文全部作者均认同文章无相关利益冲突; 学术不端:本文在初审、返修及出版前均通过中国知网(CNKI)科技期刊学术不端文献检测系统学术不端检测; 同行评议:经同行专家双盲外审,达到刊发要求。2 结 果
2.1 Cox比例风险预测模型分析结果
2.2 Cox比例风险预测模型预测因素赋分、列线图创建及图使用指引
2.3 列线图预测效果验证
3 讨 论