尹明明,秦环龙*
·论著·
·专题研究·
基于临床指标和病理指标的三种预测模型用于结直肠癌的预后分析研究
尹明明1,2,秦环龙1,2*
目的通过支持向量机模型(SVM)将临床指标和病理指标进行整合,分析其对结直肠癌(CRC)患者预后的预测价值。方法选取2002—2011年在上海市第十人民医院胃肠外科行结直肠肿瘤切除术的患者2 951例为研究对象。收集患者的临床指标(性别、年龄、肿瘤大小、肿瘤位置、组织病理类型、T分期、N分期、M分期、G分期)和病理指标〔癌胚抗原(CEA)、增殖细胞核抗原(PCNA)、P53、CD34、S-100、NM23、CerB-b2、P21、Ki-67〕。按照随访信息是否缺失将患者分为两组,第一组为临床数据完整但随访信息缺失,共2 747例;第二组为临床数据及随访信息均完整,共204例。记录患者生存情况。第一组中,若某一患者有超过4个指标缺失,则该患者被剔除;在余下的患者中,若某一指标的缺失率>30.0%,则该指标被剔除;进一步将少发病理类型患者剔除;计算临床指标和病理指标的关联性,随后,将所得关联性在第二组患者中进行验证,若该关联性在第二组中存在,则直接将第二组患者纳入第三组中;若该关联性在第二组中不存在,则采用SVM内部算法剔除部分患者,直至该关联性再次成立,将余下的第二组患者纳入第三组。对第二组中患者的病理指标进行统计,若某一指标的缺失率>50.0%,则该指标被剔除。基于SVM对第三组数据进行处理,建立3种预测模型:SVM1基于临床指标、SVM2基于病理指标、SVM3基于临床指标和病理指标的汇总。结果第一组中,共834例患者缺失指标<4个,其中性别、年龄、肿瘤位置、组织病理类型、P53、CD34、S-100、CerB-b2、Ki-67共9个指标缺失率<30.0%而被保留,剔除5例少见肿瘤患者后,共剩下829例患者。第一组患者年龄与CerB-b2表达情况存在关联性(P<0.05)。第二组剔除105例患者后,余下99例患者,患者年龄与CerB-b2表达情况存在关联性(P<0.05),将这99例患者纳入第三组。第二组中PCNA、P53、CD34、S-100、CerB-b2共5个指标缺失率<50.0%而被保留。第三组患者年龄与S-100、CerB-b2表达情况存在关联性(P<0.05);M分期与PCNA表达情况存在关联性(P<0.05)。第三组不同T分期、N分期患者生存曲线比较,差异有统计学意义(P<0.05)。SVM1纳入9个临床指标(性别、年龄、肿瘤大小、肿瘤位置、组织病理类型、T分期、N分期、M分期、G分期),准确率为83.4%;SVM2纳入5个病理指标(PCNA、P53、CD34、S-100、CerB-b2),准确率为78.8%;初始的SVM3纳入以上9个临床指标及5个病理指标,准确率为74.8%,通过最小冗余最大相关性(MRMR)法对指标进行进一步筛选,得到最终的SVM3,其纳入4个临床指标(肿瘤位置、组织病理类型、T分期、N分期)和2个病理指标(CD34、CerB-b2),准确率为81.8%。不同风险SVM1、SVM2、SVM3患者生存曲线比较,差异有统计学意义(P<0.05)。结论临床指标如年龄、M分期与病理指标如CerB-b2、S-100和PCNA存在一定的关联性;借助SVM模型将临床指标和病理指标进行整合分析可对CRC患者预后进行有效预测。
结直肠肿瘤;预后;预测模型
尹明明,秦环龙.基于临床指标和病理指标的三种预测模型用于结直肠癌的预后分析研究[J].中国全科医学,2017,20(27):3353-3359.[www.chinagp.net]
YIN M M,QIN H L.Prognosis analysis of colorectal cancer by three predictive models based on clinical and pathological indexes[J].Chinese General Practice,2017,20(27):3353-3359.
目前结直肠癌(CRC)不仅是世界第三大高发癌症,而且高居全球恶性肿瘤死因第四位,紧随肺癌、肝癌和胃癌之后[1]。CRC的发病原因尚不明确,可能与人们生活习惯和饮食习惯的改变有关[2]。当前,CRC主要依靠手术治疗,但术后转移和复发是困扰临床医生和患者的重要问题[3],因此亟须建立一种评价体系评估CRC患者术后复发和转移的风险。基于临床病理学的肿瘤分期预测CRC患者预后的效果不足,相比较而言,免疫组化可对细胞中的特定功能蛋白进行定位及半定量分析,对CRC患者预后的研究意义重大[4-5],但单一的病理指标预测效能不足,因此将临床指标和病理指标结合起来可能可有效预测CRC患者的预后[6]。支持向量机模型(SVM)是一种常用的计算机算法,通常用来进行模式识别、分类以及回归分析[7],其可将某些肿瘤指标如癌胚抗原(CEA)、甲胎蛋白(AFP)、糖类抗原199(CA199)有机结合起来,对包括CRC在内的多种恶性肿瘤预后进行预测[8-13],但SVM用于预测CRC患者预后的研究较少[14]。本研究通过SVM将临床指标和病理指标结合起来,观察临床指标和病理指标的相互关联,并用于CRC患者的预后研究,观察并进一步分析其预测效能。
1.1 研究对象 选取2002—2011年在上海市第十人民医院胃肠外科行结直肠肿瘤切除术的患者2 951例为研究对象。纳入标准:(1)病理证实为CRC;(2)年龄>18周岁;(3)影像学证实无远处转移,疾病分期参照第七版TNM分期[15]。排除标准:围术期进行放疗及化疗,或既往有放化疗史者。本研究经上海市第十人民医院伦理委员会审批通过。
1.2 数据收集 收集患者的临床指标和病理指标,临床指标包括性别、年龄、肿瘤大小、肿瘤位置、组织病理类型、T分期、N分期、M分期、G分期共9个指标,病理指标包括CEA、增殖细胞核抗原(PCNA)、P53、CD34、S-100、NM23、CerB-b2、P21、Ki-67共9个指标。按照随访信息是否缺失将患者分为两组,第一组为临床数据完整但随访信息缺失,共2 747例;第二组为临床数据及随访信息均完整,共204例。从2005年开始电话随访,随访至2014年,半年随访1次,记录患者生存情况。
1.3 对第一组进行数据处理 第一组中,若某一患者有超过4个指标缺失,则该患者被剔除;在余下的患者中,若某一指标的缺失率>30.0%,则该指标被剔除;进一步将数量较少的良性肿瘤患者和印戒细胞癌等少发病理类型患者剔除。运用χ2检验计算临床指标和病理指标的关联性,随后,将所得关联性在第二组患者中进行验证,若该关联性在第二组中存在,则直接将第二组患者纳入第三组中;若该关联性在第二组中不存在,则采用SVM内部算法剔除部分患者,直至该关联性再次成立,将余下的第二组患者纳入第三组。
1.4 对第二组进行数据处理 对第二组患者的病理指标进行统计,若某一指标的缺失率>50.0%,则该指标被剔除;采用KNN法对于上述样本数据中的缺失数据进行填充,并取邻居数为5进行计算。
1.5 基于SVM对第三组进行数据处理 对第三组患者的临床指标和病理指标进行整理。利用LibSVM软件寻找最优的C、gamma值,在此基础上结合函数svm-train,建立3种预测模型:SVM1基于临床指标、SVM2基于病理指标、SVM3基于临床指标和病理指标的汇总,其中SVM3采用最小冗余最大相关性(MRMR)法对指标进行进一步筛选。
2.1 第一组数据处理结果 第一组中,共834例患者缺失指标<4个,其中性别、年龄、肿瘤位置、组织病理类型、P53、CD34、S-100、CerB-b2、Ki-67共9个指标缺失率<30.0%而被保留(见表1),剔除5例少见肿瘤患者后,共剩下829例患者。第一组患者性别、肿瘤位置、组织病理类型与P53、CD34、S-100、CerB-b2、Ki-67表达情况均不存在关联性,差异无统计学意义(P>0.05);第一组患者年龄与P53、CD34、S-100、Ki-67表达情况均不存在关联性,差异无统计学意义(P>0.05);第一组患者年龄与CerB-b2表达情况存在关联性,差异有统计学意义(P<0.05,见表2)。
第二组中,≤65岁99例,>65岁105例;CerB-b2阳性61例(其中≤65岁34例),CerB-b2阴性143例(其中≤65岁65例);第二组患者年龄与CerB-b2表达情况不存在关联性,差异无统计学意义(χ2=1.810,P=0.179)。剔除105例患者后,第二组余下99例患者中,≤65岁42例,>65岁57例;CerB-b2阳性27例(其中≤65岁16例),CerB-b2阴性72例(其中≤65岁26例);第二组患者年龄与CerB-b2表达情况存在关联性,差异有统计学意义(χ2=4.308,P=0.038);将这99例患者纳入第三组。
2.2 第二组数据处理结果 将第二组中缺失率大于50.0%的数据剔除,剔除后第二组中,PCNA、P53、CD34、S-100、CerB-b2共5个指标缺失率<50.0%而被保留(见表3)。
2.3 第三组患者一般情况及临床指标和病理指标的关联性分析 第三组中男52例,女47例;年龄37~87岁,平均年龄(67.0±10.9)岁;组织病理类型:管状腺癌74例,黏液腺癌15例,混合腺癌10例;肿瘤直径(4.4±1.9)cm;随访时间0.7~379.1周,平均随访时间(190.8±88.6)周;生存率:1年生存率91.9%(91/99),3年生存率74.7%(74/99),5年生存率62.6%(62/99)。性别、肿瘤大小、肿瘤位置、组织病理类型、T分期、N分期、G分期与PCNA、P53、CD34、S-100、CerB-b2表达情况均不存在关联性,差异无统计学意义(P>0.05);年龄与PCNA、P53、CD34表达情况不存在关联性,差异无统计学意义(P>0.05);年龄与S-100、CerB-b2表达情况存在关联性,差异有统计学意义(P<0.05);M分期与PCNA表达情况存在关联性,差异有统计学意义(P<0.05);M分期与P53、CD34、S-100、CerB-b2表达情况均不存在关联性,差异无统计学意义(P>0.05,见表4)。
表1 第一组患者临床指标和病理指标的缺失率〔n(%),n=834〕
注:CEA=癌胚抗原,PCNA=增殖细胞核抗原
表2 第一组患者临床指标和病理指标的关联性分析(n=829)
表3 第二组患者病理指标的缺失率〔n(%),n=204〕
2.4 基于第三组数据的生存分析 分别绘制不同性别、年龄、肿瘤大小、肿瘤位置、组织病理类型、T分期、N分期、M分期、G分期、PCNA表达情况、P53表达情况、CD34表达情况、S-100表达情况、CerB-b2表达情况患者生存曲线。不同性别、年龄、肿瘤大小、肿瘤位置、组织病理类型、M分期、G分期、PCNA表达情况、P53表达情况、CD34表达情况、S-100表达情况、CerB-b2表达情况患者生存曲线比较,差异无统计学意义(P>0.05);不同T分期、N分期患者生存曲线比较,差异有统计学意义(P<0.05,具体图见本刊官网www.chinagp.net 电子期刊相应文章附件)。
2.5 基于SVM的生存分析 SVM1纳入9个临床指标(性别、年龄、肿瘤大小、肿瘤位置、组织病理类型、T分期、N分期、M分期、G分期),最优的C值为8.000,gamma值为0.353 55,准确率为83.4%;SVM2纳入5个病理指标(PCNA、P53、CD34、S-100、CerB-b2),最优的C值为4.000,gamma值为0.353 55,准确率为78.8%;初始的SVM3纳入以上9个临床指标及5个病理指标,最优的C值为0.033,gamma值为0.015 63,准确率为74.8%,通过MRMR法对指标进行进一步筛选,得到最终的SVM3,其纳入4个临床指标(肿瘤位置、组织病理类型、T分期、N分期)和2个病理指标(CD34、CerB-b2),最优的C值为1.000,gamma值为2.828 43,准确率为81.8%。不同风险SVM1、SVM2、SVM3患者生存曲线比较,差异有统计学意义(P<0.05,见图1~3)。
表4 第三组患者临床指标和病理指标的关联性分析(n=99)
CerB-b2是一类表皮生长因子受体,其可对乳腺癌[16]、胃癌[17]和食管癌[18]等恶性肿瘤患者的预后进行有效预测,但是其与临床指标的关系尚不明确,与CRC患者预后的关系也存在争议。PARK等[19]研究发现,CerB-b2表达增强影响CRC患者预后;但TORABIZADEH等[20]则认为,CerB-b2与CRC预后无直接联系;Meta分析也显示,在CRC患者中,CerB-b2表达增高与临床病理特征和不良预后之间并无显著关联[21]。本研究结果显示,年龄与CerB-b2表达情况存在关联性,但不同CerB-b2表达情况患者生存曲线间无差异,说明CerB-b2与CRC患者预后无显著关联。
S-100聚合于染色体1q21上,研究表明,其与肿瘤的发生发展及患者预后相关[22]。有研究报道,S-100是CRC患者不良预后的影响因素[23];也有学者认为,S-100可对肿瘤的治疗产生积极作用,S-100升高会降低CRC患者淋巴结转移及肝转移的风险[24],但其具体作用效果和机制还需要进一步研究证实。本研究结果显示,年龄与S-100表达情况存在关联性,但不同S-100表达情况患者生存曲线间无差异,与CerB-b2结果相似。
注:SVM=支持向量机模型
图1 不同风险SVM1患者生存曲线比较
Figure1 Comparison of survival curves of patients by risk SVM1
图2 不同风险SVM2患者生存曲线比较
PCNA与肿瘤的发展有关,研究表明,其是CRC患者复发及预后不良的独立预测因素[25]。此外,PCNA与CRC患者的TNM分期尤其是N分期关系密切[26]。GUZISKA-USTYMOWICZ等[27]研究发现,T3期、G2期的CRC患者PCNA增高可以显著促进淋巴结转移。同样,TANAKA等[28]认为,对于黏膜下层的侵袭性CRC患者,PCNA是预测淋巴结转移的重要标志物。本研究结果显示,不同PCNA表达情况患者生存曲线间无差异,M分期与PCNA表达情况存在关联性,提示PCNA与远处转移关系密切,与既往文献结果相似[26]。
图3 不同风险SVM3患者生存曲线比较
ZHU等[29]利用SVM模型预测肺癌患者预后,SVM1、SVM2和SVM3的准确率分别为81.3%、77.3%和87.2%。本研究结果显示,SVM1纳入9个临床指标(性别、年龄、肿瘤大小、肿瘤位置、组织病理类型、T分期、N分期、M分期、G分期),准确率为83.4%;SVM2纳入5个病理指标(PCNA、P53、CD34、S-100、CerB-b2),准确率为78.8%;SVM3纳入4个临床指标和2个病理指标(肿瘤位置、组织病理类型、T分期、N分期、CD34、CerB-b2),准确率为81.8%;表明SVM应用于CRC患者中的准确率并未明显优于在肺癌中的准确率[29],这可能由于肿瘤类型、实验方法及纳入患者的差异所致。SVM1的准确率大于SVM2,表明在预测CRC患者预后方面,临床指标较病理指标可能更具有优势。SVM3的准确率位于SVM1和SVM2之间,可能与如下原因有关:(1)纳入的部分病理指标准确率较低,如CD34(其表达情况与患者生存曲线无关联);(2)排除的部分病理指标如CEA可能对预后的诊断价值较高,但是因其缺失比例较大而被剔除,从而影响SVM3的准确率;(3)纳入的部分临床指标如组织病理类型与患者生存曲线无关联。因此,3种SVM模型还有待进一步进行优化。但值得重视的是,大部分临床指标或病理指标与患者生存曲线无关联,但运用SVM模型对临床指标或病理指标进行汇总后,3种SVM模型均与患者预后有关联,可见SVM模型应用于临床的潜力巨大。
与神经网络和决策树等机械学习算法不同,SVM模型更适合用于处理分类学问题[30-31],因此本研究应用SVM模型对影响CRC患者预后的因素进行分析,并将临床指标和病理指标有机结合起来。但本研究尚存在一些局限性:首先,缺失率较高,尤其是一些比较重要的病理指标如CEA、NM23、P21和Ki-67缺失率达50.0%以上,对结果产生一定影响;其次,SVM3准确率比SVM1低,这与既往研究[27]及本研究预判均不相符,可能与一些因素的干扰有关,还有待进一步研究确定;最后,本研究缺少大样本的验证组对每一种SVM模型的准确率进行验证,这也是下一步的研究方向。
综上所述,临床指标如年龄、M分期与病理指标如CerB-b2、S-100和PCNA存在一定的关联性;借助SVM模型将临床指标和病理指标进行整合分析可对CRC患者预后进行有效预测。本研究不但有助于重新认识并评价一些常用的临床指标和病理指标,还为整合临床信息预测CRC患者预后提供了新手段。
作者贡献:尹明明进行文章的构思和设计、可行性分析、文献/资料收集、整理并撰写论文;秦环龙负责对论文进行修订和质量控制及审校,并对文章整体负责,监督管理。
本文无利益冲突。
[1]CHEN W,ZHENG R,BAADE P D,et al.Cancer statistics in China,2015[J].CA Cancer J Clin,2016,66(2):115-132.DOI:10.3322/caac.21338.
[2]AMBALAM P,RAMAN M,PURAMA R K,et al.Probiotics,prebiotics and colorectal cancer prevention[J].Best Pract Res Clin Gastroenterol,2016,30(1):119-131.DOI:10.1016/j.bpg.2016.02.009.
[3]WANG W,XING C.Upregulation of long noncoding RNA ZFAS1 predicts poor prognosis and prompts invasion and metastasis in colorectal cancer[J].Pathol Res Pract,2016,212(8):690-695.DOI:10.1016/j.prp.2016.05.003.
[4]MASUDA T,ISHIKAWA T,MOGUSHI K,et al.Overexpression of the S100A2 protein as a prognostic marker for patients with stage Ⅱ and Ⅲ colorectal cancer[J].Int J Oncol,2016,48(3):975-982.DOI:10.3892/ijo.2016.3329.
[6]ZHANG H Q,GUO X,GUO S Q,et al.STMN1 in colon cancer:expression and prognosis in Chinese patients[J].Eur Rev Med Pharmacol Sci,2016,20(10):2038-2044.
[7]ZHANG M M,YANG H,JIN Z D,et al.Differential diagnosis of pancreatic cancer from normal tissue with digital imaging processing and pattern recognition based on a support vector machine of EUS images[J].Gastrointest Endosc,2010,72(5):978-985.DOI:10.1016/j.gie.2010.06.042.
[8]SUI Y,WEI Y,ZHAO D.Computer-aided lung nodule recognition by SVM classifier based on combination of random undersampling and SMOTE[J].Comput Math Methods Med,2015,2015:368674.DOI:10.1155/2015/368674.
[9]TONG W,YE F,HE L,et al.Serum biomarker panels for diagnosis of gastric cancer[J].Onco Targets Ther,2016,9:2455-2463.DOI:10.2147/OTT.S86139.
[10]WANG H,HUANG G.Application of support vector machine in cancer diagnosis[J].Med Oncol,2011,28 Suppl 1:S613-618.DOI:10.1007/s12032-010-9663-4.
[11]XU W,HU Y,LI J,et al.Study of distinct serum proteomics for the biomarkers discovery in colorectal cancer[J].Discov Med,2015,20(110):239-253.
[12]李成彪,王玉佩,雷金花.腹水癌胚抗原和细胞角蛋白检测对胃癌患者预后评估价值的Meta分析[J].疑难病杂志,2016,15(12):1279-1283.DOI:10.3969/j.issn.1671-6450.2016.12.018. LI C B,WANG Y P,LEI J H.The value of detection of the prognosis of gastric cancer patients by the detection of the antigen of ascites and the de-tection of cell keratin:a Meta analysis[J].Chinese Journal of Difficult and Complicated Cases,2016,15(12):1279-1283.DOI:10.3969/j.issn.1671-6450.2016.12.018.
[13]王锋刚,樊利妮,王天昶,等.三阴性乳腺癌中Ki-67的表达及意义[J].疑难病杂志,2015,14(12):1269-1272. WANG F G,FAN L N,WANG T C,et al.The expression and significance of Ki-67 in triple negative breast cancer[J].Chinese Journal of Difficult and Complicated Cases,2015,14(12):1269-1272.
[14]KOUROU K,EXARCHOS T P,EXARCHOS K P,et al.Machine learning applications in cancer prognosis and prediction[J].Comput Struct Biotechnol J,2015,13:8-17.DOI:10.1016/j.csbj.2014.11.005.
[15]刘洪雁,李强,杨国春,等.结直肠癌患者癌结节分期方法的初步研究[J].中华结直肠疾病电子杂志,2016,5(3):222-227.DOI:10.3877/cma.j.issn.2095-3224.2016.03.006. LIU H Y,LI Q,YANG G C,et al.Initial research on staging method of tumor deposits in CRC patients[J].Chinese Journal of Colorectal Diseases(Electronic Edition),2016,5(3):222-227.DOI:10.3877/cma.j.issn.2095-3224.2016.03.006.
[16]TSUDA H H.Prognostic and predictive value of c-erbB-2(HER-2/neu) gene amplification in human breast cancer[J].Breast Cancer,2001,8(1):38-44.
[17]PARK D I,YUN J W,PARK J H,et al.HER-2/neu amplification is an independent prognostic factor in gastric cancer[J].Dig Dis Sci,2006,51(8):1371-1379.DOI:10.1007/s10620-005-9057-1.
[18]BRIEN T P,ODZE R D,SHEEHAN C E,et al.HER-2/neu gene amplification by FISH predicts poor survival in Barrett′s esophagus-associated adenocarcinoma[J].Hum Pathol,2000,31(1):35-39.
[19]PARK D I,KANG M S,OH S J,et al.HER-2/neu overexpression is an independent prognostic factor in colorectal cancer[J].Int J Colorectal Dis,2007,22(5):491-497.DOI:10.1007/s00384-006-0192-8.
[20]TORABIZADEH Z,NOSRATI A,TAHVILDARI S.Human epidermal growth factor receptor expression in colorectal cancer and its relationship with clinicopathological characteristics[J].Middle East J Dig Dis,2016,8(1):24-30.DOI:10.15171/mejdd.2016.03.
[21]WU S W,MA C C,LI W H.Does overexpression of HER-2 correlate with clinicopathological characteristics and prognosis in colorectal cancer? Evidence from a meta-analysis[J].Diagn Pathol,2015,10:144.DOI:10.1186/s13000-015-0380-3.
[22]BRESNICK A R,WEBER D J,ZIMMER D B.S100 proteins in cancer[J].Nat Rev Cancer,2015,15(2):96-109.DOI:10.1038/nrc3893.
[23]CHEN H,XU C,JIN Q,et al.S100 protein family in human cancer[J].Am J Cancer Res,2014,4(2):89-115.
[24]NAKAYAMA Y,INOUE Y,MINAGAWA N,et al.Relationships between S-100 protein-positive cells and clinicopathological factors in patients with colorectal cancer[J].Anticancer Res,2003,23(6a):4423-4426.
[25]AL-SHENEBER I F,SHIBATA H R,SAMPALIS J,et al.Prognostic significance of proliferating cell nuclear antigen expression in colorectal cancer[J].Cancer,1993,71(6):1954-1959.
[26]LV Q,ZHANG J,YI Y,et al.Proliferating cell nuclear antigen has an association with prognosis and risks factors of cancer patients:a systematic review[J].Mol Neurobiol,2016,53(9):6209-6217.DOI:10.1007/s12035-015-9525-3.
[28]TANAKA S,HARUMA K,TATSUTA S,et al.Proliferating cell nuclear antigen expression correlates with the metastatic potential of submucosal invasive colorectal carcinoma[J].Oncology,1995,52(2):134-139.
[29]ZHU Z H,SUN B Y,MA Y,et al.Three immunomarker support vector machines-based prognostic classifiers for stage IB non-small-cell lung cancer[J].J Clin Oncol,2009,27(7):1091-1099.DOI:10.1200/jco.2008.16.6991.
[30]BOUGHORBEL S,AL-ALI R,ELKUM N.Model comparison for breast cancer prognosis based on clinical data[J].PLoS One,2016,11(1):e0146413.DOI:10.1371/journal.pone.0146413.
[31]徐学琴,孙春阳,刘晓蕙,等.手足口病短期预测的逆传播神经网络模型[J].中国全科医学,2015,18(8):978-980. XU X Q,SUN C Y,LIU X H,et al.Short-term prediction of HFMD based on back propagation neural network[J].Chinese General Practice,2015,18(8):978-980.
(本文编辑:崔丽红)
PrognosisAnalysisofColorectalCancerbyThreePredictiveModelsBasedonClinicalandPathologicalIndexes
YINMing-ming1,2,QINHuan-long1,2*
1.ShanghaiClinicalCollegeofAnhuiMedicalUniversity,Shanghai200072,China2.DepartmentofGastroenterologicalSurgery,ShanghaiTenthPeople′sHospital,Shanghai200072,China
*Correspondingauthor:QINHuan-long,Professor,Doctoralsupervisor;E-mail:huanlong_qin@live.cn
ObjectiveTo investigate the value of clinical and pathological indexes integrated with support vector machine model(SVM) in the prediction of the prognosis of patients with colorectal cancer(CRC).MethodsWe enrolled 2 951 patients undergoing resection of colorectal cancer in Department of Gastroenterological Surgery of Shanghai Tenth People′s Hospital from 2002 to 2011,and collected their clinical indexes(sex,age,tumor size,tumor site,histopathological type,T stage,N stage,M stage,G stage) and pathological indexes(CEA,PCNA,P53,CD34,S-100,NM23,CerB-b2,P21,and Ki-67).We divided the patients into 2 groups according to whether they lacked follow-up information.Group 1 had sufficient clinical data but lacked follow-up information,with a total of 2 747 cases.Group 2 had complete clinical data and follow-up information,with a total of 204 cases.The survival situation of the patients was recorded.In group 1,if a patient had more than 4 indicators missing,the patient was eliminated;among the remaining patients,if any index had a loss rate of >30.0%,the index was excluded;further,patients with fewer pathological types were excluded.The association of clinical indicators and pathological indicators was calculated,and then the resulting association was verified in patients in group 2.If the association was present in group 2,the patients of group 2 would be included in group 3 directly;if the association did not exist in group 2,the SVM internal algorithm was used to remove some patients until the association was established and the remaining patients of group 2 were included in group 3.The pathological indexes of group 2 were statistically analyzed,if the missing rate of an index was >50.0%,the index was eliminated.Based on SVM,data of group 3 was processed,and 3 prediction models were established:SVM1 based on clinical indexes,SVM2 based on pathological indexes,SVM3 based on clinical and pathological indexes.ResultsIn group 1,a total of 834 patients had missing indexes <4.The loss rates of 9 indexes(sex,age,tumor site,histopathological type,P53,CD34,S-100,CerB-b2 and Ki-67) were less than 30.0%,and they were remained.After excluding 5 patients with rare tumors,a total of 829 patients remained in group 1.There was a correlation between age and expression of CerB-b2 in group 1(P<0.05).After eliminating 105 patients,the age of the 99 remaining patients was related to the expression of CerB-b2(P<0.05),and the 99 patients were included in group 2,the loss rates of 5 indexes(PCNA,P53,CD34,S-100,CerB-b2) were less than 50.0%,and they were remained.Age correlated with the expression of S-100 as well as with the expression of CerB-b2 in group 3(P<0.05);there was correlation between the M staging and the expression of PCNA in group 3(P<0.05).The survival curve of the patients in group 3 significantly varied by T stage and N stage(P<0.05).SVM1 included 9 clinical indicators(sex,age,tumor size,tumor location,histopathological type,T stage,N stage,M stage,G stage),the accuracy rate was 83.4%.SVM2 included 5 pathological indexes(PCNA,P53,CD34,S-100,CerB-b2),the accuracy rate was 78.8%.The initial SVM3 included the above 9 clinical indicators and 5 pathological indicators,the accuracy rate was 74.8%.The index was further screened by MRMR method to obtain the final SVM3,which included 4 clinical indexes(tumor location,histopathological type,T stage,N stage) and 2 pathological indexes(CD34,CerB-b2),and the accuracy rate was 81.8%.The survival curves of patients with different risk SVM1,SVM2 and SVM3 were statistically significant(P<0.05).ConclusionThere was a certain correlation between pathological indexes such as CerB-b2,S-100 and PCNA and clinical indexes such as age and M stage;SVM model can be used to integrate the pathological and clinical indexes and to effectively predict the prognosis of patients with colorectal cancer.
Colorectal neoplasms;Prognosis;Prediction model
国家自然科学基金资助项目(81230057)
R 735.34
A
10.3969/j.issn.1007-9572.2017.00.036
2017-04-09;
2017-07-25)
【编者按】 全球最新的癌症流行数据——2012年全球肿瘤流行病统计数据(GLOBOCAN2012)显示,我国结直肠癌发病例数和死亡例数分别占全世界发病总例数和死亡总例数的18.6%和20.1%,均居第1位。目前结直肠癌的治疗以手术为主,但术后的复发、转移及预后不容乐观。为此本刊组织了关于结直肠癌预后的专题,探讨预测结直肠癌预后的相关指标及各评分系统在预测结直肠癌患者术后死亡风险的价值,以提高患者的生活质量。
1.200072 上海市,安徽医科大学上海临床学院
2.200072 上海市,上海市第十人民医院胃肠外科
*通信作者:秦环龙,教授,博士生导师;E-mail:huanlong_qin@live.cn