常紫薇 刘 辉 张秋萌 李兴雨 景丽伟 张 超
华北理工大学附属医院消化内科 河北唐山 063000;①中国人民大学国家发展与战略研究院
胃肠道癌症是全球范围内常见的恶性肿瘤之一,主要包括食管癌、胃癌、结肠癌和直肠癌[1]。据国际癌症研究机构(International Agency for Research on Cancer,IARC)最新统计(2018)[2],胃肠道癌症是男性排名前五的癌症之一,而在女性常见癌症中,结直肠癌排在第二位;另外,2017 年胃肠道癌症的发病率占所有癌症的20%左右,约17.4%的癌症相关死亡可归因于胃肠道癌症,每年约有167万人死亡。除了高发病率外,胃肠道癌症还表现出高病死率,成为当今世界最突出的公共卫生问题之一。
国内外关于胃肠道癌症预后预测模型的研究有很多,现主要分为临床病理因素模型、组织免疫学模型、基因分子模型及数据库和(或)机器算法模型四大类。目前临床上常用的美国癌症联合委员会(American Joint Committee on Cancer,AJCC)和国际抗癌联盟(Union for International Cancer Control,UICC)的肿瘤分期形式(TNM)分期系统及以其为基础的改良分期方案均属于上述模型中的临床病理因素模型。关于组织免疫学指标对胃肠道癌症预后预测的研究较少,但现有研究[3]结果证明免疫学指标与预后之间存在着密切联系。随着后基因组时代的来临,转录组学新一代高通量测序技术,如基因芯片、转录组测序(RNA Sequencing,RNA-Seq)等技术已经广泛应用于医学研究领域,并取得了一定的进展[4]。最近研究表明[5-6],基因表达谱可用于鉴定、分期和指导许多癌症的治疗干预,胃肠道癌症的预后也与基因分子相关,并导致不同的预后结果。癌症相关生存分析的数据来源有很多,但大多数据存在样本量小、样本间差异大、信息缺失等问题,大型数据库的出现则有效解决了上述问题。如今,数据挖掘被广泛应用于生存分析研究,并利用机器学习算法实现了模型的优化。本文将从上述四类模型对胃肠道癌症预后预测模型的研究进展进行综述。
2011年美国纪念斯隆凯特琳癌症中心(Memorial Sloan-Kettering Cancer Center,MSKCC)Weiser等[7]构建出了结肠癌MSKCC列线图。该研究以AJCC第7版结肠癌TNM分期系统为基础,利用美国国家癌症中心(National Cancer Institute)的“监测、流行病学和结果(Surveillance, Epidemiology and End Results,SEER)数据库”,从中筛选1994年至2005年进行了治愈性切除的128853例原发性结肠癌患者资料构建模型来预测结肠癌患者预后生存情况。模型一为AJCC/TNM分期模型,其中包括TNM分期中的T和N分期;模型二则是在纳入T分期的基础上,将检出淋巴结总数和阳性淋巴结数代替了N分期来构建;模型三除包含模型二中的因素外,还纳入了肿瘤分化程度、年龄和性别3个因素,并分别绘制出了列线图进行比较。结果显示模型三,即包含了临床病理因素以及人口统计学因素的模型预测一致性指数(Concordance index,CI)为0.68(95%CI:0.67~0.68),要高于其他模型,并基于此结果构建出结肠癌MSKCC列线图。该模型在经典的TNM分期系统基础上,进一步纳入一般因素,更有助于精准预测结肠癌患者的预后情况,我国崔明等[8]进行的单中心验证研究也证实了这一结论。但此预测模型纳入的多为术后病理指标,临床医师无法在术前对这些因素进行准确的评估。因此,MSKCC模型对接受了术前治疗(包括新辅助化疗)的患者的预后预测作用存在一定的局限性。
2018年Shang-Guan[9]等回顾性分析了970例胃癌根治术患者的临床病理资料,探讨术前淋巴结大小(Preoperative lymph node size,Ns)与预测总体生存(Overall survival,OS)和无病生存(Disease-free survival,DFS)之间的相关性,其中Ns以两位经验丰富的放射科医师于术前1周内经多排螺旋计算机断层扫描后评估得到的平均值为标准。该研究将Ns、年龄、体质指数 (Body Mass Index,BMI)、白蛋白、ASA麻醉分级、手术方式、肿瘤部位、肿瘤大小、淋巴结清扫术的类型、胃切除术式、手术时间、T分期、N分期、TNM分期(第7版)和辅助化疗(5-氟尿嘧啶)等因素纳入,经单因素和多因素分析得出:Ns与淋巴结转移密切相关,年龄、肿瘤大小、淋巴结清扫术的类型、辅助化疗和TNM分期是OS的独立预后因素;Ns分组(Ns0:≤1.10cm,Ns1:1.10~1.70cm和Ns2:>1.70cm)和上述预后因素则是DFS的独立预后因素,且Ns分组对IIIA、IIIB、IIIC期患者的3年DFS的影响有着显著差异。该研究最终得到的列线图纳入了Ns、淋巴结清扫的类型及TNM分期等因素,以此来预测患者的3年DFS。其中,术前测量Ns对于临床简单易行,更利于临床实践。
由此可见,经典的TNM分期系统仅包括“肿瘤原发灶、区域淋巴结受累数目和远处转移”3个指标,并未将患者其他预后因素考虑进去,这将导致最终的预测结果偏差,而改良后的模型相较于经典模型预测更加准确。
2016年Jiang等[3]采用来自879位患者的数据,首次开发了基于组织免疫学指标的胃癌患者预后预测模型。该研究使用免疫组织化学方法检测了251个标本中27个免疫特征的表达及生存资料,利用LASSO-Cox回归模型构建出基于5个特征免疫学指标的预测模型:ISGC=(0.149×status of CD3IM)+(0.021×status of CD3CT)+(0.044×status of CD8IM))+(0.096×status of CD45ROCT)-(0.173×status of CD66bIM),而后利用测试集验证模型并构建了2个列线图,以预测哪些II、III期胃癌患者可能从手术后的辅助化疗中受益。该模型与以往胃肠道癌症预后预测模型均不相同,它从免疫学角度出发,对预测模型进行了创新性补充,为今后的研究提供了新的方向。
近年来,随着分子生物学长足发展,研究发现lncRNA、miRNA等参与影响癌症的预后[13-14]。2017年Tian等[15]通过分析比较10对胃癌与邻近的正常黏膜组织,共选出339个差异表达的lncRNA(P<0.01)为胃癌候选预后生物标志物,并从GEO数据库中筛选出包含差异基因的491个样本,其中来自GSE62254的300个作为训练集,来自GSE15459的191个作为测试集,利用Cox回归分析及LASSO算法确定了12个与胃癌患者DFS相关的lncRNA,并得到了胃癌患者3年DFS 12-lncRNAs预测评分模型如下:Risk Score=(0.1243*CHST9-AS1)+(-0.4656*ENSG00000251538)+(0.2788*TPT1-AS1)+(0.0340*MIR100HG)+(0.1696*LOC400043)+(0.0243*LINC00340)+(0.0051*LOC28317)+(-0.5749*LOC100133985)+(-0.0659*Hs.93194)+(0.0008*LOC401093)+(-1.3684*ENSG00000233236) +(-0.0054*ENSG00000229565)。以中位风险评分作为截点,将训练集(GSE62254)的胃癌患者分为高风险组(n=150)和低风险组(n=150),两组的DFS显著不同,且该结果在测试集(GSE15459)中得到了验证。同时进行了ROC分析,得出12-lncRNAs风险评分模型与AJCC分期联合后的预测准确率明显高于仅利用AJCC分期的预测结果(AUC=0.869,95%CI:0.665~0.851,P=0.0152)。此模型在AJCC分期的基础上加入了基因水平的因素,相较于单纯的AJCC分期系统,其大大提高了预测的准确率,为临床评估提供了有力的依据。
随着计算机技术及互联网的普及,大数据时代已经来临,不同于以往的临床病例收集,大数据具有volume(大量化)、variety(多样化)、velocity(快速化)及value(价值)等特点[16]。近年来,The Cancer Genome Atlas(TCGA)、The International Genome Consortium(ICGC)等几个大型肿瘤基因组学数据测序工程的相继完成,使得通过数据挖掘了解肿瘤形成机制、发展及预后情况成为可能[17],这为制定肿瘤患者的个体化诊疗方案提供了有利证据。但海量的数据带来的是同样巨大的处理量,机器学习算法的出现很好的解决了这一问题[18]。
2014年Renfro等[19]应用自1989年以来的15936例III期结肠癌患者的数据,构建并验证了基于结肠癌辅助化疗患者终点(Adjuvant Colon Cancer End Points,ACCENT)数据库的III期结肠癌复发时间(Time to recurrence,TTR)和OS的多变量Cox模型及列线图,并将其性能与现有工具(Numeracy)和AJCC第7版TNM分期进行比较。这两个模型均纳入的变量包括:性别、BMI、表现状态、T分期、肿瘤分级、阳性淋巴结与检出淋巴结比率、原发肿瘤的数量和位置以及辅助治疗(氟尿嘧啶单药或联合用药),OS预测模型在上述基础上又加入了年龄、种族两个因素。结果表明,所构建的基于ACCENT的TTR及OS预测模型在内部和外部验证中均是有效的,比Numeracy及AJCC第7版TNM分期可更好地区分患者预后风险情况,更有助于临床医生进行治疗方案的选择及与患者的有效沟通。但此模型主要适用人群为III期结肠癌患者,而对于其他分期患者的预后情况,该模型无法进行有效评估。
2018年Zhong等[20]从SEER数据库中分析了11551名胃癌患者,按照AJCC第7版TNM分期标准处理数据,将其中2/3的患者随机选择为训练集,其余1/3则用作内部验证集,另选取FJUH数据资料作为外部验证集。该模型纳入的因素包括:种族、年龄(根据国际年龄标准生存分类类别分为4组:≤44岁,45~59岁,60~74岁和≥75岁)、肿瘤大小(以最大直径表示,使用“X-tile”程序将患者分为4组:<3cm,3~6cm,>6cm及无法评估的大小)、肿瘤部位、病理(低级别、高级别及级别无法评估)、组织学类型(一般类型和特殊类型)、外科手术方式(部分胃切除术和全胃切除术),利用多因素Cox分析方法筛选预后影响因素并绘制出列线图预测1、3、5和10年的OS及疾病特异生存率(Disease-specific survival,DSS)。研究结果表明,在内外部验证集中,胃癌切除术后1、3、5和10年的OS及DSS预测准确度均达到了0.75以上。该列线图的预测准确性高,校准曲线也显示了预测的和观察到的生存率之间的一致性,具有较好的预测效果。
上述模型预测准确度虽高,一定程度上可有效地指导临床治疗方案选择,但也存在局限性:模型中纳入的均为一般资料及病理因素等,尚未考虑到生物标志物对癌症的影响。尽管目前临床上对生物标志物的检测未广泛开展,但很多研究表明生物标志物在癌症预后预测中的作用也不可忽略。因此,在今后的癌症预后预测模型构建研究中纳入的因素也应更加全面。
伴随着精准医疗的开展及基因测序技术的发展,基于临床病理因素分期相较于基因等分子水平的指标在癌症诊断方面存在一定滞后性,且不能将预后预测结果量化表达,缺乏准确性。目前,已有学者将机器学习算法应用于胃肠道癌症预后预测模型构建中,并得到了一些令人满意的结果,但基因表达谱资料存在高维性及共线性等特征,在筛选关键基因的同时,并未明确相关基因分子间的关系强度,使得模型存在局限性,可能导致最终的预测结果存在一定偏差。相信在今后的研究中,胃肠道癌症预后预测模型将更加完善,预测结果将更加准确,并为指导胃肠道癌症患者下一步临床治疗方案提供可靠依据,从而有效延长生存期,提高总体生存率。