周泽宸 余红平 陈大方
作者单位:100871 北京 1北京大学公共卫生学院流行病学与卫生统计学系;530021 南宁 2广西医科大学附属肿瘤医院
近年来,恶性肿瘤成为威胁中国人群健康的重要公共卫生问题。根据国家癌症中心最新发布的全国癌症统计数据[1],2015年中国新发恶性肿瘤392.9万例,恶性肿瘤死亡病例233.8万例,恶性肿瘤导致的死亡占中国居民全死因的23.9%。随着中国人口老龄化加剧、城市化加快和居民生活方式改变,恶性肿瘤的危险因素不断累加,中国恶性肿瘤的发病和死亡率均呈上升趋势,肿瘤防控形势严峻。党的十九大做出“实施健康中国战略”的重大决策,并于2019年6月由国务院发布《国务院关于实施健康中国行动的意见》[2]和《健康中国行动(2019—2030年)》[3],根据中国恶性肿瘤负担的实际情况提出癌症防治行动,“倡导积极预防癌症,推进早筛查、早诊断、早治疗,降低癌症发病率和死亡率,提高患者生存质量。”2020年8月,国务院健康中国行动推进委员会进一步发布了《推进实施健康中国行动2020年工作计划》,就15项主要任务制订了详细的工作内容和目标。对于癌症防治,提出要设立癌症防治行动工作组办公室、推进区域癌症医疗中心建设、建立癌症防治科普资源库、推进肿瘤多学科诊疗试点工作和发布中国肿瘤登记年报等。《健康中国行动》的提出体现了国务院对肿瘤防控的高度重视,以及对通过普及健康知识、参与健康行动、提供健康服务,实现促进全民防癌目标的决心。
精准健康管理(precision health management)是以生物医学大数据为对象,采用机器学习、生物信息挖掘进行人群精准健康风险建模、评估和预测,并通过人工智能技术,为个人全生命周期提供精准的健康服务,即在特定的时间将特定的干预措施给予特定的人,是一门促进和维护健康的精准管理学科[4]。与传统的健康管理模式相比,精准健康管理的特点主要体现在以下几个方面:⑴管理策略更有针对性,避免同质化;⑵有能力处理大批量、高维度的数据,研究更接近真实情形,结论更具指导意义;⑶从以疾病为中心转变为以健康为中心,实现对健康影响因素的全方位干预,维护全生命周期的健康。肿瘤精准健康管理的内容主要包括复杂多源异构的肿瘤生物医学大数据的信息采集、数据驱动的肿瘤精准风险评估和个性化、多样化的精准干预。
肿瘤的信息采集包含对肿瘤生物标志物的采集和肿瘤相关人群大数据的收集。其中肿瘤生物标志物的采集包括环境及内源性致癌物在体内暴露的测量、肿瘤分子标志物的筛选以及决定个体对肿瘤易感性差异分子的采集。肿瘤生物标志物十分广泛,包含核酸、蛋白质、糖类、小分子代谢产物、细胞遗传和细胞动力学参数,以及体液中的肿瘤细胞本身等多种类型。生物标志物的采集是肿瘤早期筛查、风险评估、诊断和治疗方法选择的基础。
与目前基于组织病理学和临床表现的管理指南相比,基于肿瘤基因组和多组学(表观基因组、转录组、蛋白质组、代谢组、宏基因组等)的生物标志物采集可实现更精确的肿瘤亚型分类,使恶性肿瘤高危患者得到早期治疗,并减少低患病风险个体不必要的治疗和监测。KILLCOYNE等[5]研究发现,Barrett食管患者作为食管癌的高危人群,在组织病理转变前10年,其活检组织的基因组信号也可以区分进展性疾病和稳定性疾病。据此,该研究团队开发出一种统计模型,利用基因组数据精确预测Barrett食管患者罹患食管癌风险的高低,以实现对高风险人群的早期干预,并避免低风险人群不必要的治疗和侵入性检查。GU等[6]通过整合基因组分析确定近2 000例儿童和成人的B细胞急性淋巴细胞白血病(B-ALL)的基因组图谱,共确定了23种B-ALL亚型,其中包含8种新亚型,且每种亚型具有不同的基因组和临床特征以及结果。B-ALL分子多样性的发现也有助于推动精准药物的开发,从而改善B-ALL的治疗和结果。目前新一代测序技术的发展也大幅降低了基因组测序成本,提高了测序的通量,使肿瘤基因组测序的广泛应用成为可能。英格兰国家健康体系(NHS)于2019年开始为所有英格兰儿童癌症患者提供全基因组测序,以减少有害药物和治疗方案的应用,以及减少因化疗、放疗而出现健康问题的年轻患者数量[7]。
表观基因组学(epigenomics)是指在DNA序列不变的情况下,对DNA甲基化或组蛋白修饰的全基因组鉴定。表观遗传是控制基因表达和细胞表型的主要调控机制。多种肿瘤存在其特异的甲基化谱,特定基因DNA甲基化在肿瘤的早期诊断、分期分级评估、个体化治疗药物选择中的应用也日益增多。HAO等[8]利用3个不同数据库的数据信息区分肺癌、肝癌、乳腺癌和结肠癌的肿瘤组织和正常组织DNA甲基化差异,发现甲基化分析可以区分癌组织和正常组织,3组数据矩阵所有样本的预测准确率>95%,甲基化生物标志物在癌症分子表征中的效用对诊断和预后评估均具有意义。
转录组学(transcriptomics)主要用于定性和定量检测RNA转录,特别是mRNA,但也可以扩展到其他类型的非编码RNA。通过转录组学技术,构建正常及肿瘤状态细胞或组织基因表达谱,有助于鉴定两者间的差异表达基因,从而实现肿瘤亚型细分。UHLÉN等[9]使用超级计算机分析来自约8 000个肿瘤标本包括17种主要人类癌症,并报道了“人类癌症转录组病理学地图”,发现超过2 000个基因对患者生存具有不同程度的影响,为潜在药物新靶点的开发提供了新的思路。CHAN等[10]对314例Ⅳ期胰腺癌患者进行全基因组测序和全转录组测序,依据分子特征将基底样型和典型性型胰腺癌分类并重新定义为基底样A型、基底样B型、混合型、典型性A型和典型性B型胰腺癌共5类,并为患者制定了分阶段、分亚型的精准化临床治疗策略。
蛋白质组学(proteomics)是研究生物样品中特定时间内存在的蛋白质种类和数量。大多数生物过程由蛋白质控制,因此测量肿瘤细胞状态下的蛋白质组改变较基因组更能反映肿瘤特征,为肿瘤的亚型分类提供依据。JOHANSSON等[11]对45例乳腺癌进行蛋白质组深入定量分析,基于PAM50分类首次概括了乳腺癌亚型,并将预后不良的基底样和管腔B型肿瘤进一步细分。我国于2014年启动了“中国人类蛋白质组计划”(Chinese Human Proteome Project,CNHPP)。以此计划为基础,JIANG等[12]通过整合蛋白质组学数据,表征了110对与乙型肝炎病毒感染有关的临床早期肝细胞癌组织和非癌组织,将临床早期肝细胞癌分为S-I、S-II和 S-III三个亚型,发现了每个亚型的不同临床特征及术后需要的不同治疗方案,从而实现肝细胞癌的个体化治疗。
代谢组学(metabolomics)的特征是对氨基酸、脂肪酸、碳水化合物和脂类等细胞代谢活动合成的代谢产物进行量化。在疾病状态下,代谢产物水平或某些代谢产物比例会改变,可以反映出肿瘤等复杂疾病中异常的代谢功能。YANG等[13]通过比较84例癌症恶病质患者、33例前期恶病质患者、105例体重稳定癌症患者和74名健康对照者的血清和尿液代谢组差异,从而构建了一个明确的肿瘤恶病质诊断模型。CHAN等[14]采用核磁方法对胃癌患者、胃部良性病变患者以及健康人的尿液进行代谢组学分析,发现9种代谢物在组间有显著差异,进一步采用LASSO-LR回归建立通过2-羟基异丁酸、3-吲哚硫酸酯、丙氨酸3种代谢物组合区分胃癌患者和健康人的模型,AUC达0.95。以上研究结果说明,这些生物标志物的发现对临床肿瘤早期诊断具有重要价值。
此外,微生物组(microbiome)、宏基因组(metagenome)等组学技术也处于新兴阶段,在发现肿瘤生物标志物方面同样具有较大潜力,尤其是与肠道菌群密切相关的消化道肿瘤[15]。YACHIDA等[16]采用宏基因组和代谢组联合分析,检测结直肠癌不同阶段的粪便样本,发现梭杆菌门、拟杆菌门和硬壁菌门的丰度随肿瘤恶性程度增加而增加;同时利用这些菌群丰度数据,采用随机森林和 LASSO回归区分健康对照与不同分期结直肠癌患者,使肠道菌群的物种类型成为结直肠癌诊断的潜在标志物。
肿瘤风险评估是对健康个体的肿瘤患病风险或肿瘤患者的并发症及死亡危险性的量化评估。与传统的风险评估方法相比,肿瘤精准风险评估采用机器学习、生物信息挖掘等技术,可更精确地从数据库中筛选出具有预测能力的风险变量进行风险评估,准确识别高风险个体,从而快速实施有效干预,大幅提高医疗效率。
机器学习通过识别健康大数据中各个变量间的交互模式解决复杂问题,基本步骤为将全部数据分为训练集和测试集,在训练集中建立模型,在测试集中对模型进行验证。机器学习主要分为有监督学习和无监督学习。有监督学习利用标记后的数据集构建预测模型,常用于分类和回归。无监督学习利用未标记的数据,试图从数据的隐藏模式中识别新的疾病机制、基因型或表型。常见的用于构建疾病风险评估的预测模型方法有人工神经网络、支持向量机、随机森林、XGboost模型等方法。例如,前列腺癌的风险评估通常基于前列腺特异抗原(prostatespecific antigen,PSA),然而PSA单独评估的准确性有限。PERERA等[17]利用美国前列腺癌、肺癌、结直肠癌和卵巢癌筛查项目(the prostate,lung,colorectal and ovarian cancer screening trial,PLCO)中 4 548 例患者的数据,综合年龄、PSA、游离PSA和游离PSA与总PSA比率等指标,采用密集卷积神经网络构建前列腺癌风险预测模型,发现预测的效果(AUC=0.72)显著优于PSA单独的预测效果(AUC=0.63)。
生物信息数据挖掘主要包括基因组分析、转录组分析、表观基因组分析、蛋白组分析、宏基因组分析和生物网络分析等。ZHONG等[18]采用基因功能聚类方法,在全基因组范围内筛选非小细胞肺癌(non-small cell lung cancer,NSCLC)的差异表达基因,发现与增强肿瘤迁移和侵袭性相关的特定信号转导通路的激活可显著提高NSCLC患者术后发生远处转移的风险,同时建立了NSCLC高危转移风险预测模型。
在健康个体方面,肿瘤精准风险评估的关键在于肿瘤早期筛查,主要为应用高灵敏度和高特异度的筛检试验方法,找出已经发生恶性肿瘤但尚处早期或超早期的个体,从而进行进一步诊断和及时的早期临床处置,进而改变恶性肿瘤自然进程,延缓肿瘤进展,降低肿瘤再发风险和死亡风险。此外,对肿瘤患者的早期临床处置还可避免高消耗治疗,节约医疗成本。从20世纪中叶至今,世界范围内陆续出现了许多针对肿瘤的筛查项目和试验,比如美国的国家肺癌筛查试验(National Lung Cancer Screening,NLST)[19],PLCO[20],东亚地区针对上消化道肿瘤的一系列筛检项目,英国卵巢癌筛查协作试验 (UK Collaborative Trial of Ovarian Cancer Screening,UKCTOCS)[21]等。肿瘤具有流行率低、筛查有侵入性、筛查成本高的特点,然而目前一些肿瘤的筛检策略较为粗放,筛查前无法精准定位高获益人群,筛检后也无法准确识别高进展风险人群。肿瘤的精准筛查需要筛检试验经大规模随机对照试验证实有效,且具有相应卫生经济学价值,并在筛检前和筛检后对人群进行精确分层,才能节约医疗资源,提高筛检保护效果,减少筛检的附带损害。以食管癌为例,中国研究者于2012年以河南省太行山区某县为研究现场,启动了国际范围内首个评价内镜筛检食管癌效果与卫生经济学价值的人群随机对照试验——“ESECC(endoscopic screening for esophageal cancer in China)”研究[22]。ESECC研究系统构建了食管癌“发病”与“进展”两个风险预测模型,发现碘染色特征的指示变量在食管病变进展风险预测中的独立作用,联合碘染色特征的内镜筛检可以显著提高食管癌进展风险的预测准确率,实现食管癌进展风险评估精准化与个体化,并有针对性地制定筛检后的复查策略。
2.3.1 精准药物干预 肿瘤的精准药物干预主要为分子靶向治疗(molecular targeted therapy)。分子靶向治疗药物通过干扰特定的分子靶点阻止肿瘤细胞生长、分化、周期调控、侵袭和转移。在过去的十多年中,许多经美国食品和药物管理局(Food and Drug Administration,FDA)批准的分子靶向疗法在治疗包括乳腺癌、白血病、结直肠癌、肺癌和卵巢癌等肿瘤中表现出了显著成效[23]。
一类分子靶向药物对表达特定生物标志物的肿瘤细胞或组织有效。然而如果分子靶向药物与肿瘤表达出的靶分子不匹配,那么靶向治疗的效果可能弱于非靶向化疗药物治疗效果。因此如何精准识别对靶向药物有效的患者群体是肿瘤分子靶向治疗的难点。ALVAREZ等[24]通过系统药物扰乱实验,从机制上鉴定调控肿瘤细胞状态的主调节蛋白的协同作用,然后根据药物逆转这些作用的能力对药物进行了优先排序,系统地确定靶向单个患者的肿瘤依赖性药物的优先顺序,还据此开发了精准肿瘤学网络,以期找到最适合的治疗药物,结果在212例胃肠胰神经内分泌肿瘤患者中得到验证。此外,近年也有研究发现,部分蛋白质可以改变肿瘤细胞对药物或其他治疗方法的敏感性,为癌症的精准化治疗提供新研究线索和基础。ALI等[25]发现Ring和YY1结合蛋白(Ring and YY1 binding protein,RYBP)能通过抑制肿瘤细胞的DNA修复,致使其对DNA损伤更敏感,从而使化疗或放疗更有效地杀灭肿瘤细胞,进而有助于预测化疗获益患者,以及开发通过激活RYBP蛋白的新型靶向药物。
肿瘤细胞的新发突变也会产生新的突变蛋白,称为肿瘤新抗原。但是,同种恶性肿瘤在不同个体上的新抗原有较大差异。因此,应用基因组测序筛选不同患者的特异性肿瘤新抗原,并制备特异的肿瘤疫苗,可能是肿瘤精准治疗的有效策略[26]。其中,在各类肿瘤中,黑色素瘤基因组的突变频率最高,肿瘤新抗原位点也较多,因此成为研究个体化肿瘤疫苗的首选模型。SAHIN等[27]对黑色素瘤患者的肿瘤组织进行全外显子组测序和RNA测序,以筛选携带非同义突变且与HLA有高亲和性的基因,且制备了13~20种不同的含有新肿瘤抗原的多肽疫苗,并在13例患者中展开试验,结果多肽疫苗在60%的患者体内引起了T细胞免疫反应,8例患者治疗后1年内均未见复发。由此认为,肿瘤疫苗特异性强,且副作用较小,流程更加简单,在肿瘤精准治疗方面具有较好的应用前景。
2.3.2 精准营养干预 精准营养是通过综合个体多方面的信息从而给出独特的膳食建议,涵盖的信息包括个体当前的营养状态、生活方式、生理状态、代谢指征、肠道微生物特征、遗传背景等。目前常用于肿瘤患者评估的三种营养筛查工具分别是营养风险筛查(nutritional risk screening,NRS-2002)、营养不良筛查工具(malnutrition screening tool,MST)和患者主观整体评估(patient-generated subjective global assessment,PG-SGA)[28]。其中在肿瘤患者营养干预中,肿瘤恶病质的诊断和管理是一个重要挑战。在肿瘤早期利用生物标志物进行肿瘤恶病质风险评估可对患者预后和生存期产生重要影响。既往研究发现,IL-1β抗肿瘤蛋白水平与肿瘤恶病质的主观测量(体重减轻、食欲下降)和客观测量(白蛋白和CRP水平)密切相关[29];恶病质患者的白细胞介素-6(IL-6)、白细胞介素-8(IL-8)[30]和血管紧张素Ⅱ(AngiotensinⅡ)[31]水平均显著高于非恶病质患者;痩蛋白水平用于恶病质筛检试验具有较高的灵敏度(79%)和特异度(73%)[32]。未来利用这些生物标志物对肿瘤患者进行营养状态评估和恶病质风险分级,对及时给予适当的营养支持以及预防恶病质的发生具有重要意义。
2.3.3 精准生活方式干预 不良生活方式是造成多种恶性肿瘤发病和不良预后的重要危险因素。常见的与恶性肿瘤相关的不良生活方式包括外源致癌物暴露、吸烟、饮酒、缺乏运动和缺乏水果蔬菜摄入等。改变不良生活方式可以预防癌症发生,降低癌症死亡率。传统的生活方式干预通常是一类肿瘤制定一种干预方案。而精准医学理念下的生活方式干预为依据个人的遗传背景、疾病分型、生活形态、家庭和社会文化因素等个体差异,以大数据为基础,运用现代信息技术为个体提供最适合的干预策略。SUZUKI等[33]在一项基因组规模的跨种族分析研究中发现,一个胃癌亚型有明显的酒精相关突变特征和强烈的东亚特异性,而具有这类突变的人群即使少量饮酒也会显著增加罹患胃癌风险,表明基因突变与饮酒的结合可能是东亚人群胃癌发病及高发的重要危险因素。因此,结合基因组测序结果能更有针对性地对特定人群进行戒酒干预,从而降低胃癌发生风险。既往关于肺癌患者术后运动干预的研究[34-35]发现,术后状态评估良好的患者,术后2周的呼吸训练能减少术后并发症发生,缩短拔管时间,而术后状态较差的患者术后并发症并未减少。由此可见,癌症患者的运动干预也应综合评估全面信息,从而制定系统化、个性化的运动处方,避免“千人一方”的干预方式。在我国,JIN等[36]团队基于全基因组整合分析和中国超大型前瞻性队列研究,通过多基因遗传风险评分(polygenic risk score,PRS)评价生活方式干预对胃癌的预防效果,发现生活方式和遗传负荷与中国人群的胃癌发病风险独立相关且存在联合效应,不同遗传风险的人群坚持健康生活方式均可降低胃癌发病风险。
随着人类基因组计划完成,分子生物学、生物信息学和大数据挖掘等技术飞速发展,肿瘤的健康管理已进入精准化时代。在信息采集方面,精准健康管理侧重于基因组和多组学的生物标志物信息,在分子层面全面地解析肿瘤的个体易感性、发病机制与潜在的治疗靶点。在风险评估方面,精准健康管理侧重于机器学习和生物信息挖掘的应用,这很大程度上增强了对大规模、高通量、多源异构数据的利用,从而实现更准确的人群分层。在干预方面,精准健康管理注重个性化的干预策略,力求为每一位健康个体或肿瘤患者提供最适合的预防或治疗方案。为实现《中国健康行动》中的癌症防治目标,未来仍需在全国推广精准健康管理的理念,加强精准医疗最新研究成果的转化应用,建立新的癌症防治指南体系,从而全面降低癌症发病率和死亡率,延长生存期,减轻癌症的疾病负担,为实现全民健康,助力全面小康打下基础。