余其澳 宋欢 汪晓东 李立
结直肠癌是威胁人类身体健康的主要癌症之一,据估计仅2018年全球就新出现180万结直肠癌患病病例和88.1万死亡病例。其在全球的发病率为第三位(10.8%),死亡率为第二位(9.2%)[1]。在结直肠癌相关问题的研究过程中,生物样本库(Biobank)起到了难以替代的作用,在这之中,英国生物样本库(UK Biobank)是国际上最大的生物样本库之一[2-4]。
生物样本库是指通过规范化收集、处理和储存的健康与患病生物所拥有的生物大分子、细胞、组织和器官等样本的生物样本管理系统,生物样本包括人体器官、组织、全血、血浆、血清、生物体液或经初步处理过的生物样本(DNA、RNA、蛋白质等)以及与这些生物样本相关的临床、病理、治疗、随访、知情同意等资料及其相关的质量控制、信息管理[3]。UK Biobank于1999年设立,2006年开始运营,2006~2010年间于全英国范围招募了50万样本贡献者。其宗旨被定为:向全球范围内获得准许的对“最常见以及威胁生命的疾病”进行重要研究的研究者提供样本库中的材料[2]。
本文大致从以下两个方面探讨UK Biobank在结直肠癌临床治疗及研究中的应用以及优势——UK Biobank与结直肠癌的病因分析、风险预测模型建立。
针对大群体进行研究时使用过去的数据记录管理方法有诸多弊端,主要可以归结于以下两点:首先,尽管健康记录的数字化程度不断提高,但大部分医疗保健系统仍依赖于纸质记录和手工记录数据,从而导致数据记录不标准化、容易出错[5]。其次,此前的临床研究数据往往被硬件设备、法律、知识产权要求、安全和保密协议所约束[6],如果没有一个大型的计划来将其统一整合,不仅使得大样本群体的研究变得十分困难,也几乎断绝了那些没有设备、资源的小型研究团队参与研究的可能。为了解决以上问题,各国相继提出了建立Biobank的计划,试图通过建立规范地收集、整理、存储与提供的样本管理系统助力临床研究。以下分别从环境因素、内源因素、生活方式与结直肠癌患病的关系的临床研究中讨论Biobank在结直肠癌临床研究中存在的优势。
借由Biobank的大量数据,可深入研究外界环境因子或者环境因子与基因之间的相互作用与结直肠癌患病之间的关系。这对结直肠癌的预防和通过个体生活环境预测其患结直肠癌的风险具有一定的指导意义。通过Biobank了解到患者的经济情况能够分析患者所生活的社会环境对其患结直肠癌风险的影响。如Pang等[7]对来自中国慢性病前瞻性研究的512 715名成年人进行社会经济情况与结直肠癌患病之间的关系的分析,使用比例风险回归模型来估计地区水平(GDP、可支配收入等)和个人水平(受教育程度、家庭收入等)与相关癌症的矫正风险比(hazard ratio,HR)。发现GDP、可支配收入及家庭收入与结直肠癌发病率呈正相关且差异具有统计学意义(P<0.05),其中区域GDP分为三档:<60000、60000~99999、>99999(CNY)。分别对应的结直肠癌HR及其95%置信区间(confidence interval,CI)为:1.00(0.92~1.09)、1.73(1.64~1.82)、1.95(1.84~2.07)。可支配收入分为三档:<20 000、20 000~39 999、>39 999(CNY)。分别对应的HR及 95%CI为:1.00(0.93~1.08)、1.41(1.33~1.49)、1.87(1.77~1.98)。家庭收入分为五档:<2 500、2 500~4 999、5 000~9 999、10 000~19 999、20 000~34 999、>35 000(CNY)。对应的HR及95%CI为:1.00(0.81~1.24)、1.16(1.00~1.35)、1.31(1.19~1.44)、1.59(1.49~1.69)、1.79(1.67~1.92)、1.86(1.70~2.02)。在没有Biobank进行统一收集的情况下,除非研究需要,社会经济状况和身体状况的记录往往处于分离的状态,可能对研究造成不小的阻碍。
环境中的生物化学因子对结直肠癌的患病亦存在影响,但由于化学物质在环境中的分布情况通常是复杂的,准确的测量化学物质在体内的暴露水平还存在许多客观问题。Biobank中存有数百个性状和数百万个相关基因变异的信息。基于此类数据,研究者可以通过直接确定化学物质与基因之间的相互作用从而研究化学物质与结直肠癌之间的关系,Tan等[8]对UK Biobank中的数据进行生物信息学分析,从遗传学的角度探讨结直肠癌与环境化学物质之间的关系,观测到某些化学物质和结直肠癌患病率之间的正相关性差异具有统计学意义(P<0.05),并且检测出了5种与结直肠癌患病有关的化学物质——致癌物质两种:甲硝基亚硝胍(methylnitronitrosoguanidine)、异烟肼(isoniazid),具有抑制癌症发生及发展能力的三种:PD 0325901、舒林酸硫化物(sulindac sulfide)及入核受体抑制剂(importazole)。
以上的研究表明,在研究环境因素与结直肠癌患病的关系之中,Biobank的出现使得研究以往因样本数量不足、数据记录的不标准或缺失而难以进行的研究课题成为可能,我们不否认现在单一研究的标准样本能够基本达到甚至超越Biobank的样本数量,例如同样是分析某类型患者社会经济环境与癌症患病的关系的Ellis等[9]和Warren等[10]的研究样本分别为加州癌症登记处(California Cancer Registry)的897 833例样本和美国南方社区研究的47 596例有效样本。相较于此类研究,Biobank在临床研究中的优势在于,于研究者而言,Biobank中只用上线下载即可获得的大量高质量数据,显然更易于获取[8]。
癌症的成因与内源因素关系颇大,基于Biobank中全面的基因组、机体内生化因子等数据,研究者能够更加简便地研究某一内源因素对结直肠癌患病的影响。
GeneATLAS是庞大的资源,根据UK Biobank队列存储了数百个性状和数百万个相关基因变异的信息,为研究人员从UK Biobank获取数据提供了方便的方式[11],基于此,研究者能够通过基因标记间接评估内源生化因子与结直肠癌之间的关系,早期有关25-羟基维生素D(25(OH)D)水平在癌症风险与死亡率的作用的研究存在有相当大的争议。Ong等[12]对UK Biobank中的受试者使用5个25(OH)D基因标记评估基于基因预测的25(OH)D浓度是否与总体癌症易感性和癌症死亡率相关。在个体癌症风险方面,使用固定效应反方差加权模型对公开数据进行荟萃分析。关联估计使用因果优势比(casual odds ratio,COR)来表示,结果显示未发现25(OH)D的浓度与结直肠癌患病风险之间存在相互作用(COR:0.94,95%CI:0.79~1.13)。Cho等[13]在对来自UK Biobank的3 523例结直肠癌患者和10 522例正常对照组分析线粒体三羧酸循环的遗传变异与结直肠癌之间的关系,用条件logistic回归模型估计结直肠癌的优势比(odds ratio,OR)和95%CI。发现rs35494819(SUCLG2)的突变与结直肠癌患病之间的相关性具有统计学意义[每增加一个次要等位基因的OR为0.82(95%CI0.74~0.92)]。并且在结直肠癌中,三羧酸循环变异体和肥胖、能量摄入和剧烈体育活动的相互作用差异均具有统计学意义(P<0.05),同时也发现在结直肠癌的柠檬酸循环的SNPs之间有显著的SNP-SNP相互作用。
其同样为研究体内生化因子与结直肠癌患病的关系提供了样本,Peila等[14]调查了性激素和性激素结合球蛋白与结直肠癌患癌风险在流行病学中的关系,选取UK Biobank中的206 508名男性和219 106名女性为样本,使用比例风险回归模型以评估结直肠癌患病的风险。指出未发现性激素和性激素结合球蛋白与结直肠癌患病风险之间的相关性。Larsson 等[15]、Knuppel等[16]和 Murphy 等[17]对 UK Biobank中的样本分别进行胰岛素样生长因子-1(IGF-1)和患癌风险的相关性的研究,均表示血清胰岛素样生长因子-1循环水平的升高和结直肠癌患病风险增加存在因果关系。同时Murphy等[17]也发现胰岛素样生长因子结合蛋白3(IGFBP3)的循环水平升高预示着更高的结直肠癌患病风险。He等[18]有关循环肝功能与结直肠癌风险的前瞻性研究发现,基线处的丙氨酸转氨酶,谷草转氨酶,总胆红素,γ谷氨酰转移酶,总蛋白和白蛋白循环水平与患结直肠癌风险呈负相关(P<0.01),多变量风险比(HR)及95%CI分别为 0.62(0.51~0.75)、0.63(0.53~0.75)、 0.85(0.72~1.02)、 0.74(0.61~0.89)、0.70(0.59~0.84)和0.66(0.55~0.79)。与远端结肠癌和直肠癌相比,近端结肠癌的此种相关性更强,但早、中、晚发结直肠癌的此种相关性一致。
不仅是机体内的生物化学物质,利用Biobank的数据也能够研究机体的宏观健康状况与结直肠癌患病的关系,Hillreiner等[19]进行了一项有关心肺健康与结直肠癌关系的研究。心肺健康被定义为75%最大心率下的体力工作能力,标准化体重(PWC75%)。实验样本为59 191名UK Biobank中的受试者。使用多变量比例风险回归模型来获取多变量矫正风险比(HR)和相应的95%置信区间(CI)。发现在比较PWC75%的第75和第25百分位时,结直肠癌的多变量矫正风险比为0.78(95%CI:062~0.97),表明心肺健康与结肠癌患病风险呈负相关(HR:0.74,95%CI:0.56~0.97),与直肠癌患病风险呈负相关(HR:0.88,95%CI:0.62~1.26)。
以上研究表明基于Biobank的研究有助于发现或证实机体内生物化学因子及机体的健康状况与结直肠癌患病风险之间的相关性,并可以借这些联系提出相应的能预测结直肠癌患癌的生物学标志物。并且不难看出,Biobank可以为内源因素中多个不同的研究方向提供充足的研究样本,无论是基因、内源生化因子还是机体的宏观健康状况,Biobank都有相应的样本储备,这一特性是具有前瞻性的,可以为未来可能的研究方向提供样本,而不是在研究人员确定研究方向之后再开始收集有关的研究数据,显著地缩短了研究周期。
建设UK Biobank时,研究员通过24小时的在线膳食评估收集食物和饮料摄入的信息[2]。以往有关饮食和结直肠癌患病之间的关系的研究大多基于20世纪90年代的饮食摄入情况。而现在得益于Biobank中大量患者的病理、治疗、随访数据,患者生活方式(膳食等)与结直肠癌患病之间的联系可被更加精确地研究并为结直肠癌的早期预防给出意见。Bradbury等[20]使用饮食频率问卷来调查UK Biobank中的475 581名受试者。使用比例风险回归模型来估计膳食因素调整后的结直肠癌风险比。发现与平均每天摄入21克红肉和加工肉制品的参与者相比,平均每天摄入76克红肉和加工肉制品的参与者患结直肠癌的风险要高出20%(95%CI:4%~37%)(P<0.05)。Knuppel等[21]也得出了类似的结论。Bradbury同时在研究中指出,尚无证据表明其他肉类(鱼、家禽等)与结直肠癌患癌相关。与不摄入酒精的参与者相比,摄入酒精超过10克/天的参与者患结直肠癌的风险增加了8%(95%CI:4%~12%)(P<0.01)。无证据表明奶酪、水果、蔬菜、茶和咖啡会影响结直肠癌患癌风险。
Biobank在这方面的作用对比其余的研究计划所使用的样本,如Bernstein等[22]用作研究样本的护士健康研究(NHS)以及Tabung等[23]用作样本的卫生专业人员随访研究(HPFS),并无太大优势可言。
总的来说,在Biobank结直肠癌的病因分析中起到的作用大致有以下几点:(1)提供多样的高质量的样本,尽管单一研究的样本能够达到甚至超越Biobank的样本数量以及质量,但为单一的研究而收集的样本数据较为有限,相较之下,Biobank存储的数据更加多元,能够为各类研究以相对较低的资源消耗提供相应的大量高质量样本,且存在只使用Biobank中的数据就能完成大部分有关病因分析的临床研究的可能;(2)过去大规模研究样本的获取对于小型研究团队而言几乎不可能实现,但Biobank的出现使得这一切成为可能[24];(3)减少了研究者为进行研究花费的数据收集整理的时间,缩短研究周期。
临床应用上,风险预测模型作为评估和量化风险与效益的基本工具,能为医疗工作者的决策提供更加直观理性的信息,为临床研究者更加精准地筛选合适的研究对象。而且随着经济发展及技术进步,数据分析的能力逐渐升高,临床预测模型更倾向于采用更大的数据更复杂的模型和算法,达到更精确的结果。基于Biobank中大量的数据可以建立或者改进风险预测模型、评价已有风险预测模型的预测能力和指明未来的研究方向。而在临床上,风险预测模型主要分为诊断模型和预后模型[25],以下分别从这两个方面来说明Biobank在结直肠癌临床风险预测模型的建立之中的应用。
UK Biobank能用于检测风险预测模型的效果,使用这种检测能力,让风险预测模型的预测能力的验证更加简便。如Jia等[26]利用全基因组相关研究构建了多基因风险评分(polygenic risk scores,PRS)并用其对多种癌症的突变体进行风险评估。发现在对UK Biobank中的400 812名参与者进行中位数为5.8年的随访后,与平均风险人群相比,PRS最高的前5%的个体患结直肠癌的风险增加了2~3倍,这表明PRS能在癌症风险升高时识别出较大比例的人群,证明PRS存在用于个性化癌症风险预测的潜在的临床效用。
Biobank也可被用于风险预测模型预测效果的横向比较,Li等[27]进行了一项探究基于常见基因多态性的预测实现结直肠癌风险的分期可能性的研究。先在苏格兰结直肠癌病例对照研究中对此前发布的11项全基因组关联分析(GWAS)进行比较,发现针对116个结直肠癌单核苷酸多态性的加权多基因风险评分(wPRS116)具有最好的预测能力。并且其预测性能在UK Biobank中得到了证实。实验表明,在英国的一般人群中,利用遗传风险分析可以实现中等程度的风险鉴别,这可能有助于识别由于遗传易感性而具有更高患结直肠癌风险的亚群体。Saunders等[28]在不确定生活方式/环境(基于问卷的/经典的/表型的)危险因素的情况下,外部验证及比较为预测结直肠癌患病而建立的常见基因多态性(单核苷酸多态性)的风险评分的研究表明:在不考虑年龄的情况下,增加表型危险因素可以改善对男性的结直肠癌辨别能力,但对女性没有效果。而添加表型危险因素和年龄则提高了对所有病例的鉴别度。其中表现最好的模型包括单核苷酸多态性、表型危险因素和年龄。同时指出在未来的分层结直肠癌筛查项目中都应该考虑将基因和生活方式/环境信息纳入的可能。
通过对Biobank的数据研究可以发现癌症复发或转移的标志物从而指导术后辅助治疗以改善患者的预后。Kodeda等[29]评估了原发性直肠癌的基因改变预测直肠癌局部复发的能力,使用瑞典萨尔格林斯卡医院临床数据库中的两组直肠癌切除患者(R0),一组较早出现局部复发,一组在93个月的随访后近似认为痊愈。用CGH阵列(比较基因组杂交)分析原发肿瘤的DNA后发现在肿瘤局部复发的DNA中4q31.1-31.22区域的拷贝数增加有统计学意义(P<0.05),即此区域的扩增可能表示存在局部复发的高可能性。Messick等[30]的一项评价癌胚抗原细胞黏附分子-7(CEACAM-7)作为生物标志物对直肠癌复发的的预测研究,研究员从克利夫兰诊所的结直肠癌数据库和冷冻组织Biobank中选取样本,采用实时荧光定量聚合酶链式反应分析直肠黏膜组织和直肠癌组织中CEACAM-7 mRNA的表达。得出CEACAM-7在直肠癌中的表达相较正常黏膜降低了21倍(P<0.01),在复发肿瘤中CEACAM-7的表达水平相对较低,即可以通过其存在于长期存活者和复发性疾病患者之间的表达差异引入潜在的肿瘤标志物,以定义辅助治疗获益最大的患者子集。Messick等[31]在对原发结直肠癌及其相应的淋巴结转移之间的分子差异进行研究,发现肿瘤细胞的分子特征,特别是CpG岛的甲基化分子表型在原发肿瘤和相应的淋巴结转移灶之间是不同的。因此在辅助治疗的决定中应该将淋巴结转移灶和原发肿瘤的分子表型纳入考虑。
在精准医学的时代,无论是肿瘤的精准医疗或者是个体化医疗,都是以群体的遗传背景等数据为基础信息,通过深入的数据分析找出规律,指导个人的特征性诊疗。Biobank在这之中的作用是难以替代的,其重要作用主要有以下三点:其一,以UK Biobank为主的Biobank为结直肠癌的临床研究提供了大量而且全面的实验数据和生物样本,为精准医疗的建设发展做出了弥足轻重的贡献,其所有的样本也在试验成果转化并应用于临床医疗的过程中占据着不可或缺的地位,对于结直肠癌的病因探究、预防、治疗、诊断有巨大的影响[4]。其二,Biobank因其样本采集存储整理的标准化,拥有多样的高质量的样本,相较为有限几个对象的研究而收集的样本,Biobank数据的存储更加多元,能够为各种研究以相对较低的资源消耗提供相应的大量高质量样本,且存在只使用Biobank中的数据就能完成大部分临床研究的可能。其三,此前的临床研究数据往往被拘束在硬件设备、法律、知识产权要求、安全和保密协议造就的孤岛上,Biobank的建立使得那些没有设备或机会来产生或获得这些数据的小型研究小组也能够获得这些宝贵的数据资源[24]。