吴家睿
2015年1月,前美国总统奥巴马宣布启动一个以个体化健康研究为特色的“精确医学”(precision medicine)计划。该计划随即在世界范围内得到广泛的关注,并逐渐发展成为当今国际生物医学领域的一个主要潮流。在5年多的发展历程中,新兴的精确医学不断地推动和实践着现代医学史上最重要的变革,形成了远不同于传统临床医学的研究模式和医疗实践路径。显然,回顾和分析这5年来精确医学所走过的路,将有助于我们更深入地认识医学史上的这个重大变革,进而更好地把握住维护人类健康的未来走向。
早在2011年,美国科学院就提出了一份实施精确医学的战略研究报告:《迈向精确医学——构建生物医学研究的知识网络和新的疾病分类法》(以下简称“‘迈向精确医学’报告”)[1]。该报告的制定者认为,这种“精确医学”的战略目标不是为了解决某个疾病问题或发展某种技术,而是要构建全新的生物医学研究模式和临床实践体系,“不仅能将目前生物医学研究的能力提高到一个崭新的水平,而且在未来相当长的时间里,将给临床医学水平带来难以估量的改进”[1]。这种变革目标甚至“溢出”了医疗卫生领域:“本委员会提出的这些观点和建议其含义已经远远超出了疾病分类科学的范畴,对几乎所有从事生物医学研究和医疗卫生的企业及其利益相关者都有着极大的影响”[1]。我们可以看到,随后的精确医学主要是围绕着以下三个方面进行医学研究和临床实践体系的重大变革。
疾病分类标准是医学领域最重要的基石,目前世界各国采用的主要是由世界卫生组织(World Health Organization,WHO)编制的《国际疾病分类》(InternationalClassificationofDiseases,ICD)。该标准已经有100多年的历史,并仍在不停地修订完善中。WHO于2018年6月发布了《国际疾病分类》第11版(ICD-11),同年12月国家卫生健康委员会发布《关于印发国际疾病分类第十一次修订本(ICD-11)中文版的通知》,明确要求“自2019年3月1日起,各级各类医疗机构应当全面使用ICD-11中文版进行疾病分类和编码”。尽管ICD是国际通用的权威标准,但是,撰写“迈向精确医学”报告的作者认为,该分类标准依然没有充分利用当前的生命科学知识,“今天的分类系统主要是基于可以检测的‘体征和症状’,如乳房肿块或高血糖;以及对组织或细胞的描述;通常不能明确导致疾病的分子通路或给出治疗的靶标”[1]。因此,“迈向精确医学”报告的战略目标就是要制定不同于ICD的新标准,即“一个基于分子生物学的人类疾病分类新标准”[1];从这个意义上说,“本报告建议的疾病知识网络和分类新标准带来的主要收益,就被称之为‘精确医学’”[1]。
在制定疾病分类新标准方面,基于分子层面的信息进行肿瘤分子分型(molecular classification)是最有代表性的。美国国立卫生研究院(National Institutes of Health, NIH)在2006年牵头启动了国际癌症基因组项目“癌症基因组图集”(the cancer genome atlas,TCGA),涉及到1万1千名患者的33种不同类型肿瘤样本的基因组测序和其他种类生物分子数据的采集与分析[2]。研究者利用生物信息学方法,将这些肿瘤样本的基因组、转录组和蛋白质组等多种组学数据进行整合后发现,基于病理性状和解剖位置等传统分类方法划分的33种肿瘤类型形成了28种整合分子群(integrated clusters, iClusters)[3]。这种分子分型方法不仅重新界定了肿瘤的类型,而且能够有助于揭示不同肿瘤类型在分子层面的共同特征。
研究者在肿瘤分子分型的基础上提出了一个新的肿瘤类型——“泛癌”(Pan-Cancer),指的是把组织学或者解剖学相近的肿瘤类型集合在一起,在分子层面进行研究,从而找出这些肿瘤中表现出来的分子共性。例如,“泛肾癌”(pan-kidney cancer)或者“泛鳞癌”(pan-squamous cancer)。为此,在TCGA计划中专门衍生出一个“泛癌图谱计划”(Pan-Cancer atlas project)[4]。这种“Pan-Cancer”研究甚至可以把不同组织/解剖的肿瘤类型视为一个整体,例如,研究者利用TCGA计划获得的RNA测序数据,对33种肿瘤类型共9千个样本的“增强子表达”(enhancer expression)情况进行了“Pan-Cancer”分析,发现在这些肿瘤样本中存在这样一个共性:“基因组整体水平的增强子活性与非整倍体(aneuploidy)正相关,而与基因突变的程度则没有相关性”[5]。不久前,荷兰研究者比较了20多种类型实体瘤的2 520对转移性和非转移性肿瘤样本的全基因组序列;虽然在不同类型转移性肿瘤中的“全基因组扩增”(whole genome duplication,WGD)程度不一样,但从“泛转移癌”的角度来看则都要比各种非转移性癌高很多,其WGD平均值达到了55.9%,表明WGD是各种实体转移癌的共同分子特征[6]。
研究者认为,“泛癌图谱计划获得的结果将为下一阶段的工作打下坚实的基础,而后续这类更深入、更广泛和更复杂的工作将有助于实现个体化肿瘤治疗”[4]。显然,“Pan-Caner” 概念的形成提示我们,精确医学不仅仅关注个体间的差异性,同时还关注个体间的同一性,这种分子层面的共性超越了基于以组织器官边界划定的分类标准。换句话说,基于生物分子信息的精确医学倡导的是分子层面上个性与共性的高度统一。
基于科学研究开展医学实践是现代医学的主要标志,而随机对照试验(randomized controlled trial,RCT)就是最重要的研究模式。RCT建立在严格设计的试验方案之上,其关键是要将受试者进行试验组和对照组的随机分配,从而在统计分析时消除个体差异对试验结果可能导致的统计偏倚。RCT已经成为创新药物研发的主要工具,并被视为循证医学(evidence-based medicine,EBM)的“金标准”。可以说,RCT的设计就是要让个体在试验中成为无差别的 “质点”;但这个特点对关注个体差异的精确医学而言则显然是一个缺点。此外,RCT在设计试验方案和招募受试者时基本上是依据个体的宏观表型和临床特征,不能满足以分子分型为基础的精确医学临床研究的需求。也就是说,需要打造一个适用于个体化研究和基于分子层面信息开展临床实践之框架(infrastructure)。
在精确医学兴起的过程中,临床研究新模式的建立是一个重要的特征。早在2015年,研究者就已经系统地讨论了精确医学相关的各种临床研究模式,并介绍了基于分子生物标志物和分子分型基础的“伞型试验”(umbrella trial)和“篮型试验”(basket trial)[7]。前者是一种类似于中国传统医学所说的“同病异治”模式,即针对单一疾病采用多种药物治疗并评估其效果,例如对某个类型的肿瘤,选择具有不同分子标志物(如不同的基因突变)的患者,然后系统地对不同的治疗药物进行比较,如英国最大的一个“肺癌伞型试验”(national lung matrix trial,NLMT),涉及到具有22个分子标志物的19种非小细胞肺癌患者队列和8种治疗药物[8]。后者则是中医所说的“异病同治”模式,即采用单一的分子标志物把不同类型的疾病集中在一起,用来比较某一种治疗方法或者药物的效果,例如,在2017年美国临床肿瘤学会年会上,公布了关于原肌球蛋白受体激酶(tropomyosin receptor kinase,TRK)的抑制剂Larotrectinib的“篮型试验”——该试验以TRK基因融合突变作为分子标志物(同时也是分子靶标),共纳入13种不同种类实体瘤的55名患者,然后用Larotrectinib对这些参试的患者进行治疗,在这些患者中仅有5人对该药没有很好的响应,表明该药可适用于所有含TRK基因融合突变的肿瘤患者。这个TRK抑制剂很快就在2018年被美国食品药品管理局(Food and Drug Administration,FDA)批准,成为首个依据“篮型试验”结果获批的创新药物。
FDA进一步提出了一种更为完整的新型临床试验模式,称为“主方案”(master protocols);这种主方案不仅包括了伞型试验和篮型试验,而且还有一种“平台试验”(platform trial),即在同一个研究平台上平行开展在多个不同分子标志物指导下的单臂药物试验,以便通过连续和动态的方式评估和确定这些药物何时进入或退出试验平台[9]。美国国立肿瘤研究所(National Cancer Institute,NCI)正在开展的“基于分子分析的治疗选择试验” (molecular analysis for therapy choice trial,MATCH trial)可能是当前规模最大的一项“主方案”;该方案从6 000名肿瘤患者中选出了1 000名分别进入到30项治疗单臂试验中;参与这些试验的患者涉及到几乎所有肿瘤类型[10]。
为了进一步促进精确医学的研究,2020年,美国研究者在“主方案”基础上又发展出了一种新的临床研究模式——“主观察试验”(master observational trial,MOT)[10],其特点是将“主方案”的研究与日常临床诊断和治疗的真实世界数据紧密整合起来。“MOT将提供这样一种临床研究途径,能够迅速地推进分子医学,能够解答传统临床研究通常难以回答的问题,能够无缝地整合临床诊断试验与临床治疗试验。最终打造一个在精确医学领域更为广泛的数据收集生态系统。”[10]
还有一种更能体现精确医学主旨的临床研究模式——“N=1”临床研究模式,即整个临床试验中只有一个研究对象。例如,研究者对单一患者进行不同的干预,如重复地给予两种不同的药物,其中一种是试验用药,另一种则是对照药物[11]。随着生物学研究技术的迅速发展,研究者可以将一个患者的肿瘤样本拿到实验室迅速地进行各种生物学分析,寻找能够抑制患者肿瘤的药物,如把肿瘤组织细胞种植到免疫缺陷小鼠形成“人源肿瘤异种移植模型”(patient-derived tumor xenograft,PDX)[12],或者把肿瘤组织细胞在体外培养成 “肿瘤类器官”(tumor organoids)[13],然后利用这些PDX或者类器官进行特定个体的各种药物敏感性试验[12-13]。
可以看到,伞型试验和篮型试验以及其他类型的临床研究新模式,都是建立在疾病分子分型的基础上,都需要采用分子生物标志物对试验设计、受试者招募以及试验进程和结果评估进行指导。显然,这些临床研究新模式的提出离不开精确医学建立的疾病分类新标准。换句话说,基于分子信息的疾病分类新标准是临床研究新模式的理论基础,而临床研究新模式则是疾病分类新标准的推广应用。
不同于依靠“经验”的传统医学,作为现代医学主流的EBM将临床诊治活动建立在更为科学的“证据”之上。换句话说,获取用于指导临床实践的“证据”是现代医学研究的主要目标。获取临床证据的研究主要有两大类,一类是干预性研究,以RCT为代表;另一类则是观察性研究,如队列研究和病例对照研究。不同类型的临床研究获得的证据之质量是不一样的,通常认为基于RCT获得的是高质量证据,而观察性研究获得的是低质量证据。目前,国际医学界广泛采用推荐、评估、发展和评价分级工作组(grade of recommendations assessment,development and evaluation,GRADE)系统将研究证据分为四个等级,并根据研究的特征,对其证据等级进行调整。例如,基于RCT的证据默认为1级,但如果具体的RCT中存在会导致证据质量降低的因素,则降为中等质量证据;反之,如果观察性研究中存在增加证据质量的因素,则可升为高质量证据。
为什么人们认为从RCT中获取的“证据”是高质量的?这不仅因为RCT有严格的试验条件控制,而且在于这类研究具有严格的统计学要求。从最初试验方案的设计到最后试验结果的分析,统计学贯穿于整个试验过程。可以说,RCT的根本目的是要让其试验结果能够进行明确的统计学意义判定,其基本判断标准是统计学P值,P<0.05或者P<0.01表示结果有统计显著性差异。因此,RCT等经典临床试验基本上是一个“yes-or-no”的二分法世界,按照P值把试验结果分成“统计显著的”——Yes,“统计不显著的”——No。
这种以统计学P值作为判断标准的观点近年来受到了质疑。美国统计协会曾于2019年3月在《美国统计学家》杂志发行了主题为“21世纪的统计推断:一个超越了P<0.05的世界”的专刊[14]。与此同时,一封由50多个国家800多名研究者签名的公开信也明确建议停止用统计学P值作为终极判断标准[15]。这封公开信指出,这并非要禁止使用统计学意义,而是要“停止采用基于P值的传统二分法来决定一项结果是否定的还是肯定的科学假设”[15]。《自然》杂志编辑部针对这封公开信专门发表了一个社论,特别强调:“在统计学意义之外进行判断可能会让科学变得困难,但是,这也许能够帮助避免假阳性,避免过分夸大的断言,避免对试验效果的忽视。”[16]
最近在美国药物研究领域发生的一个事件可以说是对这种新观点的有力支持。2021年6月7日, FDA正式批准了一款由百健(Biogen)公司开发的治疗阿尔茨海默症(Alzheimer's disease,AD)的抗体药物aducanumab。FDA因批准此药而受到了该领域专家的强烈批评,参与评审此药的FDA专家咨询委员会的成员相继辞职。哈佛大学Kesselheim教授在辞职信中说:“这可能是美国历史上最糟糕的药物批准决定。”[17]专家抗议的主要理由是,该新药在Ⅲ期临床试验中疗效统计上不显著;组成FDA专家委员会的11位成员在2020年11月开会讨论了该新药的临床试验结果,认为支持该药有效的证据不充分,全体投票不同意批准该药。但是,在FDA工作的定量药理学专家王亚宁则对这个批准决定给予了充分的肯定:“FDA没有选择让企业再做一个大型的Ⅲ期临床试验的轻松决策,而是对已有数据抽丝剥茧,以最严谨的方法全方位分析,突破传统的只看统计P值的固有思维。”[17]王亚宁认为:“这个经典案例对定量药理学在新药研发和审评中的作用将产生深远的影响。”[17]
告别统计学显著性不仅是对临床研究证据简单二分法判断标准的修正措施,而且是为精确医学倡导个体化研究提供重要的理论“武器”。对于精确医学提出的那些临床研究新模式,如伞型试验和篮型试验,既没有像RCT中那种随机对照组,也难于简单地用统计显著性去判断试验成果的有效性。而对于“N=1”的临床研究模式,其试验结论往往基于同一个体在不同时间或不同条件之间的结果比较,就更不可能满足RCT那样的统计学要求。
在精确医学的推进过程中,最重要的一个新生事物是“真实世界证据”(real world evidence,RWE)的提出。美国国会在2016年12月通过的《21世纪治疗法案》(21st Century Cures Act)中明确提出,RWE“从RCT以外的其他来源获取的关于用药方式、药物潜在获益或者安全性方面的数据”,并要求FDA在其基本法规《联邦食物、药品和化妆品法案》的第5章中增加一条利用RWE的修正条款,以加快药品和医疗器械的审批[18]。FDA随后陆续颁布了《真实世界证据计划框架》和《使用真实世界证据以支持医疗器械监管决策》等多部法规。中国近年来也逐渐重视RWE,国家药品监督管理局于2020年1月发布《真实世界证据支持药物研发与审评的指导原则(试行)》办法;其下属的药品审评中心也在2021年4月发布了《用于产生真实世界证据的真实世界数据指导原则(试行)》。
RWE最主要的特点是,它源自日常真实环境下产生的真实数据,如患者电子病历或医保支付数据等,从而保证了收集到的证据能够反映出日常医疗实践场景的真实情况。正如FDA官员所说:“在这种情况下,真实世界证据将成为加快利用那些用来确认药效和价值的数据的关键因子;因为这类药品要在药效还存在很大不确定性的情况下获得必要的批准。”[19]基于这样的认识,FDA在《真实世界证据计划框架》中提出了一种整合了传统临床试验和RWE的研究模式——单臂临床试验,即只建立一个试验组,不设立对照组,而以匹配的RWE作为合成对照臂(synthetic control arm)。这种单臂临床试验现在已经用于新药临床试验,并有多个基于该种试验的新药获得了FDA的批准,如2017年批准的治疗婴儿型神经元蜡样脂褐质沉积症的新药“Brineura”,就是来自采用RWE作为“历史对照”的单臂临床试验。2020年7月,FDA基于RWE合成对照臂的Ⅱ期试验结果首次批准了一种治疗癌症的二线药物——CD19靶向单克隆抗体(Monjuvi)与来那度胺联合治疗复发或难治性弥漫性大B细胞淋巴瘤。此外,RWE也能单独用于药物临床研究,如FDA在2019年批准的CDK4/6抑制剂“Ibrance”可用于新的适应证“男性乳腺癌”就是基于对肿瘤数据库和保险数据库等多种真实世界数据分析得到的RWE。中国药监局在《以临床价值为导向的抗肿瘤药物临床研发指导原则(征求意见稿)》中,给出了临床研究进入“关键研究阶段”时的3种临床试验设计:(1)RCT;(2)单臂临床试验;(3)真实世界研究。显然,RWE在后两类临床试验中都发挥着重要的作用。
以循证医学为核心的现代临床医学被认为是“不精确的医学”[20];其根本原因在于它建立在还原论的基础之上,它所采用的RCT等经典临床研究是要把每个参与者“还原”为消除了个体差异的“质点”,然后利用统计学显著性分析去获取特定的试验证据,进而用于指导临床实践。从这个意义上说,基于RCT证据的EBM是看“病”而不是看“人”,即患者仅仅是一个“病例”,而不是一个“病人”。反之,精确医学从临床研究到临床实践,始终把“人”作为首要目标。正如2021年7月中国药监局药品审评中心在《以临床价值为导向的抗肿瘤药物临床研发指导原则(征求意见稿)》中提出的研发理念:以临床价值为导向,以患者为核心。人与人之间的个体差异不再是被刻意消除的“噪音”,而是必须找出来指导精确医学的“证据”。