王梦星,潘岳松,刘丹丹,金奥铭
临床试验是评估新药或新疗法有效性和安全性最有效的方法,目前医学发展已经进入循证医学时代,临床试验不仅可以提供高质量的循证医学证据,其结果还可以帮助研究者回答不同的研究问题,指导临床为患者提供更优化的治疗方案。仅根据统计学显著性或试验结果方向来判定临床试验有无意义是不合理的[1]。当临床试验主要结果为阴性时,还需要多方面分析,从中找到潜在益处的线索。
目前全球开展的临床试验体量巨大,从ClinicalTrials.gov临床试验注册平台来看,截至目前临床试验注册数量已达45万个[2]。中国自2016年国家药品监督管理局改革开始,新启动的试验数量也快速增长,2020年之前的年均增长率更是达20%以上[3]。临床试验的最终目的是确定治疗是否有效,但无效结果其实更为常见。不过,在实际情况下,阳性结果的试验往往比阴性结果的试验发表得更快,并且更容易发表在影响因子更高的期刊上[4]。获得阳性结果的试验与结果没有统计学意义的试验相比,发表概率几乎是后者的4倍,且阴性结果试验的中位发表时间还要再晚2年左右[4]。但是,目前这种基于主要结局的P值是否<0.05便将临床试验标记为阳性或阴性的方式过于简单且不合理,需要根据研究整体证据和效能等做综合考量,从而使临床试验结果更具有参考价值[5]。
Pocock等[5]于2016年在NEJM上发表了The Primary Outcome Fails—What Next?一文,详细阐述了临床试验的主要结局失败后需要考虑的12个问题,包括:潜在获益迹象、统计效能、主要结局的定义、人群选择、合适的治疗方案、试验执行、非劣效分析、亚组结果、次要结局分析、分析方法改变、阳性外部证据和生物学理论。本文对此做了进一步的归纳,重点从临床试验设计、研究执行情况、探索性结果分析、外部证据及生物学支持等方面进行讨论。
2.1 临床试验设计 临床试验设计方面主要考虑人群选择、统计效能、方案的合理性及主要结局的定义问题。首先,要考虑研究人群是否合适,研究对象的入选标准是判断试验结果适用范围的重要依据,只有研究人群具有代表性,才能对适应证总体人群做可靠的推断。如伊伐布雷定对慢性心力衰竭和左心室收缩功能不全影响(effects of ivabradine on cardiovascular events in patients with moderate to severe chronic heart failure and left ventricular systolic dysfunction,SHIFT)研究在吸取既往相关研究的经验后,将研究人群从冠心病患者锁定至心力衰竭患者,研究主要结局定为心血管性死亡或心力衰竭住院,最终获得了阳性结果[6]。其次,临床试验的统计效能也对结果有重要影响。通常来说,纳入的病例数不够有可能导致本来存在的疗效不能充分呈现,即出现假阴性结果(Ⅱ类错误)。足够的把握度需要充分的终点事件数,这可以通过增加样本量、延长随访时间、采用复合终点或将以上几种方式组合来满足检验效能的要求[5,7]。再次,研究也要考虑治疗方案的合理性,如果用药剂量不当,会增大试验结局阴性的风险。如莫索尼定在心力衰竭患者中的应用试验(the moxonidine congestive heart failure trial,MOXCON)在使用莫索尼定来治疗慢性心力衰竭时,方案中设定的目标药物剂量远高于早期研究中所使用的剂量,从而导致临床试验结局阴性[8]。最后,主要结局的定义问题也需要重点关注。有时临床试验的成功取决于对主要结局的清晰定义及准确判定[9]。在经皮冠状动脉介入治疗患者中cangrelor与氯吡格雷标准治疗对比(comparing cangrelor to clopidogrel standard therapy in subjects who require percutaneous coronary intervention,CHAMPION PHOENIX)研究通过仔细评估患者的基线生物标志物状态,对急性冠状动脉综合征患者进行梗死再区分,更加准确地定义了心肌梗死这一主要结局指标,从而证明了cangrelor预防经皮冠状动脉介入治疗患者发生缺血事件的疗效[7]。
2.2 临床试验执行情况 临床试验质量是评价临床试验结果的基础,临床试验执行情况直接影响试验的结果[10]。临床试验应严格按照药物临床试验质量管理规范(good clinical practice,GCP)执行[11],如果不能高质量地执行研究方案会导致治疗效应被稀释。高质量的执行及质量控制才能为可靠的研究结果增加保障。
2.3 临床试验探索性结果分析 临床试验的探索性结果分析部分涵盖次要结局分析、亚组分析、分析方法改变、非劣效分析以及潜在获益分析等方面的内容。首先需要关注的是次要结局是否有阳性发现。2022年10月美国食品和药品管理局发布的临床试验多终点指南指出,当次要研究结局的效力足够强时,也可能会影响临床实践[12]。虽然监管部门不会基于次要结局批准药物上市,但次要结局可以辅助支持主要结局或展示其他临床重要效果,指明更合理的探索方向。再者,亚组结果是否显示阳性信号也值得考虑。人用药品技术要求国际协调理事会(The International Council for Harmonisation of Technical Requirements for Pharmaceuticals for Human Use,ICH)发布的临床试验生物统计指导原则以及我国国家药品监督管理局发布的GCP指出,对主要研究结局为阴性的临床试验进行亚组分析是合理的[11,13]。一般研究会基于生物学上合理的假设预先确定几个亚组,但只有事先设计好的确证性亚组分析所得的结论才可作为药物申请注册上市的直接依据[14-15]。亚组分析尽管不能改变受试药物用于全体人群的阴性结果,却可以提供可能获益的亚组人群线索,为进一步的研究可能性提出检验假设[16]。因此,临床试验也可以考虑改变分析策略,在方案设计之初,通过预设协变量、不同方案集对比或重复事件分析等来进一步验证结果[17]。不论试验设计和过程执行得如何标准,如果选择了不恰当的统计方法,就可能得到阴性甚至完全相反的结果。此外,对于阴性结果,尝试进行非劣效分析有可能提供额外的参考价值,虽然非劣效性的事后解释在方法学上是有争议的,但如果新的治疗措施具有除疗效外的其他优点并更易于被患者接受,那么非劣效结论就具有一定的参考意义[18-19]。
除了上述方面,在进行临床试验探索时,还要关注潜在获益的趋势。在P>0.05的前提下,需要经过充分考虑才能推断结果是否存在获益信号或倾向。当主要结局呈阴性时,亚组或次要结局仍可能会展示比较好的疗效,所以全面解读研究结果会比直接将研究定性为“失败”更加合适[20]。
2.4 临床试验的外部证据与生物学支持 对主要结局为阴性的临床试验结果解读,还需要关注研究的外部阳性证据和生物学理论是否充足。如果既往的类似研究结果或相关系列试验的meta分析证据为阳性,但自己的临床试验结果却为阴性,则应仔细考究并谨慎对待阳性外部证据,找出可能存在差异的原因来对研究结果进行解释。另外,使用强有力的生物学理论来支持干预措施也是不可或缺的一环。临床试验应该建立在充分了解相关科学文献的基础上,尽量避开生物学机制尚有争议的研究领域。对于方法学和执行方面没有明显问题的阴性结局试验,应寻找导致治疗失败的生物学原因,找到强有力的生物学理论证据佐证结果的合理性[21-22]。
3.1 INSURE研究概况 吲哚布芬对比阿司匹林治疗急性缺血性卒中(indobufen versus aspirin in acute ischemic stroke,INSURE)研究是一项关于抗血小板药物治疗卒中的随机、双盲、对照、非劣效性的多中心临床试验,在2019年6月2日—2021年11月28日从中国的163个分中心入组了5438例中重度缺血性卒中患者,吲哚布芬组在90 d内发生卒中的患者有213例(7.9%),阿司匹林组为175例(6.4%)(HR1.23,95%CI1.01~1.50),CI上限超过了非劣效边界1.25,表明在降低90 d卒中复发风险方面吲哚布芬未达到非劣于阿司匹林。不过,在安全性终点方面,吲哚布芬组的中度或重度出血数量低于阿司匹林组,提示吲哚布芬的安全性可能相对较好[23]。接下来,本文将从试验设计、研究执行、探索分析、外部证据及生物学支持方面对INSURE研究的结果做进一步剖析与讨论。
3.2 INSURE研究阴性结果的综合分析
3.2.1 INSURE研究设计 INSURE研究聚焦人群为症状出现后72 h内的我国中重度缺血性卒中患者,排除了有出血风险和伴有其他会影响疗效疾病的患者,如既往有颅内出血性疾病、心源性栓塞、动脉瘤、严重肝肾功能不全以及随机化前10 d内使用过肝素或口服抗凝药物等[23]。在充分考虑患者安全性的前提下,使研究人群具有代表性。因此,INSURE研究结果也只适用于我国中重度卒中人群,不能延伸至轻型卒中及其他种族卒中人群。
目前如何精准地对中重度卒中患者进行个体化抗血小板治疗并降低出血风险的循证医学证据仍旧不足,且没有合适的抗血小板药物能使重度人群获益。吲哚布芬作为一种可逆性的环氧合酶-1抑制剂,其生化、功效和临床效果与标准剂量的阿司匹林相当,却具有胃肠道反应和出血风险较低的优势,据此INSURE研究选择在中重度卒中人群中使用吲哚布芬进行抗血小板治疗。此外,INSURE的主要结局定义与既往国际抗血小板药物临床试验保持一致,为3个月内卒中复发情况,以便后续与其他研究的结果进行对比分析。最后,INSURE研究通过严格的样本量估计来获得需要纳入的人群数量,采用随机、双盲的方法,尽可能控制可能存在的混杂偏倚。
3.2.2 INSURE研究执行情况 从研究的实施情况来看,INSURE研究过程完全根据ICH指南中的临床试验质量管理原则开展,详细记录了方案违背和不良事件情况,并根据风险大小制定相应的数据安全监察计划,设置数据安全监测委员会定期监督研究的进展与安全性信息[13]。从整体数据来看,5438例随机入组的患者中只有不到1%不符合入组标准,仅7例患者在3个月随访时失访,1.5%的患者使用了方案禁忌用药,受试者依从性较高。尽管研究执行期间受新型冠状病毒感染疫情冲击,但也基本上按照方案要求完成了研究内容,研究质量可靠。
3.2.3 INSURE研究结果分析 INSURE研究的整体结果未达到非劣效,研究者随后进行了一系列的探索性分析。在预设的亚组分析中发现,吲哚布芬在女性、既往接受过抗血小板治疗、发病至随机化时间<24 h和NIHSS评分≥10分的患者中有不劣于阿司匹林的趋势,可能在这些特定亚组患者中,吲哚布芬仍具某些潜在的优势特征和应用价值,这有待进一步验证。既往的TAXUS洗脱支架或冠状动脉搭桥手术治疗动脉狭窄(TAXUS drug-eluting stent versus coronary artery bypass surgery for the treatment of narrowed arteries,SYNTAX)研究分析主要结局显示TAXUS洗脱支架经皮冠状动脉介入治疗组的血管事件发生率更高[24],但经过亚组分析发现在左主干病变亚组中经皮冠状动脉介入治疗的潜在优势。随后,研究者在该亚组人群基础上设计了XIENCE药物洗脱支架与冠状动脉搭桥术对左主干血运重建效果的评价(evaluation of XIENCE versus coronary artery bypass surgery for effectiveness of left main revascularization,EXCEL)研究,验证了SYNTAX研究特定亚组经皮冠状动脉介入治疗的疗效优势[25]。因此,未来INSURE研究也可以针对潜在优势的亚组进行分析挖掘,以找出更有针对性的治疗人群。从INSURE研究的次要结局来看,吲哚布芬组90 d内发生颅内出血和不良事件的比例低于阿司匹林组。虽然安全性结局的差异未达到统计学意义,但其结果提示吲哚布芬的安全性可能更好。所以对于易发生胃肠道反应或有较高出血风险的患者,吲哚布芬仍然可以作为可选择的抗血小板治疗方案。
3.2.4 INSURE研究外部证据和生物学支持吲哚布芬作为一种能快速有效阻止血栓形成的可逆性环氧合酶-1抑制剂,其抗血小板作用持续时间短,出血风险低且出血后易止血[26]。虽然吲哚布芬组与阿司匹林组安全性结局差异并无统计学意义,但90 d内吲哚布芬组发生出血和不良事件的比例更低,以上结果基本符合吲哚布芬的生物学机制,提示吲哚布芬安全性可能会更好。近期发表的一项关于使用氯吡格雷联合吲哚布芬或阿司匹林治疗冠状动脉药物洗脱支架置入术后患者的研究也表明,吲哚布芬联合氯吡格雷能显著降低患者1年内净不良临床事件的风险[27]。这主要是因为出血事件减少且缺血事件没有增加,因此吲哚布芬可能具有更“温和”的抗血小板作用且出血风险更低。
综上所述,应以科学和理性的态度看待临床试验的成败。当试验的主要结果为阴性时,研究者可以通过研究设计与执行、探索性结果以及外部和生物学证据等方面批判性地对研究进行解读。阴性结果的出现是正常的,并不一定就意味着研究失败。有统计学意义的结果未必具有临床意义,有些通过可靠的研究方法获得的阴性结果有时甚至比阳性结果更有价值,研究人员必须认识到临床研究是有价值的,无论其显著性水平如何,当结果得到适当的解释时,就能为后续临床研究的设计提供宝贵的经验。