黄耀华,王杨,李卫
认识非劣效试验设计
黄耀华,王杨,李卫
非劣效试验
众所周知,证明一种药物(医疗器械/治疗手段)的疗效优于另一种药物(医疗器械/治疗手段)的疗效的优效性试验(Superiority Design)设计是经典的研究设计方法,通过采用任意一种对照,来显示研究药物优于对照药(对照药可以是安慰剂,或者说无治疗、研究药物的低剂量或其他阳性药)。优效性试验设计相对简单,易于操作,能证实研究药物的绝对疗效,结果更具有可靠性。但随着医学的快速发展,在已有非常有效的治疗手段的基础上,进一步证明某种新手段疗效显著优于现有疗法通常是非常难的,特别是当技术上没有大的突破时。同时,对于某些疾病,出于伦理学考虑,并不总能进行安慰剂对照的优效性试验设计,需要选择阳性药物或标准治疗来做对照[1]。因此,目前国际上通常采用一种变通的试验设计方法——非劣效试验设计(Non-Inferiority Design),即:证明某一新药(医疗器械)疗效不差于已知的有效药物。现在已经有越来越多的新药和医疗器械都是通过非劣效试验设计完成了临床试验并通过药品/器械审批部门的审批上市的,比如促成达比加群酯获得多国新药注册的重要依据的临床试验RE-LY研究和经导管主动脉瓣替换(TAVR)的PARTNER研究等。
评价某一临床试验结果是否满足预先设计的非劣效结论?是否可以通过比较试验组和对照组的组间差异的显著性检验P值大于0.05?答案显然是否定的!一般来讲,设计非劣效试验要谨慎选择阳性对照组,合理确定非劣效界值,准确估计样本量等。
选择阳性对照的原则是“疗效确切,齐同可比”,是当前临床上被广泛接受的、对于相应适应证确实有效的阳性药物或标准治疗,其疗效经过了设计良好的临床试验的证实,具有较好的预测性和可重复性,且对照组的主治功效、适用范围应与试验组类同。如果阳性对照的疗效不能得到充分保证,使用非劣效试验设计就不合理,此时应增加必要的安慰剂对照,即采用包含试验组、阳性对照组和安慰剂对照组的非劣效试验设计,也就是所谓的“三臂试验”(3-Arms Trial),有人将此种非劣效试验设计视为“金标准”。与优效性试验设计最大不同的是非劣效试验需要 “非劣效界值(Non-Inferiority Margin)”,这是指如果想证明一个新的治疗方法与对照方法同样有效,需要先明确两治疗方法间能够被接受的最大差异水平。例如,对照产品的有效率为90%,如果被试产品的有效率仅为65%,那么从临床角度判断,是否还能认为两组的疗效相当?如果对于特定的疾病和治疗方法,临床医生认为试验组与对照组相比,有效率相差只要不超过10%(试验组有效率比对照组疗效低5%),仍可认为被试产品不比对照产品差,那么10%就是本次临床试验的非劣效界值。
如比较经导管主动脉瓣替换(TAVR)和手术治疗的PARTNER A研究显示,TAVR组和手术组一年期死亡率接近,分别为24.2%和26.8%(P=0.44)。事件发生率的差异为2.6%,该差异的95%可信区间为[-9.3%, 4.1%],由于可信区间的上限为4.1%,小于预先规定的非劣效界值为7.5%。这样,就证实了TAVR不劣于手术的结论。
非劣效试验虽然仅需证明试验组不差于对照组(不需证明比对照好),但不代表非劣效试验中需要的样本量小于优效试验[2]。决定非劣效试验样本量大小的因素包括:非劣效界值、试验组与对照组的预期疗效、统计学显著性水平及把握度,其中最为关键的就是非劣效界值,通常,非劣效界值越小(越严格),试验所需要的样本量越大,非劣效界值越宽(能够接受的组间差异越大),试验所需要的样本量则越小。
总之,非劣效检验不同于传统的差异性检验,在设计和结果解读时都有其相应的特定方法,非劣效试验中最为关键的概念就是非劣效界值,其关系到研究的样本量规模以及最终是否能够得到非劣效的结论。在整个过程中,需要临床专家与生物统计学家通力合作,以保证临床试验获得预期的结果。
[1]黄钦,赵明.对临床试验统计学假设检验中非劣效、等效和优效性设计的认识.中国临床药理学杂志,2007,23:63-67.
[2]王杨,李卫,成小如,等. 随机模拟法验证非劣效临床试验样本量计算公式.中国卫生统计,2008,25:26-28.
(编辑:漆利萍)
本栏目由国家心血管病中心 医学研究统计中心协办
100037 北京市,中国医学科学院 北京协和医学院 心血管病研究所 阜外心血管病医院 心血管疾病国家重点实验室
黄耀华 统计师 主要从事生物统计学研究 Email: huangyaohua@mrbc-nccd.com 通讯作者:李卫 Email:liwei@mrbc-nccd.com
R54
C
1000-3614(2013)04-0310-01
10.3969/j.issn.1000-3614.2013.04.021
2013-06-18)