张甜甜 ,刘媛媛 ,李长平 ,2,胡良平
(1.天津医科大学公共卫生学院,天津 300070;2.世界中医药学会联合会临床科研统计学专业委员会,北京 100029;3.军事科学院研究生院,北京 100850*通信作者:胡良平,E-mail:lphu927@163.com)
根据目的不同,临床试验设计可以分为常见的差异性设计、标准阳性对照试验中的等效性和非劣效性设计以及以安慰剂或阳性药物为对照药物试验中的优效性设计,其假设检验方法也随之被提出。t检验在差异性检验、等效性检验、非劣效性检验和优效性检验中都有应用[1]。本文介绍临床试验中与等效性检验有关的内容,包括等效性检验的概念、假设检验的原理、样本量的估计和界值的确定,再结合临床实例,介绍两算术均值比较等效性t检验及其SAS实现。
在药物研发中,新药在临床疗效上有大的突破变得愈来愈困难,因而新药研发的定位发生了改变:即使新药在疗效上没有提高,但如果在其他方面具有明显优势,研发这类新药也是有价值的。验证新的药物或治疗方法是否与已有的标准药物或治疗方法的临床效应相当,适合采用等效性检验,以说明试验方法的干预效应既不优于也不劣于对照方法[2-3]。
等效性试验是指确认两种或多种药物治疗效果的差别在临床上并无实际意义,即试验药与阳性对照药的疗效相当。“相当”不是“相等”,而是对疗效差别的一种临床可接受的允许范围的概念。因为强调的是“等效”,故意味着试验药可以比阳性对照药好一些,但不可能好很多,这种“好”必须在临床上是微不足道的;当然试验药也可以比阳性对照药差一些,但不应差很多,这种“差”必须是临床上可以容忍的[4]。显然,此处所谓的“好得微不足道”或“差得可以容忍”都是有限度的,在临床实践中即表现为两种药物疗效差值的最大允许值,这两个方向上的临床最大允许差值则被称为等效性界值。可见,等效性界值有两个,包括上界值和下界值,它们的绝对值既可以相等,也可以不等。等效性界值的确定一般应以临床知识为主要依据,应在试验设计阶段确定下来,并连同样本量估计等内容在临床试验方案中详细说明。有了等效性界值,等效性的统计学推断问题也就容易理解了,即在“好”和“差”两个不同的方向上分别进行两次统计推断,若“不好于”和“不差于”能同时满足,则可获得等效的结论。
1.2.1 检验假设
无效假设和备择假设分别用H0和H1表示,以α作为检验水准。设T为试验组效应指标的参数,C为阳性对照组效应指标的参数(假定评价指标为高优指标,设δL为负值,δU为正值)。等效性检验的检验假设有以下两对。
第1对,无效假设H01:T-C≥δU,备择假设H11:T-C<δU;
第2对,无效假设H02:T-C≤δL,备择假设H12:T-C>δL。
1.2.2 假设检验的方法
对于等效性检验的统计推断,需要在两个方向上同时进行单侧检验,即双单侧检验。欲得出等效性结论,两个零假设均需要在总的检验水准α上被拒绝。由于通常设两个单侧检验总的犯第I类错误的概率为“α”,故每个单侧检验的水准α′=α/2,按照α=0.05,α′=0.025,即只有当P1<α′和P2<α′同时成立(注意每次检验的水准均为α′),前者推论T不好于C,后者推论T不差于C,方可综合推断T和C具有等效性;若P1和P2中的任何一个大于α′,则不可得出等效性结论。这里α′的含义是当T与C的疗效差值大于δU或小于δL时,错误地得出T和C等效结论的概率[5]。
1.2.3 等效性试验统计推断的检验统计量
算术均值的等效性检验需进行双单侧t检验,一个是对“劣”方向上的检验,另一个是对“优”方向上的检验,其检验统计量计算公式分别为(每次检验的水准均为α′):
在置信区间法中,按双侧100(1-α)%置信度,计算出T-C置信区间的下限CL和上限CU,若[CL,CU]完全在(δL,δU)的范围内,或者δL<CL<CU<δU,可下等效性的结论。计算两算术均值差值双侧100(1-α)%置信区间下限和上限的公式分别为:
其中,t(1-α/2,ν)为自由度为ν、检验水准为α时的单侧t分布界值(左侧累积概率为1-α/2时的t分布分位数),自由度为ν=nc+nT-2。对于均值的等效性比较,按假设检验和按置信区间方法得到的结论是等价的[6]。
等效性界值的确定可参考文献[7]中非劣效界值的确定原理和方法获得一侧的界值,然后再参考该界值大小确定另一侧的界值。理论上等效性界值的下界值和上界值是可以不等的,但实际中一般取相等数值,只是代数符号相反。
当已知对照组与试验组的总体差值为Δ(Δ =μT-μC),两组的合并方差为σ2时,在检验水准α′下,按照等效性界值δL、δU,在一定的样本量下,双单侧检验的把握度可从总的Ⅱ类错误概率算得(power=1-β),而总的Ⅱ类错误概率β可分解为下单侧检验的Ⅱ类错误概率(βL)及上单侧检验的Ⅱ类错误概率(βU)两部分[power=1-(βL+βU)]。经理论推导,可获得把握度和样本量之间的函数关系式:
式中,probt[·]为非中心t分布的分布函数;τ1和τ2为非中心t分布的参数;r为试验组与对照组的分配比例;S为两组的合并标准差,定义如下:
由上述公式可见,在给定把握度与相关参数后,只有样本量nC是未知数,但由这些公式无法直接计算得到样本量,需要通过迭代运算求得。
得到对照组的样本量nC后,则不难获得试验组所需的样本量(nT=rnC)。对于等效性试验而言,当δL与δU绝对值相等时,试验组与对照组的样本量应该是相同的[4]。
【例1】观察氯沙坦与伊贝沙坦对伴高尿酸血症的原发性高血压患者血清尿酸水平的影响并评价其降压效果。采用多中心、随机、双盲、平行对照设计,随机抽取320例受试者,治疗6周后,患者收缩压改变值见表1。根据临床经验,设定等效性界值为5 mmHg,试评价两种药物的降压效果是否等效。
表1 两组患者治疗6周后收缩压下降幅度(mmHg)
该资料属于成组设计一元定量资料,目的是评价两种药物的降压效果是否等效,应采用双单侧检验进行等效性检验,设定等效性界限:L=-5 mmHg,U=5 mmHg。
SAS程序如下:
【程序说明】第一步,对H0(1),即等效性界值的下限L进行假设检验,计算t1;第二步,对H0(2),即等效性界值的上限U进行假设检验,计算t2;第三步,计算t1对应的t分布右侧的累计概率;第四步,计算t2对应的t分布左侧的累计概率。
【SAS主要输出结果及解释】
统计与专业结论:t1=5.12264,p1=0.000000262,按照α′=0.025,拒绝H0(1),接受H1(1);t2=-9.85584,p2<0.0001,按照α′=0.025,拒绝H0(2),接受H1(2)。两个单侧检验均拒绝H0,可以认为氯沙坦和伊贝沙坦的降压效果是等效的。
沿用例1的信息,根据样本均值和标准差模拟出与例1中样本含量相同的随机数。评价氯沙坦和伊贝沙坦的降压效果是否等效(设定等效性界限:L=-5 mmHg,U=5 mmHg)。
SAS程序如下:
【程序说明】第一步,根据例1中的样本均值、标准差使用normal函数产生两组服从各组对应样本均值、标准差的正态分布的随机数,通过seed设置种子数,使数据能够重现;第二步,在TTEST过程中,sides=u表示采用上单侧检验,h0=-5为设定的非劣效性界值;第三步,在TTEST过程中,sides=l表示采用下单侧检验,h0=5为设定的优效性界值。
【SAS主要输出结果及解释】
因篇幅所限,第二、三步SAS输出结果从略。第四步SAS输出结果如下。
第二步与第三步SAS输出结果(因篇幅所限,已省略)显示,方差齐性检验的结果为F=1.09,P>0.05,认为两总体方差相等。对应的t检验结果中,应参照汇总方法(Pooled),对应方差相等时的计算结果。
统计与专业结论:第四步输出结果显示,t=5.23,P<0.0001,按照α′=0.025,拒绝H0,接受H1,可以认为氯沙坦的降压效果非劣于伊贝沙坦;第三步输出结果显示,t=-10.11,P<0.0001,可以认为氯沙坦不优于伊贝沙坦。综上,可以认为氯沙坦的降压效果等效于伊贝沙坦。
方差齐性检验结果为F=1.09,P>0.05,认为两总体方差相等。对应的t检验结果中,应该参照汇总方法(Pooled),对应方差相等时的计算结果。
由“TOST水平0.025等效性分析”的结果可知:求得的两算术均值之差的95%等效性置信区间[-2.8759,-0.3103]完全落在等效性界限[-5,5]之间,表明等效性成立。若基于两次单侧检验的结果(即t=5.23,P<0.0001;t=-10.11,P<0.0001),也可以得出同样的结论。总之,可综合推断出氯沙坦和伊贝沙坦的降压效果具有等效性。
至今,有关“等效性”和“非劣效性”之间在概念上仍有混淆,有的认为只要试验药不比阳性对照药差都可以笼统称为“等效性”。但事实上,二者是有严格界定的。与生物等效性一样,新药的生物利用度比参照药不能低太多,也不能高太多,低了达不到参照药效果,高了可能有更多毒性。然而,临床疗效的等效性如果也追求这种“等效性”似无实际意义,因为人们对阳性对照临床试验通常只会关注试验药的疗效是否“不差于”对照药,而往往不关心试验药是否“好于”对照药。当然如果确实要关注试验药是否“好于”对照药,则可按优效性试验进行设计和分析。
此外,关于等效性试验的检验水准问题,在双单侧检验中明确指出,若假设检验的水准是α,则每次单侧检验的水准都是α′(校正后的结果)[4]。
本文详细介绍了等效性检验的相关内容。等效性检验的目的是检验两种或多种药物或医疗器械治疗效果差别大小在临床上有无实际意义,即试验药与阳性对照药在疗效上是否相当。在试验设计时,需注意等效性界值的确定、样本量估计、效应指标定义等的科学性、严谨性和实用性。