自适应样本量调整中Fisher合并P值法和传统检验法的模拟比较

2012-07-25 08:15王素珍孟维静吕军城石福艳夏结来
统计与决策 2012年14期
关键词:样本量差值方差

王素珍,孟维静,吕军城,石福艳,夏结来

0 引言

样本量调整是临床试验自适应设计的一个热点问题,样本量调整的方法有很多,目前关注最多的是两阶段自适应设计的样本量调整。而在两阶段样本量调整中,又包括根据第一阶段的合并方差S21进行样本量调整、根据第一阶段的组间差值进行调整以及同时根据S21和进行调整等,本文主要研究根据S21和进行样本量调整时数据的分析方法。

第一阶段完成后,在盲态或揭盲状态下进行期中分析[1],利用新得到的组间差值来代替最初设计的有临床意义的差值δ、新得到的合并方差代替原计划的方差重新计算样本量,受到很多统计学家的推崇[2-6],本研究采用两阶段设计方法设计一安慰剂对照的临床试验,在揭盲状态下对样本量进行调整,借助蒙特-卡罗(Monte Carlo)计算机模拟方法[7],采用SAS软件[8]模拟样本量调整中的两个阶段。第一阶段结束后估算组间差值以及近似方差并据此重新计算样本量,完成第二阶段的试验模拟,第二阶段结束后采用合并P值法分析全部数据,并与传统检验方法相比较,以探讨合并P值法对样本量调整后Ⅰ型错误和检验效能的影响,为两阶段设计在临床试验中的应用提供参考依据。

1 方法及设计

1.1 揭盲状态下利用δ和调整样本量的方法

假定有一研究某降压药疗效的安慰剂对照Ⅲ期临床试验,具有A,B两个处理组,分别接受治疗药物A和B,主要终点指标是仰卧舒张压SDBP(Supine diastolic blood pressure,单位mmHG)。现采用两阶段自适应设计方法设计该试验,即在试验进行中调整样本量[9~11],同时观察药物疗效。由常识知A,B两个处理组的疗效均服从正态分布,根据先前的试验,预先估计处理组和安慰剂组的共同方差为,两组之间有临床有意义的处理差别为δ。由此可以计算在Ⅰ型错误概率α、检验效能1-β下试验所需的样本量N。初始方案中的第一阶段每组样本量为n1,即从总样本中取出一部分n1作为第一阶段样本进行试验,试验完成后在揭盲状态下计算组间差值δ以及合并方差

,据此重新计算整个试验的样本量Nrecalc,然后进行第二阶段的试验,第二阶段的样本量为重计算所得样本量减去第一阶段的样本量,即n=Nrecalc-n1。

1.2 模拟设计

由前面的假定已知A,B两个处理组的组间差值δ,共同的方差,现假定药物组A和安慰剂组B对应的主要疗效分别具有均值ux、uy,则模拟过程如下:应用SAS随机数函数rannor分别产生均值ux方差和均值uy方差的两组随机数各n1个,作为第一阶段的样本量。此处的为第一阶段的方差,此值可设置与相等或略有不等。第一阶段完成后,利用2n1个样本做期中分析,计算A,B两个处理组的组间差值以及合并方差,根据和重新计算样本量,模拟产生第二个阶段的数据。对上述两个阶段分别进行方差分析和合并P值法进行检验,其中方差分析法是对两个阶段的合并数据进行检验,而合并P值法则是对两个阶段分别做方差分析,然后将两个阶段得到的P值合并。不断改变n1的值,重复上述模拟试验。在既定的参数设置下,程序每循环一次对一个样本量为N的样本完成一次两阶段模拟,也即对一个样本量为n1的样本完成一次第一阶段模拟,两组的组间差为0时计算Ⅰ型错误,为某一固定值时计算检验效能对每一个既定的两阶段过程循环10000次计算Ⅰ型错误,5000次循环计算检验效能。n1从5开始,每次增加5个,直到达到总样本量的80%。

2 结果

根据前面假定的研究某降压药临床试验例子产生模拟数据,先前研究得到的两组SDBP与基线相比平均舒张压下降的差值δ=3,方差=64,在Ⅰ型错误α=0.05时,获得1-β=0.9的检验效能所需的最初样本量为151例,简单起见取150例,即N=150,从中取一定比例的样本量n1=πN模拟第一阶段试验。第一阶段的组间效应即是两组SDBP与基线相比平均舒张压下降值的差值,此值与最初设定值相同,即3mmHG,第一阶段的方差与最初设置的不同,设为=92=81,据此产生第一阶段模拟数据。由模拟数据计算出组间均值差的估计值,以及第一阶段的合并方差,并根据1j和重新估算样本量,进行第二阶段的试验,第二阶段的模拟数据根据和产生。在 δ1j=0时,计算Ⅰ型错误,而在δ1j=3mmHG计算检验效能。在不断变化第一阶段样本量的条件下,比较方差分析法和合并P值法的Ⅰ型错误和检验效能。对每一个既定的样本量完成10000次循环计算Ⅰ型错误,5000次循环计算检验效能。所得结果如表1和表2所示。其中N_ips为第一阶段样本量,MeanNr和MedNr分别为10000或5000次重计算的样本量的均值和中位数,MeanN2和MedN2分别为第二阶段样本量的均值和中位数。表1中最右侧的两列分别对应方差分析法和合并P值法的Ⅰ型错误;表2中最右侧的两列则分别对应两种方法的检验效能。

由表1可以看出,调整后样本量的均值比最初预设的样本量要大。这是因为在模拟Ⅰ型错误时,假定两组间的均值差为0,此时在第一阶段完成后,计算得到的两组间差值会很小,因此重计算的样本量较大。当第一阶段样本量较小时,比如小于70(约为最初设计样本量的一半左右)时,方差分析法的Ⅰ型错误明显高于合并P值法,而第一阶段样本量高于70时,方差分析法的Ⅰ型错误逐渐减小,没有出现大于名义检验水准0.05的情况;而合并P值法的Ⅰ型错误却还出现大于0.05的情况。这似乎告诉我们,当采用IPS方差及观测到的组间差值进行样本量调整时,如果第一阶段的样本量较小,比如小于最初计划样本量的一半时,则应采用合并P值法对两阶段数据分别分析;而在第一阶段样本量大于计划样本量的一半时,可采用方差分析分析两阶段的合并数据。然而,从表2的检验效能比较中却发现,在样本量较小时,合并P值法的检验效能远低于方差分析法的检验效能,比如当第一阶段样本量为20时,方差分析法的效能为0.828,但合并P值法的检验效能却只有0.682,离预期的检验效能相差太远,因此我们只根据Ⅰ型错误就断定IPS样本量较小时应采用合并P值法来分析数据是不合理的。

表2 方差分析法和合并P值法在不同IPS样本量时的检验效能

3 讨论

自适应样本量调整中,Ⅰ型错误的膨胀一直为人们所关注[1,4]。综合本文中两种方法的Ⅰ型错误和检验效能,可以得出这样的结论:当采用第一阶段方差及观测到的组间差值进行样本量调整时,第一阶段的样本量不能小于计划样本量的1/3,在此为50例,若小于计划样本量的1/3,则无论采用传统的统计方法还是采用合并P值法,都很难在控制Ⅰ型错误和保证检验效能之间达成较好的平衡,因为此时如果采用方差分析法,则Ⅰ型错误过大;采用合并P值法,Ⅰ型错误略有增大,但是检验效能过低。当第一阶段样本量大于计划样本量的1/3而小于计划样本量的一半时,应选择合并P值法,此时虽然检验效能有所降低,但是可保证Ⅰ型错误不增大。而当第一阶段样本量超过计划样本量的一半时,则应采用方差分析法分析两个阶段的合并数据,此时既有较高的效能,又能防止Ⅰ型错误的增大。

样本量调整中不增大Ⅰ型错误,不仅与药物审批要求[17]相一致,而且节约了成本,保证了试验的可行性。在样本量调整过程中,合理的选择检验方法,是保证试验成功的关键因素之一。本文给出了不同样本量时检验方法的选择途径。另外,在模拟中还有两个随机数,即调整后的样本量Nrecalc和第二阶段的样本量n2,这两个值同样对Ⅰ型错误和检验效能有影响。由于样本的随机性,有时根据第一阶段数据得出的很小,而很大,使得重计算的样本量非常大;有时得出的很大,而很小,重计算的样本量就会很小。当重计算的样本量很小时,可以按照Birkett和Day[13]的规限制则,取重计算的样本量不小于第一阶段的样本量;但是当重计算的样本量很大时,按照Birkett和Day的规则,应该取重计算样本量和第一阶段样本量中的较大者,这会使得重计算的样本量相当大,有的甚至到了上万例,使得第二阶段的临床试验变得根本不现实。这无论对临床试验的申办方还是研究者,都是难以接受的。重计算样本量的目的就是为了节约成本,在用最少样本的情况下得出最准确可靠的结论。如果重计算的样本量大于原计划样本量的4倍,应即视之为异常值。为了防止异常值的出现,应该对第一阶段设计有效或无效停止的边界,比如,可以按照检验效能做出规定:如果条件效能至少为60%的话,则增加样本量,否则的话,就宣布无效停止;也可以按照第一阶段检验所得的P值做出规定,当P值小于或大于某一临界值时,宣布试验有效或无效,及时停止试验,这样可以避免因出现异常大的样本量调整值而导致试验无法进行。

[1] Zucker D.M.,Wittes J.T.,Schabenberger O.et.al.Internal Pilot Stud⁃ies II:Comparison of Various Qrocedures[J].Statistics in Medicine,1999,(18).

[2] Bauer P,Kohne K.Evaluation of Experiments with Adaptive Interim Snalyses[J].Correction in Biometrics,1996,(52).

[3] Proschan MA,Hunsberger SA.Designed Extension of Studies Based on Conditional Power[J].Biometrics,1995,(51).

[4] Kieser M,Friede T.Simple Procedures for Blinded Sample Size Ad⁃justment that do not Sffect the TypeⅠ Error Rate[J].Statistics in Med⁃icine,2003,(22).

[5] Lan KKG,Wittes J.The B-value:A Tool for Monitoring Data[J].Bio⁃metrics,1988,(44).

[6] Liu Q,Chi Gyh.On Sample Size and Inference for Two-stage Adap⁃tive Designs[J].Biometrics,2001,(57).

[7] Sheldon M.Ross,Simulation.(3th Edition)[J].Printed in China by POSTS&TELECOM Press,2006.

[8] SAS Institute Inc.SAS/STAT User's Guide Version 8.2[CP/CD].North Carolina,2006.

[9] Werner Brannath,Peter Bauer,Martin Posch.On the Efficiency of Adaptive Designs for Flexible Interim Decisions in Clinical Trials[J].Journal of Statistical Planning and Inference,2006,(136).

[10] Zhu Chunhua,Chen Guijing.Some Optimal Adaptive Designs in Clinical Trials[J].Chinese Journal of Applied Probability and Statis⁃tics,2005,(21).

[11] Wittes J,Brittain E.The Role of Internal Pilot Studies in Increasing the Efficiency of Clinical Trials[J].Statistics in Medicine,1990,(9).

猜你喜欢
样本量差值方差
数字日照计和暗筒式日照计资料对比分析
医学研究中样本量的选择
概率与统计(2)——离散型随机变量的期望与方差
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十一)
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十)
方差越小越好?
计算方差用哪个公式
方差生活秀
枳壳及其炮制品色差值与化学成分的相关性
样本量估计及其在nQuery和SAS软件上的实现——均数比较(二)