双边试验设计下基于区间估计的样本量的确定

2018-05-10 09:20:31邱世芳郭黎萱
关键词:置信区间样本量双边

邱世芳,郭黎萱

(重庆理工大学 理学院, 重庆 400054)

在眼科(耳科)研究中,组内相关的双边数据通常是观察到的成对器官(眼睛或耳朵)或成对身体部分的治疗数据。当患者接受成对器官或身体部位的治疗或手术时,双边数据尤其常见。例如,Mandel等[1]和Le[2]考虑了比较两种抗生素(cefaclor和amoxicillin)治疗效果的双盲随机临床试验,即将214个(293只耳朵)患渗液性中耳炎(OME)的小孩随机分配到这两种药物的其中一个治疗组中,每个治疗组的小孩都接受为期14天的治疗。治疗结束时治疗的结果可分为3类:全部治愈(治疗后两只耳朵都没有分泌物);部分治愈(只有一只耳朵无分泌物);治愈失败(治疗后两只耳朵都还有分泌物),试验数据见表1所示的3×2列联表的数据。

表1 14天治疗后孩子的OME数据

这项试验研究了两种抗生素Cefaclor和Amoxicillin的治愈率是否相同,通过此方法获得的数据被称为组内相关双边数据。近年来,对组内相关双边数据基于比例差的等价性检验的研究备受关注,如Rosner[3]在样本量很大的情况下基于大样本理论讨论了上述问题的假设检验,提出了检验假设的两个检验统计量(基于非独立模型和独立模型)。Tang等[4]从小样本的角度研究了视网膜的分泌物与视网膜粘合手术成功的关联性,考虑到这类数据的稀疏性以及高度相关性,提出了精确非条件和近似非条件的检验过程。Tang等[5]进一步提出了独立性假设下的两个Wald型检验统计量,非独立性假设下的两个Wald型检验统计量,似然比检验统计量以及score检验统计量,结合Rosner的两个统计量,提出了基于这些统计量的渐近检验过程和近似非条件的检验过程。 Pei等[6]考虑了对于单边试验数据和双边试验数据基于比例差的等价性假设检验问题;Tang等[7]提出了对于组内双边数据基于比例差的区间估计方法。试验样本量的确定问题是实际工作中最为关心的问题之一,因此,国内外学者对此问题进行了相关研究:如韩栋[8]对生存分析中非劣效临床试验样本量估计方法进行了研究,邱世芳等[9]对部分核实数据下对疾病流行率的研究中从区间估计的角度研究了样本量的确定;Qiu等[10]在双边试验设计的等价性研究中从检验功效的角度研究了样本量的确定。然而,对双边试验设计下基于比例差的区间估计所需要的样本量还未有文献研究,本文将对此问题进行研究并提出几种有效的样本量的确定公式或算法。

1 数据结构和统计模型

假设mhi表示第i组中有h只耳朵治愈的小孩个数且phi表示相应的概率,其中m+i=m0i+m1i+m2i,h=0,1,2,i=0,1。根据Rosner[3],假设在治疗结束时,第i组中第j个小孩的第k只耳朵已治愈记为zijk=1,否则zijk=0,i=0,1,j=1,2,…,m+i,k=1,2设Pr[zijk=1]=λi且Pr[zijk=1|zij,3-k=1]=Rλi(i=0,1,j=1,…,m+i,k=1,2),其中,R是一个正的常数。由Rosner[3]可得,zij1和zij2的相关系数为

ρi=λi(R-1)/(1-λi),i=0,1

表2 双边试验设计下的观测频数和概率

感兴趣问题是如下的假设检验:

令m=(m00,m10,m20,m01,m11,m21),则在此概率模型下m=(m00,m10,m20,m01,m11,m21)的对数似然函数为:

(m10+2m20)logλ0+m10log(1-Rλ0)+(m20+m21)logR+

(m11+2m21)log(λ0+Δ)+m11log(1-R(λ0+Δ))+C

(1)

其中C是与参数Δ、λ0和R无关的常数。在本文中,Δ是我们感兴趣的参数,λ0和R是当前问题中的讨厌参数。本文主要基于Δ的不同区间估计方法研究区间宽度控制下给定范围的样本量的确定方法。

2 样本量的确定

令κ=m+0/m+1,通过以下几种方法考虑实验样本量的确定问题。

2.1 基于Wald置信区间的样本量

(2)

其中,

则基于Wald方法的 100(1-α)%的置信区间宽度的一半长度不大于ω的样本量NW为:

(3)

2.2 基于Haldane置信区间的样本量

A1Δ2-2B1Δ+C1≤0

(4)

在独立性模型下,关于Δ的置信水平为100(1-α)%的Haldane置信区间为[Δ2l,Δ2u],其中上下限Δ2l,Δ2u通过如下不等式得到:

A2Δ2-2B2Δ+C2≤0

(5)

则100(1-α)%的Haldane置信区间宽度的一半长度不大于ω的样本量NH为:

(6)

2.3 基于似然比置信区间和Score置信区间的样本量

2.3.1 基于似然比检验的置信区间

在独立模型 (R=1)下,对于检验H0:Δ=Δ0↔H1:Δ≠Δ0的似然比检验的接收域为

其中:

(7)

以上方程没有显示解,可通过迭代方法(如二分法、拟牛顿迭代等)获得。

同样地,在非独立性(R≠1)模型下,对于检验H0:Δ=Δ0↔H1:Δ≠Δ0,基于似然比检验的接收域为

因此,基于似然比统计量的置信区间为[Δl,Δu],其中-1<Δl<Δu<1,下限Δl和上限Δu可通过迭代方法解以下关于Δ的方程得到:

(8)

2.3.2 基于Score检验的置信区间

在独立模型(R=1)下,检验H0:Δ=Δ0的Score统计量(见Tang等[7]附录D)为:

原假设H0下渐近服从标准正态分布。因此,Δ的置信水平为的Score置信区间的上下限可迭代方法通过解以下关于Δ的方程得到:

TSC(Δ)=±zα/2

(9)

其中“+”和“-”分别对应置信下限和上限。同样地,在非独立模型(R≠1)下,检验H0:Δ=Δ0的Score统计量为:

同理,Δ的置信水平为100(1-α)%的Score置信区间的上下限可通过解以下方程求得:

TSC(Δ)=±zα/2

(10)

2.3.3 样本量的数值算法

由于基于似然比检验统计量和Score统计量的置信区间都没有显表达式,因此采用以下的近似算法来计算区间宽度控制在给定长度内的样本量:

第1步:给定m+1和κ的值,产生K组随机样本{(m00,m10,m01,m11)}。

第2步:基于第一步产生的每一组随机样本{(m00,m10,m01,m11)},分别用式(7)~(10)计算相应的区间估计,然后通过随机模拟近似估计区间宽度,记为c*(m+1)。

第3步:重复第1步和第2步,若c*(m+1)大于(小于)2ω,则增大(减小)m+1的值。

第4步:重复第3步,直到近似的区间估计的宽度c*(m+1)非常接近于给定的区间宽度2ω,即m+1=min{m+1:|c*(m+1)-2ω|≤0.001}为所求的样本量。通过似然比和Score置信区间求得的样本量分别记为NL和NS。

3 模拟研究

为了验证所提出的控制置信区间宽度的样本量的计算公式的准确性,对于非独立性模型考虑如下的参数设置:Δ=-0.05,0.0,0.05,λ0=0.25,0.5,R=0.5,1.0,1.5,κ=2/3,1.0,以及区间宽度的一半长为ω=0.05,0.1;对于独立性模型,当真实模型是独立的时候,考虑参数设置为:Δ=-0.05,0.0,0.05,λ0=0.25,0.5,κ=2/3,1.0,以及区间宽度的一半长为ω=0.05,0.1,当真实模型为非独立模型时,考虑参数设置为:Δ=-0.05,0.0,0.05,λ0=0.25,0.5,R=1.5,κ=1.0,以及区间宽度的一半长为ω=0.05,0.1。

分别对以上参数设置的每一个组合,根据本文所提出的样本量的计算公式和算法计算给定置信水平1-α=0.95下的区间宽度不大于2ω的近似样本量,在估计的样本量下,产生5 000个随机样本,计算经验覆盖概率(ECP)和经验覆盖宽度(ECW)。基于非独立性模型下的模拟结果见表3、4。基于真实独立性模型下的模拟结果见表5、表6。基于独立性模型假设下,而真实模型是非独立模型的模拟结果见表7。

表3 基于非独立模型的95%置信区间宽度的一半长度不大于ω的近似样本量、经验覆盖概率(%)和期望区间宽度(κ=1.0)

ωΔλ0RNS(ECP,ECW)NL(ECP,ECW)0.05-0.050.250.50233(92.24,0.1005)237(94.10,0.1008)1.00272(92.50,0.1008)280(94.60,0.1009)1.50312(93.12,0.1001)314(94.20,0.1012)0.500.50205(94.92,0.0995)187(93.90,0.0994)1.00432(94.38,0.1002)391(93.64,0.1008)1.50494(95.32,0.0896)353(93.88,0.0992)0.000.250.50257(96.40,0.1007)240(96.66,0.1000)1.00312(96.36,0.1000)288(96.44,0.1010)1.50353(96.34,0.1003)336(95.56,0.0995)0.500.50173(96.86,0.0991)152(96.02,0.0991)1.00416(96.36,0.1001)377(96.64,0.0991)1.50385(96.58,0.0900)293(96.28,0.0990)0.050.250.50282(96.22,0.1003)254(93.66,0.1009)1.00349(95.70,0.1002)319(94.46,0.1009)1.50394(95.32,0.1005)364(94.44,0.1009)0.500.50169(94.50,0.0981)123(94.68,0.0995)1.00415(94.32,0.1011)393(93.82,0.1007)1.50286(90.58,0.0980)359(92.96,0.0990)0.10-0.050.250.5058(94.88,0.1998)61(96.62,0.2007)1.0069(94.13,0.2004)72(96.72,0.2008)1.5079(94.25,0.1999)82(96.28,0.1999)0.500.5049(94.67,0.2000)49(96.58,0.1986)1.0099(94.79,0.1990)103(96.70,0.2004)1.5089(95.16,0.1994)94(96.64,0.1996)0.000.250.5061(95.26,0.2002)64(95.08,0.2005)1.0075(95.24,0.1993)78(94.92,0.2005)1.5085(94.94,0.2001)89(94.64,0.1997)0.500.5045(94.83,0.1996)42(95.24,0.2007)1.0099(94.77,0.1990)103(94.44,0.2009)1.5081(95.03,0.2000)84(94.42,0.2003)0.050.250.5063(95.50,0.1993)65(95.92,0.2007)1.0079(95.50,0.1999)82(96.04,0.2004)1.5092(95.21,0.1986)94(95.28,0.2000)0.500.5051(92.86,0.2101)34(96.86,0.2005)1.0098(94.81,0.1992)102(96.44,0.2016)1.5074(94.28,0.2007)75(96.80,0.1998)

表4 基于非独立模型的95%置信区间宽度的一半长度不大于ω的近似样本量、经验覆盖概率(%)和期望区间宽度(κ=2/3)

ωΔλ0RNS(ECP,ECW)NL(ECP,ECW)0.05-0.050.250.50300(91.11,0.0994)298(94.42,0.1011)1.00352(91.41,0.1008)356(93.92,0.1007)1.50403(90.81,0.1004)401(94.24,0.1009)0.500.50262(93.81,0.0990)229(93.72,0.0991)1.00490(94.87,0.1078)485(93.92,0.1011)1.50526(95.81,0.0984)434(93.20,0.0992)0.000.250.50313(93.81,0.1011)300(96.00,0.0996)1.00373(94.34,0.1027)360(96.12,0.1002)1.50433(94.05,0.1013)420(95.78,0.0993)0.500.50219(94.07,0.0995)188(95.62,0.0993)1.00493(94.82,0.1053)469(96.44,0.0989)1.50414(92.78,0.0988)363(96.72,0.0989)0.050.250.50319(96.51,0.1054)316(94.22,0.1010)1.00390(96.56,0.1064)393(94.44,0.1010)1.50460(95.63,0.1045)448(94.06,0.1010)0.500.50214(86.45,0.0947)163(94.24,0.0993)1.00490(94.75,0.1070)489(93.14,0.1000)1.50376(88.89,0.0981)358(94.16,0.0993)0.10-0.050.250.5075(94.25,0.2004)77(96.90,0.2012)1.0091(94.05,0.1990)92(96.70,0.2004)1.50103(94.23,0.2003)104(96.28,0.2002)0.500.5064(95.33,0.1988)60(96.38,0.1995)1.00130(95.46,0.1989)129(96.66,0.2002)1.50112(95.38,0.2004)116(96.36,0.1999)0.000.250.5078(95.31,0.1993)81(95.30,0.1992)1.0096(95.23,0.1998)98(94.68,0.1996)1.50111(95.56,0.1994)110(94.70,0.2008)0.500.5057(95.55,0.2002)53(94.88,0.1998)1.00127(95.57,0.2004)129(94.68,0.2008)1.50103(94.93,0.2001)106(94.92,0.1989)0.050.250.5079(96.07,0.1998)81(95.72,0.1999)1.00100(95.87,0.2002)101(96.14,0.2004)1.50117(95.24,0.1995)114(95.84,0.2017)0.500.5067(93.31,0.2003)43(96.34,0.2014)1.00127(95.18,0.2001)129(96.74,0.2003)1.5099(93.81,0.1982)95(96.90,0.1996)

表5 基于独立模型的95%置信区间宽度的一半长度不大于ω的近似样本量、经验覆盖概率(%)和期望区间宽度(κ=1.0)

ωΔλ0RNS(ECP,ECW)NL(ECP,ECW)0.05-0.050.25266(94.58,0.1002)266(94.96,0.1003)0.50382(94.92,0.0999)382(95.28,0.0999)0.000.25288(94.36,0.1000)288(94.82,0.1001)0.50384(95.22,0.0998)384(94.96,0.0998)0.050.25305(95.12,0.0999)305(94.96,0.0999)0.50382(95.36,0.0999)382(95.56,0.0999)0.10-0.050.2567(95.52,0.1998)66(94.98,0.2004)0.5095(95.10,0.1991)95(95.20,0.1996)0.000.2572(94.78,0.1996)72(94.88,0.1991)0.5095(95.84,0.1996)96(95.02,0.1991)0.050.2576(95.10,0.1998)76(95.06,0.1992)0.5095(95.10,0.1991)95(95.36,0.1996)

表6 基于独立模型的95%置信区间宽度的一半长度不大于ω的近似样本量、经验覆盖概率(%)和期望区间宽度(κ=2/3)

ωΔλ0RNS(ECP,ECW)NL(ECP,ECW)0.05-0.050.25339(94.96,0.0999)339(94.90,0.0999)0.50478(95.04,0.0999)478(94.78,0.0999)0.000.25360(94.76,0.0999)360(94.62,0.1000)0.50480(95.12,0.0998)480(95.30,0.0998)0.050.25377(95.38,0.1000)377(95.26,0.1000)0.50478(94.70,0.0999)478(94.80,0.0999)0.10-0.050.2584(95.02,0.2006)84(94.52,0.2001)0.50119(95.22,0.1991)119(94.92,0.1996)0.000.2590(94.32,0.1994)90(95.00,0.1992)0.50119(94.88,0.1995)120(94.56,0.1989)0.050.2594(94.98,0.2002)94(94.84,0.1998)0.50119(95.16,0.1991)119(95.32,0.1996)

表7 真实模型为非独立模型(R=1.5)下基于独立假设的95%置信区间宽度的一半长度不大于ω的近似样本量、经验覆盖概率(%)和期望区间宽度(κ=1.0)

ωΔλ0RNS(ECP,ECW)NL(ECP,ECW)0.05-0.050.25272(93.28,0.0990)271(93.60,0.0992)0.50388(90.26,0.0991)389(89.98,0.0990)0.000.25293(92.72,0.0991)293(93.44,0.0992)0.50390(89.06,0.0990)390(89.08,0.0992)0.050.25310(92.78,0.0991)312(92.66,0.0989)0.50388(88.24,0.0990)388(88.00,0.0991)0.10-0.050.2566(92.96,0.2009)66(93.84,0.2006)0.5094(90.26,0.1999)95(89.04,0.1993)0.000.2564(93.38,0.2116)64(92.76,0.2111)0.5095(89.28,0.1993)95(90.22,0.1999)0.050.2570(93.02,0.2078)70(92.38,0.2077)0.5094(89.18,0.1999)95(88.52,0.1992)

由以上的模拟研究的结果表明:

1) 非独立性模型(R≠1)下基于Wald置信区间、Haldane置信区间、似然比置信区间确定的样本量下,置信区间的经验覆盖概率接近于事先给定的置信水平,且样本量计算的置信区间的期望宽度也接近于事先给定的宽度,它们在本文所考虑的所有参数设置下的表现都是令人满意的,因此在实际应用中这3种方法可以被高度推荐使用。

2) 在非独立假设(R≠1)下基于score确定的样本量,它的表现并不总是令人满意的,当R较大(如R=1.5)且ω较小(如ω=0.05)时,模拟结果表明其样本量公式的统计性质不太满意(经验覆盖概率偏低)。

3) 在非独立模型下的各种方法,即便真实的模型是独立的,即R=1时,各种方法得到的估计样本量都具有很好的统计性质;由表5~7的模拟结果表明:基于独立性假设(R=1)下的本文所提出的方法确定的样本量,只有在真实模型是独立情况下的表现才令人满意;而当真实模型是非独立时,所有方法估计的样本量都不准确。因此,在不清楚真实模型是否独立的情况下,不推荐使用独立性假设下的方法,但是非独立模型下的方法是有效的。

4 实例分析

5 结束语

本文在双边试验设计下基于比例差研究了基于Wald置信区间、Haldene置信区间、score置信区间和似然比置信区间的宽度控制在给定长度内的样本量计算公式或近似样本量的数值算法。通过研究发现,在独立性假设下,对于区间估计方法除了在真实模型满足独立性假设的情况外,其他基于独立性假设下的确定的样本量的表现都不令人满意。在非独立性假设下,基于Wald置信区间、Haldane置信区间和似然比置信区间确定的样本量的经验覆盖概率非常接近于事先给定的置信水平,且样本量计算的置信区间的期望宽度也接近于事先给定的宽度,其在本文所考虑的所有参数设置下的表现都是令人满意的。因此在实际应用中,基于非独立性假设下这3种方法被实际应用所推荐。

参考文献:

[1] MANDEL E M,BLUESTONE C D,ROCKETTE H E,et al.Duration of effusion after antibiotic treatment for acute otitis media:comparison of cefaclor and amoxicillin[J].Pediatric Infectious Disease,1982(1):310-6.

[2] LE C T.Testing for linear trends in proportions using correlated otolaryngology or ophthalmology data[J].Biometrics,1988,44:299-303.

[3] ROSNER B.Statistical methods in ophthalmology:an adjustment for the intraclass correlation between eyes[J].Biometrics,1982,38:105-114.

[4] TANG M L,TANG N S,ROSNER B.Statistical inference for correlated data in ophthalmologic studies[J].Statistics in Medicine,2006,25:2771-83.

[5] TANG N S,TANG M L,QIU S F.Testing the equality of proportions for correlated otolaryngologic data[J].Computational Statistics & Data Analysis,2008,52:3719-29.

[6] PEI Y B,TANG M L,GUO J H.Testing the equality of two proportions for combined unilateral and bilateral data[J].Communications in Statistics - Simulation and Computation,2008,37:1-15.

[7] TANG N S,QIU S F,TANG M L,et al.Asymptotic confidence interval construction for proportion difference in medical studies with bilateral data[J].Statistical Methods in Medical Research,2011,20:233-259.

[8] 韩栋.生存分析中非劣效临床试验样本量估计方法研究[D].广州:南方医科大学,2013.

[9] 邱世芳,曾小松.不完全无误判金标准下二重抽样设计中样本量的确定[J].重庆理工大学学报(自然科学),2018(1):195-204.

[10] QIU S F,TANG N S,TANG M L,et al.Sample size for testing difference between two proportions for the bilateral-sample design[J].Journal of Biopharmaceutical Statistics,2009,19:857-871.

附录

独立模型下score统计量:

其中:

猜你喜欢
置信区间样本量双边
定数截尾场合三参数pareto分布参数的最优置信区间
医学研究中样本量的选择
内蒙古统计(2021年4期)2021-12-06 02:49:20
p-范分布中参数的置信区间
多个偏正态总体共同位置参数的Bootstrap置信区间
航空装备测试性试验样本量确定方法
测控技术(2018年4期)2018-11-25 09:46:52
列车定位中置信区间的确定方法
电子产品回收供应链的双边匹配策略
Sample Size Calculations for Comparing Groups with Binary Outcomes
新型自适应稳健双边滤波图像分割
双边同步驱动焊接夹具设计
焊接(2015年5期)2015-07-18 11:03:41