多组间协变量均衡性评价方法的研究*

2018-07-16 06:14黄福强安胜利
中国卫生统计 2018年2期
关键词:均衡性假设检验样本量

黄福强 许 军 安胜利△

【提 要】 目的 构建用于评价三分组资料组间协变量均衡性的指标(简称FQ统计量);比较假设检验法、标准化差异法和FQ统计量这三种方法检验三分组资料组间协变量均衡性的能力。方法 利用合并方差构建FQ统计量;采用有序多分类和无序多分类logistic回归计算各组研究个体的倾向性评分值;采用Monte Carlo模拟比较上述三种方法检验三分组资料组间协变量均衡性的能力。结果 假设检验法检验三组间协变量均衡性的能力受样本量大小的影响,而标准化差异法和FQ统计量则不受样本量大小的影响。标准化差异法和FQ统计量检验三组间协变量均衡性的能力均高于假设检验法,且两者保持高度一致。当协变量的FQ统计量小于0.2时,认为协变量在三组间的分布达到均衡。结论 标准化差异法与FQ统计量是有效的协变量均衡性检验方法,而FQ统计量的计算步骤较标准化差异法简便,因此更具有应用的优势。

倾向性评分的概念由Rosenbaum和Rubin在1983年提出,该方法的基本原理是降维,即用一个倾向性评分值来概括多个协变量的影响并整合成为一个综合的分数[1]。Rubin和Rosenbaum提出倾向性评分的概念及后续的理论研究中,都是针对两分组资料[2],倾向性评分目前也主要应用于两分组资料[3]。后续Imbens提出了多分组倾向性评分的概念,与两分组倾向性评分方法进行了比较,并且从理论上证明了多分组倾向性评分方法的可行性[4]。

在倾向性评分匹配前后需要对放入倾向性评分模型中的协变量进行均衡性检验,Flury和Reidwyl在1986年首次提出了标准化差异法(standardized differences,SD)来评价组间协变量的均衡性[5]。研究表明,当标准化差异小于0.1时,认为两组间协变量的均衡性良好[6]。标准化差异法多见于两分组资料,目前对于多组间协变量均衡性的评价方法多是采用不同组间标准化差异的最大值作为评价指标,当不同组间标准化差异的最大值小于0.1时,认为组间的协变量达到均衡[7]。但此方法的计算步骤繁琐,不便于实际应用。本研究拟构建三分组资料组间协变量均衡性评价的新指标(以下简称FQ统计量),用于直接评价三分组资料组间协变量的均衡性。

方  法

1.构建FQ统计量

对于多分组资料,合并标准差的定义为:

当组间样本量相同时,合并标准差的定义为[8]:

因此,在三分组1:1:1的倾向性评分匹配中,合并标准差的定义为:

在二分组资料中,评价组间协变量均衡性的常用指标为标准化差异值,对于连续型协变量,其定义为:

对于二分类协变量,它的定义为:

上式中,ptreatment和pcontrol分别表示处理组和对照组某协变量的阳性率。

由二分组协变量均衡性的评价指标标准化差异值和合并标准差的定义,将标准化差异法延伸到三分组资料,构建出三分组资料组间协变量均衡性评价的新指标,即FQ统计量。

对于三分组资料的连续型协变量,将FQ统计量定义为:

对于三分组资料的二分类协变量,将FQ统计量定义为:

上式中,p1、p2和p3分别表示三组中某协变量的阳性率。

2.探索FQ统计量评价协变量是否均衡的界值

(1)在SAS 9.3采用Monte Carlo模拟数据,假定样本量为1500,为每个研究个体模拟产生两个服从二项分布的变量(x1和x2)和两个服从正态分布的变量(x3和x4),具体参数如下:

Bi~Bernoulli(0.5)

Ci~N(0,1)

(2)为每个研究个体产生一个分组状态G,G为三分类分组因素,以x1、x2、x3和x4为协变量建立如下模型:

logit(Pi,j)=β0+β1x1+β2x2+β3x3+β4x4

上式中,Pi,j为第i个研究个体被分到第j组的概率;βi(i=1,2,3,4)为回归系数,其中ORi=exp(βi),设OR1=OR3=1.1,OR2=OR4=1.5;β0为常数项,通过调整β0可以控制研究个体被分到某一组的概率,本研究将三组的样本量比例设置为1:1:1。

(4)重复(1)~(3)步骤1500次,得到样本量为1500的数据集。

(5)为模拟的数据集计算x1和x3三组之间两两的标准化差异,保存最大的标准化差异值,并计算x1和x3的FQ统计量。分别将x1和x3的最大标准化差异值进行升值排序,观察FQ统计量的变化趋势。

3.模拟比较假设检验法、标准化差异法和FQ统计量这三种方法检验三分组资料组间协变量均衡性的能力

(1)分组因素为有序三分类

①在SAS 9.3采用Monte Carlo模拟数据,假定样本量初始值为300,为每个研究个体模拟产生两个服从二项分布的变量(x1和x2)和两个服从正态分布的变量(x3和x4),具体参数如下:

Bi~Bernoulli(0.5)

Ci~N(0,1)

②为每个研究个体产生一个分组状态G,G为三分类分组因素,以x1、x2、x3和x4为协变量建立如下模型[9]:

logit(Pi,j)=β0+β1x1+β2x2+β3x3+β4x4

上式中,Pi,j为第i个研究个体被分到第j组的概率。βi(i=1,2,3,4)为回归系数,其中ORi=exp(βi),设OR1=OR3=1,OR2=OR4=1.5。β0为常数项,通过调整β0可以控制研究个体被分到某一组的概率,本研究将三组的样本量比例设置为1:1:1。

④重复①~②步骤300次,得到样本量为300的数据集。采用χ2检验、最大标准化差异法和FQ统计量检验协变量x1的均衡性;采用one way ANOVA、最大标准化差异法和FQ统计量检验协变量x3的均衡性。

⑤保持OR1=OR3=1,OR2=OR4=1.5不变,重复①~④步骤1000次,记录1000次中x1和x3不均衡的次数,并计算检出率。

⑥保持OR1=OR3=1,OR2=OR4=1.5不变。逐渐增大样本量,分别对样本量300和1800~6000之间进行模拟,当样本量变化在1800~6000之间时,每重复一次样本量增加600,每改变一次样本量,重复①~⑤步骤。

⑦ 设定OR1=1.4,OR3=1.2,OR2=OR4=1.5,并保持不变,逐渐增大样本量,分别对样本量100~1500之间进行模拟,每重复一次样本量增加200。每改变一次样本量,重复①~⑤步骤。

⑧ 设定OR1=OR3=1,OR2=OR4=1.5,固定OR2=OR4=1.5,固定样本量为600,逐渐增大OR1和OR3,同时调整常数项β0保持三组间的样本量比例为1:1:1,重复步骤①~⑤,每重复一次OR1和OR3的值都增加0.1,OR1和OR3的变化范围为1~2。

(2)分组因素为无序三分类

①与有序三分类①相同

②为每个研究个体产生一个分组状态G,G为三分类分组因素,以x1、x2、x3和x4为协变量建立如下模型[10]:

上式中,P(G=1)、P(G=2) 和P(G=3) 分别为研究个体被分到第一组、第二组和第三组的概率。βij(i=1,2,3,4;j=1,2)为回归系数,其中ORij=exp(βij),设OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5。β0j(j=1,2)为常数项,通过调整β0j(j=1,2)可以控制研究个体被分到某一组的概率,本研究将三组的样本量比例设置为1:1:1。

③P(G=1)、P(G=2)和P(G=3)分别为研究个体被分到第一组、第二组和第三组的概率,则有

为将三组的样本量比例控制在1:1:1,利用SAS函数rantbl求得分组因素:

G=rantb(0,P(G=1),P(G=2),P(G=3))

④与有序三分类④相同

⑤固定OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5,重复①~④步骤1000次,记录1000次中x1和x3不均衡的次数,并计算检出率。

⑥固定OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5。该步骤剩余部分与有序三分类⑥相同。

⑦设定OR11=OR31=1,OR12= 1.4,OR32=1.2,OR21=OR41=OR22=OR42=1.5,并保持不变,逐渐增大样本量。该步骤剩余部分与有序三分类⑦相同

⑧设定OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5,固定OR11=OR31=1,OR21=OR41=OR22=OR42=1.5,逐渐增大OR12和OR32,同时调整常数项β0j(j=1,2)保持三组间的样本量比例为1:1:1,重复步骤①~⑤,每重复一次OR12和OR32的值都增加0.1,OR12和OR32的变化范围为1~2。

结  果

1. FQ统计量评价协变量是否均衡的界值

按最大标准化差异值升值排序后,x1和x3的FQ统计量分布如图1和图2所示(选取部分结果)。

图1 二分类协变量x1

图2 连续型协变量x3

按x1和x3的最大标准化差异值进行升值排序后,x1和x3FQ统计量的值呈现递增次序,当x1和x3的最大标准化差异值为0.1时,对应x1和x3FQ统计量的值为0.2。对于三分组资料,目前大多研究者评价三组间协变量均衡性的方法是:采用不同组间标准化差异的最大值作为评价指标,当不同组间标准化差异的最大值小于0.1时,即认为组间的协变量达到均衡。由图1~2可见,当协变量FQ统计量的值小于0.2时,则协变量的最大标准化差异值小于0.1,因此初步确定0.2作为FQ统计量评价三组间协变量是否均衡的界值,下文将对该界值的合理性进行验证。

2.分组因素为有序三分类和无序三分类的模拟结果

(1)OR1=OR3=1(OR12=OR32=1)时,假设检验法、标准化差异法和FQ统计量的检出率如图3和图4所示。

图3 二分类协变量x1的检出率随样本量变化的趋势

图4 连续型协变量x3的检出率随样本量变化的趋势

结果显示,对于二分类变量x1和连续型变量x3,假设检验法因为I类错误的控制,其检出率始终处于5%左右。标准化差异法和FQ统计量的检出率随样本量的增大而减小,两者的检验结果保持高度一致。当样本量较小时,标准化差异法和FQ统计量的检出率高于假设检验法;当样本量达到6000(即每组的样本量达到2000)时,标准化差异法和FQ统计量的检出率均趋于0。

(2)OR1=1.4,OR3=1.2(OR12=1.4,OR32=1.2)时,假设检验法、标准化差异法和FQ统计量的检出率如图5和图6所示。

由图5和图6所示,对于二分类协变量x1和连续型协变量x3,标准化差异法和FQ统计量的检出率不受样本量大小的影响,即使在小样本情况下,标准化差异法和FQ统计量也能检验出协变量的不均衡性,而假设检验法的检出率随样本量的增大而增大。标准化差异法和FQ统计量的检出率高于假设检验法,并且处于平稳状态,标准化差异法和FQ统计量的检出率保持高度一致。

图6 连续型协变量x3的检出率随样本量变化的趋势

(3)假设检验法、标准化差异法和FQ统计量的检出率随OR值变化的结果分别见图7和图8。

图7 二分类协变量x1的检出率随OR值变化的趋势(n=600)

由图7和图8所示,当OR值较小时,标准化差异法和FQ统计量的检出率均高于假设检验法,且标准化差异法和FQ统计量的检出率保持高度一致,随着OR值的增大,假设检验法的检出率与准化差异和FQ统计量的检出率趋于一致。当改变样本量模拟时,结果保持不变,可以得出,标准化差异法和FQ统计量检验协变量不均衡的能力要强于假设检验法。

图8 连续型协变量x3的检出率随OR值变化的趋势(n=600)

讨  论

本研究构建的FQ统计量可用于检验三分组资料组间协变量的均衡性,当协变量FQ统计量的值小于0.2时,可认为协变量在三组间的分布达到均衡。模拟结果显示,分组因素无论是有序三分类还是无序三分类,协变量无论是连续型变量还是二分类变量,FQ统计量和标准化差异法的检出率都保持高度一致。FQ统计量和标准化差异法的检出率不受样本量大小的影响,即使在小样本情况下,FQ统计量和标准化差异法也能检验出协变量的不均衡性,这两种方法检验协变量不均衡的能力均强于假设检验法,而FQ统计量的计算步骤较标准化差异法简便,因此更具有应用的优势。经验证,当三组的样本比例为1:2:3、2:3:4时,结论与样本比例为1∶1∶1时一致,因此对于三组样本不等的情况,本文的结论仍然适合。

本研究仅模拟了二分类协变量和连续型协变量的情况,对于多分类协变量和非正态连续型协变量的情况有待进一步的研究。

猜你喜欢
均衡性假设检验样本量
医学研究中样本量的选择
京津冀全域旅游供需系统构建及均衡性研究
假设检验结果的对立性分析
数字化创新解决文化遗产发展的地域不均衡性——辽西恐龙化石遗址考察所引发的思考
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十一)
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十)
统计推断的研究
飞机变压整流器并联运行供电失衡故障分析
凤爪重量质量管理报告
基于改进隐马尔科夫模型的畜禽全基因组关联分析中的多重检验方法