如何正确运用Z检验——两总体率比较非劣效性Z检验及SAS实现

2021-01-23 03:39胡纯严胡良平
四川精神卫生 2020年6期
关键词:置信区间单侧例数

胡纯严 ,胡良平 ,2*

(1.军事科学院研究生院,北京 100850;2.世界中医药学会联合会临床科研统计学专业委员会,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)

在常规的临床研究中,研究者常关注的是药物的疗效和安全性,对两种药物或治疗方案的效果进行比较时,通常都采用一般差异性检验[1-2];而在新药(或医疗器械)的临床试验研究中,虽然仍关注疗效和安全性,但在对疗效进行评价时,常需要结合临床实际,提出一些应当满足的前提条件(例如对两种药物的有效率进行比较时,要求试验药的有效率不应比对照药的有效率低10%,才允许试验药投入生产并进入临床使用),以便使疗效的评价更加科学、合理和实用。也就是除一般差异性检验之外,还可能需要采取非劣效性检验或等效性检验或优效性检验[3]。本文将结合临床实际,介绍与“两总体率比较的非劣效性检验”有关的内容。

1 两总体率比较非劣效性Z检验的基本原理和方法

1.1 基本概念

非劣效性检验是指主要研究目的为显示试验药的治疗效果在临床上不比阳性对照药差的试验。在试验设计阶段需要设定一个界值δL(通常取负值,代表“差或劣”),将其代入检验统计量中进行计算。若计算结果为P≤α(通常取α=0.05),就可以明确判定试验药的疗效非劣效于对照药;反之亦然[3-4]。

1.2 问题与数据结构

【例1】为评价度洛西汀肠溶胶囊(试验药,简称A药)治疗抑郁症的效果,采用随机、双盲、氟西汀(对照药,简称B药)平行对照的方法进行试验。受试者分别口服度洛西汀肠溶胶囊或氟西汀胶囊,共观察6周。其中,试验组111例患者,对照组117例患者。治疗后,试验组和对照组的有效率分别为87.39%(有效例数n=97)和88.89%(有效例数n=104)。根据临床实际,设置非劣效性界限为-10%。试评价度洛西汀肠溶胶囊治疗抑郁症的效果是否非劣效于氟西汀胶囊的治疗效果[5]。临床资料见表1。

表1 两组患者的治疗效果

【对数据结构的分析】该资料的试验因素为“药物种类”,其两个水平分别为“度洛西汀肠溶胶囊”与“氟西汀胶囊”,观测指标为“有效率”,所以该资料为成组设计一元定性资料。

【统计分析方法的选择】研究者的研究目的是评价度洛西汀肠溶胶囊治疗抑郁症的效果是否非劣效于氟西汀胶囊的治疗效果,并且设定了非劣效性界值δL=-10%,这时应选用非劣效性检验。

1.3 基本原理

1.3.1 检验假设

给出检验假设,并规定检验水准α的值。

H0:πT-πR≤ δL;

H1:πT-πR> δL;

α=0.05(单侧)。

1.3.2 检验统计量

所需要的检验统计量如下式:

拒绝域为Z>Z1-α。

在式(1)中,检验统计量Z服从标准正态分布;(PT、nT)与(PR、nR)分别为试验组(T)与对照组(R)的“样本率、样本含量”;δL为非劣效性界值(通常取负值)。

1.3.3 基于检验统计量Z的取值计算单侧尾端概率

根据检验水准查表或借助相应的SAS函数进行计算,获得检验统计量Z的临界值(针对手工计算而言)和(或)标准正态分布尾端的概率(针对统计软件而言)。

1.3.4 得出统计学结论和专业结论

根据拒绝还是不能拒绝H0的结果,得出统计学结论,最后结合专业知识得出专业结论。

2 两总体率比较非劣效性检验的SAS实现

2.1 基于SAS语言按公式编程间接实现计算

基于SAS语言和标准正态分布函数等知识[6]并按式(1)进行编程,就可间接实现两总体率比较非劣效性Z检验。

SAS程序如下:

【程序说明】变量名后面为“_t”与“_r”分别代表“试验组”与“对照组”相应的量(包括样本含量与有效率);有效率采用6位小数表示的目的是使计算结果尽可能精确,以助于与后面基于FREQ过程直接计算的结果具有一定的可比性;在评价指标为高优指标时(例如本例中为“有效率”,其值越大越好),非劣效性界值应采用负值来表示。

【SAS输出结果】

【统计学结论】因Z=1.983,P=0.023696(单侧概率)<0.05,所以,应拒绝H0,接受H1。

【专业结论】在非劣效界值δL=-10%的前提条件下,度洛西汀肠溶胶囊治疗抑郁症的效果非劣效于氟西汀胶囊的治疗效果。

2.2 基于SAS中FREQ过程直接实现计算

由于SAS中FREQ过程包含了几乎绝大多数定性资料假设检验方法[7],故此处将采用FREQ过程来直接实现两总体率比较非劣效性Z检验。

SAS程序如下:

【程序说明】各组中的数据应为“有效例数”与“无效例数”,而不适合直接采用“有效率”;程序中noninf表示进行非劣效性检验;MARGIN=0.10表示非劣效界值(注意:因为在SAS程序的“tables”语句中的选项“noninf”指明为“非劣效性检验”,故此处非劣效界值不使用负值)。

【SAS主要输出结果及解释】

因Z=1.9828,P=0.0237,说明度洛西汀肠溶胶囊治疗抑郁症的效果非劣效于氟西汀胶囊的治疗效果;若利用置信区间来判断,由计算结果可知:两有效率之差的90%置信区间为[-0.0855,0.0555],因置信区间位于δL=-0.10的右侧,说明非劣效性结论成立。

3 讨论与小结

3.1 讨论

3.1.1 影响非劣效性检验结果的因素

3.1.1.1 概述

非劣效性检验结果不是绝对的,随着条件的改变,最终的检验结果也会发生相应的改变。具体地说,影响其结果的因素有“显著性水平α”“非劣效性界值δL”和“样本含量”。

3.1.1.2 α的取值对非劣效性检验结果的影响

非劣效性检验结果与δL和α的取值有密切关系。例如在本文中,若保持δL=-10%,但取α=0.01,则无法得出“非劣效”的结论(因p=0.0237>0.01);文献[8]要求,进行非劣效性检验时取α=0.025(单侧)。事实上,这只是把犯假阳性错误的概率从常规的0.05降低到0.025;与此同时,犯假阴性错误的概率会有所增大。因为非劣效性检验本身就要求进行“单侧检验”,而检验水准α的取值在统计学上习惯取0.05或0.01,一般来说,其取值不应随采取“双侧检验”还是“单侧检验”而改变。这一点从本文“2.2”中的SAS输出结果中就可看出:在没有特别设定显著性水平[即采用SAS软件中默认的显著性水平α=0.10(双侧),等价于α=0.05(单侧)]的前提条件下,进行非劣效性检验,SAS在计算出Z值和单侧概率的同时,还给出了两率之差的“90%置信区间”。这就意味着在此置信区间的左、右两端各去掉了“5%”,也就是说,其单侧尾端概率(即设定非劣效性检验的显著性水平)为α=0.05。

3.1.1.3 δL的取值对非劣效性检验结果的影响

就本文例1而言,若取α=0.05但将δL取为“-5%”,得到的结果为Z=0.81623,P=0.20718>0.05,此时,就无法得出“非劣效”的结论了。由此可知,非劣效界值的确定是至关重要的。一般来说,其值的确定应有充分的临床专业知识为依据。通常需要结合已有文献提供的信息、当前临床试验研究预试验的结果和多位从事所研究问题且有丰富临床经验的专家的共识,综合考虑来确定δL的取值。

3.1.1.4 样本含量对非劣效性检验结果的影响

在本文例1中,若保持取显著性水平α=0.05、δL=-10%、A药的有效率为87.27%(与表1中的87.39%接近)、B药的有效率为88.14%(与表1中的88.89%接近),但两组的样本含量都减少一半,即A药组有效例数为48例、无效例数为7例;B药组有效例数为52例、无效例数为7例。此时,进行非劣效性检验,其结果为Z=1.4832,P=0.0689>0.05,结论就变成了“A药劣效于B药”。

而需注意的是,在拟开展非劣效性试验研究之初期,就应当按照已知的条件[包括两组估计的有效率、显著性水平α的值、检验效能(1-β)的值和非劣效性界值δL的值],找到相应的计算公式,估计出合适的样本含量[3]。

3.1.2 主要疗效评价指标的临床意义

在进行非劣效性检验时,一个常被忽视的问题是评价指标的临床意义。具体地说,就是应明确当前的评价指标究竟属于“高优指标(指标取值越大越好,如治愈率)”还是“低优指标(指标取值越小越好,如死亡率)”。当面对高优指标时,通常情况下,试验组指标的取值低于对照组指标的取值时才适合考虑选用“非劣效性检验”;如果在较大样本含量的预试验中,已获得的试验结果是“试验组指标的取值明显高于对照组指标的取值”,此时,不适合选用“非劣效性检验”,而应当考虑选用“等效性检验”或“优效性检验”[3]。

3.1.3 δL是否总是取负值

在进行非劣效性检验时,统计学教科书上通常都默认把δL取为“负值”,代表试验药疗效比对照药疗效“差”。事实上,这样做有一个隐含的前提,即疗效的评价指标为“高优指标”。而当疗效的评价指标为低优指标时,若拟采用非劣效性检验,此时,其界值δL应取正值。

3.2 小结

本文介绍了两总体率比较非劣效性Z检验的原理、方法和SAS实现。在SAS实现方面,介绍了基于SAS语言编程间接实现两总体率比较非劣效性Z检验以及基于SAS中FREQ过程直接实现与前面提及的相同计算。在后者中,还给出了两总体率之差的置信区间。基于置信区间也可以判断非劣效性结论是否成立。

猜你喜欢
置信区间单侧例数
更正声明
仰斜式挡墙单侧钢模板安装工艺探究
单侧和双侧训练对下肢最大力量影响的Meta分析
盆腔灌注法治疗慢性盆腔炎的临床效果
人工膝关节翻修例数太少的医院会增加再翻修率:一项基于23 644例的研究
观察糖尿病足护理“五部曲”的健康教育预防糖尿病足的发生的效果
基于预警自适应技术的监控系统设计
单侧咀嚼有损听力
孕晚期经会阴超声评价宫颈各参数的临床意义
效应量置信区间的原理及其实现