胡良平,郭辰仪(军事医学科学院科技部生物医学统计学咨询中心,北京100850)
在之前的专题中,主要涉及的是定量资料的统计分析问题,包括配对设计、成组设计、单因素多水平设计、随机区组设计、重复测量设计、交叉设计和析因设计,基本涵盖了药学科研中常用的定量资料设计类型。然而,并不是所有的数据都是定量资料,往往还会有一些实验数据是定性资料,这就需要用专门分析定性资料的统计方法来处理。从本期开始将系统介绍药学实验中取自不同类型实验设计中的定性资料及其SAS统计分析。
例1 某研究考察一种药物对恶性肿瘤骨转移疼痛和/或高钙血症的疗效和安全性,收集5家医院肿瘤科的数据,共入组212例骨痛病人,均为病理组织学和/或细胞学证实的恶性肿瘤病人。治疗前对照组和试验组病人在性别、年龄、既往治疗、伴随治疗、疼痛强度、疼痛性质、疼痛部位等方面均无显著性差异,治疗后209例病人可评价疗效,结果见表1[1]。
表1 两组病人的疗效比较Table 1 Comparison of the therapeutic effectiveness of patients in two groups
表1是一个典型的2×2列联表资料,也称为四格表资料。根据实验设计和研究目的,通常可以将2×2列联表资料分为横断面研究设计、队列研究设计、病例-对照研究设计和配对研究设计。如例1属于横断面研究设计,其他几种类型常出现在流行病学和医疗诊断研究中。
1.1 2×2横断面设计的定义 2×2横断面设计是指在某个时间断面(时间点或很短时间内)进行的调查或实验研究,对一组受试对象同时按两个定性变量来划分,每个定性变量都只有两个水平,其目的是了解某个时间点的现状。这样的资料类型,也可以看作是成组设计定性资料,实验中只涉及一个具有两水平的实验因素,比较两组受试对象接受不同处理后某一观测指标的差异。
表2 2×2列联表Table 2 2×2contingency table
1.2 2×2横断面设计统计分析方法合理选用 表2中的数据表示一个2×2横断面设计资料,其中a、b、c、d均为观测频数,n为总频数。定义统计量T,称为理论频数,计算公式为:Ta=n1m1/n,Tb=n1m2/n,Tc=n2m1/n,Td=n2m2/n。
在选用具体的分析方法时,应先考察总频数n和各格上的理论频数T值。如果没有统计软件,应根据不同情况选用相应的统计分析方法。(1)当n≥40且所有的T≥5时,采用一般χ2检验公式计算;当P≈α时改用Fisher精确概率法;(2)当n≥40但1≤T<5时,用连续性校正公式计算;(3)当n<40或T<1时,用Fisher精确检验法。若有统计软件,可不考虑上述条件,均直接采用Fisher精确检验法。
2.1 应用SAS软件分析2×2横断面设计定性资料 例2 沿用例1中的资料,试问试验组受试对象用试验药后,其疗效与对照组是否存在显著性差异?
对问题的分析与SAS实现 该研究仅有两组病人,涉及一个具有两水平的实验因素,分别为“对照组”和“试验组”;有一个定性观测指标:止痛疗效,是选取某个特定时间断面进行调查。故此资料应采用横断面设计2×2列联表资料的统计分析方法。总频数n=209>40,且理论频数均>5,故可用一般χ2检验公式计算。应用SAS进行分析,程序如下。
/*第1步导入数据*/Data e2;do group=1to 2;do lx=1to 2;input f@@;output;end;end;cards;71 34 73 31;/*第2步χ2检验*/Ods html;proc freq;weight f;tables group*lx/chisq;run;Ods html close;
程序说明:程序中第1步是数据步,“group”分别表示对照组和实验组,“lx”表示不同的止痛疗效。“cards”后分别录入四格表的各频数。第二步调用“freq”过程,指定频数变量为f,用“tables group*lx”语句表示二维列联表资料,加参数“chisq”进行χ2检验。
表1中的数据经SAS软件Freq过程处理,得到四格表资料行列合计、频数、百分比、行百分比和列百分比的详细计算结果。
根据之前的分析可知,本研究的数据资料适用于一般χ2检验,因此结果参看此表第一行。χ2值为0.161 5,P=0.687 8>0.05,说明两组之间差异无统计学意义。
Freq过程Freq procedure
“group*lx”表的统计量Statistics for table of group*lx
Fisher精确检验发现,单元格频数(F)=1,左侧P=0.400 5≤F,右侧P=0.709 2≤F,表概率(P)=0.109 6,双侧P=0.765 4≤F。SAS软件会自动给出Fisher精确检验结果,当需要时参看此部分,本例中不涉及。
专业及统计结论:试验组受试对象的疗效与对照组相比,差异无统计学意义(χ2=0.161 5,P=0.687 8>0.05),因此可以认为试验药与对照药疗效基本相同。
2.2 采用Fisher精确检验 例3 某试验研究加替沙星治疗急性尿路感染的有效性,将86例临床确诊为急性尿路感染的病人随机分为两组:试验组43例,以加替沙星治疗;对照组43例,以头孢克洛治疗,比较两种药物的疗效,数据见表3[3]。
对问题的分析与SAS实现 此研究有两组病人,涉及一个具有两水平的实验因素,分别为“对照组”和“试验组”,有一个定性观测指标:治疗疗效,是选取某个特定时间断面进行调查,故此资料应采用横断面设计2×2列联表资料统计分析方法。总频数n=86>40,无效列中数据理论频数(第i格上理论频数=行合计频数×列合计频数/总频数)均<5,故需采用Fisher精确检验法。应用SAS进行分析,程序如下。
表3 两组病人的临床疗效比较aTable 3 Comparison of the clinical efficacy of patients in two groups
/*第1步导入数据*/Data e3;do group=1to 2;do lx=1to 2;input f@@;output;end;end;cards;41 2 40 3;/*第2步Fisher精确检验*/Ods html;proc freq;weight f;tables group*lx/chisq;run;Ods html close;
程序说明同例2,只是cards后数据有变化。
SAS输出结果及结果解释:
Freq过程Freq procedure
这部分给出的是四格表资料行列合计、频数、百分比、行百分比和列百分比的详细计算结果。
由于50%的单元格的期望计数<5,因此χ2检验可能不是有效检验。根据之前的分析可知,本研究的数据资料适用于Fisher精确检验公式,并且SAS也会友好地提醒用户,此处不适合用该表中的检验方法。
“group*lx”表的统计量Statistics for table of group*lx
Fisher精确检验发现,单元格频数(F)=41,左侧P=0.820 0≤F,右侧P=0.500 0≥F,表概率P=0.320 0,双侧P=1.000 0>0.05,表明两组间的有效率差异无统计学意义。
统计及专业结论:急性尿路感染病人采用加替沙星治疗后,其疗效与单用头孢克洛相比差异无统计学意义,因此可以认为加替沙星与头孢克洛治疗急性尿路感染的疗效基本相同。
[1] 傅 强,王雅杰,秦叔逵,等.国产英卡膦酸二钠治疗恶性肿瘤骨转移疼痛或/和高钙血症的Ⅱ期临床研究[J].药学服务与研究,2007,7(3):180-183.
Fu Qiang,Wang YaJie,Qin ShuKui,et al.PhaseⅡclinical trial of home-made incadronate in patients with pain of bone metastasis of malignancy or/and hypercalcemia[J].Pharm Care Res,2007,7(3):180-183.In Chinese with English abstract.
[2] 胡良平.医学统计学:运用三型理论分析定量与定性资料[M].北京:人民军医出版社,2009:233-236.
Hu LiangPing.Medical statistics:analysis of quantitative and qualitative data with triple-type theory[M].Beijing:People’s Military Medical Press,2009:233-236.In Chinese.
[3] 张旭环,郭大为,方 霞.加替沙星7日疗法治疗43例急性尿路感染的临床评价[J].药学服务与研究,2007,7(1):61-63.
Zhang XuHuan,Guo DaWei,Fang Xia.Clinical evaluation of gatifloxacin treatment for 7days in 43patients with acute urinary tract infection[J].Pharm Care Res,2007,7(1):61-63.In Chinese with English abstract.