文 婷 (长江大学荆州临床医学院 荆州市中心医院ICU,湖北 荆州 434020)
卡方检验在医学资料处理中的应用
文 婷 (长江大学荆州临床医学院 荆州市中心医院ICU,湖北 荆州 434020)
卡方(χ2)检验在医学、药学工作和研究中经常用来对数据进行统计分析。介绍了两独立样本率的卡方检验的相关统计学的概念和方法,并通过Excel电子表格计算两个实例, 具体地说明了四格表χ2检验方法在医学研究中的应用,分析方法详尽清晰易懂,为专业人员进行相关分析提供参考。
独立样本;χ2检验;医疗系统
医学、药学工作者在工作和研究中经常需要对数据作统计分析。有人报道, 在医学期刊论文中应用的统计方法大多数属于t检验, 卡方(χ2)检验和方差分析等基本的或经典的统计方法[1-3]。χ2检验是一种用途较广的计数资料的假设检验方法,属于非参数检验的范畴,主要应用于推断两个样本率或构成比之间有无差别,其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度[4]。
对于某实验分为实验组与对照组两组,其中实验组合格数为a,不合格数为b;对照组合格数为c,不合格数为d;判断两组的合格率是否有显著差异。则本资料经整理成表1形式,即有两个处理组,每个处理组的例数由发生数和未发生数两部分组成。表内有a、b、c、d共4个基本数据,其余数据均由此4个数据推算出来的,故称四格表资料。
表1 四格表资料的基本形式
2.1卡方检验的理论公式
1) 检验的基本公式:
(1)
2)四格表资料检验的专用公式:
对于表1有:
(2)
3)四格表资料检验的校正公式:
对于表1有:
(3)
2.2四格表资料χ2检验公式选择条件
表2 四格表资料χ2检验公式选择条件
*χ2连续性校正仅用于ν=1的四格表资料,当ν≥2时,一般不作校正。
2.3理论频数的求解公式
理论频数由下式求得:
(4)
式中,TRC为第R行第C列的理论频数,nR为相应的行合计,nC为相应的列合计。理论频数T是根据检验设H0:π1=π2=π,且用合并率π来估计而定的,如是表1中的理论频数可有下式获得。
(5)
2.4检验结果分析
检验统计量χ2值反映了实际频数与理论频数的吻合程度[7]。若检验假设H0:π1=π2=π成立,则统计量χ2不应该很大,即四个格子的实际频数A与理论频数T相差不能太大。相反,如果χ2值越大,则相对应的P值越小,当P≤α,可反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即H1:π1≠π2[8]。
2.5P值的求解
P值的获得可直接查χ2界值表[4]或者利用SPSS、SAS、电子表格等工具计算。
例1: 某市城乡医院空气消毒合格率的比较资料见表3 。问城乡医院空气消毒合格率有无差异?
表3 城乡医院空气消毒合格率的比较
分析步骤:
1) 建立检验假设,确定检验水平:
H0:π1=π2;H1:π1≠π2;α=0.05;ν=1。
2)利用公式(1)~(5)在电子表格中计算:
计算说明:利用公式(5)计算理论频数,可知n=129>40,且T>5,所以χ2检验公式选择(1)或(2),P值可查卡方界值表或由excel自带函数D14=CHIDIST(D11,1)计算获得。
3)检验结论:P=6.33299E-05<α=0.05,按α=0.05检验水准拒绝H0,接受H1,市级医院空气消毒合格率显著高于乡镇医院。
例2:为研究静脉曲张是否与肥胖有关,观察111对同胞兄弟,每对同胞兄弟有一个肥胖,另一个属正常体质量,记录得静脉曲张发生的情况见表4,试分析。
表4 同胞兄弟静脉曲张发生的情况
分析步骤:
1) 建立检验假设,确定检验水平;
H0:π1=π2;H1:π1≠π2;α=0.05;ν=1。
2)利用公式(1)~(5)在电子表格中计算。
计算说明:利用公式(5)计算理论频数,可知n=111>40,且1 3)检验结论:校正公式P=0.0554>α=0.05,按α=0.05检验水准接受H0,拒绝H1,本例若不校正时,χ2=5.2045,P<0.0225结论与之相反。 χ2分布是属于连续型分布,而由属离散型分布的四格表资料计算得的χ2统计量的抽样分布是呈离散性质的。因此改善χ2统计量分布的连续性,有必要进行连续性校正。卡方检验的连续性校正可一定程度上改善卡方统计量抽样分布的连续性和平滑性,降低I类错误的概率[9-10],卡方检验经连续性校正后,其结果更接近于Fisher确切概率法。不过,校正只适合于样本含量较小,如n<40,自由度为1时,或至少有一个格子的理论频数太小,如T<5的情形[11]。卡方检验经连续性校正后,一方面P值有过分保守之嫌。另一方面,实际资料则是单边固定的四格表,而Fisher确切概率法建立在四格表双边固定的假定下,Fisher确切概率法的P值与连续性校正卡方检验的P值缺少可比性。 从应用的角度来说,如果是否经过连续性校正,其检验的结果都一致,则无须纠缠此问题,只需报道非连续性检验的结果即可。但是,当两种检验结果出现矛盾时(如例2),就需要谨慎解释结果了。一般为了客观起见,两种结论都建议同时报告出来,以方便他人判断。 通过对两独立样本率的卡方检验的相关统计学的概念和方法进行了详细介绍,通过Excel电子表格计算两个实例, 具体地说明了四格表χ2检验方法医学资料处理中的应用。使用者也可以根据文章介绍自己编制统计分析模板, 为以后的工作和研究提供方便。 [1]沈杰.卡方检验在调研结果分析中的应用[J].科学大众:科学教育,2012(8):21-21. [2]林丰,汤捷.利用EXCEL函数及VBA程序实现四格表卡方检验[J].现代医院, 2012, 12(3):142-143. [3]王书平.1∶M配对病例-对照研究中两种可信区间的SAS分析方法[J].中国卫生统计, 2011,28(5):606-607. [4]马燕.卫生统计学[M].北京:人民卫生出版社,2000:71-77. [5]刘钢. Excel在统计分析中的应用[M].北京:人民卫生出版社,2002:147-148. [6]杨朝辉.基于卡方检验的SAR图像道路检测算法[J].计算机工程与设计, 2012, 33(5):1923-1927. [7]毕永,张东梅,南丽晶,等.高级计算器卡方检验的计算程序[J].数理医药学杂志, 2012, 25(2):144-145. [8]冯松,郑斌.利用Excel进行卡方检验为临床数据分析提供支持[J].医学信息:中旬刊, 2011,24(9):4978-4979. [9]李欢梓,李晴.53例妊娠多形疹发病相关因素调查[J].中国麻风皮肤病杂志,2011, 27(3):175-177. [10]谭永强,余华强,陈桥生,等.利用Excel软件建立卡方检验分析模板在农业统计中的应用[J].湖北农业科学,2010,49(12):3192-3195. [11]高凌冰.耐多药结核病人影响因素分析[J].中外健康文摘,2012,9(23):271-272. 2013-03-06 文婷(1984-),女,护师,主要从事临床护理工作。 R195.1 A 1673-1409(2013)24-0105-04 [编辑] 一 凡4 卡方检验的连续性校正问题
5 结 语