潍坊医学院公共卫生学院流行病与卫生统计学研究所(261053)
李志华△ 刘洪庆
·方法介绍·
1:M配比病例对照研究资料分析方法的探讨*
潍坊医学院公共卫生学院流行病与卫生统计学研究所(261053)
李志华△刘洪庆
目的 通过对几种分析方法的比较,探讨1:M配比病例对照研究资料分析便捷实现形式。方法 以《流行病学》教材给出的病例对照研究实例和相关文献报道为资料,采用《医学统计学与电脑实验》、《流行病学研究方法与应用》、Pike与Morrow介绍的方法进行验证比较,对χ2检验公式整合与分解,采用Excel软件编制χ2检验和OR估计值的计算表。结果 《流行病学研究方法与应用》介绍的方法与Pike与Morrow(1970)报道的方法验证结果相同,分析原理相同。《医学统计学与电脑实验》介绍的方法是建立在病例对照研究分层分析法总χ2值的计算,且没有进行连续的校正,χ2值偏高。结论 通过对χ2检验公式的整合与分解,采用Excel软件编制χ2检验和OR值计算表,可以便捷分析1:M配比病例对照研究的资料。
1:M配比的病例对照研究χ2检验 分析方法
病例对照研究是流行病学常用的研究方法之一,是临床流行病学研究罕见病病因的最佳方法。《流行病学》第5版[1]、第6版[2]和第7版[3]在研究实例部分均介绍了美国Vincent纪念医院的Herbst医生对阴道腺癌病因研究的例子。该报道是采用1:4配比的病例对照研究方法,并指出资料分析采用Pike和Morrow(1970)非参数检验[4]。我们先后采用《医学统计学与电脑实验》(第二版)[5]、《流行病学研究方法与应用》(第二版)[6]、Pike与Morrow[7]介绍的方法进行了验证,发现按照分层分析的原理分析1:M配比的病例对照研究资料,不同程度地高估了暴露效应。本文就1:M配比资料的χ2检验和OR值的估计方法进行了探讨。
1.《流行病学》教材给出的实例[1-3]和Herbst文献报道[4]
美国Vincent纪念医院的Herbst医生对阴道腺癌病因研究,病例组和对照组的母亲部分主要暴露因素的分析结果,见表1。
2.分析方法
分别采用方积乾主编《医学统计学与电脑实验》、赵仲堂主编《流行病学研究方法与应用》和Pike 和Morrow关于1:M配比设计的资料分析方法[5-7]。
1.分析结果
以表1为例,除母亲年龄外,其他因素分别采用上述3种分析方法,结果见表2。
注①Herbst报道中未见OR值。②P值按分布临界值表估计。③Pike与Morrow在该文献中没有给OR计算方法。
从表2结果可以看出,4种分析方法对各个因素的统计学意义影响不大,但是《医学统计学与电脑实验》介绍的方法所计算的值明显高于其他方法,也就是说实际对应的P值减小。
2.原理分析
(1)《医学统计学与电脑实验》1:M配比设计的资料分析原理
当危险因素按二项分类时,1:M配比的可能结果有2(M+1)种。设全部资料共有k个配比组。对第i个配比组的结果表达,见表3。
分析原理:Yi为指示变量,当病例接触危险因子时,令Yi=1,否则令Yi=0;Xi表示在M个对照中接触危险因子的例数。
(1)
(2)
式中符号对应表3所示之含义。
(3)
式中ai、bi、ci、di分别代表第i层四个格子的数,n1i、n0i、m1i、m0i分别代表四格表的行与列合计,ni代表第i层样本总例数。
2.《流行病学研究方法与应用》关于1:M配比资料的分析[6]
资料整理成表4。
(1)估计优势比(OR):
(4)
(5)
其中:
(3)Pike与Morrow介绍的方法[7]
根据Pike与Morrow的文献报道,资料整理成表5。
表和公式中的m表示配比数,在无效假设前提下,自由度v=1时,总的χ2检验近似公式是:
(6)
其中:
E(mm,i)=nm,i×i/(m+1)
V(mm,i)=nm,i×i×(m+1-i)/(m+1)2
3.χ2检验公式的整合与分解
根据Pike与Morrow以及近些年来国内学者的意见,依据表5资料整理格式,将检验公式(6)整合成公式(7),然后分解成公式(8)。按照公式(8)和公式(4),采用Excel软件编制了χ2检验和OR估计值的计算表,以“以往流产史与她们的女儿发生阴道腺癌的关系”为例,见表7。
(7)
∑[nc,i×i×(c+1)-nc,i×i2]
(8)
*:χ2=7.16,OR=10.50,95%CI(1.88,58.74)
结论:χ2所得值与《流行病学研究方法与应用》1:M配比资料的分析结果完全一致,统计学意义无需赘述。
在罕见病病因的研究中,由于病例数极少,采用配比的方法能够提高检验效率,王天根认为1:1配比是最浪费信息的设计,当病例是罕见的疾病而对照相对较易获得的时候,常采用1:M配比,其设计一般最多配比数为4,配比数量继续增加,检验效能增加幅度将越来越低[8]。
通过查阅1980年以来国内相关文献,发现按照分层分析的方法,不但每层的例数仅有1+4个,而且四格表中每个格子的理论值将均小于5,有的甚至小于1,按照卡方检验的基本原理,应该采用确切概率法直接求P值。Mantel-Haenszel(1959)提出了直接进行卡方检验的方法。Pike与Morrow在1970基于卡方检验的基本原理提出了本文前述的分析方法。
按照分层分析法计算的χ2值均大于其他方法,Pike与Morrow分析方法是基于χ2检验的基本原理,即(实际频数-理论频数)/方差,符合1:M配比资料中每个对子实际暴露数多小于5的资料。前者在计算公式中没有使用连续校正,是不符合于检验的基本原理的。
OR95%置信区间的估计,一般采用Woolf自然对数转换法和Miettnen氏卡方值法,与王书平[11]采用SAS自编程序比较,Miettnen氏卡方值法估计的置信区间的范围比较窄,因此其计算置信区间的精确度比较高。Woolf自然对数转换法是建立在OR方差的基础上,主要使用表格中的原始数据,而Miettnen氏卡方值法与卡方值的联系比较大。因此本文例题中OR95%置信区间的估计均采用Miettnen氏卡方值法。
[1]李立明,主编.流行病学.第5版.北京:人民卫生出版社,2003,81-82.
[2]李立明,主编.流行病学.第6版.北京:人民卫生出版社,2007,86-87.
[3]詹思延,主编.流行病学.第7版.北京:人民卫生出版社,2012,101-102.
[4]Herbst AL,Ulfelder H,Poskanze DC.Adenocarcinoma of the Vagina -Association of Maternal Stilbestrol Therapy with Tumor Appearance in Young Women.N Engl J Med,1971,284(15):878-881.
[5]方积乾,主编.医学统计学与电脑实验.第2版.北京:人民卫生出版社,2001:319-323.
[6]赵仲堂,主编.流行病学研究方法与应用.第2版.北京:人民卫生出版社,2005:89-90.
[7]Pike MC,Morrow RH.Statistical analysis of patient-control studies factor under investigation an all-or-none variable.Brit J Prev Soc Med,1970,24(1):42-44.
[8]王天根,主编.流行病学研究方法.北京:人民卫生出版社,1991,83-119.
[9]魏承毓,张汉民,李遂初,等,主编.实用流行病学.兰州:甘肃科学技术出版社,1989:81-114.
[10]沈福民,主编.流行病学原理与方法.上海:复旦大学出版社,2001:37-53.
[11]王书平.1:M配对病例-对照研究中两种可信区间的SAS 分析方法.中国卫生统计,2011,28(5):606-607.
(责任编辑:郭海强)
2013年潍坊医学院科技创新研究基金资助(K1301008)
△通信作者:李志华