秦正积沈 毅△王燕南肖 静何 书
三种重复测量资料的统计分析方法比较研究*
秦正积1沈 毅1△王燕南2肖 静1何 书1
目的运用方差分析、多变量方差分析和混合效应线性模型方法探讨重复测量资料的统计学分析方法,比较三种方法的统计分析效果。方法用实验法收集资料,使用excel软件进行绘图分析,用SAS软件进行统计分析。结果GLM多组重复测量方差分析离子种类和镀金方式及其交互作用有统计学意义、不同时间离子析出差异有统计学意义(所有P<0.0001);多变量方差分析离子种类、镀金方式及其交互作用有统计学意义(所有P<0.0001);混合效应模型应用多种方差-协方差结构进行参数估计,以“不规则方差-协方差结构分析”结果最为合理(-2 Res Log Likelihood、AIC、AICC及BIC统计量均最小,分别为894.9,914.9,916.7,930.8),模型显示离子种类和镀金方式及其交互作用有统计学意义、不同时间离子析出差异有统计学意义(所有P<0.0001)。结论三种分析方法各有所长,在运用时应结合资料的特点和实际可行性,择优选择分析方法,也可联合使用,使分析结果更加准确合理。
多组重复测量方差分析 多变量方差分析 混合效应模型
重复测量(repeated measure)是指对同一观察对象的同一观察指标在不同时间点进行多次测量。重复测量设计可对观察指标进行动态观察或监测,采用较少的样本含量,能够控制个体变异,分析更加符合临床试验、药理学及毒理学的特点。重复测量资料的统计分析方法有其广泛的应用前景[1-5]。
本研究通过分析镀金对中熔桩核析出离子的影响数据,用三种方法分析离子析出与时间、离子类型的关系,探讨重复测量资料的统计分析方法。
本研究以中熔桩核为对象,研究镀金对中熔桩核析出离子的影响。将18个试件随机分成3组,每组6个,第1组为对照组,第2组为喷砂镀金组,第3组为抛光镀金组。浸泡于人工唾液中,于第1个月,第2个月,第6个月,第8个月分别测其镍离子、铜离子的浓度,比较3组不同时间离子析出是否不同。
采用excel软件进行图表分析,使用SAS统计软件进行统计分析。
1.多组重复测量资料方差分析
按2个受试者间因素和1个受试者内因素设计的资料的方差分析模型为:
式中Yabij为随机反应变量,观察值为yabij。下标a=1,…,m;b=1,…,q;i=1,…,ng;j=1,…,p。模型中各参数的意义是:μ为总体平均值;αa为因素A在a水平的效应;βb为因素B在第b水平的效应;(αβ)ab为因素A和B在(ab)水平上的交互作用;δi(ab)为第i个受试者在(ab)水平上的效应;γj为重复测量因素C(时间点)在点j的效应;(αγ)aj、(βγ)bj分别为因素A、B与时间点的交互作用;(αβγ)abj属三因素交互作用;eabij为误差项[1]。
2.多变量方差分析
具有两个受试者间因素和一个重复测量因素资料的多变量方差分析模型为:
式中:Yabij为随机变量,它的观察值为yabij。模型中各参数的意义是:μ为总体平均值;αg为因素A在g水平的效应;βh为因素B在第h水平的效应;(αβ)gh为因素A和B在(gh)水平上的交互作用;eghi为误差项[1]。
3.混合效应模型
在重复测量模型中,单次测量可视为低水平,个体为高水平,建立混合效应线性模型如下:
Yi是第i受试者的pi×1维反应变量向量。xi为pi×q维已知固定效应设计矩阵。β为q×1维未知的固定效应参数向量。zi为pi×r维已知随机效应设计矩阵。ri为r×1维未知的随机效应参数向量。eI是pi×1维随机误差向量。[1,6-8]
1.概貌分析
(1)各组统计描述
表1 三组试件各月份析出值(±s,μg)
表1 三组试件各月份析出值(±s,μg)
镍离子铜离子对照 喷镀 抛镀第一月6.21±0.73 5.77±1.20 4.44±0.72 9.48±1.78 4.91±1.16 7.38±1.对照 喷镀 抛镀47第三月13.82±1.95 12.95±2.75 12.57±2.08 14.00±2.75 7.04±1.61 8.31±1.65第六月144.20±22.96 44.72±8.78 33.52±5.41 373.58±74.78 45.75±10.43 47.20±9.34第八月228.33±34.84 76.67±14.68 56.25±8.95 677.92±134.43 126.67±27.64 138.33±27.49
图1 镍离子各月份析出趋势统计图
图2 铜离子各月份析出趋势统计图
由表1及图1、图2可见,各组镍离子随时间增加,析出量在1~3月相差不大,三月到八月离子析出量显著增加。对照、喷镀、抛镀各组镍离子析出量不同:对照组最多,喷镀组次之,抛镀组最少。各组铜离子析出随时间增加,在1~3月相差不大,三月到八月离子析出量显著增加。对照、喷度、抛光各组铜离子析出量不同:对照组最多,抛光组与喷度组相差不大,抛镀组略多于喷镀组。
2.单变量多组重复测量GLM方差分析
表2 单变量多组重复测量GLM方差分析结果
SAS输出的Mauchly球性检验结果为P<0.0001,拒绝球性假设,故采用H-F校正概率做出统计学推断。由表2可知,镀金方式、离子种类及其交互作用有统计学意义(P<0.0001);时间、时间与镀金方式、时间与离子种类、时间、镀金方式和离子种类三因素间交互作用有统计学意义(P<0.0001)。
3.多变量方差分析[1]。
表3 MANOVA全模型分析
用SAS中的GLM过程MANOVA选项完成全模型分析显示,镀金方式、离子种类及其交互作用有统计学意义(P<0.0001)。
4.混合效应模型
在配合混合效应模型时,要选择合适的协方差结构。
选择协方差矩阵结构的方法是,在相同模型结构下,选择几个不同结构的协方差矩阵,从中选出似然比统计量(-2 Res Log Likelihood)、AIC及BIC较小的一个。如果这些统计量很近似,则选取含参数个数最少的一个。通常以AIC为主要判断指标[1]。
本模型选用UN,CS,SP(POW),UN(1)和AR(1)五种协方差结构。用SAS计算有关协方差矩阵信息,整理后得到不同协方差的各种检验统计量(见表4)。
混合效应模型为:
其中,group为离子分组,trial为镀金方式,time为镀金时间,γi为随机效应,ei为随机误差,βi(其中i=1,2,3表示单独效应的系数,其余为交互效应)为拟合的固定效应系数。
表4 不同协方差结构下的各种检验统计量
由表4可知,以UN结构的各种统计量值最小,故选用它作为最适结构。相应的协方差矩阵的第一个区块结构及协方差参数的WaldZ检验结果见表5、表6。
表5 第一个个体的估计R矩阵
表6 协方差矩阵参数估计值
用UN结构计算的各种固定效应的假设检验结果见表7。
表7 固定效应的检验结果
镀金方式、时间、离子种类、镀金方式与时间、镀金方式与离子种类、时间与离子种类、镀金方式、时间及离子种类、三因素交互作用有统计学意义(均P<0.0001)。
5.分析结果小结
由上述分析结果可知:采用单变量GLM多组重复测量方差分析,研究得出离子种类、镀金方式、时间及其三者间的交互作用有统计学意义;多变量方差分析从整体分析出发,未分解时间效应,研究得出镀金方式、离子种类及其交互作用有统计学意义;混合效应线性模型先进行估计方差-协方差结构参数并评价,然后选用合理的方差-协方差分析得出离子种类、镀金方式、时间及其三者间的交互作用有统计学意义。
1.不同模型的分析特点
由前述分析可知:单变量GLM多组重复测量方差分析从固定效应出发,分解出时间效应、受试者间效应和受试者内效应;多变量方差分析从整体分析出发,未分解时间效应;混合效应线性模型先就方差-协方差结构参数进行估计并评价,然后选用合理的方差-协方差分解出固定效应和随机效应。比较分析结果,可以看出各种分析方法均能得到有关影响因素的效应,但是多变量分析不能得出时间的效应。
2.三种方法的应用探讨
(1)单变量多组重复测量方差分析
单变量分析方法对协方差结构有严格的要求。在球形结构下只有一个协方差参数,在复合对称性结构下只有两个协方差参数,在H型条件下,也只有少数几个协方差参数。在应用前一定要进行球性检验。如不满足球型条件,建议进行校正。在研究中,GLM模型提供了离子种类、镀金方式、时间及其三者间的交互作用,结果理论较简单,容易解释,而且各大统计软件如SAS、SPSS、Stata等均能提供单变量重复测量方差分析的结果,信息丰富。因此,在满足球性检验的条件下,应该首选单变量方差分析[1]。
(2)多变量方差分析
多变量方差分析是单变量方差分析的扩展,对协方差结构没有要求,要估计尽可能多的方差及协方差参数。同时对多个反应变量进行方差分析,累积多个反应变量的信息从而得出统一的统计学结论。它着重分析受试者在多个反应变量基础上的整体信息,而不是个别反应变量的单独信息。当我们把重复测量资料在p个时间点上的反应变量测量值看作p个反应变量时,就是一种多变量资料,因此可以用多变量方差分析模型来分析重复测量资料而不存在任何理论问题。
多变量方差分忻因为对协方差矩阵完全无限制,理论上应用范围更广。但这一特点也使临床试验千差万别的试验数据的复杂关系失去意义,只能得到各时间点数据的整体结论。在研究中,仅提供了镀金方式、离子种类及其交互作用的效应,没有提供时间的效应[1]。
(3)混合效应线性模型
基于似然函数法原理的混合效应线性模型分析方法,是一般线性模型的扩展。它允许资料存在某种相关性及协方差矩阵的多样性,从而能更好地适应重复测量资料的特点[8]。其次,一般线性模型只能分析固定观察时间点数目相等的资料,不能分析观察时间点不等的资料。此外,在一般线性模型中,对具有缺失观察值的受试者是完全舍弃不用的,丢失了资料信息。而混合效应线性模型也能充分利用具有缺失观察值的受试者资料[5]。
混合线性模型在其应用上具有如下特点:
(1)对固定效应参数进行更准确的估计:混合线性模型考虑到了数据的聚集性问题,并用了相应的迭代方法,可以获得回归系数的有效估计,提供正确的标准误,从而假设检验的结果更加准确。它比传统方法更“保守”,后者的标准误是通过简单的忽略聚集的存在而获得,往往并不准确。
(2)重复测量资料的分析及规律探讨:传统模型也可以对重复测量资料分析,要求数据是平衡的。但在实践上,测量次数常是不规则的,此时传统模型的估计可能有误。而混合线性模型可以处理任何测量模式的数据,并提供无偏的参数估计。因此其分析的准确性得到提高[7]。
混合线性模型可以处理不同形式的协方差矩阵,对时间因素的效应且内部关系又极为复杂的研究极为有用[8]。由于引入了随机效应,结果更具有外推性[4,6]。本研究中,既能得到固定效应,又能分析出随机效应,同时能得到时间效应的变化规律,使研究结果更可靠。
综上所述,三种分析方法各有所长,在运用时应结合资料的特点和实际可行性,择优选择分析方法,也可联合应用使分析更丰富、更准确、更合理。
附 件:有关SAS程序
1.余松林,向惠云.重复测量资料分析方法与SAS程序.北京:科学出版社,2003,1-2.
2.陈峰,任仕泉,陆守曾,等.非独立计量资料的内部相关性研究.现代预防医学,1998,25(3):269-271.
3.任仕泉,陈峰,杨树勤,等.非独立数据及其协方差结构表达.中国卫生统计,1998,(4):4-8.
4.陈峰,任仕泉,陆守曾,等.非独立试验的组内相关与广义估计方程.南通医学报,1999,19(4)359-362.
5.黄坤.混合线性模型在临床试验中重复测量资料的应用.现代预防医学,2005,32(11):1584-1585.
6.张文彤.SPSS11统计分析教程.北京:北京希望电子出版社,2002,65-76.
7.王超.混合效应线性模型与单因素方差分析在重复测量数据中的应用比较.数理医药学杂志,2006,19(4):355-357.
8.Cnaan A Laird N M,Slasor P.Using the general linear m ixed model to analyze unbalanced repeatedmeasures and longitudinal data.Statistics in Medicine,1997,16:2349-2380.
(责任编辑:郭海强)
*:南通大学校自然(03041051);教改课题(2013B116)
1.江苏南通大学公共卫生学院流行病与医学统计学教研室(226019)
2.浙江宁波市鄞州区章水社区卫生服务中心
△通信作者:沈毅,E-mail:stata70@sohu.com