沙婷婷颜 艳△高 晓向仕婷何 琼曾广宇刘世平李洪艳谭 珊晏 强林 玲邓学峰李迪民易 娟
三种统计分析方法在婴儿生长发育随访资料中的比较研究*
沙婷婷1颜 艳1△高 晓1向仕婷1何 琼1曾广宇1刘世平1李洪艳1谭 珊1晏 强2林 玲3邓学峰3李迪民4易 娟5
目的运用重复测量方差分析、混合线性模型、广义估计方程分别拟合生长发育随访资料,对三种统计方法分析的结果进行比较,探讨婴儿体重增长的影响因素。方法采用回顾性出生队列资料,运用SAS9.2等统计软件进行分析。结果重复测量方差分析得到婴儿体重的增长与出生体重、月龄、是否就医有关,且后两者存在交互作用;混合线性模型得到出生体重、月龄、母亲文化水平、喂养方式、睡眠时长,以及月龄与喂养方式的交互作用有统计学意义;广义估计方程分析得到出生体重、月龄、喂养方式、睡眠时长、以及月龄与喂养方式的交互作用具有统计学意义。结论三种统计方法均可应用于生长发育随访资料分析,各有优缺点,但分析结果存在一定差异,应根据具体的适用情况,判断何种方法分析的结果更为可靠。
生长发育资料 混合线性模型 广义估计方程 重复测量方差分析
婴儿生长对成人日后的健康有重要的影响。研究婴儿生长发育规律及其影响因素,可以在早期对婴儿的生长发育给出正确的评价和指导意见,从而促进婴儿的体格生长。目前,对新生儿的生长发育指标多进行动态监测。这种针对同一个观察对象的某项指标在不同时间点进行多次测量所获得的数据叫做重复测量数据。生长发育资料具备重复测量的特点,各个时间点的测量指标彼此不独立。因此,分析生长发育资料时必须考虑反应变量间的相关性,以便得到更加准确的结论。目前,处理这类生长发育资料的分析方法主要有重复测量方差分析、混合线性模型、广义估计方程、面板数据模型等。本文主要是采用前三种常见的统计方法对婴儿生长发育资料进行分析,探讨婴儿体重增长的影响因素,并比较三种方法的适用情况及优缺点。
1.研究对象
采用简单随机抽样,从湖南省长沙市开福区随机选取3个街道社区卫生服务中心,筛选出2013年内出生,在社区建立完善的卫生档案的具有本市户口的婴儿及父母作为研究对象,在取得父母的知情同意后将婴儿纳入回顾性出生队列。由经过严格培训的专业医生对婴儿进行健康体检并建立健康档案,从健康档案中追踪得到婴儿出生后1月、3月、6月、8月、12月龄的体重等生长发育的指标。调查员通过摘抄孕妇保健手册及问卷调查的方式收集孕妇家庭的一般情况、孕期保健情况、婴儿喂养方式、辅食添加等信息。
采用Epidata 3.0进行数据双份录入,并进行一致性检验,采用统计学软件IBM SPSS 21.0、SAS 9.2进行分析。
(1)重复测量方差分析
重复测量方差分析模型是在方差分析的基础上,对总体方差进行分解。分为研究对象内和研究对象间的变异,以及上述两者的交互作用和随机误差变异。重复测量方差分析中研究对象内的变异可以理解为各测量时间点的变异,研究对象间的变异即处理因素的作用。
(2)混合线性模型
混合线性模型是为解决非独立性数据基于传统的线性模型而发展起来的一类统计模型。其一般表达式如下:
其中Y、Xβ与传统的线性模型解释相同,Y表示反应变量值的向量,X、β分别表示固定效应的设计矩阵和参数向量,Z、γ分别表示随机效应的设计矩阵和参数向量,ε表示随机误差向量,不要求其满足独立、等方差的假定。
(3)广义估计方程模型
广义估计方程(GEE)是在广义线性模型基础上,进一步发展拟似然函数所得,重点在于估计组内相关系数[1]。假设Ymn是第m个个体的n次测量的应变量,mn是对应Ymn的q×1维解释变量向量。E(Ymn)=μmn是Ymn的边际期望值;Var(Ymn)=V(μmn)·φ是Yij的边际方差,V(·)为已知函数,φ为分散参数,又叫尺度参数,表示Ymn的方差不能用V(μmn)解释的部分;cov(Yms,Ymt)=c(μms,μmt;α),c(·)为已知函数,α又叫相关参数。构造的广义估计方程:
长江采砂管理工作是一项综合性很强的工作,要做好水事纠纷调解、违法案件查处,执法人员不仅要有丰富的法律知识,而且还要懂专业、政治素质高、协调能力强,这也是提高执法人员素质中要亟待解决的问题。目前大家都有一个误解,认为执法人员素质不高,只是对法律、法规的学习不透彻。其实要办理好一个水事案件,不仅仅需要法律、法规知识,还要在专业知识、政治素质、人性化管理和综合协调能力上下工夫。
解该方程可得到回归系数β的一致性估计。
1.资料的描述性分析
本次研究共调查536例婴儿,其中追踪得到体重发育资料较完整的样本521例。有效应答率为97.2%。其中男婴270例,女婴251例,出生性别比为1.07∶1。新生儿平均出生体重为(3.3±1.6)kg,男婴和女婴的出生体重差别没有统计学意义(P=0.29),低出生体重儿(出生体重<2500g)20例,发生率3.8%。表1、表2是研究对象的基本情况。
2.重复测量方差分析
SAS输出的Mauchly球性检验结果,其中P<0.001,拒绝球性假设,须看H-F调整之后的概率结果。由表3可得到新生儿出生体重、是否就医、月龄、月龄与是否就医的交互作用对婴儿体重生长发育的影响有统计学意义(P<0.05)。
表1 521例婴儿各月龄的体重及睡眠时长测量值
表2 婴儿随访一般情况描述
表3 重复测量的方差分析结果
3.混合线性模型
混合线性模型拟合生长发育资料时,首先要确定合适的方差/协方差结构,本文分别拟合UN、UN(1)、CS、AR(1)这四种常用的协方差结构。在构造模型相同的情况下,信息准则越小,模型的拟合优度越高[2]。本文发现当拟合的协方差结构type=UN时,其似然比值、AIC值、BIC值均最小,故本模型采用UN结构进行分析,得到协方差参数估计值和固定效应的检验结果如表4。结果表明,婴儿出生体重、月龄、母亲的文化水平、喂养方式、睡眠时长以及月龄与喂养方式的交互作用对婴儿体重增长有影响(P<0.05)。
表4 各因素固定效应的检验假设结果
4.广义估计方程模型
作业相关矩阵是广义估计方程中的一个重要指标,可以反映因变量每次测量值的相关性,常用Rm(α)表示。常见的Rm(α)形式有独立、等相关、不确定型相关等。本研究采用体重的生长发育随访资料,故连接函数选择线性函数,考虑到等相关作业相关矩阵给出的相关系数是相同的,结果较为简单,便于理解,故本模型选择等相关矩阵进行拟合。在等相关情况下求出任意两次体重观测值的平均相关系数是0.2573。各因素的参数估计和检验假设的结果见表5,可得婴儿的出生体重、月龄、喂养方式、睡眠时长以及月龄与喂养方式的交互作用对婴儿日后体重的增长具有统计学意义(P<0.05)。
表5 各因素的参数估计和检验假设的结果
1.影响因素讨论
上述三种统计分析方法均可用于婴儿体重增长的影响因素分析。本文结果表明纯母乳喂养的婴儿体重要高于混合喂养的同月龄婴儿,这可能是由于母乳中含有对婴儿生长发育有利的活性营养物质,如乳清蛋白等。这些活性营养物质可以促进婴幼儿的肠道吸收,增进免疫系统,维持机体的健康生长,有利于婴儿的体重增长[3]。本文结果显示,婴儿的体重增长还与其睡眠时长有关,与已有研究结论相符[4],这可能与婴幼儿在睡眠时有助于体内生长激素的分泌有关。Kavle,J(2016)等人[5]在文章中提到婴儿期间发生腹泻与婴儿的体重增长没有关联,这与本文研究结果相同。此外,本结果显示母亲的文化水平越高越有利于婴儿的体重增长,这可能是由于母亲的学历越高,其获取合理的婴儿喂养知识的途径越多,采用的喂养行为更合理[6]。综合上述三种统计方法的研究结果,影响婴儿体重增长的因素主要有出生体重、月龄、母亲的文化水平、喂养方式、睡眠时长、是否患病就医等。
2.三种统计方法的特点及应用
(1)重复测量方差分析
重复测量方差分析可以处理典型的生长发育资料,并且判断测量指标是如何随时间发生变化的以及是否与时间存在交互作用。该模型的优点是每一个体作为自身的对照,克服了个体间的变异。但该模型应用条件较为严格,必须满足方差分析基本要求;还要求协方差矩阵满足球形性的假设条件,若不满足就必须进行多元方差分析或对F统计量进行校正,获得校正概率[7];并且重复测量方差分析的资料不可避免地会存在缺失值,若不能补充样本,方差分析会因减小样本量而降低检验效能,对结论造成影响。
(2)混合线性模型
混合线性模型充分考虑到数据的聚集性和相关性问题,运用相应的迭代方法,可以更准确地同时估计固定效应和随机效应,使结果更易于外推[8]。考虑到生长发育资料本身的特殊性,长期的前瞻性随访,就会造成无法避免的数据缺失,混合线性模型可以克服数据含有缺失值的不足,充分利用现有数据的信息,使得到的结果更为可靠[9],因此混合线性模型对于生长发育随访资料的应用有其特有的优势。但是若所分析的因变量是分类资料、等级资料或者是多反应变量时,混合线性模型则不适用,应该选择它的扩展模型混合效应模型[10]。
(3)广义估计方程
广义估计方程在处理生长发育随访资料时,可以很好地解决数据相关性的问题,即使模型的作业相关结构指定不够准确,模型对参数的估计也有较好的一致性[1]。GEE也可以像混合线性模型一样处理含有缺失值的资料,Liang已经证明,只要资料的缺失值比例不大,并且为随机缺失时,广义估计方程得到的估计仍是一致并且稳健的[11]。GEE可根据因变量的多种分布类型选择设定相应的连接函数,适用于多种类型的因变量,如二分类、有序多分类等资料,还可以同时纳入多种类型的自变量[1,12]。基于以上优点,广义估计方程在生长发育随访资料中的应用具有极大的灵活性。
综上所述,三种统计方法都适用于生长发育随访资料的分析,各有优缺点,在分析婴儿体重增长的影响因素时存在一定差别。因此,在实际工作中,应从具体分析的目的、资料的类型、数据的完整性等多个方面综合考虑,选择适用并且检验效能高的模型,才能得到较为可靠的参数估计和模型预测。
[1]赵振,潘晓平,张俊辉.广义估计方程在纵向资料中的应用.现代预防医学,2006,33(5):707-708.
[2]秦正积,沈毅,王燕南,等.三种重复测量资料的统计分析方法比较研究.中国卫生统计,2014,31(3):542-545.
[3]张红梅,赖建强.乳清蛋白对婴幼儿生长发育影响的研究进展.中国食物与营养,2011,17(9):67-71.
[4]熊昌辉,颜艳,谭珊,等.面板数据模型在婴儿生长发育评价中的应用.中国卫生统计,2015,32(6):939-941.
[5]Kavle JA,Flax VL,Abdelmegeid A,et al.Factors associated w ith early grow th in Egyptian infants:implications for addressing the dual burden ofmalnutrition.Maternal and Child Nutrition,2016,12(1):139-151.
[6]李春雨,黄磊,马晓晨,等.北京市4-12月龄婴儿辅食喂养指数分析.中国儿童保健杂志,2014,22(2):125-127.
[7]王超,王汝芬,张淑娴.混合效应线性模型与单因素方差分析在重复测量数据中的应用比较.数理医药学杂志,2006,19(4):355-357.
[8]黄坤,倪宗瓒,程薇波.混合线性模型在临床试验中重复测量资料的应用.现代预防医学,2005,32(11):166-167.
[9]周倩,张晋昕.含缺失值的重复测量资料分析在SPSS和SAS中的实现.循证医学,2013,13(2):120-123.
[10]萨建.混合效应模型在多反应变量重复测量资料分析中的应用.山西医科大学,2007.
[11]夏彦,潘晓平,刘元元,等.广义估计方程在临床试验重复测量资料中的应用.现代预防医学,2005,32(5):444-445.
[12]高茂龙.分类重复测量资料广义估计方程应用.山西医科大学,2007.
(责任编辑:郭海强)
A Com parative Study of Three Statistical Analysis Methods on Baby Grow th and Development Follow-up Data
Sha Tingting,Yan Yan,Gao Xiao,et al
(School of Public Health,Central South University(410078),Changsha)
ObjectiveUsing themethod of repeatedmeasure analysis of variance,m ixed linearmodel,generalized estimating equations to fit the grow th and development data respectively,comparing the results of three statistical analysismethods and exploring the influence factors of baby weight gain.MethodsWe used the SAS9.2 software to analyze the retrospective birth cohort study.ResultsThemethod of repeated measure analysis of variance revealed that birth weight,month age,health seeking and the interactions ofmonth age and whether or not go to a doctor had a significant effect on baby weight gain.The method ofm ixed linearmodel revealed that birth weight,month age,level ofmaternal education,feeding pattern,sleeping time,and the interactions ofmonth age and feeding pattern had a significant effect on baby weight gain.We got the same resultsw ith them ixed linearmodel except for level of thematernal education by method of generalized estimating equations.ConclusionThree statisticalmethods can be applied to analyze the grow th and development data and eachmethod has advantages and disadvantages respectively,though there are some differences between the results.We should consider the specific conditions and determ ine to choose which kind ofmethod formore reliable results.
Grow th and development data;M ixed linearmodel;Generalized estimating equations;Repeated measure analysis of variance
本研究获国家自然科学基金资助(81373101)
1.中南大学湘雅公共卫生学院流行病与卫生统计学专业(410083)
2.长沙市开福区卫生局
3.长沙市开福区四方坪街道社区卫生服务中心
4.长沙市开福区东风路街道社区卫生服务中心
5.长沙市开福区新河街道社区卫生服务中心
△通信作者:颜艳,E-mail:yanyan@csu.edu.cn