医学纵向数据建模方法及其统计分析策略*

2019-07-10 06:46陆军军医大学军事预防医学系军队卫生统计学教研室400038

中国卫生统计 2019年3期

陆军军医大学军事预防医学系军队卫生统计学教研室 (400038)

汤宁宋秋月易东伍亚舟△

纵向数据是每个研究个体在不同时间点上的观测值集合，它广泛产生于教育、经济、医药、社会学等领域。在医学领域，主要应用于心理学、公共卫生、药物动力学、临床试验等方面。但是如何处理和分析这些数据一直是一个重难点，医学研究者在处理和分析过程中常常忽略掉纵向数据的一些特点以及特定方法的适用条件，从而导致研究结果产生一定的偏性，有时甚至得出相反的结论，这对医学研究的可靠性有很大影响。因此，如何基于研究目的和资料类型，并结合模型适用条件和特点来选取适当的建模方法是本文将要阐述的内容。

纵向数据的特点

医学纵向数据具有以下几个特征：(1)时间序列性：在没有任何外部干预的情况下，重复测量的反应变量可能会随时间的推移发生变化；(2)时间间隔非均衡性：不同单位测量的时间点可能不同，同一单位测量的时间间隔可能也不同；(3)自相关性：同一观测单位的各测量之间存在自相关性，不同测量之间的相关系数不同，从而可以定义不同的相关矩阵；(4)变量类型复杂性：反应变量类型多样，可以是连续型变量，也可以是离散型变量；(5)线性与非线性：反应变量随自变量的变化趋势可能是线性的，也可能是非线性的；(6)数据不完整性：实际调查研究中，各种原因造成的失访，使得纵向数据完整性难以保证，故常常存在缺失；(7)非正态性：纵向数据变量多，维度高，数据分布较难呈正态性。

根据纵向数据的特点和分析目的，常见的纵向数据建模方法有：(1)研究总体平均水平差异，比较组间或不同时间点差异性的方法，如：重复测量方差分析、协方差分析等；(2)研究总体平均发展趋势和个体平均发展趋势的差异，处理非正态且自相关纵向数据的方法，如：广义估计方程、广义线性混合效应模型；(3)研究非线性增长趋势差异分析的方法，如：非线性混合效应模型；(4)研究时间发展轨迹差异分析的方法，如：多层线性模型、潜变量增长曲线模型。

纵向数据的建模方法

1.重复测量方差分析

重复测量方差分析(repeated measures analysis of variance，RM-ANOVA)是在方差分析基础上将总方差分解为组内、组间的变异以及因子的交互作用和随机误差造成的变异。组内变异可理解为各测量时间点的变异，组间变异即是处理因素的作用[1]。

RM-ANOVA的优点是简单易理解，是早期用于纵向数据分析的重要方法，但统计学家也深知其存在诸多的缺点：(1)该方法对资料要求严格，它不仅要求数据具有独立性、正态性和方差齐性等条件，还要求满足“球形”(sphericity)假设；(2)此外，它还要求各观测单位的测量时点相同且间隔相等；(3)RM-ANOVA忽略了相同单位各次测量之间存在的相关性，而不能揭示其内在特点；(4)它主要描述总体的平均增长趋势而不关注个体增长曲线存在的差异以及原因[2]；(5)对缺失值一般作删除处理，这往往造成较大的信息损失。以上众多的缺点都限制了RM-ANOVA在纵向数据分析中的广泛应用。

RM-ANOVA的应用主要是比较测量指标总体平均水平在各处理因素之间和各时间点之间的差异。谢洋[3]等用其比较了三种不同治疗方案在慢性阻塞性肺中的疗效；任宁[4]等人利用该方法分析了农药对大鼠体重的影响。

2.广义线性混合模型

1972年，Nelder和Wedderburn[5]对正态线性模型进行了推广，建立了广义线性模型(generalized linear model，GLM)。GLM通过非线性连接函数连接反应变量和线性预测变量，只要响应变量的概率分布是指数分布族的一员，就可由此来处理等级资料、计数资料。指数分布族包括高斯分布、多项式分布、泊松分布、伽马分布、贝塔分布和 Dirichlet 分布等，线性模型只是广义线性模型的特例。

虽然广义线性模型(general linear model，GLM)解决了反应变量非正态的问题，但是要求其独立性[6]，忽略了相关性。1982年，Laird和Ware提出线性混合模型(linear mixed model，LMM)，它运用方差-协方差矩阵来反映反应变量的异方差性和相关性。广义线性混合模型(generalized linear mixed model,GLMM)则是广义线性模型(GLM)和线性混合模型(LMM)的扩展[7-8]，它通过在模型中纳入随机效应来解释数据间的相关、过度离散、异质性等问题[9]。GLMM 的基本模型为[10]：

Y=μ+ε

(1)

μ=g-1(η)=g-1(Xβ+Zγ)

(2)

其中，Y是n×1维观测向量；μ是观测的预测向量；g-1(·)是单调可微连接函数g(·)的逆函数；X为协变量矩阵；Z为随机效应变量矩阵；β和γ分别是模型的固定效应和随机效应参数向量，随机效应γ假设服从均数为0和方差矩阵为G的正态分布[6]。GLMM通过多种R矩阵和G矩阵的方差-协方差结构，解释同一观察单位不同时间重复测量结果的相关性，拟合各种反应变量的纵向数据[11-12]。

LMM是通过在均值中加入随机效应，实现了对一般线性模型的推广，而GLMM则是通过在线性预测部分引入随机效应推广了广义线性模型[13]，随机效应的引入反映了不同对象之间的异质性以及同一对象不同观测之间的相关性。当随机效应满足正态分布时，反应变量可以是指数家族中的任意分布。

GLMM能够很好地处理离散型和具有相关性的资料[9]。GLMM包含了随机效应，研究结论能够推广到整个人群，该模型比较适用于药物的临床评价。罗天娥[14]等人利用GLMM分析了某临床试验中乳腺治疗仪合用乳块康贴治疗乳腺增生的疗效；王玲[9]还介绍了其在多中心中药临床试验中的应用。

3.广义估计方程

1986年，Liang和Zeger首次介绍广义估计方程(generalized estimating equations，GEE)，它是在广义线性模型和拟似然方法的基础上提出的一种专门分析非独立纵向数据的方法。

GEE与GLM的框架结构类似，通过一个非线性连接函数来连接反应变量和预测变量，进而处理离散型资料；并且，其要求对受试者的重复测量值提供一个“作业相关矩阵”，由此来表达纵向数据的组内相关性[15]。“作业相关矩阵”是广义估计方程中的一个重要概念，表示因变量的各次重复测量值两两之间相关性的大小，尽管个体之间的相关性可能不尽相同，但其近似地表示个体之间平均的相关。针对不同的数据特点可定义不同的协方差结构，常用的协方差结构包括独立结构(independence)、无结构相关(unstructured)、复合对称结构(compound symmetry)、一阶自相关结构(autoregressive order 1)、Toeplitz相关结构等[16]。GEE的具体构造可参阅文献[17]。

GEE的一个特性是只要连接函数正确，总观测次数足够大，即使“作业相关矩阵”指定不完全正确，参数的可信区间和模型的其他统计量仍然渐近正确[17]。因而“作业相关矩阵”的选择对参数估计的影响不大。GEE主要的优势：①能有效处理纵向数据中结局变量的相关性，也能处理离散型资料；②它放宽了分布假设，只要求正确指定边际均值、方差以及连接函数；③当相关矩阵结构选择不当时也能得到参数及其方差的一致性估计值[18]。其缺点在于：①由于其没有完全指定联合分布，不存在似然函数，因此基于似然的方法不适用于测试拟合、比较模型和进行参数推断；②在样本量较小时，基于经验的标准误差会低估真实的误差。

GEE通常用于流行病学研究，特别是多点队列研究，因为它们可以处理多类结果之间无法测量的相关性。如Lyman[19]等人将GEE应用于棒球手投掷伤影响因素的队列研究；GEE也可用于临床试验研究，如夏彦[20]探讨了其在某抑吐药物的多中心随机对照临床试验中的应用。

4.非线性混合效应模型

传统的统计分析方法一般要求数据满足线性条件，即变量间参数呈线性关系，然而实际研究工作中常常存在着不满足线性条件的重复测量数据，如药物在人体内吸收、分布、代谢和排出过程中的浓度变化。Sheiner于1977年提出了非线性混合效应模型(nonlinear mixed effects models，NONMEM)，亦称为多水平非线性模型或非线性分层模型[21]。非线性混合效应模型可作如下表述[22]:

yij=f(xij,φi)+eij

(3)

φi=Aiβi+Bibi

(4)

其中，yij为第i个个体第j次测量预测值；f(·)为非线性函数，如果其为线性，则退化为线性混合效应模型[22]；xij为P维预测变量向量；eij为独立正态分布随机误差向量；β为P维固定效应参数；bi为随机效应因子；Ai、Bi为已知的设计矩阵。

非线性混合效应模型考虑了不同层次上的变异，同时也考虑了参数间的非线性关系，允许固定效应和随机效应进入模型的非线性部分[23]。模型引入随机效应来解释反应变量间的相关性，通过建立具有随机截距或随机斜率的混合效应模型处理反应变量是分类变量的重复测量资料[16]。相对于线性模型的正态性假设，非线性模型对资料的分布无特殊要求，资料可以是正态资料，也可以是服从二项分布、泊松分布等指数分布的资料[23]。

非线性资料是医学研究中常见的一种资料形式，常用于药代动力学和非线性生长曲线研究。陆基宗[24]等人通过建立非线性混合效应模型研究了肝癌患者5-氟尿嘧啶血药浓度检测与测定的改进方法；T Lu[25]探讨了其在HIV病毒人体动力学中的应用；J Almquist[26]则将其应用于酵母转录抑制因子Mig1动力学行为的研究。

5.多层线性模型

多层线性模型(hierarchical linear modeling，HLM)，也称多水平线性模型(multilevel linear model)、混合效应模型(mixed-effects model)、随机效应模型(random-effect model)等，在不同应用领域中名称不同[27]。HLM主要是用于分析具有层次结构(嵌套结构)数据的一种统计技术。嵌套数据结构，如学生嵌套于班级，班级嵌套于学校这样的分层结构，每层结构中的个体具有一定的相似性。其模型构造如下[28]：

Yij=β0i+β1iXij+εij

(5)

β0i表示截距，其含义是第i个观测对象的平均数；β1i是斜率，表示第i个观测对象的变化速率；Xij代表第i个观测对象在第j个观测点时自变量X的取值；εij代表残差[28]。它的截距和斜率是随机的，还受到某些其他变量的影响，将其作为因变量，建立两个第二层回归方程:

β0i=γ00+γ01W1i+μ0i

(6)

β1i=γ00+γ11W1i+μ1i

(7)

γ00表示截距，γ01和γ11分别表示预测变量W1i和W1i的斜率，μ0i和μ1i通过这个过程分别模拟了1级变量对结果的影响以及2级变量对结果的影响。为简化模型，第二层方程中只包含了一个预测变量，如果存在多个自变量，也可以加入模型。

HLM主要的优点：能对个体在时间上的变化进行估计，不仅考虑了不同测量水平之间的差异，还考虑了不同个体水平之间的差异，并探索造成这些差异的原因。HLM的局限：它仍然是研究由几个变量预测一个变量的相对简单的回归结构，必须以正态性和线性为基础，不能处理变量之间间接的影响关系以及复杂的观测变量和潜变量之间的关系[29]；其次，HLM需要大量的样本量才能获得足够的检验效力。

HLM在医学上主要运用于心理学方面的追踪研究，如胡宁[30]等人将其用于家庭功能与青少年问题行为关系的追踪研究；Raudenbush[31]等将其用于已婚夫妇心理变化的研究。HLM其实在医学上也有更广泛的应用，如Halkitis[32]用其分析HIV药物依从性与患者及治疗特性的关系；Gazdzinski[33]用其研究酒精依赖者清醒时脑结构和认知的变化。

6.潜变量增长模型

潜变量增长模型(latent growth modeling，LGM)是以结构方程模型(SEM)为基础的一种对个体随时间的变化进行建模，并评估共变量的影响和多个结果之间的关系的方法[34-35]。它通过定义截距和斜率作为潜在因子的验证性因素分析模型来描述追踪数据的变化特征[36-37]。LGM基本结构如下[38]：

如图1所示，以三个时间点(结局变量的三次测量)为例介绍LGM，V1、V2、V3分别为三次重复测量值，E1、E2、E3为三个时间点的测量误差，潜变量增长曲线模型中有两个潜在变量，第一个为截距因子(intercept)，第二个为斜率因子(slope)[38]。截距因子表示个体的基线状态，描述了第一次测量时总体均值(Mi)的估计和变异(Di)；斜率因子描述了个体轨迹增长速率的均值(Ms)和变异(Ds)[38]。

Vt=intercept+(t-1)slope+Et，t=1，2，3

(8)

intercept=μintercept+ζ0

(9)

slope=μslope+ζ1

(10)

本例中V1=intercept+E1，V2=intercept+slope+E2，V3=intercept+2slope+E3。两个因子为随机变量，每个个体都有各自的截距和斜率，有各自的均数和方差。ζ0和ζ1为增长因子与其各自总体均数的偏差。

图1 两因子的潜变量增长曲线模型图示

由于LGM是使用SEM方法进行的，因此它们在统计方法方面有许多相同的优点和缺点。LGM的优点主要是描述了单个个体的发展轨迹，并分析了这些轨迹中的个体差异，它能够研究这些个体差异的预测因素，回答哪些变量对发展速度有重要影响的问题。其他优势包括：能够检验假设增长形式的充分性，纳入固定和时变协变量，纠正观测指标中的测量误差，同时纳入几个结构的增长，并从数据中发展出一个共同的发展轨迹，从而排除队列效应等。尽管LGM有众多优点，但并不是适用于所有的情况，如不等的观测间隔、随机数据缺失、聚类设计合并等情况[39]。

LGM在医学上主要运用于心理学研究，如刘俊升[40]等人用于研究童年中晚期孤独感的发展轨迹等。近年来该方法也被应用于其他领域，Brecht[41]等人将其应用于海洛因、可卡因、大麻等多药物使用时间轨迹的研究。

纵向数据的统计分析策略

纵向数据的统计分析策略可以从反应变量类型、主要分析目的和模型方法特点等方面进行考虑。从变量类型来看，可以分为连续型变量(定量变量)和离散型变量(类别变量)。当反应变量为连续型变量，服从正态分布又满足线性条件时，理论上以上方法都可使用，但如果研究目的仅仅是想比较各组别总体平均水平的差异则建议采用重复测量方差分析，简单方便。而广义估计方程和广义线性混合模型主要用于分析类别变量资料，他们都考虑了资料的相关性，并能较好的处理缺失值和非平衡数据。非线性混合模型则主要用于定量非线性资料的处理，多见于药物动力学研究。多层线性模型和潜变量增长模型则多用于描述个体发展轨迹的差异及其影响因素，多应用于心理学和流行病学研究。

表1 常用纵向数据分析模型方法的特点

小结

本文从医学纵向研究的角度出发，列举了重复测量方差分析、广义估计方程、广义线性混合模型、非线性混合模型、多层线性模型、潜变量增长模型等几种常用的统计分析方法，分析其各自的优点以及缺点，并针对不同资料类型和研究目的提出了统计分析的策略。

近年来，纵向数据统计分析方法得到了长足的发展，其部分原因要得益于计算机统计软件的发展，统计软件的出现也使得数据的分析变得更为便捷简单，但就是这种照葫芦画瓢的方式使得研究者们往往忽略了统计分析其背后的原理和假设条件，带来的后果则是直接降低了研究结论的可靠性。因此，研究者应充分了解各类方法的优缺点和适用条件，这是为研究数据选择适当统计分析模型的必要条件。

医学纵向数据建模方法及其统计分析策略*

纵向数据的特点

纵向数据的建模方法

纵向数据的统计分析策略

小 结

小结