王家伟 韩耀风 方 亚
厦门大学公共卫生学院(361002)
【提 要】 在医学研究中常借助潜变量增长曲线(LGC)等模型分析纵向量表资料,但存在数据信息利用不充分、难以反映研究对象真实潜在特质水平等不足。纵向项目反应理论(LIRT)模型是近年来提出的研究潜在特质动态变化的一种方法,它在纵向量表资料分析中具有一些独特优势。本文对LIRT模型理论、软件实现及其在医学研究中的应用进行综述,为医学研究中纵向量表资料分析提供参考,以精准评估研究对象各时点的潜在特质动态变化规律。
随着医学模式向生物-心理-社会模式转变,医学研究者对人体多维健康(生理、心理及社会适应)动态变化规律的关注日益提高,纵向健康量表资料的分析需求随之增加[1]。在分析纵向健康量表资料时,常用潜变量增长曲线(latent growth curve,LGC)模型,探究研究对象潜在特质随时间的动态变化轨迹,但却忽略了难度等项目因素对测量结果的影响,难以准确测量研究对象各时点潜在特质水平[2]。现代测量理论中的项目反应理论(item response theory,IRT)模型将被试者潜在特质与项目难度置于同一尺度测量,既可准确测量被试者潜在特质,也可以增加横向资料的可比性,被逐渐应用到医学研究中[2]。
Conway于1990年提出的纵向项目反应理论(longitudinal item response theory,LIRT)Rasch模型结合了IRT和LGC模型优势,从量表项目水平出发,既考虑到难度、区分度等项目因素对测量结果的影响,也可探究被试者潜在特质随时间的动态变化规律,在医学研究中的应用愈加广泛[3-13]。为进一步推广LIRT模型在医学研究中的应用,提高纵向健康量表的测量效能,精准评估被试者不同年龄、时点的多维健康水平,本文在简要介绍IRT的基本原理及特点的基础上,介绍常用的LIRT模型及其在医学研究中的应用进展。
IRT早期主要用于教育和心理测量领域,其核心思想是从项目水平出发,构建被试者对各个项目作答与其潜在特质、项目难度及区分度等参数的函数关系,从而评估被试者的潜在特质水平以及量表的测量效能[14]。
相比经典测量理论(classical test theory,CTT)对量表条目简单等权线性累加的计分方式,IRT模型充分利用了被试者所有的作答信息,将被试者潜在特质和项目难度置于同一标尺进行测量和比较,既利于不同特征被试者的横向比较,又能够更准确地估计量表及各个项目的测量误差[15]。此外,IRT无需满足CTT的正态性和平行测试假设,可分析健康量表资料中呈偏态分布、含有离群值或缺失值的数据[8,11]。但另一方面,IRT模型仍需满足局部独立性、单维性和个体作答行为真实性等假设,以保持模型结果的稳定性[15]。
近年来,IRT模型在项目参数、潜在特质维度及项目类别等方面不断拓展,突破了模型提出之初的局部独立性(条目间、被试者间)和单维性(单一潜在特质)等假设,如分析多水平量表资料的多水平项目反应理论模型(multilevel item response theory model,MLIRT)[16-17],分析多维量表资料的多维项目反应理论模型(multidimension item response theory model,MIRT)[18-19],以及分析纵向量表资料的LIRT模型等[20-22]。
LIRT模型作为IRT模型族在时间维度的拓展,其核心思想是将IRT与LGC模型结合,从项目水平出发,测量被试者各时点潜在特质水平的同时,探究潜在特质随时间的变化趋势及轨迹[22]。
纵向单维项目反应理论(longitudinal unidimensional item response theory,L-UIRT)模型是最基础、最常用的LIRT模型,该模型适用于仅有一个主要潜在特质随时间变化的纵向量表资料。一般采用两步法(two-step method)建模。
(1)拟合时间特异性单维项目反应理论模型
根据量表资料类型,采用logit、probit及studentt等链接函数构建L-UIRT模型,估计被试者潜在特质。以二分类资料为例,构建二分类两参数logistic L-UIRT模型,假定样本量为N,i(i=1,2,…,N)为样本中的个体,t(t=1,2,…,T)为重复测量的时点,j(j=1,2,…,P)为作答的项目,则样本共有N×P×T个重复测量值。此时L-UIRT模型可表示为公式(1)。
(1)
(2)拟合个体特异性潜变量增长曲线模型
基于第一步构建模型,建立关于θ的LGC模型,其一般形式可写做公式(2)。
θi=Xβ+Zvi+δi
(2)
(3)
图1 L-UIRT分析路径图
根据量表测量维度及层次关系不同,LIRT模型可分为单维、多维和高阶LIRT模型。L-UIRT模型适用于分析量表中所有项目反应仅受被试者单一的潜在特质影响,且仅此单一潜在特质随时间变化的研究资料;纵向多维项目反应理论(longitudinal multidimension item response theory,L-MIRT)模型是在L-UIRT模型的基础上,在潜在特质测量维度上的拓展,适用于分析量表项目反应受被试者多个相关的潜在特质影响,且多个相关潜在特质均随时间变化的研究资料[23];而纵向高阶项目反应理论(longitudinal higher order item response theory,L-HO-IRT)模型是在L-MIRT模型的基础上,与结构方程模型(structural equation modeling,SEM)结合,能够捕捉多阶潜在特质的层次关系、低阶潜在特质与对应项目反应的概率关系等[24]。如老年人认知测量中,L-HO-IRT模型能够测量老年人总体认知能力和低阶潜在特质(语言力、计算力及记忆力等)的层次关系,同时能够测量各低阶潜在特质与对应项目反应间的概率关系。
值得注意的是,模型的选择应结合量表设计的测量维度,鉴别研究数据中潜在特质的维度以及不同维度潜在特质间是否存在层次结构。
总体来说,相较于常用的潜变量测量模型——LGC模型、SEM和多水平统计模型而言,LIRT模型具有以下优势:(1)包含了纵向量表资料的因子结构,可用于分析单维、多维及分层的纵向量表资料[24];(2)通过非结构化协方差矩阵或潜变量增长曲线的非线性/线性变化模型,假设链接项目未发生项目参数漂移,保证纵向数据的测量不变性的同时,还可捕捉潜在特质随时间变化的趋势及轨迹[22,25];(3)将猜测参数结合到模型中,可解释低水平潜在特质者也有一定概率正确作答的情况[26];(4)在分析含有缺失值、呈偏态分布纵向量表资料时,能够保持结果的稳定性,具有较好的时间测量效能,能够较好地应用于流行病学调查和临床研究中[27]。
贝叶斯方法软件(如WinBUGS、OpenBUGS、JAGS和Stan)、主流统计软件(如R)和SEM软件(如Mplus)均可实现LIRT模型构建,三类统计软件实现LIRT模型拟合的特点详见表1。
表1 实现纵向项目反应理论模型拟合的三类统计软件
目前LIRT模型在医学研究中的应用,主要有纵向健康评价研究,纵向健康量表的研制、优化和验证等。
主要从生理健康、心理健康及健康相关生命质量方面简要介绍LIRT模型在纵向健康评价研究中的应用现状。
在生理健康领域,LIRT模型主要用于测量帕金森氏病(Parkinson disease,PD)、失能、疼痛、听力损伤等进行性躯体功能障碍性疾病或病理状态的研究中[9,27,29]。Gottipati等基于LIRT模型通过国际运动障碍协会帕金森氏病评分量表(movement disorder society unified Parkinson′s disease rating scale,MDS-UPDRS)测量PD患者在个体及项目水平上随时间变化躯体功能受损程度,发现PD患者功能较好一侧的躯体功能较患侧恶化速度更快[29]。Edjolo等通过LIRT模型探索老年人日常生活自理能力的层次关系,发现出现完全依赖的次序由易到难依次为洗澡、穿衣、大小便自控能力、吃饭、上厕所及室内移动,并发现老年人存在4类日常生活自理能力变化轨迹[30]。
在心理健康领域,LIRT模型被应用于抑郁、焦虑、认知等心理疾病或问题的测量[10-11,31]。Chan等在量表条目数量与组合均不一致的情况下,利用LIRT模型比较不同文化、经济背景下的老年人认知状况,发现美国健康与退休研究老年人相较于英国纵向老龄研究老年人认知水平更低[7]。Krekels等通过LIRT模型比较安慰剂与帕里哌酮对精神分裂症患者阳性和阴性综合征量表(positive and negative syndrome scale,PANSS)评分的影响,发现模型能够较好地反映患者PANSS各项目、分量表及个体水平治疗效果随时间的变化[32]。
健康相关生命质量,作为个体生理与心理健康的综合健康指标,能够较好地反映研究对象综合生命质量。有研究显示,被试者对于生命质量的理解,可能因健康状况的好转或恶化发生改变,从而导致自报告生命质量纵向可比性较差,这种现象被称为反应转移(response shift,RS)[33]。王旭霞等通过LIRT模型评估老年阿尔茨海默症(Alzheimer′s disease,AD)患者入院前与出院后一个月的生命质量,发现老年AD患者对量表项目的内在评价和价值观标准发生了反应转移,提示在评价住院治疗对老年AD患者生命质量的影响时,应考虑反应转移现象[34]。而许晓茜等的研究显示,相比SEM,LIRT能够更好地测量这种反应转移现象[3]。故而建议在评估干预措施和社会人口学特征等因素对生命质量的影响时,可采用LIRT模型识别这种反应转移现象,排除因反应转移而引入的测量误差。
由于具有量表项目水平测量的优势,LIRT模型也被用于各种纵向健康研究的量表研制、优化和验证中[35]。通过比较项目特征参数、测量维度等,简化量表项目,避免现场研究中被试者因量表项目多、耗时长等因素应答率偏低,从而提高现场调查的应答率和调查效率。
Arrington等通过LIRT模型简化MDS-UPDRS量表,基于真实数据比较,发现简化后量表的疾病进展和药物效应方面的测量效能降低;基于模拟实验比较,发现简化后量表项目特征参数也发生了改变,提示MDS-UPDRS简表的测量效能低于原表,需谨慎使用[4,6]。有研究通过模拟实验也证明,LIRT模型在样本量较小,但测量时点足够的情况下,仍能较好地评价纵向量表工具的测量效能[35]。
在纵向健康评估时,由于量表中各项目间难度、区分度存在差异,各测量时点间项目反应存在时间依赖性,传统的IRT模型及LGC模型不再适用。LIRT模型不仅能够较好地测量各时点被试者健康水平及项目反应转移的情况,识别被试者健康水平随时间的发展轨迹及其影响因素;同时可通过各时点量表项目特征参数(包括区分度、难度、猜测参数等)评估量表的测量效能。深入探讨LIRT模型理论及在医学研究中的应用,有利于提高纵向健康量表的测量效能,精准评估被试者不同年龄、时点的健康水平,为卫生政策等的制定和实施提供科学依据。
在模型参数估计方面,伴随着计算机算力和参数估计方法的提升,一定程度上减轻了模型参数估计的难度,但各种参数估计方法仍存在一些不足。如MCMC算法马尔科夫链收敛速率未知,通常需要5000次以上的迭代,运算耗时较长。希望未来研究聚焦于发展更简便、快速、易用的参数估计方法提高高维模型参数估计效率[36-41]。
最优模型的选择和模型输出结果的可靠性检验依赖于模型拟合检验。虽然大多数的SEM软件会自动输出如AIC、DIC等模型拟合参数,但目前大部分的研究都尚未明确模型拟合参数的适宜界值。有研究也显示WinBUGS等软件自动输出的DIC并不能较好地反映模型拟合状况[42]。杜文久等虽提出通过LP法(likelihood procedure)、正态拟合检验法检验模型拟合情况,为模型检验提供新的思路,但仍存在一些问题[43-44]。希望未来的研究中,能够提出更加有效、简便的LIRT模型拟合检验评估体系。