项目反应理论在患者报告结局测量工具研究中的应用及展望

2021-03-11 02:53吴傅蕾黄青梅杨瑒蔡婷婷袁长蓉

护士进修杂志 2021年5期

吴傅蕾黄青梅杨瑒蔡婷婷袁长蓉

(1.复旦大学附属肿瘤医院，上海 200032；2.复旦大学护理学院，上海 200032)

患者报告结局(Patient-reported outcomes，PROs)已被证实是反映和促进患者真实体验的可靠来源和有效手段，是指没有经过医生或他人的解释，直接来自患者的关于患者自身健康状态的信息[1]。基于一定理论基础构建并经过测量学检验的患者报告结局测量工具(Patient-reported outcomes measures，PROMs)是健康领域研究和临床实践获取真实、全面、可靠、规范的PROs数据的关键。随着现代测量学的快速发展，项目反应理论(Item response theory，IRT)因其可克服传统测量工具测量静态性、样本依赖性等的优势[2]，在PROMs研究中的应用日渐广泛。护理领域的研究者和临床工作者有必要深入了解IRT相关理念和应用，以促进未来PROs领域的理论和实践研究。基于此，本文介绍IRT的基本概念和特点，总结其在PROMs研究中的应用，并提出IRT应用于PROMs研究的展望，以期为未来PROMs相关研究和应用提供理论依据和实践参考。

1 项目反应理论概述

1.1项目反应理论的相关概念 IRT是由一系列数学模型组成的统计理论，模型表达被试对某一量表条目进行特定响应的概率，是被试的潜在特质(latent trait)和条目的特征参数的函数[3]。通俗地说，IRT把表现在个体身上所特有的相对稳定的行为方式称为潜在特质(记作θ)，它无法被直接被观察和测量，但可通过由专业研究者构建的一系列与这一特质相关的条目间接反映[3]。被试的潜在特质与其对某一特定条目的响应存在某种函数关系，IRT即是明确这一函数关系。在数学上这一函数关系称作项目反应函数(Item response function)，其图像表达为项目特征曲线(Item characteristic curve，ICC)[4]。ICC通常呈“S”型，可直观体现个体对某一选项的应答概率随个体潜在特质水平变化而变化。以一个应答选项为“否”和“是”的量表条目为例，如条目“我不在乎我怎么了”用以调查患者的抑郁水平，此时抑郁水平即为潜在特质。当患者的抑郁水平越高，则回答“是”的概率越高；反之则回答“否”的概率越高。见图1。

图1 ICC图示

1.2项目反应理论模型的假设 IRT的一系列数学模型对条目存在多种假设。单维性(Unidimensionality)是其中一个常见假设，是指某一量表中的条目仅测量一个潜在特质[3]。然而在真实世界研究中，这一假设往往难以满足。如上文中的条目“我不在乎我怎么了”，若需完全满足单维性假设，则需满足被试在选择选项“是”和“否”时是完全由其抑郁水平驱动的；然而焦虑和抑郁常相互影响，被试对这一条目的应答也可能跟被试的焦虑水平有关。因此，有统计学家提出，条目在一定程度上满足单维性即可接受[5]，其检验可采用验证性因子分析(Confirmatory factor analysis，CFA)、McDonald双因素模型(McDonald′s bi-factor model)等[5-6]。局部独立性(Local independence，LI)是IRT模型的另一重要假设，即当被试的潜在特质是稳定的，则其对条目的应答之间不存在相关[7]，否则将会影响IRT的参数估计，从而影响量表的构建。局部独立性可通过CFA的残差相关矩阵或结构方程模型(Structural equation model，SEM)的修正指数(Modification indices，MIs)检验[7-8]。此外，在应用IRT模型前，还需进行单调性(Monotonicity)假设的检验。单调性意味着随着被试健康水平的提高，选择条目中表明健康状况较好选项的可能性也相应增加[9]。这一点在应答选项为等级选项(如Likert 5级选项)的条目中尤其重要。

1.3项目反应理论的特点和优势随着健康结局相关研究以及临床实践中对反映患者自身感受的可靠测量工具的需求迫切增长，临床工作者和研究者需要更好的测量工具，以突破经典测量理论(Classic test theory，CTT)的局限。不同于CTT模型更多地关注整个量表或测试层面，IRT如其名，关注的是个体在条目水平的应答。也就是说，IRT通过个体对条目的应答估计其潜在特质的水平，而不是条目回答的正确数或条目总得分。IRT模型的另一大特点是信息函数(Information function)，用于指示对于测量的某一潜在特质，哪一个条目或量表在区分不同水平的个体上最显著，信息量越大，则其精确度越高[3]。从概念上来说，可以将信息函数视作CTT中的信度(Reliability)，但不同于经典信度为一个单一的数值，信息函数可显示某一条目或量表的信度在测量不同特质水平的被试时的变化。

基于上述特点，IRT作为现代测量理论与CTT相比具备一系列优势：(1)IRT可提供针对每一个条目的更深度的分析。(2)IRT可通过减少问卷所需条目数以促进开发更高效的PROMs，并提供可比较的测量精度和信度。(3)IRT可以通过项目功能差异(Differential Item functioning，DIF)分析，以发现条目和量表在不同亚组人群中的表现。(4)基于IRT研发的量表允许将该量表的得分与其他量表相比较，即不同测量工具之间的得分存在可比性。(5)IRT可用于研发对每一个体“量身”定制问卷的计算机自适应测试(Computer adaptive tests，CATs)[10]。

1.4常用的项目反应理论模型不同的条目应答模式，如二分类应答(是或否、正确或错误)、等级应答(Likert型)，IRT模型在ICC函数形式上有所不同。此外，根据测量的维度，即当量表用于测量单个领域(Domain)、结构(Construct)或特质时，或量表用于同时测量多个相关的领域，应相应地选择单维IRT模型(Unidimensional IRT model，UIRT)或多维IRT模型(Multi-dimensional IRT model，MIRT)[3, 11]。也就是说，IRT模型的选择取决于条目的应答模式和测量的维度。IRT模型的计算极其复杂，必须借助计算机软件才能实现，常用的软件包括MULTILOG、BILOG、RASCAl等，也可通过SAS统计软件编程实现。

由于对模型的介绍涉及到一系列复杂的数学公式，本文仅对模型及其适用情境做简要描述。在单维IRT模型中，针对二分类的应答模式，常用的模型包括单参数Logistic模型(One parameter logistic model，1-PLM)和两参数Logistic模型(2-PLM)，其区别如字面之意，在于估计的参数个数。1-PLM和2-PLM均估计条目的难度系数(Difficulty，常记作b)，2-PLM在此基础上还会估计区分度(Discrimination，常记作a)[3,10-11]。如图1所示，难度系数是ICC的拐点在横坐标的投影，当被试的潜在特质水平(θ)，在本例中即抑郁水平低于b，则其在该条目上回答“否”的概率越高，反之则回答“是”的概率越高。ICC拐点的斜率为区分度，数值越大则区分度越高[3]。针对多分类的应答模式，常用的模型包括评分量表模型(Rating scale model，RSM)、等级反应模型(Graded response model，GRM)和名义反应模型(Nominal response model，NRM)等。RSM的条目区分度参数一致，条目应答的设置是等距的；GRM适用于有序的应答模式，如完全不同意到完全同意的5级应答，并为每一条目估计不同的区分度参数；NRM不要求条目的应答选项是顺序的，同样为每一条目估计区分度参数[3]。在MIRT模型中，根据被试在完成测量时，多种潜在特质是如何相互作用的，可分为补偿性模型，如多成分潜在特质模型(Multicomponent latent trait model，MLTM)和非补偿性模型，如Reckase的多维Logistic模型[12-13]。

2 项目反应理论在患者报告结局测量工具研究中的应用

2.1用于测量工具评价和优化 IRT可通过条目水平的测量性能分析为测量工具的评价和优化提供不同于CTT的视角和策略，因此越来越多的学者应用CTT和IRT相结合的方法进行测量工具的评价和优化。常见的结合方法有：(1)先基于CTT进行初步条目筛选和信效度评价，后基于IRT进一步评价每个条目的测量学性能并进行优化。如庞海玉等[14]编制老年医学知信行量表用于评估医学生对老年医学知识的掌握及实践情况，并通过基于CTT的条目筛选保留条目34项，后为进一步优化量表采用IRT进行条目分析与评价，结果显示有11项条目在区分度参数和难度系数参数上不达标，需进一步修订。(2)同时采用CTT和IRT评价量表和条目，并基于两者结果进行综合的条目筛选和优化。两者的评价结果一致则更强有力地证实了条目的高质量，不一致则提示研究者从不同的角度考虑条目的取舍问题。如薛红红等[15]采用CTT中的变异度法、相关系数法、因子分析法和克朗巴赫系数法，以及IRT中的GRM进行老年COPD患者多维健康测定量表的条目分析，结果显示部分条目在两种测量理论下的表现不一致，需要结合统计学指标和专家意见进一步修订。需要指出的是，尽管IRT应用于测量工具评价和优化中的优势已日益引起国内学者的重视，然而在应用时对IRT基本假设，尤其是对局部独立性假设，以及对样本量要求仍不够重视，王伟梁等[16]通过对已发表文献的分析同样指出了这一点，提示后续研究者在进行IRT应用前需呈现IRT模型前提假设的验证结果以及样本量测算依据。

2.2用于测量工具的测量等价性分析测量等价性(Measurement invariance，MI)是指当观测变量和潜在特质之间的关系在不同组间等同，是量表的一种基本特征[17]，是进行组间(如不同年龄段、不同性别和不同文化背景的亚组人群间)比较或不同测试方法的数据合并(如电子问卷和纸质问卷合并)的前提[18]。即是条目对不同组别的测量对象来说，其意义和功能是否等同。IRT采用DIF表达MI，即当某一条目在同一潜在特质水平但来自不同组别的被试中表现不一致，则该条目存在DIF。尽管目前较多学者仍采用结构方程模型框架下的多组验证性因子分析(Multi-group confirmatory factor analysis，MCFA)进行MI检验[18]，但研究[19]显示，MCFA在检验难度参数等价性上劣于基于IRT的DIF分析，且犯I类错误的概率更大；在多维测验情境下，基于IRT的方法检验力更强[20]。然而多数DIF检验要求大样本，这一点在患者报告健康结局工具领域往往较难满足，Lai等[21]针对小样本，如<200的样本的DIF检验推荐了若干方法。

2.3用于实现不同测量工具间的可比性在PROs的测量领域，针对同一PROs存在多种不同的测量工具，其在条目数量，内容以及应答设置中均有所不同。因此，不像某些客观指标(如体温、血压等)来自不同临床试验的数据可用于合并或比较，若采用了不同的测量工具，PROs是不可比的。合适的IRT模型则可以解决这一问题，通过模型校准后的项目可链接在同一度量标准(Metric)上，以查找转换表的形式获得标准分，从而比较不同测量工具间的得分[22]。如疲乏是常见的PROs内容之一，其常用测量工具有慢性病治疗功能评估-疲乏(Function assessment of chronic disease therapy-fatigue，FACT-F)，医疗结局研究36条目简表(Medical outcomes study short form-36，MOS-SF36)中的疲乏条目，以及患者报告结局测量信息系统(Patient-reported outcome measurement information system，PROMIS)中的疲乏简表。Lai等[23]采用Stocking-lord法和固定参数校准法分别将FACT-F和MOS-SF36疲乏条目与PROMIS疲乏简表链接，将其度量标准转化为与PROMIS疲乏简表一致的T-score，即一种以50为均分，10为标准差的标准分(美国人群的平均水平，因此得分>50为高于平均水平，反之则低于平均水平)，从而使得不同量表的疲乏得分可比，并促进对疲乏得分的临床解读。

2.4用于CATs的构建 CATs以IRT为基础，可根据被试者对上一题的应答主动适应其能力水平，在条目池中针对性地选择合适的条目，从而在有限的条目数内精确地估计被试的潜在特质水平[24]。CATs技术此前多用于语言水平测验、入职测评等教育考试领域，如TOFEL考试等。鉴于其“因人施测”的巨大优势，医护领域近年来也出现了众多采用CATs技术测量生理功能、心理健康、生活质量等患者报告结局的尝试和应用，以更快速、更精确地收集患者数据。以PROMIS为例，其第二阶段的研发重心即聚焦在PROMIS-CATs的研制，目前已有超过20个PROs可应用CATs施测[25]。这样一来，每个健康结局仅需4～12个条目即可完成测量，极大降低了被试的测量负担。且有研究[26]显示，基于CATs的得分更加接近患者真实情况，差异有统计学意义。因此，研究者推荐在临床和研究情境下大力发展基于CATs的健康结局评估策略。

3 IRT应用于患者报告结局工具的展望

3.1多维项目反应理论的发展促进真实世界的患者报告结局研究如上所述，健康结局往往是多维的，即使是某个单一的症状(如疼痛)也涉及到生理、认知以及情感等多个要素，导致PROs工具往往难以严格地满足单维性假设。事实上，用单维的测量学去解释多维的真实世界研究本身即存在不合理性，这也是IRT在过去被诟病的原因之一。幸运的是，随着计算机技术的飞速发展，IRT的理论和实践逐渐由注重UIRT向UIRT和MIRT并重转变[13]，这与健康领域PROs测量的特点和需求尤为契合。MIRT认为，测量数据呈现的多维性与被试在应答时涉及的多种潜在特质相符；也就是说，MIRT建立了被试对条目某一选项的应答概率与多个潜在特质和项目参数之间的空间函数[13,27]。MIRT可用于对测量工具的维度分析、对条目的合适性分析、精简测量条目、估计被试多维潜在特质等[13]，然而由于概念抽象、运算量巨大、结果解读复杂，其在PROs工具相关研究中的实际应用仍较少见。后续研究者可与数据科学家密切合作，也可参考已有的程序语言包尝试相关应用[13,28]。

3.2基于IRT的计算机自适应测试技术促进精准测量 CATs被视作包括MIRT和认知诊断在内的现代测量学三大发展方向之一，其在PROs测量领域的应用可有效提高患者多种健康结局的评估和评价效率和精准性，减轻患者应答负担。已有研究者对此进行了初步尝试，如卞薇等[29]设计开发了“成人斜视患者报告结局测评系统”用于斜视患者的症状、日常生活功能等内容的临床评估，是国内PROs领域较早实现CATs应用的报道，然而未见其对CATs开发流程、模型选择、参数估计等的具体描述。CATs的成熟应用多见于教育考试领域，然而医学结局评估与考试存在显著差异，在条目选择标准、测试终止标准等指标上也应有所区别。健康结局领域的研究者有必要构建一套适用于医学测量的CATs开发流程和评价体系。另一方面，为切实促进基于CATs的临床PROs评估和评价，亟需探索CATs与临床现有护理评估的结合路径，包括测量流程、数据管理、结果解读等。国外已有机构将PROMIS-CATs嵌入医院信息系统用于患者的健康结局监测[30]，国内亦有与平板电脑或移动手机应用程序相结合的尝试[31]，患者在医院或者家里即可利用电子界面完成测评并获取反馈，使对患者PROs的动态、实时评估和即时反馈成为可能。然而PROs数据与临床患者数据的融合、在临床实践中的角色和作用方式仍有待进一步探索。研究者可以此为参考，探索符合我国国情的PROs临床应用策略。

4 小结

随着“以患者为中心”理念的不断深入，患者体验的提升成为政策制定者和健康领域工作者关注的重点之一。作为患者体验的可靠来源，基于现代测量学理论的PROs工具及其研究和应用也必将成为热点。健康照护者有必要在了解相关的基本测量学理论基础上，以国内外已有的理论和实践为参考，积极寻求与统计学家、心理学家、算法工程师等多学科团队的密切合作，促进基于IRT的PROs的研究和临床实践，并提升照护质量与患者体验。