谢 洋 王佳佳
(河南中医学院第一附属医院呼吸科 呼吸疾病诊疗与新药研发河南省协同创新中心,河南 郑州 450000)
项目反应理论在呼吸疾病生存质量研究中的应用
谢 洋 王佳佳
(河南中医学院第一附属医院呼吸科 呼吸疾病诊疗与新药研发河南省协同创新中心,河南 郑州 450000)
项目反应理论;呼吸疾病
项目反应理论(IRT)又称潜在特质理论,是在分析和克服经典测量理论(CTT)局限性基础上发展起来的一种新兴的心理和教育测量理论。美国心理测量学家Lord〔1〕于1952年首次提出著名的正态卵形模型,标志着IRT的诞生。此后,IRT在国外得到了充分发展,主要应用于心理和教育测量领域,而在国内由心理学家张厚粲教授于20世纪80年代首次引入〔2〕。IRT应用于生存质量研究始于20世纪末期〔3〕。Haley等〔4〕McHorney等〔5〕较早应用IRT的Rasch模型评价了SF-36躯体功能量表(PF-10)的单维性,建立了可重复的评分标准,证实了Rasch评分模型在区分疾病严重程度方面较Likert评分模型的相对精度高。随后,Cella等〔6〕探讨了IRT在健康状况评估中的应用,IRT在生存质量研究应用进一步深入。现就IRT及其在国内外呼吸领域生存质量研究中的应用进行概述,并分析当前应用现状及未来发展方向,以期为生存质量的研究提供思路。
IRT建立在潜在特质理论的基础上,其主要揭示被试者在测验项目上的反应与其潜在特质之间的关系,这种关系可以用一种非线性的单调递增的函数来描述,即项目特征曲线(ICC)〔7,8〕。ICC是IRT的基础,常被描述为一条“S”型曲线,区分度参数(a)和难度参数(b,也称位置参数、阈值参数)决定了它的形状,三参数模型还可以估计猜测系数(c)〔2,9〕。在ICC的基础上,IRT还可产生类别反应曲线,它表示项目每个选项在特定能力水平下被选择的概率。IRT另一个重要特征就是项目信息曲线(IIC)。IIC将反映项目特征的难度、区分度和猜测系数合而为一,表示项目对不同能力水平的被试者所能提供信息的多少。IRT有两个基本假设〔10〕,即单维性和局部独立性。依据数据类型,IRT模型可分为三类,即二级评分IRT模型、多级评分IRT模型和连续性IRT模型〔2〕。根据不同的模型,可选择的参数估计软件有RUMM、Winsteps、MULTILOG、BILOG和Parscale等〔2,9〕。
2.1 条目筛选 条目筛选是测评工具研制和修订的重要环节。选择恰当的筛选方法与评价指标是筛选优质条目的前提,也是保证测评工具具有良好信度、效度和反应度的重要过程。应用IRT筛选条目主要是为了得到信息函数最大的条目,从而得到最大的信息量。为了研制能够评估慢性阻塞性肺疾病(COPD)对患者健康状况影响的简短且心理测量学特性良好的问卷,Jones等〔11〕应用IRT的Rasch模型对备选的21个条目进行分析,删除6个不理想条目,再结合CTT评价结果,形成了COPD评估测试(CAT)。Meguro等〔12〕应用IRT的Rasch模型对圣乔治呼吸问卷(SGRQ)进行修订,删除10个条目(其中8个条目与模型拟合欠佳),最终形成COPD专版SGRQ,初步验证显示具有良好的心理测量学特性。董丽敏等〔13〕研制哮喘患者报告临床结局量表时,将IRT作为条目筛选方法之一,以区分度和难度作为筛选指标,通过该法建议删除的条目有PHD2、PHD3、PSD20、PSD21、PSD22、SOD52-58、TRD59-63和TRD68-72。吕宏梅〔14〕研制COPD患者报告临床结局量表时,应用IRT将区分度小于0.5和难度严重超出规定范围的条目删除,综合考虑各参数的估计值后删除条目15、37、38、39、48、49、52和56。石志红等〔15〕将IRT等级反应模型应用于慢性呼吸衰竭患者报告结局量表的条目筛选,以区分度小于0.4为标准,综合考虑区分度和难度等级参数,建议删除的条目有20、21、22、43、48、50、51、53、57和60。
2.2 心理测量学特性评价 目前评价测评工具的心理测量学特性主要有信度评价和效度评价等方法,而随着测评工具的不断发展,IRT也逐渐被用于测评工具的信度、效度评价及条目分析,主要通过项目参数及各种拟合指标反映条目的优劣和测评工具的结构。Lo等〔16〕应用IRT的Rasch模型对台湾版SGRQ的心理测量学特性进行分析,结果显示症状、活动和影响三个领域均具有单维性,除症状领域外,活动和影响领域均具有较好的内部一致性信度和结构层次。Paap等〔17〕分别应用非参数和多维参数IRT模型评价SGRQ的心理测量学特性,结果表明该问卷具有单维性,删除19条劣质条目后形成的SGRQ简短版仍具有较高的精确度。
2.3 DIF分析 在生存质量研究中,条目功能差异(DIF)是指具有不同的文化背景和生活经历但具有相同生存质量(能力)的不同群体(比如性别、民族)对同一条目的理解和反应不同〔18〕。目前分析DIF的方法很多,基于IRT的方法是其中之一。Jones等〔11〕应用IRT的Rasch模型对研制的CAT进行DIF分析,结果未显示出与疾病状态相关的DIF。Lo等〔16〕应用IRT的Rasch模型对台湾版SGRQ进行DIF分析,发现许多条目显示出与年龄和疾病严重程度相关的DIF。
3.1 应用现状 IRT在呼吸疾病生存质量研究中的应用主要特点有:(1)起步晚,从目前的文献研究来看,最早追溯到Meguro等〔12〕的研究;(2)范围窄,国外主要将IRT应用于SGRQ、CAT等国际公认的COPD测评工具的研究,包括筛选条目、评价心理测量学特性以及分析DIF等,而国内则仅限于筛选量表条目;(3)模型单一,IRT分析应用的模型多局限于等级反应模型和Rasch模型等单维模型,只有Paap等〔17〕应用到非参数模型和多维参数模型。
3.2 发展方向 CTT与IRT联合应用于研制和修订测评工具:尽管IRT是在分析和克服CTT局限性的基础上发展起来的,但并不能完全代替CTT,CTT主要从宏观的角度评价测评工具,而IRT则主要从微观的角度分析条目〔9〕,将两种理论联合应用到呼吸疾病生存质量研究中能研制出具有更好心理测量学特性的测评工具。
构建优质条目池,编制计算机自适应测验条目池是测评工具研制的基础,应采用定性与定量相结合的方法全面搜集国内外与呼吸疾病相关的条目,形成普适性和特异性条目池,再基于IRT对初步产生的条目池进行评估,构建优质条目池,从而为编制计算机自适应测验奠定基础。基于IRT的计算机自适应测验为患者报告结局的测量和管理提供了一个新的可行的途径〔18,19〕,Paap等〔17〕已开始考虑研制SGRQ计算机自适应测验版用于测量COPD患者的生存质量。因此,基于IRT编制计算机自适应测验是包括但不局限于呼吸疾病生存质量研究的重要方向。
1 Lord FM.A theory of test scores〔M〕.New York:Psychometric Society,1952:1-84.
2 刘保延.患者报告结局的测量:原理、方法与应用〔M〕.北京:人民卫生出版社,2011:170-90.
3 McHorney CA.Generic health measurement:past accomplishments and a measurement paradigm for the 21st century〔J〕.Ann Intern Med,1997;127(8 Pt 2):743-50.
4 Haley SM,McHorney CA,Ware JE Jr.Evaluation of the MOS SF-36 physical functioning scale(PF-10):I.Unidimensionality and reproducibility of the Rasch item scale〔J〕.J Clin Epidemiol,1994;47(6):671-84.
5 McHorney CA,Haley SM,Ware JE.Jr.Evaluation of the MOS SF-36 Physical Functioning Scale(PF-10):Ⅱ.Comparison of relative precision using Likert and Rasch scoring methods〔J〕.J Clin Epidemiol,1997;50(4):451-61.
6 Cella D,Chang CH.A discussion of item response theory and its applications in health status assessment〔J〕.Med Care,2000;38(9 Suppl):II66-72.
7 Edelen MO,Reeve BB.Applying item response theory(IRT)modeling to questionnaire development,evaluation,and refinement〔J〕.Qual Life Res,2007;16(Suppl 1):5-18.
8 丁树良,罗 芬,涂冬波,等.项目反应理论新进展专题研究〔M〕.北京:北京师范大学出版社,2012:3-4.
9 林岳卿,张伟涛,方积乾.项目反应理论在医学量表条目筛选中的应用〔J〕.中国医药导报,2014;11(5):155-8.
10 Embretson SE,Reise SP.Item response theory for psychologists〔M〕.Mahwah,N.J.L.Erlbaum Associates,2000:1-371.
11 Jones PW,Harding G,Berry P,etal.Development and first validation of the COPD Assessment Test〔J〕.Eur Respir J,2009;34(3):648-54.
12 Meguro M,Barley EA,Spencer S,etal.Development and validation of an improved,COPD-specific version of the St.George Respiratory Questionnaire〔J〕.Chest,2007;132(2):456-63.
13 董丽敏,刘晓英,张岩波.哮喘患者报告临床结局量表的研制和条目筛选〔J〕.中国药物与临床,2012;12(7):873-5.
14 吕宏梅.“基于慢性阻塞性肺病患者报告的临床结局评价量表”的编制与评价〔D〕.太原:山西医科大学,2012.
15 石志红,曾宪华,罗艳虹,等.IRT等级反应模型在慢性呼吸衰竭PRO量表编制中的应用〔J〕.数理医药学杂志,2014;27(4):453-6.
16 Lo C,Liang WM,Hang LW,etal.A psychometric assessment of the St.George's respiratory questionnaire in patients with COPD using rasch model analysis〔J〕.Health Qual Life Outcomes,2015;13(1):131.
17 Paap MC,Brouwer D,Glas CA,etal.The St George's Respiratory Questionnaire revisited:a psychometric evaluation〔J〕.Qual Life Res,2015;24(1):67-79.
18 Teresi JA,Fleishman JA.Differential item functioning and health assessment〔J〕.Qual Life Res,2007;16(Suppl 1):33-42.
19 Chang CH.Patient-reported outcomes measurement and management with innovative methodologies and technologies〔J〕.Qual Life Res,2007;16(Suppl 1):157-66.
〔2016-07-19修回〕
(编辑 李相军)
国家自然科学基金面上项目(81473648);河南省属高校基本科研业务费专项(2014KYYWF-YQ08);呼吸疾病诊疗与新药研发河南省协同创新中心项目(豫科技2013(638)号)
谢 洋(1983-),男,博士,主治医师,主要从事中医药防治老年呼吸系统疾病研究。
R7114.253
A
1005-9202(2017)04-1038-02;
10.3969/j.issn.1005-9202.2017.04.113