付 蓉 苏少飞 包 含 刘 丹 张慧敏 刘美娜
哈尔滨医科大学公共卫生学院 (150081)
基于项目反应理论的治疗质量综合评价最适样本量的模拟研究*
付 蓉 苏少飞 包 含 刘 丹 张慧敏 刘美娜△
哈尔滨医科大学公共卫生学院 (150081)
目的 验证基于项目反应理论模型的医院疾病治疗质量评价有效性,探讨保证模型有效性和测量精度的最适样本量。方法 根据项目反应理论中的双参数logistic模型建立疾病治疗质量评价的潜变量模型,通过SAS模拟产生每家医院对每个指标的反应矩阵,模型中的参数估计采用贝叶斯估计的MCMC算法,利用秩相关系数及RMSE评价模型的有效性和测量精度。结果 在不同模拟试验中,能力参数真值和估计值的秩相关系数均高于0.990。随着指标数、医院数和指标分母上限的增加,秩相关系数逐渐增大。随着医院数的增加,项目参数和能力参数的RMSE逐渐减小。当医院数增至100时,无论指标数多少,RMSE均小于0.20,且趋于稳定。结论 基于项目反应理论模型的医院疾病治疗质量评价合理有效。在保证模型测量精度前提下,疾病治疗质量综合评价的最适样本量为至少调查50家医院,每家医院每个指标的分母数在30~100范围。当指标数不足8个时,可适当增加每个指标的分母数。
治疗质量 综合评价 项目反应理论 贝叶斯估计
随着项目反应理论(item response theory,IRT)的完善和计算机技术的发展,IRT的应用由教育和心理测量拓展至其他许多领域,如人格测试、青少年违法行为、生存质量研究等[1-3]。国外学者也将IRT引入医院疾病的治疗质量评价[4-5],但其与教育测量不同:教育测量的对象是个体,治疗质量评价的对象是医院。当只有一个评价对象时,教育测量只需收集一个被试者的信息,治疗质量评价需要收集一家医院的多个患者信息;教育测量在二分制评分中,被试者对每个项目的反应是1或0(正确或错误)。在治疗质量评价中,由于每个指标有其自身的适应证和禁忌证,同一家医院被调查的患者不一定适合使用所有指标。每个指标的定义包括分母和分子,分母是适合某个指标且没有相应禁忌证的患者数,分子是适合该指标的患者中真正使用该指标的患者数。数据格式见表1,表中Nh表示第h家医院调查的患者数,nkh表示第h家医院Nh个患者中适合使用第k个指标的患者数。ykh表示第h家医院nkh个患者中实际使用第k个指标的患者数,服从参数为nkh、pkh的二项分布,pkh为第h家医院第k个指标使用的概率;教育测量中项目数少则数十个,多则上百个。治疗质量评价中指标是根据专家的知识和临床实践经验确定,为医院治疗质量评价的标准。指标数因疾病而异且每个疾病的指标数一般不超过15个,如我国卫生部医政司建立心力衰竭和急性心肌梗死的指标各10个[6]。
目前为止,基于IRT的疾病治疗质量评价有效性的数据支持很少。考虑到治疗质量评价数据收集的难度,需要探讨能保证模型有效性和测量精度的最适样本量,即评价的医院数和指标的分母数。本文将根据项目反应理论中的双参数logistic模型建立治疗质量评价的潜变量模型[7],通过模拟研究验证IRT应用于治疗质量评价的有效性,同时确定最适样本量。
1.模型构建
假设利用k个指标评价H家医院某一疾病的治疗质量,第h家医院每个指标的使用率由该家医院一个不可观测的潜变量(治疗质量)决定。第h家医院第k个指标实际使用的患者数服从参数为nkh、pkh的二项分布:
ykh~B(nkh,pkh),k=1,2,…,K,h=1,2,…,H
(1)
pkh为第h家医院第k个指标使用的概率,nkh为第h家医院适合使用第k个指标的患者数。构建第h家医院第k个指标使用的概率pkh与该家医院不可观测的治疗质量θh的函数关系为:
logit(pkh)=β0k+β1kθh
(2)
该模型建立在双参数logistic模型的基础上,β0k和β1k分别为第k个指标的难度参数和区分度参数,称为项目参数;潜变量θh为第h家医院的治疗质量,称为能力参数。
2.参数估计
公式(2)中有2k+h个待估参数,本文利用贝叶斯估计的MCMC(markov chain monte carlo)算法进行参数估计。
1.模拟设计
医院数H分别设为20,50,100,200和300;指标数K分别设为5,8,10和15;每家医院每个指标的分母上限分别设为100,200和300,共60(5×4×3)种试验。为减小随机误差,每种试验重复10次。应用SAS9.2模拟产生模型参数的真值,各参数设置如下:
能力参数θh~N(0,1),h=1,2,…,H,H=20,50,100,200,300
难度参数β0k~U(-1,1),k=1,2,…,K,K=5,8,10,15
区分度参数β1k~U(0,1),k=1,2,…,K,K=5,8,10,15
指标的分母nkh~U(a,b),k=1,2,…,K,h=1,2,…,H,H=20,50,100,200,300,a=30,b=100,200,300
为保证计算的指标使用率的稳定性,文献指出每家医院每个指标的分母至少为30,因此将指标分母的下限设为30[8-9]。
根据公式(2),将产生的参数真值θh、β0k和β1k代入式中,得到每家医院每个指标使用的概率pkh,再根据公式(1)和每家医院每个指标的分母nkh,得到每家医院每个指标的分子ykh。nkh和ykh构成了治疗质量评价中每家医院对每个指标的反应矩阵。
2.软件实现
3.评价标准
(1)秩相关系数:治疗质量综合评价的目的是将多个指标整合获得医院的综合质量得分,根据综合质量得分对医院进行排序,因此综合评价方法的选择是区分医院治疗质量优劣的关键。利用秩相关系数评价能力参数θh真值和估计值的一致性,秩相关系数越接近1,真值和估计值的一致性越高。秩相关系数大于0.990可认为基于IRT的治疗质量综合评价合理有效。
4.模拟结果
图1A,当5个指标评价20家医院的治疗质量,每家医院每个指标的分母上限为100时,能力参数估计值和真值的秩相关系数最小,为0.9964。随着医院数和每家医院每个指标分母上限的增加,秩相关系数逐渐增大。图1B、C和D,当指标数分别为8、10和15个时,秩相关系数的变化趋势与图1A相似,且随着指标数的增加,秩相关系数逐渐增大。秩相关系数在不同指标数间、不同医院数间和不同指标分母上限间的差别均有统计学意义,P<0.0001。经组间两两比较,当医院数增至100家、每家医院每个指标的分母上限增至200及指标数增至8个时,随着医院数、每家医院每个指标的分母上限和指标数的继续增加,秩相关系数的变化均无统计学意义。
不同试验中项目参数和能力参数的RMSE见表2。无论指标数和每家医院每个指标的分母上限多少,当医院数为20时,区分度参数和能力参数的RMSE几乎全部大于0.20;医院数为50时,少数RMSE大于0.20。除指标数不影响难度参数β0的RMSE大小外,不同指标数间β1和θ的RMSE及不同医院数间β0、β1和θ的RMSE差别均有统计学意义,P<0.0001。每家医院每个指标的分母上限对β0、β1和θ的RMSE的大小没有影响,P值分别为0.2373、0.9773和0.5977。不同医院数间两两比较,当医院数增至100时,随着医院数的继续增加,β0和β1的RMSE改变均无统计学意义;医院数增至200家时,随着医院数的继续增加,θ的RMSE改变无统计学意义。
每家医院每个指标的分母上限不影响项目参数和能力参数的估计,因此将不同指标分母的上限信息进行整合。不同医院数和不同指标数的项目参数和能力参数RMSE见图2。图2A,只有5个指标时,随着医院数的增加,β0、β1和θ的RMSE逐渐减小。图2B、C和D,当评价指标分别为8、10和15个时,β0、β1和θ的RMSE变化趋势与图2A相似,且随着指标数的增加,医院数越少RMSE越大。当医院数增至100时,无论指标数多少,β0、β1和θ的RMSE均小于0.20,且趋于稳定。
项目反应理论认为被试者的某种相对稳定的潜在特质或能力水平支配其对项目作出正确反应的概率,两者之间的关系可以用一个单调递增的函数表达[7,11]。在治疗质量评价中,被试者为医院,每家医院的治疗质量决定该家医院指标的使用情况。本研究通过模拟试验发现,在不同指标数和不同指标分母上限的情况下,医院数为20时,能力参数估计值和真值的秩相关系数均大于0.996;医院数增至50时,秩相关系数均大于0.999。研究表明基于项目反应理论的治疗质量综合评价合理有效,该综合评价方法能准确地区分医院治疗质量的优劣。在不同指标数和不同指标分母上限的情况下,医院数增至50时,项目参数和能力参数的RMSE基本减小至0.20以下,达到项目反应理论对测量精确性的要求。结合两个评价标准的结果推断,利用项目反应理论模型评价医院的治疗质量的最适样本量为至少调查50家医院,每家医院每个指标的分母在30~100范围。为保证模型更加有效,当评价的疾病指标数不足8个时,可适当增加每个指标的分母数。
每家医院每个指标的分母数包含于每家医院调查的患者数,nkh≤Nh。在K个指标中,若一个指标仅适用于P%的患者,其余指标适用的患者比例高于P%,为保证每个指标的分母在30~100范围,应选择研究期间内患者数在(30~100)/P%范围的医院。例如4个指标分别适合于70%、50%、80%和60%的患者,则每家医院调查的患者数应为100/50%=200个,不足200个患者的医院则调查该家医院研究期间内的所有患者,但也应保证至少30/50%=60个患者。
本研究利用贝叶斯对模型参数估计时,各参数的先验分布均设为正态分布。然而先验分布的选择在贝叶斯统计中至关重要,不同的先验分布可能获得不同的结论,下一步我们将研究先验分布的设置对模型有效性以及测量精度的影响。
[1]Reise SP,Waller NG.Fitting the two-parameter model to personality data.Applied Psychological Measurement,1990,14: 45-58.
[2]Osgood DW,McMorris BJ,Potenza MT.Analyzing multiple-item measures of crime and deviance I: Item Response Theory Scaling.Journal of Quantitative Criminology,2002,18: 267-296.
[3]韩耀风,郝元涛,方积乾.项目反应理论及其在生存质量研究中的应用.中国卫生统计,2006,23(6):562-565.
[4]Landrum MB,Bronskill SE,Normand SL.Analytic methods for constructing cross-sectional profiles of health care providers.Health Services Research and Outcomes Methodology,2000,1: 23-47.
[5]Shwartz M,Ren J,Pekoz EA,et al.Estimating a composite measure of hospital quality from the Hospital Compare database: differences when using a Bayesian hierarchical latent variable model versus denominator-based weights.Med Care,2008,46: 778-785.
[6]中国医院协会.单病种质量管理手册.北京:科学文献技术出版社,2008.
[7]李晓铭.项目反应理论的模型.心理发展与教育,1989,2:27-32.
[8]Rollow W,Lied TR,McGann P,et al.Assessment of the Medicare quality improvement organization program.Ann Intern Med,2006,145: 342-353.
[9]Williams SC,Koss RG,Morton DJ,Loeb JM.Performance of top-ranked heart care hospitals on evidence-based process measures.Circulation,2006,114: 558-564.
[10]崔胜鹏.正态双卵模型的Gibbs抽样算法.哈尔滨工业大学理学硕士学位论文,2013,31.
[11]李晓铭.项目反应理论的形成与基本理论假设.心理发展与教育,1989,1:25-31.
(责任编辑:邓 妍)
A Simulation Study on the Optimum Sample Size of Quality Assessment Based on Item Response Theory
Fu Rong,Su Shaofei,Bao Han,et al
(Department of Biostatistics,Harbin Medical University (150081),Harbin)
Objective To verify the validity of the assessment of quality of care based on item response theory model and to discuss the optimum sample size which ensured the validity and accuracy.Methods A latent model was developed according to the two-parameter logistic model and SAS was used to simulate the response matrix of compliance with each quality indicator at each hospital.Bayesian estimation was applied to estimate the parameters in the latent model withMCMCalgorithm.Spearman correlation coefficient andRMSEwere used to assess the validity and accuracy of model.Results In the different simulation trials,the spearman correlation coefficient between real and estimated value of ability parameter was all higher than 0.990.The spearman correlation coefficient increased gradually as the number of quality indicator,hospital and upper limit of denominator increased.TheRMSEof item parameter and ability parameter decreased gradually as the number of hospital increased and when the number of hospital increased to 100,all theRMSEwas smaller than 0.20 regardless of the number of quality indicator.Conclusion The assessment of quality of care based on item response theory model is valid.On the premise of ensuring the accuracy of model,the optimum sample size of quality assessment is at least 50 hospitals and the range of the denominator of each quality indicator at each hospital is from 30 to 100.When the number of quality indicator is less than 8,it should appropriately add the denominator of each quality indicator.
Quality of care;Synthetical evaluation;Item response theory;Bayesian estimation
国家自然科学基金项目(81273183);教育部博士点基金(20132307110028)
△通信作者:刘美娜;E-mail:liumeina369@163.com