林 悦,张杏姗,郭俊豪,陈文丹,万崇华,潘海燕△
(1.广东医科大学公共卫生学院,广东东莞 523808;2.广东医科大学生命质量与应用心理研究中心/生命质量与心理测评干预重点实验室,广东东莞 523808)
肾病综合征(nephrotic syndrome,NS)是指肾小球基膜通透性增加而引起的病理生理改变的慢性疾病综合征,主要表现为大量蛋白尿、低蛋白血症、水肿及高脂血症[1]。NS可见于任何年龄段,具有表现明显、病程长、治疗难度大且易复发等特点,降低了患者的生活质量[2-3]。据世界卫生组织统计显示,截至2019年全球因肾病而导致的死亡率已经从2000年的第13位上升至第10位,死亡人数从81.3万增加至130.0万左右,影响世界约11%的人口,对人类的健康造成严重危害。相关调查数据显示,在我国约有 1.4 亿人患有慢性肾病,且患者数量还在不断增多,情况不容乐观[4]。治疗NS的方法主要使用激素和免疫抑制剂,但往往伴随着高感染及多种不良反应发生风险,严重影响NS患者的生命质量[5-8]。患者的病情如果没有得到及时控制,则会损害肾脏的正常功能,病情严重时会使得肾脏衰竭,因此治疗肾脏疾病的疗程较长,对患者的身体、心理、精神等造成不同程度的影响。因此,如何促使患者生命质量得到提升至关重要。
随着现代医学的不断进步,医学模式发生了重大改变,人们逐渐从生物、心理、社会等不同层面入手来重新认识人类疾病与健康[9]。目前,可用于调研NS患者生命质量的量表种类和分类较为复杂多样,如普适性量表少儿主观生活质量问卷[10]、多维工具的儿童生活质量问卷(PedsQLTM4.0)[11]、生活质量测定量表[12]、健康调查简表(SF-36)[13]等,这些普适性量表通常存在以下问题:(1)无法将患者群的疾病特点悉数展现,在反映患者生命质量改变的程度方面较差;(2)面对众多量表,科研人员在选择合适的量表作为调查工具时存在一定的难度;(3)部分量表由国外学者研制,与我国经济、文化、教育等差异较大。为此,本研究团队研制出了慢性疾病之肾病综合征生命质量测定[quality of life instruments for chronic diseases-nephrotic syndrome,QLICD-NS(V2.0)]量表[14],包含生理功能、心理功能、社会功能、特异模块4个领域,特异模块包含 15 个条目,条目内容包括临床症状、药物不良反应和心理影响3个方面,各领域和总量表的 Cronbach’s α 系数和分半信度均>0.70;以中文版SF-36为校标,QLICD-NS(V2.0)量表各领域与其类似领域的相关性较高。除认知、社会支持条目,其余领域或条目标准反应均数(SRM)均>0.80,尚可认为 QLICD-NS(V2.0)量表的反应度良好。然而以上经典测量理论的测评有一定的局限性[15-16]。
概化理论(generalizability theory,GT)属于现代测量理论的一种,可体现量表中每个领域或侧面的信度,同时结合方差分析的固有属性,获得量表的概化系数和可靠性指数[17]。项目反应理论(item response theory,IRT)也属于现代测量理论的一种,它是从微观的角度去分析每一条条目的特性,分析被调查者潜在特质与条目之间的关系,可用于分析量表条目的难易程度、区分度等特征[18]。因此,本文采取GT和IRT对量表条目进行深入分析。
选取2020年6月至2021年11月广东医科大学附属医院肾病内科就诊的NS患者为调查对象。纳入标准:(1)符合NS的诊断标准;(2)小学文化程度及以上,患者具有阅读、理解能力,能够自行或协助完成问卷(若为未成年患者,在获得监护人知情同意后由监护人协助患儿填写问卷);(3)非病重病危、未伴发其他严重疾病。排除标准:(1)患有精神疾病,思维意识混乱等患者;(2)文盲;(3)拒绝配合调查的患者。调研人员对患者简单说明调查目的及填写方法,征得患者同意后(若为未成年患者,需获得监护人的知情同意),分发调查表[即QLICD-NS(V2.0)量表]给患者,患者完成填写后回收调查表并核对调查表是否有缺漏项,若发现有则现场让患者补充。选择部分患者进行第2次测定,使用与第1次调查相同的调查表,目的是计算重测信度。患者出院当天完成第3次测量,填写与之前相同的调查表,同时,调查人员记录患者的相应临床客观指标结果。本研究取得广东医科大学附属医院伦理委员会的伦理审批(审批号:PJ2014040),患者均对本研究知情同意。
1.2.1调查方法
基于GT的量表考评:采用随机单面交叉设计的方式,根据患者的不同、每个领域对应的条目不同等因素,估量出患者在每个潜在能力因素上的总体分数,以及对应的相对或绝对误差、概化系数和可靠性指数,最后依据分析结果做出判断[19]。研究过程分为两个方面:G研究与D研究,G研究着重于较全面地预计测评过程中误差原因的差异分量,D研究是按照多项指标做出决策。GT的符号、含义及计算方法见表1。
表1 GT中的符号及含义
基于IRT的量表考评。IRT能弥补经典测量理论存在缺陷:(1)对条目和量表测量信息的评估取决于样本量的大小和其他特征,而这些特征的任何变化都会影响量表的测量属性;(2)结合测试者总体与条目属性特点,无法体现微观层面的信息。而IRT能弥补上述不足,分析被测者潜在特质与条目之间的关系,综合体现条目的难易程度、区分度等特征,减少整个量表的错误性和不稳定性。量表信息通常以5作为标准,5/k(k为条目数)作为每个条目的平均信息量,大于5/k则表明条目质量较好[20]。本研究基于等级反应模型(GRM)构建QLICD-NS(V2.0)量表的特异模块部分的IRT模型参数。MULTILOG7.0软件完成对IRT模型参数的计算。
1.2.2最小临床重要性差值(minimal clinically important difference,MCID)的制订方法
分布法是指依据治疗前、后量表分数的差异分布情况得到MCID,采用以下统计指标观察分布变化状况。本研究运用的统计指标为效应大小(effect size,ES)、标准差法(standard deviation,SD)、标准测量误差(standard error of measurement,SEM)及可靠性变化指数(reliable change index,RCI)。根据Y轴上的灵敏度(真阳性率)与X轴上的1-特异度(假阳性率)绘制受试者工作特征(receiver operating characteristic,ROC)曲线[21],将Youden指数最大时的截断点作为MCID参考值。
2.1.1G研究结果
各效应对角线上的值是其在相应领域上的方差分量估计,4个领域的被试方差分量分别为0.22、0.49、0.22和0.20;条目方差分量为0.20、0.35、0.72和0.19;被试和条目的交互作用(p*i)的方差分量分别为0.84、0.63、1.59、1.46。除社会功能外,被试方差分量均大于条目方差分量,说明条目质量较好,见表2。
表2 效应的方差和协方差分量矩阵
2.1.2D研究结果
4个领域的概化系数均>0.50;除社会功能外,其他领域的可靠性指数也均>0.50;每个领域的相对和绝对误差方差<0.30,说明4个领域的信度良好,QLICD-NS(V2.0)量表测量结果较为准确,见表3。根据各领域赋分贡献比可知心理功能和特异模块的比例高于其他领域,说明这两个领域在整体QLICD-NS(V2.0)量表分析患者生命质量中占较重要的位置。研究4个领域的绝对误差方差贡献比发现,特异模块的绝对误差方差贡献比最小,表明此领域的条目质量较佳。总的来说,4个领域的全域总分贡献比分布较恰当,能够达到测量患者生命质量的目标,见表4。将条目数减半和加倍以探究概化系数和可靠性指数的变化,结果显示在原始条目数中(总量表为43个条目),除社会功能外,其余领域的可靠性指数均>0.50;当条目数为原始的一半时(总量表为23个条目),只有心理功能的可靠性指数>0.50;当条目数为原始的双倍时(总量表为86个条目),各领域的可靠性指数为0.60~0.92。随着条目数的增加,每个领域的概化系数和可靠性指数依次增加,见表5。
表3 基于多元GT D研究结果
表4 QLICD-NS(V2.0)各领域的条目数比例、赋分贡献比、方差贡献比比较
表5 QLICD-NS(V2.0)不同条目数的概化系数及可靠性指数
2.2.1特异模块各条目参数估计值
在IRT研究中,区分度的取值在0~2,当区分度<0.30时,可认为该条目区分度较低;难度Bi(i取值1、2、3、4)的取值一般认为在-3~3,且B1~B4为单调递增,若Bi<-3,表示条目过于容易,若Bi>3,表示条目非常难。根据结果可知,QLICD-NS(V2.0)量表特异模块的区分度为0.82,各条目区分度较好;TNS7(您尿液有出现泡沫吗?)的难度B3和B4均>3,TNS8(您有血尿吗?)的难度均<-3,这两个条目难度设置较不合理,其余条目的难度系数均在-3~3且呈单调递增,尚可认为QLICD-NS(V2.0)量表特异模块的条目难度适宜,见表6。
表6 QLICD-NS(V2.0)量表特异模块中各条目的区分度和难度
2.2.2特异模块各条目信息量估计值
在条目信息量的估计,以5作为QLICD-NS(V2.0)量表总体信息量标准,5/k作为每个条目的平均信息量标准,既可以满足内部一致性要求,又可以满足重测信度要求。QLICD-NS(V2.0)量表共计43个条目,因此单个条目信息量标准为0.12。由结果可知,TNS5(您有尿频、尿急或尿痛吗?)、TNS8(您有血尿吗?)的平均信息量<0.12,条目有待改进,其余条目的平均信息量值>0.12,达到标准,可认为条目质量良好,见表7。
表7 QLICD-NS(V2.0)量表特异模块中各条目信息量
根据QLICD-NS(V2.0)量表各领域得分分布差异的情况,采用几个效应统计指标估计MCID。本研究采用ES、SD、SEM及RCI 4个指标计算MCID。其中,ES分别取0.2(差异弱)、0.5(差异中等)、0.8(差异强),SEM、RCI都分别取1.00(效应低)、1.96(效应中等)、2.77(效应高),见表8。以SF-36量表的Q1为标准锚,根据第1次和第3次Q1的得分变化作为分组条件,若两次得分的差值>0,则为变化组;若≤0,则为无变化组。将QLICD-NS(V2.0)量表各领域和总量表治疗前、后得分差值的绝对值作为检验变量,构建ROC曲线,取ROC曲线中Youden指数最大时所对应的点作为MCID。ROC曲线见图1,根据图1和表9的结果可知,QLICD-NS(V2.0)量表各领域和总量表得分的ROC曲线下面积(AUC)≥0.50,说明该项检验的诊断效能尚可。各领域的MCID分别为8.33、4.55、7.81、13.84、18.33,总量表的MCID为12.50,见表9。
图1 各领域及总量表ROC曲线对比图
表8 分布法制订的MCID
表9 ROC曲线法制定MCID
本研究采用GT和IRT两种方法对QLICD-NS(V2.0)量表条目进行分析,二者有不同的假设和计算方法。研究表明,在量表设计中,IRT在处理被访者与问项间的实质性关系等微观问题时更显出色,GT 在处理对结果作推论等宏观问题时优势较明显[22]。
GT联合经典测量理论和方差分析的能力,分析测量过程中变异的来源,测量行为的可靠性,探究QLICD-NS(V2.0)量表各侧面对调查对象的影响程度。从GT的结果看,G研究采用多元方差分析估计方差和协方差分量,其通过分析各领域的概化系数和可靠性指数的变化,为决策提供依据。G研究结果显示特异模块的被试和条目的交互作用(p*i)及被试的方差分量较大,而条目的方差所占的方差分量较小,说明特异模块能较好体现患者的健康情况。D研究结果表明4个领域的概化系数均>0.50,除社会功能外,其他领域的可靠性指数均>0.50,社会功能的可靠性指数偏小,可能因为这次测量过程中患者的社会功能领域没有较大的变化,每个领域的相对和绝对误差方差<0.30,各领域的全域总分方差贡献比分布较合理,可认为QLICD-NS(V2.0)量表信度尚可。通过改变量表条目数观察其对信度的影响,虽然各领域的概化系数、可靠性指数会随着条目数增加而改变,但条目数过多增加患者填写问卷的时间,会导致问卷质量的降低,实施的可能性不高,因此原条目数较合适。
IRT能表示一个项目如何区分能力水平不同的人,项目参数涵盖信息参数,它可以增加整个量表的可靠信息和有效性。从IRT 分析结果上来看,QLICD-NS(V2.0)量表特异模块的区分度为0.82,各条目区分度较好;TNS7(您尿液有出现泡沫吗?)难度偏大,由于大多数患者平时较少关注尿液是否存在泡沫,填写QLICD-NS(V2.0)量表时多选择一般这个选项,而TNS8(您有血尿吗?)的难度偏小,本次调研发现患者存在血尿的状况很少,多选择无这个选项,两个条目未能较好体现患者的真实健康情况,其余条目的难度系数均在-3~3且呈单调递增,尚可认为QLICD-NS(V2.0)量表特异模块的条目难度适宜。本次研究的单个条目信息量标准为0.12,其中TNS5和TNS8的信息量<0.12,条目有待改进,其余条目的平均信息量值达到0.12的标准,可认为条目质量良好。
高MCID可能会被错误地认为治疗或干预对患者不存在效果,但治疗或干预是有效的,低MCID则为高估治疗的效果,因此中等MCID较为合适[23]。由于分布法需要较大的样本量,本研究样本量未达到此要求,则选取锚法的结果作为本研究MCID估计值。QLICD-NS(V2.0)量表各领域的MCID值分别是5.56、4.55、9.38、3.57、10.89,总量表的MCID为4.65。
综上所述,本研究采用了GT与IRT两种方法对QLICD-NS(V2.0)量表的条目进行特性分析,提高了条目的代表性和可靠性。本研究存在不足:(1)调查对象均为同一医院的住院患者,未能纳入其他医院或社区患者;(2)调查患者均为汉族。除此之外,由于人力物力原因,本研究仅调查了203例NS患者,不满足样本量大的要求,不利于获得稳定可靠的结果,可能会使得条目的平均信息量偏低,但是符合样本量要求[24]。但仍然建议对测试版QLICD-NS(V2.0)量表修改后,增加调查患者的范围和样本量。
致谢:诚挚感谢广东医科大学附属医院为本研究提供了宝贵的病例支持!