基于共识的健康测量工具选择标准在患者报告结局测量工具评价中的临床应用进展

2021-12-10 00:29蔡婷婷杨瑒朱瑞倪飞霞黄青梅夏浩志袁长蓉
护士进修杂志 2021年22期
关键词:效度信度一致性

蔡婷婷 杨瑒,2 朱瑞 倪飞霞 黄青梅 夏浩志 袁长蓉

(1.复旦大学护理学院,上海 200032;2.复旦大学附属肿瘤医院,上海 200032)

患者报告结局测量工具(Patient-reported outcome measures,PROMs)在慢性病患者的评估、干预及疗效评价等方面发挥了重要作用[1-2]。与其他测量工具相比,PROMs从患者的角度直接反映了疾病和治疗的影响,可便捷地评估患者的症状及功能变化,并促进患者参与医疗决策。当前PROMs已形成了一系列生理、心理及社会健康领域的标准化测量工具[3]。随着PROMs的研制及应用研究的增加,如何准确地评估测量工具的测量属性,推动评估工具在临床的有效应用及推广有待探讨。基于共识的健康测量工具选择标准(Consensus-based standards for the selection of health measurement instruments,COSMIN)旨在针对测量工具研制及检验过程的方法学质量及测量指标进行评价,从而帮助研究者选择最合适的健康测量工具[4]。目前,COSMIN在PROMs的测量性能评价中发挥了重要作用。本研究旨在综述COSMIN在PROMs评价中的应用进展,以期为完善PROMs的发展及应用提供借鉴。

1 COSMIN概述

健康测量工具选择标准共识指导委员会于2010年对来自21个国家的心理测量学专家的德尔菲专家咨询形成COSMIN指南,并于2018年对内容进行更新[5]。COSMIN指南旨在从方法学及测量指标的优劣性等方面对测量工具的测量属性进行评价,进而筛选出符合研究目的的高质量测量工具[6]。COSMIN指南已被较多应用于形成PROMs的推荐意见。该指南指出PROMs的系统评价包括文献检索及纳入、评价PROMs的测量属性及选择PROMs工具3个关键阶段,可细化为10个步骤,其中步骤1~4包括准备和进行文献检索、选择相关研究;步骤5~8聚焦于对测量工具的质量、测量属性、可解释性和可行性进行评价;步骤9~10则涉及制定推荐建议和讨论系统评价的结果[7]。其中,PROMs的测量属性需对其内容效度、内部结构及其他测量属性进行评价。内容效度包括PROMs的开发及内容效度;内部结构包含结构效度、内部一致性、跨文化效度/测量不变性;其他属性则涵盖信度、测量误差、校标效度、结构效度的假设检验及反应性。每个框目采用5级评分,包括“非常好”“充分”“不确定”“不充分”“不适用”。研究者可综合每个框目的评价内容,使用COSMIN测量属性标准对PROMs每种测量属性的证据质量进行评价,形成“高”“中”“低”和“极低”的推荐意见[8]。此外,需进一步评价PROMs的可解释性和适用性,结合所研究领域制定PROMs的推荐等级,分别为A类(推荐使用)、B类(有应用潜力,仍需进一步评估)及C类(不推荐使用)。

2 成人患者

2.1在肿瘤患者中的应用 Bull等[9]对应用于儿童期确诊脑部肿瘤或其他获得性脑损伤患者PROMs的测量属性进行了系统评价。该研究纳入了8项研究,共4种PROMs:包括健康效用指数(Health utilities index,HUI)、儿童生活质量核心模块(PedsQL core modules)、儿童生活质量脑部肿瘤模块(PedsQL brain tumor modules)、儿童和家庭随访调查(Child and family follow-up survey,CFFS)。其中,只有CFFS具有内部一致性、建构效度和结构效度的证据支持,而儿童生活质量核心模块及儿童生活质量脑部肿瘤模块的内部一致性未达成一致结果。HUI和儿童生活质量核心模块所报告的重测信度结果不一致。HUI和CFFS的测量误差得到证据支持,而其余2个测量工具则未报告相关结果。4个PROMs的结构效度及假设检验均得到证据支持,但反应度未报告结果。因此上述PROMs在内部一致性、反应度等方面的测量属性需要得到进一步评估。Dobbs等[10]评价了面部皮肤癌患者24项研究中的11种PROMs。其中,头颈部手术患者结局(Patient outcome of surgery-head/neck,POS-H/N)、皮肤癌指数(Skin cancer index,SCI)、皮肤癌生活质量工具(Skin cancer quality of life impact tool,SCQOLIT)与其他测量工具相比获得了最充分的证据支持。但上述PROMs与皮肤癌面部重建患者得分的相关性有待提升。Gondivkar等[11]评价了7项口腔癌患者研究中的6种PROMs,包含1个疾病特异性PROMs和5个普适性PROMs。结果显示,上述测量工具均未系统完成COSMIN要求的测量属性内容,而口腔癌生活质量问卷(Oral cancer quality-of-life questionnaire,QOL-OC)在上述PROMs中表现出最佳的测量属性。

2.2慢性病患者中的应用

2.2.1呼吸系统疾病 Gagné等[12]系统评价了应用于吸入维持药物治疗哮喘患者的PROMs的测量属性。该研究纳入了14种PROMs,评价其内部一致性、信度、测量误差、内容效度、结构效度、假设检验、跨文化效度、校标效度和反应度。但上述研究均未评估PROMs的测量误差。结果表明,一些PROMs在内在一致性、结构效度方面表现良好,但部分PROMs未取得理想的结果:如依从性问卷(Adherence questionnaire)的假设检验、哮喘依从性报告量表(Medication adherence report scale for asthma)的信度和校标效度、吸入器依从性测试(Test of the adherence to inhalers)的校标效度有待获得更多证据支持。Lloyd等[13]评价了应用于社区获得性肺炎患者的PROMs的测量属性。该研究共纳入42篇文章,评价了17种PROMs。其中5种为社区获得性肺炎患者特异性的PROMs,6种为普适性的PROMs,6种是针对其他疾病的PROMs。健康调查简表(MOS item short from health survey,SF-36)是最常使用的工具。结果显示,大多数在该群体应用的PROMs未达到COSMIN的测量属性要求,有待改进。

2.2.2泌尿系统疾病 Aiyegbusi等[14]分析了66篇应用于慢性肾脏病患者的PROMs。其中,肾脏疾病生活质量量表-36(Kidney disease quality of life-36,KDQOL-36)在应用于透析前患者时其内部一致性获得高质量证据支持,结构效度获得中等质量证据支持。在透析患者的应用中,KDQOL-36的内部一致性、重测信度和结构效度证据均为中等,KDQOL简表(KDQOL-short form,KDQOL-SF)的内部一致性和结构效度获得高质量证据支持,其重测信度和结构效度获得中等质量证据支持。在肾脏移植患者的应用中,终末期肾脏疾病症状清单移植模块(End stage renal disease-symptom checklist transplantation module,ESRD-SCLTM)的内部一致性、重测信度和结构效度获得中等质量证据支持。

Sullivan等[15]评估应用于尿道下裂患者群体生活质量测量的PROMs的测量属性。该系统评价共纳入32项研究,共5种PROMs:尿道下裂客观评分(Hypospadias objective scoring evaluation,HOSE)、儿童阴茎感受评分(Pediatric penile perception score,PPPS)、阴茎感受评分(Penile perception score,PPS)、成人生殖器感受量表(Genital perception scale for adults)和儿童/青少年生殖器感受量表(Genital perception scale for children/adolescents)。大多数PROMs关注术后美容满意度,仅一个测量工具测评泌尿功能,而未有PROMs评估性功能、心理及社会方面的影响。

Gabes等[16]评估了应用于测评绝经后女性泌尿生殖系统症状的PROMs的测量属性,共纳入9篇文章的4种PROMs。其中,阴道症状问卷(Vulvovaginal symptoms questionnaire)和阴道萎缩问卷(Vaginal aging questionnaire)为推荐使用的PROMs。这2种PROMs均显示了中到高质量的证据,具有良好的建构效度、内部一致性和结构效度。泌尿生殖道萎缩患者生活质量(Urogenital atrophy quality of life,UGAQoL)和泌尿生殖症状量表(Urogenital symptom scale)则不推荐在该群体中使用。

2.2.3内分泌系统疾病 Janssen等[17]纳入了27个在糖尿病患者中应用的研究,涉及13种PROMs。研究显示,糖尿病自我管理量表(Diabetes self-management instrument)具有最佳的内容效度,并在相关性、全面性和可理解性方面有中等质量证据支持。糖尿病自我管理量表在结构效度和内部一致性方面有中等质量证据支持,在假设检验的聚合效度方面有高质量证据支持,但在信度方面证据质量较低。修订后的糖尿病自我护理行为量表(Summary of diabetes self-care activities-revised)是最简短且最常用的工具,有高质量证据支持其结构效度及内部一致性。该量表具有应用潜力,但需进一步评估,须考虑相对低的内容效度,并进一步评估该测量工具的测量误差及反应度。Janssen等[17]的系统评价还评估了应用于痛风患者的PROMs的信度、反应度、结构效度、天花板效应及地板效应。该研究纳入了13种PROMs,其中3种PROMs是痛风患者的特异性测量工具。结果显示:大多数PROMs具有良好的内容效度,但结构效度及信度的证据较少。评估疼痛的PROMs在反应度、天花板效应及地板效应上具有良好性能,但在痛风群体中的信度信息有待进一步验证。此外,健康调查简表(MOS item short from health survey,SF-36)的生理功能分量表是唯一满足所有测量属性的测量工具。因此,该研究提出,许多在痛风患者群体中常用的PROMs尚未获得良好的证据支持,有待在急性和慢性痛风人群中进行更深入的研究,以获得准确的测量属性信息。

2.2.4风湿系统疾病 Ingegnoli等[18]纳入了系统性硬化病患者的23项研究,对7种系统性硬化病特异性PROMs的测量属性进行评价,包括疾病负担指数(Symptom burden index)、硬化病评估问卷(Scleroderma assessment questionnaire)、硬化病功能评分(Scleroderma functional score)、雷诺现象评分(Raynaud’s condition score)、系统性硬化病口腔障碍(Mouth handicap in systemicsclerosis)、加州大学洛杉矶分校硬皮病临床试验联盟胃肠道问卷(University of California LosAngeles-scleroderma clinical trial consortium gastrointestinal tract)、皮肤症状(Skin self-assessment)。结果提示:上述PROMs均尚未达到或部分达到COSMIN指南的测量属性要求。

2.2.5骨关节病系统 Gagnier等[19]对应用于全膝关节置换术患者中的PROMs的测量学特性进行系统评价。该研究纳入了32种PROMs工具,结果显示,美国西部Ontario和McMaster大学骨关节炎指数(Oxford knee score and the Western Ontario and McMaster Universities arthritis index,WOMAC)在4种及以上测量属性上表现最佳。McKeown等[20]纳入了6项踝关节骨折患者研究中的3种PROMs,包括踝关节骨折康复结局量表(Ankle fracture outcome of rehabilitation measure,A-FORM),Olerud 和Molander 关节骨折疗效评分系统(Olerud-Molander ankle score,OMAS)和AAOS足部和踝关节结果问卷(Foot and ankle outcome questionnaire,AAOS)。其中,A-FORM在患者人体中的开发过程较为严谨,但在形成正式调查工具后的检验信息较少。OMAS具有信度、内在一致性及结构效度的高质量证据支持,而AAOS在结构效度方面存在局限性。

Abram等[21]评价了11项半月板撕裂患者研究中的PROMs的测量属性。结果显示,对于症状和功能状态的测量,只有有限的证据支持选择Lysholm膝关节评分(Lysholm knee scale international knee documentation committee subjective knee form)及荷兰版膝关节损伤与骨关节炎结局评分(the Dutch version of the Knee injury and osteoarthritis outcome score)。在测量健康相关生活质量的研究中,只有有限的证据支持选择安大略西部半月板评估工具(Western ontario meniscal evaluation tool,WOMET)。在所有被评估的PROMs中,WOMET的内容效度最佳。Gagnier等[22]纳入了41项应用于前交叉韧带损伤患者研究中的24种PROMs的测量属性。研究显示,IKDC膝关节主观评估系统(International knee documentation committee form)及骨关节炎结局评分(Osteoarthritis outcome score,KOOS)是最常用的评估工具。ACL-受伤后恢复运动量表(ACL-return to sport after injury scale,ACLRSI)在6项测量指标上得到高质量证据支持,是测量属性最佳的测量工具。

Lundgren-Nilsson等[23]评价了78种应用于骨关节炎患者中的PROMs的测量属性。结果显示,最常用的PROMs为西安大略麦克马斯特骨关节炎指数(Western Ontario McMaster Osteoarthritis index)、健康调查简表(MOS item short from health survey,SF-36)、膝关节损伤和骨关节炎评分(Knee disability and osteoarthritis outcome score),且大多数测量领域至少有一个高质量证据支持其测量属性。但在一些重要的领域,如自我效能感领域,PROMs的测量属性有待提升。Png等[24]纳入了应用于脊柱关节炎患者的PROMs,从125项研究中确定了60种PROMs的测量属性。其中,41.7%的研究对象是强直性脊柱炎患者,23.3%的研究对象是银屑病性关节炎。强直性脊柱炎生活质量(Ankylosing spondylitis quality of life,ASQoL)和巴斯强直性脊柱炎功能指数(Bath ankylosing spondylitis functional index,BASF)在强直性脊柱炎中应用广泛,而银屑病关节炎生活质量问卷(Psoriatic arthritis quality of life questionnaire)在银屑病性关节炎患者中应用广泛。上述纳入的研究验证了PROMs结构效度的假设检验(82.4%)及内在一致性(60.0%)。在对PROMs的假设检验评价的研究中,有77.7%的研究具有中等质量证据支持。该研究提出未来应在更多的脊柱关节炎群体中检验PROMs,并提高其测量属性。

3 儿童患者

Crudgington等[25]评估了应用于儿童癫痫患者健康相关生活质量测量的PROMs的测量属性。该研究确定了27项研究,共11种PROMs。结果显示,结构效度、重测信度和内部一致性在上述PROMs的评价中较常见。儿童癫痫生活质量问卷(Quality of life in childhood epilepsy,QoLCE)的家长报告版本较其他测量工具使用次数更多。QoLCE在结构效度、建构效度以及内部一致性方面具有高质量的证据支持。儿童癫痫患者健康相关生活质量测量(Health-related quality of life measure for children with epilepsy,CHEQoL)的儿童和家长报告版本的内容效度、结构效度和建构效度均有高质量证据支持,推荐儿童癫痫患者使用。

4 小结

通过COSMIN指南对PROMs在不同疾病中的测量属性进行评价,发现PROMs研发及检验中存在的问题,筛选出高质量的测量工具,对PROMs的研制、检验及应用具有重要的指导意义。较多研究关注应用于肿瘤患者、慢性病患者及儿童患者的PROMs的测量属性评价。PROMs在一些疾病群体中的应用尚未取得满意的效果,且测量属性评价内容存在较大差异,常见的指标如内在一致性、结构效度虽已较多得到检验,而重测信度、校标效度、结构效度的假设检验、测量误差、反应度等测量内容的检验则较为缺乏。研究者可明确PROMs目前存在哪些测量属性,针对研究目的灵活选择对应的框目。此外,目前少见基于COSMIN指南的儿童患者PROMs的相关评价研究,有待完善。今后PROMs的研制及测量学检验应更重视COSMIN指南的指导作用以减少偏倚,关注PROMs的重测信度、校标效度、结构效度的假设检验、测量误差、反应度等测量属性,并扩大检验群体,以形成具有良好测量属性的PROMs,更准确地评估患者的症状及功能变化。

猜你喜欢
效度信度一致性
注重整体设计 凸显数与运算的一致性
商用车CCC认证一致性控制计划应用
平衡损失函数下具有两水平共同效应的信度模型
净保费在平衡损失函数下的回归信度估计∗
Why do we celebrate the New Year?
问卷是否可信
——基于体育核心期刊论文(2010—2018年)的系统分析
Beep test评估11~15岁少年游泳运动员有氧能力的效度研究
谈高效课堂下效度的提升策略
巧用模型法提高科学课堂教学的效度
基于事件触发的多智能体输入饱和一致性控制