COSMIN方法介绍:制作患者报告结局测量工具的系统评价

2021-05-11 09:03陈祎婷彭健沈蓝君胡雁余桂星李铮
护士进修杂志 2021年8期
关键词:内容效度效度证据

陈祎婷 彭健,2 沈蓝君,3 胡雁,2 余桂星 李铮

(1.复旦大学护理学院,上海 200032;2.复旦大学循证护理中心,上海 200032;3.复旦大学附属华东医院,上海 200040;4.厦门大学附属翔安医院,福建 厦门 361102)

随着患者在医疗服务选择中的自主权占比日益增加,患者可通过自己的认知和判断对自我结局进行评估与审查[1],患者报告结局(Patient reported outcomes,PROs)即来自于患者对其自身健康状况的直接测量[2],为适应此现状,医学工作者们提出了患者报告结局测量工具(Patient reported mutcome measures,PROMs),但现有的PROMs质量不一,研究者很难判断应用的PROMs是否为最佳选择,因此,对PROMs展开高质量的系统评价至关重要[3]。PROMs系统评价数量从20世纪90年代初的每年增加不到1篇,发展到目前每年增加超过100篇[3],但方法学质量仍有很大改进空间[4]。由荷兰、美国和西班牙等研究机构的心理测量学专家组成的COSMIN(Consensus-based standards for the selection of health measurement instruments,COSMIN)指导委员会提出了基于共识选择健康测量工具的标准COSMIN[5],在现有PROMs系统评价的基础上提出COSMIN方法,详细阐述了如何制作规范的PROMs系统评价并形成最终推荐意见,以指导临床实践者与研究者选择最佳PROMs[3]。本文旨在介绍COSMIN方法,以期为国内研究者制作PROMs系统评价提供参考。

1 COSMIN相关概念

1.1相关术语与定义 2006-2007年,COSMIN进行了第1次德尔菲研究,明确了PROMs测量属性的类型和定义[3]。COSMIN将PROMs测量属性分为3个维度,即信度、效度和反应度,其中信度维度包括稳定性、内部一致性与测量误差;效度维度包括内容效度、构念效度与效标效度。COSMIN对于PROMs测量属性的分类,见图1;各维度具体定义,见表1。

1.2相关概念辨析

1.2.1构念效度的翻译 本文将Construct译作构念。“Construct”译法繁多[6],其中“构念”强调建造、创造、人为,且包含了结构(Structure)这层意思,又与“结构效度(Structure validity)”相区分,故本文将“construct validity”译作“构念效度”。

表1 PROMs测量属性的定义

图1 PROMs测量属性的分类

1.2.2构念效度与结构效度的区分及假设检验含义 构念效度指研究者在PROMs真实反映所测构念的前提下可制定假设,此时PROMs得分与所制定假设的吻合程度,包含结构效度、假设检验与跨文化效度/测量不变性3种测量属性,假设分3种,(1)结构效度:PROMs结构(维度)的假设。(2)聚合/区分效度:与其他测量工具关系的假设。(3)已知组别效度:不同亚组间差异的假设。构念效度包含结构效度,范围更广。而结构效度仅指PROMs维度与所测构念维度的吻合程度,仅反应PROMs总体结构是否适合所测构念。 假设检验是验证构念效度的一种方法。假设越具体,被检验的假设越多,就有越多证据证明测量工具的构念效度。评估构念效度的假设包括两类:与其他测量工具的关系假设即聚合/区分效度[7],与对不同亚组间差异的假设即已知组别效度。

1.2.3信度与稳定性 信度与稳定性的原文均为Reliability,但信度较广泛,指PROMs不受测量误差影响的程度,包含稳定性、内部一致性与测量误差。稳定性是信度的下属测量属性,指对同一受试者采用同样方法重复测量时所得结果的一致性程度,包含重测信度、评定者间信度与评定者(或受试者)内信度。

2 COSMIN系统评价制作流程

COSMIN将PROMs系统评价的制作分为3个阶段,10项步骤,见图2。阶段一为进行文献检索,含步骤1~4,内容是明确系统评价目的、制定纳入和排除标准、实施文献检索和获取与筛选文献。阶段二为评价PROMs测量属性,含步骤5~7,每个步骤均可分3部分:(1)应用COSMIN偏倚风险清单评价每项研究的偏倚风险。(2)应用COSMIN质量准则评价PROMs测量属性质量。(3)汇总PROMs测量属性的评价结果,运用GRADE系统形成推荐等级。阶段三为选择PROMs,含步骤8~10,内容是描述可解释性和适用性、形成PROMs推荐意见及报告系统评价。

图2 COSMIN系统评价流程

2.1阶段一 进行文献检索。

2.1.1步骤1:明确系统评价目的 制作PROMs系统评价时需明确4个关键要素:(1)PROMs所测构念。(2)目标人群。(3)PROMs类型(如他评或自评PROMs)。(4)感兴趣的测量属性。如某系统评价是为了评价成人脑卒中患者疲劳程度自评PROMs所有测量属性的质量,那么其感兴趣的构念是“疲劳”,目标人群是“成人脑卒中患者”,PROMs类型是“自评量表”,感兴趣的是 “所有”测量属性。

2.1.2步骤2:制定纳入和排除标准 纳入标准:(1)PROMs须符合研究者关注的构念。(2)研究样本能代表目标人群。(3)研究与PROMs有关。(4)研究目的是PROMs测量属性评价或PROMs研发与可解释性说明等。排除将PROMs作为结果测量工具(如干预性研究)或作为另一种PROMs效度检验标准的研究。

2.1.3步骤3:实施文献检索 建议至少检索Medline与Embase,自行选择其他数据库。检索词应包括相关主题词与自由词,并含4个关键要素(所测构念、目标人群、类型与测量属性)。不建议对语种设限。检索时可用Terwee等人开发的用于检索PROMs的PubMed过滤器[8]。

2.1.4步骤4:获取与筛选文献 检索完成后,需双人独立筛选文献,若2名研究者无法达成共识,则咨询第三方。为确保纳入尽可能全的文献,可采用追溯参考文献及咨询专家的方式。此外,应呈现筛选流程图(同PRISMA)。

2.2阶段二 评价PROMs测量属性。由于某些测量属性的重要性(如内容效度可能最重要)及各测量属性间可能存在相关性(如结构效度有助于解释内部一致性系数),COSMIN推荐先评内容效度,再评内部结构,最后评其他测量属性。每种测量属性评价包括3部分:(1)应用COSMIN偏倚风险清单评价每项研究的偏倚风险。(2)应用COSMIN质量准则评价PROMs每种测量属性的证据质量。(3)汇总PROMs测量属性评价结果,用GRADE系统形成推荐等级。首先,应用COSMIN偏倚风险清单评价每项研究的偏倚风险。PROMs测量属性研究在研究设计和统计分析中出现缺陷,会导致研究结果严重受影响而产生偏倚。据测量属性分类及评价顺序,COSMIN偏倚风险清单分为3部分,共10个框目,见表2。

表2 COSMIN偏倚风险清单的结构

其次,应用COSMIN质量准则评价PROMs每种测量属性的证据质量。测量属性质量指测量属性是否“好”,需与 “质量准则”比较。如在重测信度研究中,若加权Kappa系数≥0.70,则表明重测信度良好[4]。完成纳入研究的偏倚风险评价后,由两位研究者独立提取研究中涉及的PROMs数据信息,包括样本特征、测量属性结果、可解释性与适用性等。PROMs某一测量属性的所有数据信息汇总称为该测量属性的证据,应用COSMIN质量准则(Quality criteria)评价该证据质量,获得各测量属性的证据质量。

最后,用改良的GRADE方法对上述证据质量评级,反映证据质量的确信程度。COSMIN改良了传统GRADE系统[9],以偏倚风险、不一致性、不精确性(不适用于内容效度评级)和间接性四个因素对每种测量属性的证据质量进行评级(具体参见本系列其他文章)。改良的GRADE系统假设初始证据质量均为高等级,当存在偏倚风险、不一致、不精确或间接性时,降低证据推荐等级。等级评价由两位研究员独立完成,必要时询问第3方意见。证据结果需进行定量合成与定性总结,制成结果总结表,以便在特定人群与情境下选择最佳PROMs。

2.2.1步骤5:评价内容效度 内容效度是指PROMs的内容与所测构念的吻合程度[10]。内容效度是最重要的测量属性,因须先弄清PROMs条目内容在所测构念与目标人群条件下是否相关、全面且可理解。内容效度评价依靠研究者主观判断,评估方法可参考Terwee等[11]的研究。若有高质量证据证明某PROMs内容效度不良,则跳过步骤6~8,直接在步骤9中提出推荐建议。

2.2.2步骤6:评价内部结构 COSMIN将结构效度、内部一致性、跨文化效度/测量不变性归为内部结构,这些测量属性关注PROMs各条目质量及条目间的相互关系,对于解释条目如何构成PROMs非常重要。COSMIN建议在评估内容效度后直接评价内部结构。此外,步骤6仅适用基于“反应模型”的PROMs,“反应模型”(Reflective model)指PROMs所有条目都是某一潜在构念的表现形式,条目间高度相关且可互换。另一种量表构建方式是“形成模型”(Formative model),在该模型中,条目共同形成构念,条目间无需相互关联。若某PROMs不基于“反应模型”,则跳过步骤6。

2.2.3步骤7:评价其他测量属性 其他测量属性包括稳定性、测量误差、效标效度、假设检验和反应度。与内部结构不同,这些测量属性反映PROMs整体质量,而非条目质量。

评价测量误差时,评价者需获得SDC、LoA及MIC信息。MIC应由基于锚定法的纵向研究确定,若无足够信息判断SDC或LoA是否小于MIC,应仅报告SDC或LoA,不对证据质量评级。关于假设检验和反应度,建议研究者自己制定假设并对结果进行评估。假设根据研究目的制定,包括预期关系,如审查的PROMs与用于比较的PROMs间的关系,及相关关系的预期方向和大小。同组假设下纳入研究的结果均可进行比较,若超过75%的研究结果符合假设,可认为结果与假设一致,评为“充分”。

2.3阶段三 选择PROMs。

2.3.1步骤8:描述可解释性和适用性 可解释性指PROMs的定量分数(或分数变化)被赋予定性意义(如临床意义)的能力。适用性指PROMs在限制时间或资金条件下是否易于使用,如完成时间、资金花费、内容长度、回答形式与难易度等。其非测量属性,但是选择最佳PROMs的重要考虑因素之一。

2.3.2步骤9:形成PROMs推荐建议 针对研究人群与目的,研究者需提出在该领域选择最佳PROMs的建议,COSMIN将PROMs分为3类:A类PROMs内容效度“充分”(任何等级证据),且内部一致性充分(至少为低质量证据);B类PROMs不属于A类或C类;C类PROMs有高质量证据证明其测量属性“不充分”。A类被推荐使用,用此类PROMs的研究结果是可信的;B类被认为有可应用的潜力,但需进一步的研究评价;C类不建议使用。若目前只有B类PROMs,在更佳证据出现前,内容效度最好的B类PROMs被推荐使用。最终推荐意见应说明将PROMs归于某类的原因,并提出未来研究建议。

2.3.3步骤10:报告系统评价 COSMIN建议报告应含有:(1)检索策略与结果、筛选过程与流程图。(2)纳入PROMs的信息,如PROMs名称、所测构念、测量属性、语言版本、研究对象、使用情境、(子)量表数、条目数、回答选项、回忆期、可解释性与适用性。(3)纳入研究的人群信息,如地域、语言、疾病特征、目标人群及样本量等。(4)每项PROMs测量属性研究的偏倚风险。(5)最终推荐意见以结果总结表形式呈现,内容包含测量属性的质量评价(充分、不足或不确定)与证据质量等级(高、中、低或极低)。研究讨论部分应提出最佳PROMs并给予意见,此外还建议公开检索策略。

3 讨论

COSMIN旨在制定规范的PROMs系统评价制作标准,以帮助临床实践和研究选择PROMs。除COSMIN方法外,美国心理学协标准、美国医学结局研究组科学咨询委员会标准、患者报告结局测量评估工具、Terwee标准及Francis等人的清单也为PROMs系统评价制定了质量评价标准。但较COSMIN而言,这些标准简短,未系统解释评价步骤,且混淆研究的方法学质量标准与PROMs测量属性的质量准则;未描述如何将多项不同质量的研究结果合并,故无法得出1个关于PROMs的总体结论;不够详细,无法对PROMs测量属性研究的偏倚风险提供透明且系统的评价[12]。

COSMIN也存在一定局限性[3]。首先,其研发并非全部基于德尔菲法或名义群体法;其次,其尚未完备,仍需改进:(1)COSMIN建议在制作PROMs系统评价时搜索多个数据库,但目前国外研究者发现检索Medline与Embase外的其他英文数据库的价值尚不明确,需进一步研究。(2)除Medline与Embase外,应尽快为其他数据库开发适用于查找PROMs测量属性研究的检索过滤器。(3)关于测量属性的统计合并方法很少。(4)证据质量表中样本量的要求只基于经验,未得研究证实。(5)证据质量等级评定方法仍待完善,PROMs测量属性研究很少登记注册,因此很难在PROMs的系统评价中评估存在的发表偏倚。目前虽有降低证据质量的标准,但无定义升高证据质量的标准。

目前,国内学者对COSMIN方法的认识与应用较少,本文希望通过解读将COSMIN方法引入国内,规范国内PROMs系统评价的制作过程,提高系统评价研究的质量;帮助临床工作者或研究员在特定人群与情境下选择最佳PROMs,节约研究成本与时间;此外,对于PROMs的研发人员而言,在制作量表的过程中,可参照COSMIN要求,规范流程,制作出高质量、适用性强的PROMs。

猜你喜欢
内容效度效度证据
效度验证模式系统整合与效度研究发展策略
COSMIN方法介绍:评价患者报告结局测量工具内容效度的评分系统
作为数学教育研究质量分析的效度
谈高效课堂下效度的提升策略
英语专八阅读理解部分内容效度的历时对比研究(2009—2017年)
手上的证据
家庭暴力证据搜集指南
手上的证据
大学英语新四级阅读理解内容效度研究
语言测试效度研究的另一视角:考试的因子结构研究