COSMIN方法介绍：制作患者报告结局测量工具的系统评价

2021-05-11 09:03陈祎婷彭健沈蓝君胡雁余桂星李铮

护士进修杂志 2021年8期

陈祎婷彭健,2 沈蓝君,3 胡雁,2 余桂星李铮

(1.复旦大学护理学院，上海 200032;2.复旦大学循证护理中心，上海 200032；3.复旦大学附属华东医院，上海 200040；4.厦门大学附属翔安医院，福建厦门 361102)

随着患者在医疗服务选择中的自主权占比日益增加，患者可通过自己的认知和判断对自我结局进行评估与审查[1]，患者报告结局(Patient reported outcomes，PROs)即来自于患者对其自身健康状况的直接测量[2]，为适应此现状，医学工作者们提出了患者报告结局测量工具(Patient reported mutcome measures，PROMs)，但现有的PROMs质量不一，研究者很难判断应用的PROMs是否为最佳选择，因此，对PROMs展开高质量的系统评价至关重要[3]。PROMs系统评价数量从20世纪90年代初的每年增加不到1篇，发展到目前每年增加超过100篇[3]，但方法学质量仍有很大改进空间[4]。由荷兰、美国和西班牙等研究机构的心理测量学专家组成的COSMIN(Consensus-based standards for the selection of health measurement instruments,COSMIN)指导委员会提出了基于共识选择健康测量工具的标准COSMIN[5]，在现有PROMs系统评价的基础上提出COSMIN方法，详细阐述了如何制作规范的PROMs系统评价并形成最终推荐意见，以指导临床实践者与研究者选择最佳PROMs[3]。本文旨在介绍COSMIN方法，以期为国内研究者制作PROMs系统评价提供参考。

1 COSMIN相关概念

1.1相关术语与定义 2006-2007年，COSMIN进行了第1次德尔菲研究，明确了PROMs测量属性的类型和定义[3]。COSMIN将PROMs测量属性分为3个维度，即信度、效度和反应度，其中信度维度包括稳定性、内部一致性与测量误差；效度维度包括内容效度、构念效度与效标效度。COSMIN对于PROMs测量属性的分类，见图1;各维度具体定义，见表1。

1.2相关概念辨析

1.2.1构念效度的翻译本文将Construct译作构念。“Construct”译法繁多[6]，其中“构念”强调建造、创造、人为，且包含了结构(Structure)这层意思，又与“结构效度(Structure validity)”相区分，故本文将“construct validity”译作“构念效度”。

表1 PROMs测量属性的定义

图1 PROMs测量属性的分类

1.2.2构念效度与结构效度的区分及假设检验含义构念效度指研究者在PROMs真实反映所测构念的前提下可制定假设，此时PROMs得分与所制定假设的吻合程度，包含结构效度、假设检验与跨文化效度/测量不变性3种测量属性，假设分3种，(1)结构效度：PROMs结构(维度)的假设。(2)聚合/区分效度：与其他测量工具关系的假设。(3)已知组别效度：不同亚组间差异的假设。构念效度包含结构效度，范围更广。而结构效度仅指PROMs维度与所测构念维度的吻合程度，仅反应PROMs总体结构是否适合所测构念。假设检验是验证构念效度的一种方法。假设越具体，被检验的假设越多，就有越多证据证明测量工具的构念效度。评估构念效度的假设包括两类：与其他测量工具的关系假设即聚合/区分效度[7]，与对不同亚组间差异的假设即已知组别效度。

1.2.3信度与稳定性信度与稳定性的原文均为Reliability，但信度较广泛，指PROMs不受测量误差影响的程度，包含稳定性、内部一致性与测量误差。稳定性是信度的下属测量属性，指对同一受试者采用同样方法重复测量时所得结果的一致性程度，包含重测信度、评定者间信度与评定者(或受试者)内信度。

2 COSMIN系统评价制作流程

COSMIN将PROMs系统评价的制作分为3个阶段，10项步骤，见图2。阶段一为进行文献检索，含步骤1～4，内容是明确系统评价目的、制定纳入和排除标准、实施文献检索和获取与筛选文献。阶段二为评价PROMs测量属性，含步骤5～7，每个步骤均可分3部分：(1)应用COSMIN偏倚风险清单评价每项研究的偏倚风险。(2)应用COSMIN质量准则评价PROMs测量属性质量。(3)汇总PROMs测量属性的评价结果，运用GRADE系统形成推荐等级。阶段三为选择PROMs，含步骤8～10，内容是描述可解释性和适用性、形成PROMs推荐意见及报告系统评价。

图2 COSMIN系统评价流程

2.1阶段一进行文献检索。

2.1.1步骤1：明确系统评价目的制作PROMs系统评价时需明确4个关键要素：(1)PROMs所测构念。(2)目标人群。(3)PROMs类型(如他评或自评PROMs)。(4)感兴趣的测量属性。如某系统评价是为了评价成人脑卒中患者疲劳程度自评PROMs所有测量属性的质量，那么其感兴趣的构念是“疲劳”，目标人群是“成人脑卒中患者”，PROMs类型是“自评量表”，感兴趣的是 “所有”测量属性。

2.1.2步骤2：制定纳入和排除标准纳入标准：(1)PROMs须符合研究者关注的构念。(2)研究样本能代表目标人群。(3)研究与PROMs有关。(4)研究目的是PROMs测量属性评价或PROMs研发与可解释性说明等。排除将PROMs作为结果测量工具(如干预性研究)或作为另一种PROMs效度检验标准的研究。

2.1.3步骤3：实施文献检索建议至少检索Medline与Embase，自行选择其他数据库。检索词应包括相关主题词与自由词，并含4个关键要素(所测构念、目标人群、类型与测量属性)。不建议对语种设限。检索时可用Terwee等人开发的用于检索PROMs的PubMed过滤器[8]。

2.1.4步骤4：获取与筛选文献检索完成后，需双人独立筛选文献，若2名研究者无法达成共识，则咨询第三方。为确保纳入尽可能全的文献，可采用追溯参考文献及咨询专家的方式。此外，应呈现筛选流程图(同PRISMA)。

2.2阶段二评价PROMs测量属性。由于某些测量属性的重要性(如内容效度可能最重要)及各测量属性间可能存在相关性(如结构效度有助于解释内部一致性系数)，COSMIN推荐先评内容效度，再评内部结构，最后评其他测量属性。每种测量属性评价包括3部分：(1)应用COSMIN偏倚风险清单评价每项研究的偏倚风险。(2)应用COSMIN质量准则评价PROMs每种测量属性的证据质量。(3)汇总PROMs测量属性评价结果，用GRADE系统形成推荐等级。首先，应用COSMIN偏倚风险清单评价每项研究的偏倚风险。PROMs测量属性研究在研究设计和统计分析中出现缺陷，会导致研究结果严重受影响而产生偏倚。据测量属性分类及评价顺序，COSMIN偏倚风险清单分为3部分，共10个框目，见表2。

表2 COSMIN偏倚风险清单的结构

其次，应用COSMIN质量准则评价PROMs每种测量属性的证据质量。测量属性质量指测量属性是否“好”，需与 “质量准则”比较。如在重测信度研究中，若加权Kappa系数≥0.70，则表明重测信度良好[4]。完成纳入研究的偏倚风险评价后，由两位研究者独立提取研究中涉及的PROMs数据信息，包括样本特征、测量属性结果、可解释性与适用性等。PROMs某一测量属性的所有数据信息汇总称为该测量属性的证据，应用COSMIN质量准则(Quality criteria)评价该证据质量，获得各测量属性的证据质量。

最后，用改良的GRADE方法对上述证据质量评级，反映证据质量的确信程度。COSMIN改良了传统GRADE系统[9]，以偏倚风险、不一致性、不精确性(不适用于内容效度评级)和间接性四个因素对每种测量属性的证据质量进行评级(具体参见本系列其他文章)。改良的GRADE系统假设初始证据质量均为高等级，当存在偏倚风险、不一致、不精确或间接性时，降低证据推荐等级。等级评价由两位研究员独立完成，必要时询问第3方意见。证据结果需进行定量合成与定性总结，制成结果总结表，以便在特定人群与情境下选择最佳PROMs。

2.2.1步骤5：评价内容效度内容效度是指PROMs的内容与所测构念的吻合程度[10]。内容效度是最重要的测量属性，因须先弄清PROMs条目内容在所测构念与目标人群条件下是否相关、全面且可理解。内容效度评价依靠研究者主观判断，评估方法可参考Terwee等[11]的研究。若有高质量证据证明某PROMs内容效度不良，则跳过步骤6～8，直接在步骤9中提出推荐建议。

2.2.2步骤6：评价内部结构 COSMIN将结构效度、内部一致性、跨文化效度/测量不变性归为内部结构，这些测量属性关注PROMs各条目质量及条目间的相互关系，对于解释条目如何构成PROMs非常重要。COSMIN建议在评估内容效度后直接评价内部结构。此外，步骤6仅适用基于“反应模型”的PROMs，“反应模型”(Reflective model)指PROMs所有条目都是某一潜在构念的表现形式，条目间高度相关且可互换。另一种量表构建方式是“形成模型”(Formative model)，在该模型中，条目共同形成构念，条目间无需相互关联。若某PROMs不基于“反应模型”，则跳过步骤6。

2.2.3步骤7：评价其他测量属性其他测量属性包括稳定性、测量误差、效标效度、假设检验和反应度。与内部结构不同，这些测量属性反映PROMs整体质量，而非条目质量。

评价测量误差时，评价者需获得SDC、LoA及MIC信息。MIC应由基于锚定法的纵向研究确定，若无足够信息判断SDC或LoA是否小于MIC，应仅报告SDC或LoA，不对证据质量评级。关于假设检验和反应度，建议研究者自己制定假设并对结果进行评估。假设根据研究目的制定，包括预期关系，如审查的PROMs与用于比较的PROMs间的关系，及相关关系的预期方向和大小。同组假设下纳入研究的结果均可进行比较，若超过75%的研究结果符合假设，可认为结果与假设一致，评为“充分”。

2.3阶段三选择PROMs。

2.3.1步骤8：描述可解释性和适用性可解释性指PROMs的定量分数(或分数变化)被赋予定性意义(如临床意义)的能力。适用性指PROMs在限制时间或资金条件下是否易于使用，如完成时间、资金花费、内容长度、回答形式与难易度等。其非测量属性，但是选择最佳PROMs的重要考虑因素之一。

2.3.2步骤9：形成PROMs推荐建议针对研究人群与目的，研究者需提出在该领域选择最佳PROMs的建议，COSMIN将PROMs分为3类：A类PROMs内容效度“充分”(任何等级证据)，且内部一致性充分(至少为低质量证据)；B类PROMs不属于A类或C类；C类PROMs有高质量证据证明其测量属性“不充分”。A类被推荐使用，用此类PROMs的研究结果是可信的；B类被认为有可应用的潜力，但需进一步的研究评价；C类不建议使用。若目前只有B类PROMs，在更佳证据出现前，内容效度最好的B类PROMs被推荐使用。最终推荐意见应说明将PROMs归于某类的原因，并提出未来研究建议。

2.3.3步骤10：报告系统评价 COSMIN建议报告应含有：(1)检索策略与结果、筛选过程与流程图。(2)纳入PROMs的信息，如PROMs名称、所测构念、测量属性、语言版本、研究对象、使用情境、(子)量表数、条目数、回答选项、回忆期、可解释性与适用性。(3)纳入研究的人群信息，如地域、语言、疾病特征、目标人群及样本量等。(4)每项PROMs测量属性研究的偏倚风险。(5)最终推荐意见以结果总结表形式呈现，内容包含测量属性的质量评价(充分、不足或不确定)与证据质量等级(高、中、低或极低)。研究讨论部分应提出最佳PROMs并给予意见，此外还建议公开检索策略。

3 讨论

COSMIN旨在制定规范的PROMs系统评价制作标准，以帮助临床实践和研究选择PROMs。除COSMIN方法外，美国心理学协标准、美国医学结局研究组科学咨询委员会标准、患者报告结局测量评估工具、Terwee标准及Francis等人的清单也为PROMs系统评价制定了质量评价标准。但较COSMIN而言，这些标准简短，未系统解释评价步骤，且混淆研究的方法学质量标准与PROMs测量属性的质量准则；未描述如何将多项不同质量的研究结果合并，故无法得出1个关于PROMs的总体结论；不够详细，无法对PROMs测量属性研究的偏倚风险提供透明且系统的评价[12]。

COSMIN也存在一定局限性[3]。首先，其研发并非全部基于德尔菲法或名义群体法；其次，其尚未完备，仍需改进：(1)COSMIN建议在制作PROMs系统评价时搜索多个数据库，但目前国外研究者发现检索Medline与Embase外的其他英文数据库的价值尚不明确，需进一步研究。(2)除Medline与Embase外，应尽快为其他数据库开发适用于查找PROMs测量属性研究的检索过滤器。(3)关于测量属性的统计合并方法很少。(4)证据质量表中样本量的要求只基于经验，未得研究证实。(5)证据质量等级评定方法仍待完善，PROMs测量属性研究很少登记注册，因此很难在PROMs的系统评价中评估存在的发表偏倚。目前虽有降低证据质量的标准，但无定义升高证据质量的标准。

目前，国内学者对COSMIN方法的认识与应用较少，本文希望通过解读将COSMIN方法引入国内，规范国内PROMs系统评价的制作过程，提高系统评价研究的质量；帮助临床工作者或研究员在特定人群与情境下选择最佳PROMs，节约研究成本与时间；此外，对于PROMs的研发人员而言，在制作量表的过程中，可参照COSMIN要求，规范流程，制作出高质量、适用性强的PROMs。