基于健康测量工具的共识标准对癌症复发恐惧评估工具的系统评价

2023-03-24 05:27张露露陈欢罗欢陈婷婷陈昕羽高静
中国全科医学 2023年17期
关键词:测量学内容效度方法学

张露露,陈欢,罗欢,陈婷婷,陈昕羽,高静

最新国际癌症研究数据显示,全球癌症发病率呈上升趋势[1],预计2040年将超过2 840万人,癌症后5年生存者达4 380万人[2]。由于癌症具有易复发和转移的特点,癌症复发恐惧(fear of cancer recurrence,FCR)已成为癌症患者最常见的心理反应。FCR指患者对未来癌症可能复发或进展所产生的恐惧和担忧。全球有39%~97%的癌症患者表明自己害怕癌症复发或恶化[3],其中49%的癌症患者已达到中至重度的FCR[4-5]。在个人层面,高水平的FCR会使患者发生社交回避[6]、睡眠障碍[7]、治疗依从性下降[8]、负性情绪[9]等;在社会层面会导致临床医疗成本的上升。由此,科学、适用的评估工具对衡量FCR水平、提升临床医疗及科研质量至关重要。目前可用于评估FCR的量表种类较多,且主要为自我报告量表,尚无关于此类量表测量学属性的系统评价。测量学属性是反映量表质量的指标,包括信度、效度、反应度等,良好的测量学属性是量表应用的前提。健康测量工具的共识标准(Consensus-based Standards for the Selection of Health Measurement Instruments,COSMIN)是基于专家共识的患者报告结局测量工具(patient reported outcome measures,PROMs)的遴选指南[10],可对测量工具的方法学质量及测量学属性进行评价,最终形成工具的推荐意见。本研究根据COSMIN,对FCR评估工具进行系统评价,旨在筛选高质量的评估工具,为未来我国癌症患者FCR的评估及实证研究提供循证依据。

1 资料与方法

1.1 纳入与排除标准 纳入标准:(1)研究对象为癌症患者;(2)至少评价了测量工具的1项测量学属性;(3)可获得全文的中英文研究。排除标准:(1)量表仅适用于特异性癌症;(2)量表仅应用为结局指标的测量,如随机对照试验等;(3)综述性文献、重复发表文献、无统计分析的叙述性研究。

1.2 检索策略 检索策略采取主题词与自由词结合的方式,并手动检索纳入研究的参考文献。在PubMed、Embase、Web of Science、CINAHL、 中国知 网、维 普网、万方数据知识服务平台、中国生物医学文献数据库进行文献检索,检索时限均为建库至2022-09-10。中文检索词包括:癌症、癌症复发恐惧、量表、工具、信度等。英文检索词包括 fear of cancer recurrence、instrumentation、psychometr*、assessment、reliab*、valid*、cross-cultural equivalence等,以 PubMed 为例,具体检索策略见表1。

表1 文献检索策略Table 1 Literature search strategies

1.3 文献筛选与信息提取 由2名研究者按照检索策略及纳排标准,各自筛选提取数据及资料并进行核对,意见不一致则请第三方判定。提取资料包括第一作者、发表时间、量表名称、研究地区、适用人群(原目标人群及验证人群)、维度/条目数、样本量等。

1.4 质量评价

1.4.1 评价流程 由2名经严格培训的研究者根据COSMIN[11],各自评价纳入工具的方法学、测量学属性及证据等级,意见不一致则请第3方判定,最终形成推荐意见。

1.4.2 评价工具

1.4.2.1 COSMIN方法学质量评价 采用COSMIN偏倚风险清单评价方法学质量。分别为量表的开发(35个条目)、内容效度(31个条目)、结构效度(4个条目)、内部一致性(5个条目)、假设检验(7个条目)、效标效度(3个条目)、稳定性(8个条目)、跨文化效度(4个条目)、测量误差(6个条目)、反应度(13个条目)。各模块条目均以“非常好(V)”“良好(A)”“模糊(D)”“不良(Ⅰ)”评价,采取最低分评价原则进行评价。

1.4.2.2 COSMIN测量学属性质量评价 COSMIN将量表的测量学属性分为效度、信度和反应度3个方面共9种测量学属性,效度包括内容效度、构建效度(结构效度、假设检验、跨文化效度)、校标效度;信度包括内部一致性、稳定性、测量误差。采用COSMIN测量学属性质量标准[10]分别评价这9种测量学属性,分为3个等级,即“充分(+)”“不充分(-)”“不确定(?)”。

1.4.2.3 证据综合、证据等级评价及证据推荐 (1)采用改良的定量系统评价证据分级(GRADE)方法[12],汇总每项测量学属性质量。若某一测量学属性在各研究中结果一致,则直接汇总结果为“充分(+)、不充分(-)、不确定(?)”,反之,则可评为“不一致(±)”。(2)证据等级评价[12]:利用改良版GRADE,以每个测量学属性质量为“高质量”开始,从偏倚风险、不一致性、不精确性、间接性4个方面予以降级,最终分别予以4个等级“高”“中”“低”“极低”。(3)证据推荐:根据测量学属性及证据等级评价结果进行证据推荐[13]。A类推荐:内容效度“充分(+)”(任何等级证据),且内部一致性“充分(+)”(证据等级至少为低质量证据),该类工具推荐使用;B类推荐:不为A类或C类,该类工具有可应用的潜力,但需要进一步研究来评价其质量;C类推荐:具有高质量证据证明其任何测量学属性“不充分(-)”,不建议使用。

2 结果

2.1 文献筛选结果 初筛文献数为3 239篇,通过手动检索参考文献获得6篇,剔除重复文献1 677篇,按照纳入排标准进行初筛、复筛后,最终共纳入24篇文献[14-37],涉及6种癌症患者的癌症复发恐惧量表。文献筛选流程见图1。

图1 文献筛选流程图Figure 1 Flow chart of literature screening

2.2 纳入研究基本特征 最终纳入24篇文献[14-37],包括6种癌症复发恐惧评估工具。分别为恐惧癌症复发量表(Fear of Cancer Recurrence Inventory,FCRI)、癌症患者恐惧疾病进展量表(Fear of Progression Questionnaire,FOPQ)、7条目癌症复发恐惧量表(7-item Fear of Cancer Recurrence Scale,FCR-7)、 癌 症复发恐惧单项量表(1-item Fear of Cancer Recurrence,FCR-1)、 癌症担忧量表(Cancer Worry Scale,CWS)、幸存者担忧评估问卷(Assessment of Survivor Concerns,ASC)。10 篇文献[14-16,18-24]对 FCRI量表进行评估,其测量学属性和方法学得到了较为全面的评价,这其中包含了由PENG等[14]研制得9条目的简化版FCRI量表,以及由XU等[15]和宿婷等[16]汉化的中文版FCRI量表。7篇文献[17,25-30]对FOPQ进行了测量评价,包含由YOUSSEF等[17]研制的FOPQ-RS快速筛查版,以及吴奇云等[28]汉化的FOPQ-SF简化版。纳入文献的基本特征见表2。

表2 纳入文献的基本特征Table 2 The basic characteristics of the included scales

2.3 癌症复发恐惧量表的测量学属性及研究的方法学质量评价 24篇文献[14-37]均未对量表的测量误差、反应度、假设检验进行评价,其他方法学及测量学属性质量评价见表3。

表3 纳入文献测量学特性和研究的方法学质量评价Table 3 Measurement characteristics and methodological quality evaluation of the included scales

2.3.1 工具的开发 24篇文献[14-37]均在PROM设计方面清晰描述了量表的构念以及理论模型。16篇文献[15-16,18,20,23,25,27-28,31-38]缺少从相关性、全面性、理解性报告量表的开发过程,因此方法学质量评价为“不确定”。3篇文献[19,24,26]在PROM开发阶段对概念的相关性和全面性进行了较为详细的质性访谈和量性调查,其方法学质量为“良好”。

2.3.2 效度指标

2.3.2.1 内容效度 14 篇文献[15-21,23,25-27,32,34,36]通过专家咨询法评价量表的内容效度,13篇文献[15-16,18-21,23,25-27,32,34,36]同时咨询了专家和患者,患者对条目“理解性”和“相关性”的质性研究较多,但针对患者对条目“全面性”的研究不足。国内量表汉化的5篇文献[16,26,28-29,32]中,质性研究内容较少,或仅采用调查法评价量表内容效度,且研究过程及统计方法报告不清晰。同时,国内外研究在进行质性访谈时,对于数据分析过程均未有详细说明等局限,故上述14篇文献[15-21,23,25-27,29,32-34]的方法学质量均为“模糊”,量表的内容效度均为“不确定”或“不充分”。

2.3.2.2 结构效度 除 3篇文献[14,20,34]外,其余 21篇文献均进行了探索性/验证性因子分析,其中12篇文献[15-17,19,21-24,26-28,36]采用了验证性因子分析(confirmatory factor analysis,CFA)评估量表的结构效度;2 篇文献[16,21]量表的相对拟合指数(CFI)>0.95,且样本量充足,无其他方法学缺陷,故该2篇文献方法学质量为“很好”,所评价量表的结构效度为“充分”;1篇文献[20]由于样本数量未达到最低标准,所评价量表的结构效度方法学质量为“不良”。2篇文献[15,31]采用项目反应理论(item response theory,IRT)进行结构效度的评价,其余研究均采用经典测量理论(intraclass correlation coefficient,CTT)。

2.3.2.3 效标效度 目前,癌症复发恐惧测量尚无金标准,COSMIN指南标准规定,简版量表可用原量表作为金标准进行效标效度的检验[10]。本研究中8篇文献[14-15,17,22,32-35]报告了效标效度,均未将原量表作为金标准,不符合COSMIN指南标准,故该研究方法学质量为“不良”,所评价量表的校标效度为“不充分”。

2.3.3 信度指标

2.3.3.1 内部一致性 19 篇文献[15-16,18-19,21-33,35,37]计算了各维度内部一致性,故该19篇文献方法学质量评价是“很好”,其中 18 篇文献[15-16,18-19,21-33,35]各维度Cronbach's α系数均>0.7,故所评价量表的内部一致性为“充分”,另1篇文献[37]中因“健康担忧”维度Cronbach's α系数<0.7,故所评价量表的内部一致性为“不充分”。5 篇文献[14,17,20,34,36]未报告各维度Cronbach's α 系数。

2.3.3.2 稳定性 13 篇文献报告了稳定性[15-16,18-25,31,34-35],其中1篇文献[24]方法学质量为很好,1篇文献[19]方法学质量为良好,其余11篇文献均未说明2次调查的患者组成是否稳定,调查时的环境、方式是否相似或调查的时间间隔是否合适,故方法学质量评价为“模糊”。5篇文献[15,19-20,23,31]报告了组内相关系数(ICC)>7,量表稳定性为“充分”,其他 8 篇文献[16,18,21-22,24-25,34-35]未提及ICC系数,考虑到同时计算了Pearson相关系数或Spearman秩相关系数,所评价量表的稳定性为“不确定”。

2.3.3.3 跨文化效度/测量不变性 仅3篇文献[15,21,23]在不同年龄或性别的人群中测量不变性,但2篇文献[21,23]中样本量低于COSMIN指南样本量的最低要求,故研究的方法学质量为“不良”,3篇文献评价量表的跨文化效度为“不确定”。

2.4 纳入评估工具的证据等级评价及证据推荐 本研究将相同工具的测量学属性质量进行综合,并根据纳入研究的偏倚风险、不一致性、不精确性、间接性4个方面,考虑给予相应证据质量降级,证据等级评价及证据推荐详见表3。

偏倚风险方面,除CWS量表的内容效度是“未提及”以外,其余5个量表内容效度的均为不充分或不确定,可能存在较大偏倚,故其内容效度质量评级均给予降1级。6个量表的结构效度方法学质量均为充分,故偏倚风险程度为“无”。内部一致性方面,FCRI、FOPQ、FCR-7、CWS量表内部一致性方法学质量均为“很好”;其余2个量表内部一致性方法学质量均为不充分或不确定,均给予降1级。

不一致性方面,FOPQ量表均存在不一致性,FCR-7在结构效度和内部一致性上存在不一致性,故质量评级给予降1级。其余量表均只纳入1篇文献,不存在不一致性,故各测量学属性未因不一致性降级。

不准确性方面,FCRI以及FCR-1量表因进行重测时样本量< 100例,其稳定性的质量评级给予降1级。其余量表样本量均达到标准。

间接性方面,纳入的文献中FOPQ量表纳入人群除癌症患者,还包括糖尿病患者等其他慢性病人群,存在间接性,故其各测量学属性的质量评级均给予降1级。

其余测量学属性综合以上降级因素,均给予不同程度的降级。综合量表的测量学属性评级和证据质量,5个量表均只有中级及以下证据证明其内容效度为不充分/不确定,故推荐等级均为B级。其中ASC量表,因内部一致性为不良/高质量证据等级,故评级为C级,见表4。

表4 纳入量表测量学属性结果及推荐意见Table 4 Synthesis of the measurement characteristics of the included scales and the formation of recommendations

3 讨论

3.1 癌症复发恐惧量表的方法学质量尚需进一步提高

3.1.1 量表的内容效度报告尚不全面,缺少质性方法COSMIN要求从相关性、全面性、理解性对评估工具的方法学质量进行评价,其中内容效度是最重要的测量学属性,然而纳入研究的主要缺陷即对内容效度考虑不够全面。本研究中 5 篇国内文献[16,26,28-29,32]均在数据分析过程中(录音转录、分析方法及研究者资质)存在局限。SIMARD 等[18]和 HERSCHBACH 等[25]在研制 FCRI及FOPQ量表时,其内容效度的研究设计方面描述较为详细,但均缺少访谈数据的转录过程。JAKOBSEN等[20]在将FCRI量表本土化时,进行了较为详细的质性研究,但没有清晰描述转录人员的数量。宿婷等[17]在进行专家函询过程中,只邀请了7名护理专家,不符合COSMIN指南中“纳入来自所有相关学科的专业人员”的要求。HUMPHRIS等[31]、RUDY等[34]、LEBEL等[21]等在量表开发阶段收集样本时,未按标准达到数据饱和,以至于PROM的广泛适用性和可理解性受到影响。其次,多篇文献在内容效度评价中侧重专家咨询,未充分考虑或清楚描述患者意见。建议今后可结合认知性访谈了解患者对量表的看法和理解,以提高量表条目与欲测内容或行为的相符程度。同时在研究设计和数据分析中应严格遵循COSMIN标准程序,规范文章撰写过程。

3.1.2 重测方法报道不清晰,量表稳定性仍需验证 稳定性指采用同样的方法对同一受试者重复测量后结果的一致性程度[38]。本研究纳入的24篇文献,11篇文献未进行稳定性报告,11篇文献稳定性方法学质量为模糊,仅2篇文献的稳定性方法学质量达到合格及以上。如SIMARD等[18]在选择重测时间为1个月,尚未清晰说明重测间隔的原因,也与COSMIN中“一般重测时间为2周”的规定不符,故方法学质量均评为“模糊”。重测时间过短或过长将会造成高估或低估测验信度[39]。一些研究虽满足重测时间间隔,但定量数据未进行ICC计算,仅进行了Pearson相关分析/Spearman秩相关分析,故方法学质量为“模糊”。在测量间隔期,受试者的待测构念以及测量前后情景相似度也非常重要,如果测量情景发生改变,测量工具的稳定性则可能被低估,大多数研究者没有明确证据证明受试者的待测构念和生活情景是稳定的,在今后的研究设计中需要多注重这方面的问题。

3.1.3 引进量表缺乏跨文化效度检验,未来可继续完善跨文化效度指在不同文化群体中应用工具测量时各条目得分的一致程度,其主要通过计算量表的测量不变性或是否发生项目功能差异(differential item function,DIF)来评估。仅有3篇文献评价了跨文化效度,但其中2篇文献因不满足COSMIN要求的最低样本量,故方法学评价为“不合格”。纳入研究中的5篇中文文献均是引进国外的量表,但均未进行跨文化效度检验。这提示未来在构建从国外引进的量表时,尤其在探讨量表的条目时,跨文化中是否存在DIF。同时,在选择不同群体样本进行测试时,注意样本量最好大于PROMs条目数的7倍,另外,尽可能使除分组变量外的其他特征变量的分布情况基本相同,从而增强组间的可比性。

3.1.4 量表校标效度的金标准设置不恰当,易与假设检验相混淆 COSMIN认为患者报告的结局测量工具原则上没有金标准,原量表可以作为简版量表的金标准。但纳入的文献中研究者均将广泛使用的量表作为金标准,这便与假设检验的范畴相混淆。例如本研究中纳入的8篇文献[14-15,17,22,32-35]以“构念效度的假设检验”对效标效度进行评价,这并不符合COSMIN的要求。

3.2 FCR量表测量学特性的报告尚不全面,未来可完善对量表其他测量学属性的检验 本研究纳入的24篇文献均未进行测量误差、反应度、假设检验的评价。测量误差包括系统误差和随机误差,是真实变异(真分数)之外其他变异产生的原因。对于定量数据,建议通过重测计算测量标准误评估测量误差;对于分类/有序数据,建议通过百分比一致性评估测量误差,包括系统误差和随机误差。假设检验用于验证构念效度,包括与其他测量工具的关系假设,即聚合/区分效度和已知组别效度2种。反应度是反映量表敏感性的重要指标,可从两个方面进行考评:(1)量表是否能够区分随着时间变化同一群体待测构念的变化;(2)量表是否可以区分不同群体待测构念的差异。建议未来可参考COSMIN检验FCR量表的以上测量学属性以完善工具的科学性。

3.3 FCRI可被暂时推荐,但其测量学属性尚需进一步验证 通过对量表测量学属性和研究质量的系统评价,最终5个量表均为B级推荐,1个量表为C级推荐。内容效度是量表最重要的测量学属性,仅FCRI有中等质量证据支持其内容效度,且FCRI纳入了10篇文献,其方法学和测量学属性的评价更为全面。FOPQ各项测量学属性的证据等级均为低或极低,其他B级推荐量表内容效度证据不佳,且都在某一测量学属性方面存在严重的偏倚。相较之下,可暂时推荐FCRI。FCRI是以认知行为理论为模型,以多维度视角评估各型癌症患者的FCR,包括触发因素、严重程度、应对策略、心理痛苦、功能障碍、洞察力、需求安慰7个维度共42个条目。采用Likert 5级评分,每个条目分数范围为0~4分,总分范围为0~168分,分数越高,FCR越严重。FCRI发展成熟且应用广泛,已被开发成儿童版FCRI-P[40]、汉化版 FCRI[16]等多种形式。

FOPQ、FCR-7、FCR-1以及CWS为B级量表。FOPQ是用于测量慢性疾病及恶性肿瘤患者的FCR,包括5个维度43个条目[25],该量表在国际范围应用较为广泛,2022年已由黄燕萍等[26]汉化,其简表FOPQ-SF也由吴奇云等[28]汉化。FCR-7以及FCR-1为单维量表,评分方便,用时较短。CWS是基于乳腺癌患者研究开发,已在结直肠癌、前列腺癌等患者中进行验证[35-36]。本研究显示以上4个量表尚存在潜力,但在方法学及测量学属性方面仍需进一步研究,主要存在以下问题:(1)PROM开发阶段,缺乏科学性和规范性。在PROM概念引出的相关性和全面性方面,上述研究均存在局限性,尤其在认知访谈过程中,缺失较多的记录;(2)在内容效度方面均为“模糊”或“不合格”,大多数研究只将受试者对条目的理解性、全面性及相关性进行粗略描述,研究过程不清晰,缺少规范严谨的标准程序;(3)对量表跨文化效度研究不足,例如本研究纳入的5篇中文文献均未对跨文化效度进行评价。FCR作为患者的主观情绪,进行跨文化效度检验十分必要。这提示未来在开发或汉化量表过程中,应按照科学的指南,严格规范开发验证程序。根据COSMIN具体要求,规避量表开发构建、引进时的各种问题,以期为临床研究开发出科学严谨及更高质量的评估工具。

4 小结

本研究基于COSMIN,对FCR评估工具的测量学属性进行了系统评价,研究表明目前相关研究的方法学质量参差不齐,测量学属性结果报道尚不全面。除ASC量表为C级以外,其余量表均为B级推荐,本研究在综合考虑,权衡各方面后认为FCRI量表可做临时推荐,FCRI从多个维度全面综合评估FCR,可帮助医护人员找出患者FCR的原因,采取有针对性的干预措施,以提高患者的生活质量和心理健康。未来建议严格参考COMSIN进一步验证现有评估工具,以支撑本研究结论;或开发质量较好的新工具为我国癌症患者复发恐惧的评估及研究提供更科学可靠的工具支持。本研究也存在一定的局限性:仅纳入中英文文献,部分工具测量属性研究单一,可能会对结论的可靠性产生一定影响。

作者贡献:张露露负责文章的构思与结构设计、数据整理、论文撰写以及论文修订;张露露、陈欢、罗欢、陈婷婷、陈昕羽负责文献/资料收集及整理,数据提取等;高静负责文章的质量控制及审校;张露露、高静对文章整体负责,监督管理;所有作者确认了论文的最终稿。

本文无利益冲突。

猜你喜欢
测量学内容效度方法学
测绘工程专业大地测量学课程思政教学探索与实践
大型学术著作《药理研究方法学》出版发行
COSMIN方法介绍:评价患者报告结局测量工具内容效度的评分系统
药品微生物限度检查方法学验证的研究进展
英语专八阅读理解部分内容效度的历时对比研究(2009—2017年)
追踪方法学在院前急救护理安全管理中的应用
大学英语新四级阅读理解内容效度研究
测量学精品资源共享课建设的探索
人降钙素原定量检测方法学评价
《测绘学报》被引频次最高的10篇论文(摄影测量学与遥感)