魏佳豪,卜梦茹,白子叶,周瑾
(1.南方医科大学中西医结合医院 护理部,广东 广州 510280;2.南方医科大学护理学院,广东 广州 510515)
肺癌已经成为全球死亡率最高的恶性肿瘤,占所有恶性肿瘤死亡的18.0%[1]。 近年来,中医药在肺癌防治中发挥重要的作用,临床疗效显著[2]。 但由于中医药治疗的临床疗效结局指标不规范、 缺乏统一的临床疗效评价工具导致其临床研究质量较低。 中医药治疗肺癌最常用的核心结局指标集(core outcome sets,COS)[3]包括中医证候和生存质量。 中医临床疗效评价工具指在中医药理论指导下或中医学者参加设计的概念框架、实施研制和评价性能,具有收集临床数据并进行中医临床疗效评价的工具[4],可以为中医临床实践提供客观的疗效反馈。 其中基于患者自我报告结局 (patient-reported outcome,PRO)的指标与患者直接相关,是中医药临床疗效评价不可缺少的核心结局指标之一[5]。 目前,国内肺癌临床疗效PRO 工具较多,但尚无统一规范的特异性证候评价量表[6],且现有评估工具内容差异较大,缺少对这些量表系统的评价和推荐, 难以遴选出合适的工具。 基于共识的健康测量工具遴选标准(Consensus -based Standards for the Selection of Health Measurement Instruments,COSMIN)通过比较量表的测量学特性和研究的方法学质量进行量表推荐[7]。 本研究按照COSMIN 指南评价量表的测量学特性,筛选出最佳评估工具,以期为医护人员评估肺癌患者中医药疗效提供循证依据。
1.1 文献检索 计算机检索PubMed、The Cochrane Library、Web of Science、Embase、Psyc INFO、CINAHL、中国生物医学文献数据库、中国知网、万方数据库、维普数据库,检索时限为建库至2023 年6 月,采取主题词与自由词结合的方式, 中文数据库以中国知网为例, 检索式为:(肺癌OR 肺部肿瘤OR 肺恶性肿瘤) AND (中医OR 证候OR 气虚证OR 阴虚证OR 气阴两虚证)AND(工具OR 量表OR 问卷)AND(测量属性OR 测量学特性OR 信度OR 效度);英文数据库以PubMed 为例, 检索式为:("lung neoplasms"[Mesh] / lung cancer[Ti/Ab] / pulmonary carcinoma[Ti/Ab])AND ("medicine, chinese traditional"[MeSH] / TCM [Ti/Ab] / " tcm syndrome "[Ti/Ab] / "pattern type"[Ti/Ab] / "qi deficiency syndrome"[Ti/Ab]/ "yin deficiency syndrome"[Ti/Ab]) AND (instrument*[Ti/Ab] / tool*[Ti/Ab] / questionnaire*[Ti/Ab])。同时对纳入文献及主题相关文献的参考文献、 引文进行人工追溯。
1.2 文献纳入与排除标准 纳入标准:研究对象包含肺癌患者及肺癌患者在内的混合人群; 研究内容涉及中医临床疗效,包括肺癌常见证候和生存质量,其中针对证候的量表是在肺癌患者中应用过的普适性和特异性评估工具;研究中至少报告COSMIN 指南所要求的1 种测量属性;可获得全文的中、英文文献。 排除标准:量表仅应用于结局指标的测量,如随机对照试验;综述、系统评价或Meta 分析等二次文献;重复发表的文献;非临床疗效评价性工具。
1.3 文献筛选与信息提取 由2 名经过循证培训和COSMIN 学习的研究人员独立进行文献筛选和资料提取, 无法取得共识则由第3 名研究人员进行仲裁。研究人员对题目与摘要初筛后,阅读全文进行复筛,最终决定纳入文献。 提取信息包括作者/发表年份、量表名称、研究人群、测量构念、研究所在地、样本量、量表条目数/维度数、评分方式、测量方式、测量时间、重测间隔。
1.4 文献质量评价
1.4.1 方法学质量评价 由2 名经培训后的研究者独立采用COSMIN 偏倚风险评价清单[7]的译本(Consensus -based Standards for the Selection of Health Measurement Instruments-Risk of Bias, COSMIN-RoB), 评价纳入研究的偏倚风险。 COSMINRoB 由10 个模块组成,分别为量表的开发、内容效度、结构效度、内部一致性、跨文化效度、稳定性、测量误差、构念效度的假设检验、效标效度、反应度,共116 个条目。 采用4 点评分法(“非常好”“良好”“模糊”“不良”)对每项量表开发研究的偏倚风险进行评价, 按照最低计分原则将条目的最低评价作为该模块的总评价[8]。
1.4.2 测量属性质量评价 测量属性的质量评价分为2 部分,首先,内容效度通过良好内容效度标准[7]对COSMIN- RoB 中的量表的开发、 内容效度模块以及评估者评价进行定性总结。其次,使用更新版良好测量学属性的标准[7,9]独立评价纳入研究量表的结构效度、内部一致性、跨文化效度、稳定性、测量误差、构念效度的假设检验、效标效度、反应度。这2 个部分均以“充分”“不充分”“不确定”评价。 若某量表在各研究中得到的评价不一致,且原因无法解释,则此测量特性的总体评价为“不一致”[10]。 最后,考虑到被试能力的高低和条目难度的差异容易导致天花板/地板效应[11],故在结果部分对其进行补充说明。
1.4.3 证据等级评价 由2 名研究者独立汇总每项测量属性质量的评价结果。 采取Terwee 等[9]开发的证据合成方法, 将评价结果进行汇总, 之后依据COSMIN 质量准则,将其评级为“充分(+)、不充分(-)、 不一致 (±)、 不确定 (?)”。 使用改良版的GRADE[12]评价系统进行证据质量分级。
2.1 文献筛选结果 初筛文献数量为2 256 篇,通过手动搜索参考文献及引文获得6 篇, 双人独立使用EndNote 文献管理工具剔除重复文献后保留1 629篇,按照制定的纳入、排除标准进行初筛、复筛后共纳入8 篇文献, 涉及8 种肺癌患者中医临床疗效评估工具,文献筛选流程详见图1。
2.2 纳入研究基本特征 最终纳入8 篇文献[13-20],包括8 种肺癌中医临床疗效评估工具。 其中5 篇[13-14,18-20]文献主要针对肺癌常见病证(如气虚证和阴虚证),3篇文献[15-17]针对肺癌的生存质量。 本研究纳入量表的基本特征详见表1。
表1 纳入研究的基本特征(n=8)
2.3 纳入研究的方法学及测量属性质量评价 纳入的8 个评估工具均未报告测量误差和跨文化效度,其他方法学及测量属性质量评价详见表2。
表2 纳入量表测量学特性和研究的方法学质量评价(n=8)
2.3.1 量表的开发 本文纳入的研究中,5 项研究[13,17-20]清晰地描述了相关量表的测量构念及理论框架,明确定义所测量的结构,其中有3 项研究缺少从相关性、 全面性和可理解性来报告量表开发的过程, 引出测量的概念, 因此方法学质量评价为“模糊”。其余5 项研究在报告过程中均存在不同程度的方法学缺陷,故方法学质量评价为“不良”。
2.3.2 内容效度 5 项研究[13-14,18-20]均采取质性和量性相结合的方法咨询患者或专家关于条目相关性、全面性和可理解性的问题, 但未详细报告有关访谈提纲、访谈者经验及统计分析方法等内容,方法学质量为“模糊”,内容效度评价为“不确定”。其余3 项研究未报告相关内容,故研究的方法学质量为“不良”,内容效度评价“不充分”。有4 项研究[13,18-20]主要倾向于对条目理解性的分析, 但在条目内容相关性和全面性的报告不完整。
2.3.3 结构效度 结构效度通常采用因子分析进行评估,而验证性因子分析是指南推荐的方法之一[21]。2 项研究[16,19]基于理论模型进行验证性因子分析,其余研究均采用探索性因子来检验量表结构效度。 除QOL-AL 未报告拟和指数, 量表的结构效度评价为“不确定” 外, 其余量表所报告累计方差贡献率均>60%,故量表的结构效度均为“充分”。 2 项研究[16-17]未达到因子分析所要求的样本量,方法学质量为“不良”。
2.3.4 内部一致性 8 项研究均基于经典测量理论(Classical Test Theory,CTT)对量表内部一致性进行测量并计算其Cronbach α 值, 方法学质量评价为“非常好”;其中2 项研究[15-16]各维度的Cronbach α系数均>0.7,故所评估的内部一致性为“充分”,其余量表由于所测量的证候复杂且样本量较少, 病位涉及维度的案例数量不足导致Cronbach α 系数较低,内部一致性评价为“不充分”。
2.3.5 稳定性 COSMIN 建议计算组内相关系数(ICC)或加权Kappa 值,并规范测量间隔和条件[7]。纳入的研究中有2 项研究[14,18]因客观因素未进行重复测量,其余2 项研究[17,19]详细界定了重测期间调查地点、调查对象文化程度以及疾病分期等条件,但未计算组内相关系数(ICC)及其95%置信区间,仅用相关系数反映稳定性可能存在偏倚, 故方法学质量为“模糊”; 其余研究均未详细说明重测过渡期患者的情况,方法学质量为“模糊”。 而QLASTCM -Lu 量表详细计算ICC 及相关指标,测量属性为“充分”,其余量表测量学属性为“不确定”。
2.3.6 构念效度的假设检验 假设检验用于验证构念效度,包括与其他测量工具的关系假设,即聚合/区分效度和已知组别效度2 种; 若是亚组之间的比较,需要详细描述亚组的重要特征[21]。 纳入工具中,3项研究[15-17]没有针对测量工具的属性描述,方法学质量为“不良”,但研究结论基本符合假设,故测量属性评价是“充分”;其余研究对亚组的特征进行相对详细的描述,方法学和测量属性质量评价为“良好”和“充分”。
2.3.7 效标效度 COSMIN 指南标准规定, 简版量表可用原量表作为金标准进行效标效度的检验[22]。3项研究[14,18,20]未报告效标效度,由于纳入的量表尚无金标准,故其余量表的方法学质量评价为“不良”。受中西方文化差异影响导致QLASTCM -Lu 量表中“天人相应” 维度与QLQ- LC43 量表的相关系数较低。 其余量表金标准的相关系数均>0.7,测量属性质量评价为“充分”。
2.3.8 反应度 2 项研究[14,18]未报告反应度,3 项研究[15-17]采用配对t 检验和标准化反应均数(standardized response mean,SRM)分析干预前后量表得分的差异,结果与假设一致,但未详细描述干预方法;此外,反应度采用的分析方法具有片面性[23],方法学质量评价为“不良”且测量属性评价为“不确定”。 1 项研究[12]采用亚组分析,根据年龄段进行分组,该方法学质量为“非常好”,测量属性为“不充分”。
2.3.9 测量误差和跨文化效度 本研究纳入的工具均不涉及测量误差和跨文化效度的检验, 故不予评价。
2.3.10 天花板/地板效应 天花板/地板效应体现量表的反应性,通过计算条目的答案极值(最小值,最大值)所占的百分比来统计天花板地板效应值。一般认为天花板地板效应值小于<15%较好[11]。 本文纳入的研究中仅2 项研究[13,19]报告其所有条目均不存在天花板/地板效应,其余研究未见报道。
2.4 纳入研究的证据等级评价及证据推荐 偏倚风险方面, 除QLASTCM-Lu、QLASTCM-Lu 改良版和QOL-AL 内容效度方法学质量为不良,其余量表评价均为模糊,故上述3 类量表均降2 级,其余降1级。 除QLASTCM -Lu 改良版和QOL-AL 结构效度方法学质量为不良外,其余量表均为良好,故上述2个量表降2 级。除QLASTCM -Lu、QLASTCM -Lu 改良版和QOL-AL 结构效度假设检验方法学质量为不良,其余量表评价均为良好,故上述3 个量表均降2 级。 在不一致性方面,所有评估工具均纳入1 项研究,因此不予降级。 在不精确性方面,QLASTCM-Lu和阴虚证中医疗效评价量表因重测样本50 例,稳定性的质量评级降2 级。在间接性方面,由于纳入的普适性证候疗效评价量表,其研究人群涉及多种疾病,不予降级。 详见表3。
表3 纳入量表的证据等级评价及推荐意见(n=8)
3.1 肺癌中医临床疗效评估工具适用范围广泛,尚无肺癌特异性证候评估工具 中医证候是体现中医特色、突显中医药优势的指标[24],研究发现中晚期肺癌中医证型以气阴两虚为主[25]。 本研究纳入的证候量表涵盖气虚证和阴虚证2 个方面, 用于评估肺癌中医症状和体征的转归[13-14,18-20],但这些量表的研究人群涉及多种疾病的患者,适用范围广泛,针对肺癌的特异性证候量表还有待开发;此外,生存质量也是中医疗效评价指标之一,本文3 项研究[15-17]立足于肺癌生存质量,涵盖身体、心理以及社会功能等多个方面,研究对象针对肺癌人群,量表的维度包含肺癌特异性模块,相较于西方生活质量评估工具而言,更能全面评估肺癌的中医药临床治疗效果。
3.2 肺癌中医临床疗效评估工具方法学质量有待提高
3.2.1 工具的开发缺乏对访谈研究方法的详细描述, 内容效度多忽视患者意见 COSMIN 指南要求从相关性、全面性、理解性对PROMs 开发阶段的方法学质量进行评价,其中内容效度至关重要。对于临床疗效评估工具而言,在量表开发阶段是否能够区分条目的诊断和评价功能尤为重要, 需要采用访谈等质性研究方法,保证概念引出的全面性、相关性、可理解性。 本研究纳入工具最普遍的问题就是缺乏对质性访谈过程中研究方法详细、 规范的描述[15-17,19-20]。主要体现在:不清楚访谈者是否接受培训,目标人群是否具有代表性或者是否制定清晰的访谈提纲等;在内容效度评价上侧重于专家咨询, 仅考虑专家的意见进行条目的筛选, 未充分汲取患者的意见和看法[15-17]。 未来可结合认知性访谈,深入挖掘原始资料的信息,开发符合肺癌中医药治疗特色的评价工具[26]。
3.2.2 重测方法报道不清晰, 量表稳定性较模糊稳定性指对同一受试者采用同样的方法重复测量时所得结果的一致性程度[27]。 纳入的工具稳定性方法学质量均模糊, 与相关研究未能阐述重测期间患者以及测量条件的稳定性有关, 或未能满足重测所需的客观条件[18,20]。本研究重测时间一般为入院或首次调查后,重测间隔不合适会影响重测信度[28],而所纳入的工具均未对测量跨度的选择进行解释。 未来在进行稳定性检验时, 应提出足够的证据证明重测时间以及患者条件的稳定性。
3.2.3 效标效度评价中缺乏金标准, 反应度仍需验证 当金标准选择不当时, 效标效度和聚合效度将难以区分[29]。 由于缺乏公认的“金标准”量表和客观指标, 本文纳入的工具将其它常用量表和实验室检查指标作为金标准; 反应度指需要在不同阶段对同一群体或不同群体待测构念水平进行测量, 通常建议研究者提前制订假设并对结果进行评价[27]。3 项研究[15-17]未对治疗手段进行详细描述,采用t 检验和非参数检验法验证反应度,存在一定的偏倚风险。在亚组分析中,多依据有无该证型将患者进行分组[19-20],缺少对年龄、性别、疾病分期等维度的亚组分析。
3.3 肺癌中医临床疗效评估工具的测量属性报告不全,QLASTCM -Lu 可暂被推荐 本研究纳入的8 项研究均未报告测量误差、 跨文化效度或测量等同性,导致纳入工具存在偏倚风险。测量误差指测量分数的系统或随机误差, 若最小可测变化值(minimal detectable change, MDC)大于标准测量误差(standard error of measurement, SEM),则说明量表分值的变化是随机误差而不是系统误差造成的[30]。多组因素分析与DIF 分析能够发现各组别之间(如年龄、性别等)是否存在重要差异,鉴于此,在测量工具的开发过程中应进行多组因素分析或者DIF 分析,从而验证工具的跨文化效度或测量等同性。本研究纳入8 个评估工具无A 类推荐等级,C 类工具由于有高质量证据证明测量属性不充分因此不建议使用。 B 类工具中相较之下,Wan 等[15]研制并验证的QLASTCM -Lu 量表有高质量证据证明其结构效度充分, 因此可以被暂时推荐作为肺癌临床疗效评估工具, 但该量表内容效度和反应度尚需要进一步验证。证候评估工具中,虽然纳入中晚期肺癌常见证候(气阴两虚证),但由于目标人群并非单一肺癌患者,导致群体一致性较差,影响证据质量。 因此,未来在开发肺癌特异性证候评估工具时需要首先明确目标人群,即仅纳入肺癌患者。这样可以确保评估工具的针对性和准确性。其次,在工具的设计过程中应该充分考虑肺癌患者常见的证型,如气阴两虚证、痰湿阻滞证等,并结合临床实践和最新研究成果,确保工具的科学性和可靠性。
此外,本文纳入的研究多基于CTT 进行条目筛选及测量学性能评价, 未充分引入现代测量理论的方法如项目反应理论(Item Response Theory, IRT)。前者仅注重整体特性[31],后者可以揭示被试者在测验项目上的反应与其潜在特质之间的关系[32],所建立的非线性模型更符合中医辨证的特点。 今后可结合现代测量理论方法设计量表并对其性能进行评价。 量表研究的方法学质量决定研究结果的可信度[33],未来有待基于COSMIN-RoB 清单中的方法学理论研制相关量表,以期构建出符合肺癌辨证论治特点的评估工具,能够更好地评估中医药在肺癌治疗中的疗效,为患者提供更有效和个体化的治疗方案。
本研究基于COSMIN 指南对肺癌中医临床疗效相关评估工具进行了全面评价, 由于纳入的研究中方法学和测量属性质量评价参差不齐, 暂时推荐内容效度和反应度较好的QLASTCM -Lu,以作为评估肺癌患者中医药疗效的工具。 未来应充分考虑上述偏倚风险清单以及质量准则中提及的缺陷,以COSMIN 指南作为标准进行核查,以期开发高质量、本土化的肺癌中医临床疗效评估工具。 本研究存在不足:难以捕获个别研究中量表的全貌;证型量表中仅考虑气阴两虚证;量表的测量属性研究较少,可能导致一定的偏倚。