黎万汇 陈莹莹 康晓凤
心力衰竭是一种由心脏结构和/或功能异常引起的临床综合征,为多种心血管疾病的严重和终末阶段,已影响全球约6400 万人[1-2]。我国及欧洲、美国发布的心力衰竭诊治指南[1,3]中均将延缓疾病进展(死亡、住院)、优化患者健康状况(症状、功能和生活质量等)列为心力衰竭治疗的重要目标,多数心力衰竭临床试验也侧重于这两大类指标的测量以作为干预的证据基础。其中,死亡和住院可通过直接数据衡量,但健康状况如疲乏、生活质量这类指标却难以通过客观实验室检查获得。患者报告结局(patient-reported outcomes,PROs)指未经医生或其他人的解释直接来自于患者的健康信息[4],已被国际各大心脏病学会认可能够从生理、心理、社会三大层面准确的反应健康状况,有效预测心力衰竭患者临床结局,还能充分体现出患者需求与偏好,是指导心力衰竭临床干预、提升以患者为中心医疗服务质量的关键[5-6]。PROs 应用的成功与否很大程度上取决于测量工具的选择,因此本文对国际常用心力衰竭PROs 测量工具进行综述,以期为完善我国心力衰竭健康评估及相关工具的选择及开发提供参考。
EQ-5D 是1990 年欧洲生命质量工作组发布的健康评估工具,为心力衰竭临床试验中最常用的PROs 通用工具。EQ-5D 包含健康描述和视觉模拟(VAS)两部分,健康描述从5 个维度测量:行动能力、自我照顾能力、日常活动、疼痛/不适、焦虑/抑郁,可根据特定效用积分体系将分数转换为0 到1 的效用指数值,数值越高健康状况越佳。EQ-VAS 为一个标有0(最差)到100(最好)刻度的标尺,由患者对自己的整体健康进行主观评分。最早发布的EQ-5D-3L 健康描述部分采用3 级评分,在我国心力衰竭患者中的Cronbach’sα为0.761[7]。但调查显示EQ-5D-3L 存在明显的天花板效应,因此2011 年发布了5 级评分版本EQ-5D-5L,对健康问题较轻人群评估的灵敏度更高[8],在具有中至重度合并症的心力衰竭人群中各个维度天花板效应降低了7%~17%[9]。Rasmussen 等[10]对丹麦1499 名心力衰竭患者的随访发现,较低的EQ-5D-5L 分数与患者1年后全因死亡率(95%CI1.15~1.38)增加1.3倍相关。EQ-5D 还广泛用于卫生经济评价,Tanna等[11]系统评价显示,70%以上的心力衰竭经济学研究均选用EQ-5D,其效用指数值可计算质量调整生命年等经济学评价重要参数。既往多采用日本、英国、韩国的效用值积分体系计算中国人群的效用指数值,Luo 等[12]在2017 年基于中国城市居民 (n= 1271)计算出新的EQ-5D-5L 效用值积分体系,应用于我国人群中敏感度更高。
最早的36 项健康调查简表(SF-36)由波士顿健康研究所于1990 年开发,包括36 个条目,8 个维度:生理功能、生理职能、躯体疼痛、一般健康状况、精力、社会功能、情感职能、精神健康,可进一步总结躯体健康总评(PCS)和心理健康总评(MCS)。该量表分数需根据条目权重转换为0(最差)至100(最好)的标准分,其中使用最多的是PCS、MCS,在中国心力衰竭人群中应用Cronbach’sα均大于 0.70,可作为心力衰竭患者再入院、死亡、炎症标志物升高、运动不耐受等指标的有效预测因子[13]。1996 年Ware 等[14]为进一步开发了12 项健康调查简表(SF-12),PCS-12、MCS-12 与原版本保持了较高的一致性,在英国人群中的相关系数分别为0.94、0.96[15]。其中PCS-12、MCS-12 分数降低与心力衰竭患者再入院及死亡风险增加相关,但MCS-12 对健康变化的识别能力较PCS-12 差[16]。SF-36、SF-12 作为通用工具提供的结果能在不同人群比较,然而相比于心力衰竭特异性工具,两个版本尤其是SF-12 准确性及灵敏度稍逊色,不建议单独使用SF-12 测量心力衰竭患者的健康相关生活质量[16]。
美国国立卫生院将PROs 作为21 世纪医学创新研究重点,2004 年联合西北大学、斯坦福大学等多所学校研发了PROMIS,旨在打破PROs 工具各自为政的局面。PROMIS 以WHO 健康框架为基础开发了一系测评工具,全面涵盖生理、心理、社会及其下属的一百多个健康领域。PROMIS 包括3 种测量形式:简表(固定4~10 个条目),特征集(多个领域简表的组合)和CATs(计算机个性化选择条目),可根据需求灵活选择。PROMIS 最早在构建条目池时就将心力衰竭患者纳入目标人群,目前PROMIS中心力衰竭常见健康受损领域量表均在心力衰竭患者中得到验证,如Flynn 等[17]的研究证实PROMIS身体功能、社会功能、疲劳简表和CATs 与KCCQ相应领域均具有高相关性(r= -0.75~-0.78),可以反应出心脏移植前后心力衰竭患者健康的变化。Wiandt 等[18]开始尝试将PROMIS 与心力衰竭门诊结合,发现接受规范化药物滴定后,患者呼吸困难和身体活动能力得到明显改善。目前我国袁长蓉教授团队成立了PROMIS 中国中心(PNC—China),正在积极开展中文版PROMIS 在中国人群的测量学检验及CATs 系统的开发。
KCCQ 由Green 等[19]2000 年发布的最常用于心力衰竭的疾病特异性PROs 工具。该量表回忆周期为2 周,包括23 个条目,能为心力衰竭患者提供躯体限制、症状频率、症状稳定性、症状负担、自我效能、社会功能和生活质量7 大领域的评估,不同领域组合还可计算整体症状评分、临床评分及总评分。2004 年邓红艳等[20]验证KCCQ 各个领域在我国慢性心力衰竭患者中Cronbach’sα为0.81~0.93,与纽约心功能(NYHA)分级呈负相关,相关系数绝对值均大于0.74。KCCQ 所有分数均可转换为0~100 的标准分,一般以25 分为区间划分,如0~24 分为健康状况非常差到差;以5、10 和20分的阈值对应小、中、大的临床变化。HF-ACTION试验[21]显示,KCCQ 总评分每升高5 分,对应心血管死亡以及心血管死亡和心力衰竭住院复合终点风险降低10%,6 分钟步行距离平均改善112 m,心肺运动耗氧量平均降低2.5 ml/(kg·min)。
为提高KCCQ 在临床的可实施性,2015 年Spertus 等[22]将量表缩减到12 条目形成了KCCQ-12,2~3 min 即可完成,保留了躯体限制、症状频率、社会功能和生活质量4 个领域,与KCCQ 相应领域的一致性均大于0.93,与6 个月死亡或再住院的结果呈分级负相关,在门诊稳定心力衰竭患者中重测信度≥0.76[23]。目前美国食品药品监督管理局(FDA)仅批准KCCQ 作为临床结果评估工具,因此旨在通过FDA 批准新疗法的试验建议选择KCCQ,而KCCQ-12 使用快捷便利,降低了患者近一半的应答负担,在常规临床实践中具有更大的优势。
MLHFQ 为1983 年开发的最早用于心力衰竭的疾病特异性PROs 工具。该量表回忆周期为4 周,包括21 个条目,均采取Likert 6 级评分,可计算总分、躯体维度(8 个条目)及情绪维度(5 个条目)分数,分数越低表示生活质量越高。Kato 等[24]对日本门诊心力衰竭患者的研究显示,MLHFQ 得分为心脏事件、死亡及再住院的独立预测因子。MLHFQ 总分能区分出NYHA I、II、III 患者的差异,但对NYHA III 和IV 之间的患者敏感度稍差。Rajati 等[25]发现,与SF-36 相比,MLHFQ 能更敏感的识别出心脏移植前后心力衰竭患者生活质量的变化。Napier 等[26]将MLHFQ 与KCCQ 进行对比,结果显示MLHFQ对心力衰竭患者6 分钟步行距离的变化更敏感。朱燕波等[27]于2004 年将量表引入我国,显示量表内部一致性良好,身体及情绪维度Cronbach’sα分别为0.824、0.776,根据NYHA 分级将患者分组,发现不同组别总分和躯体维度得分存在差异。后续一些对MLHFQ 结构进行分析的研究指出,该量表可能包含第3 个社会维度,可能归因于方法学及文化差异,未来有必要在大样本中进一步研究。
最早的CHQ 是由麦克马斯特大学Guyatt 等[28]在1989 年通过文献研究和专家、患者访谈研制针对慢性心力衰竭患者的健康评估工具,包括呼吸困难(5 个条目)、疲劳(4 个条目)、情绪功能(7 个条目)、掌控感(4 个条目)4 部分,需要由经培训的医务人员进行测评。该量表应答周期为2周,采用Likert 7 级评分,分数越高功能越差,最小临床重要差异值(MCID)为0.5 分。CHQ 已被证明与MLHFQ、KCCQ 具有高度相似的有效性和反应性,但CHQ 更着关注呼吸困难与疲劳这两大心力衰竭常见症状,对患者状况的恶化更为敏感。Lee等[29]验证CHQ 整体在我国充血性心力衰竭老年患者中Cronbach’sα为0.95,可用于区分普通老年人与患者的健康状况。2011 年Evans 等[30]进一步开发了CHQ-SR,可由患者自己报告,CHQ-SR 与CHQ 在相同的心力衰竭患者中分数无统计学差异,但CHQ-SR 呼吸困难维度得分整体比CHQ 低。目前CHQ-SR 中的呼吸困难分量表在临床试验中应用最多,但未有研究对比CHQ-SR 及CHQ 在中国人群中的应用效果。
MacNew 是1996 年基于心肌梗死后生活质量问卷改编的量表,旨在从躯体、情绪和社会功能三个领域测量心肌梗死、心绞痛、缺血性心力衰竭患者的健康相关生活质量,共包括 27 个条目。该量表回忆周期为2 周,均采用Likert 7 级评分,分数越高相应领域功能越好。其分数计算方法为应答条目分数总和/应答条目数,不受缺值影响,当缺失超过50%时,则不计算该领域分数。Höfer 等[31]证实MacNew 在美国、西班牙等5 个国家应用各个维度Cronbach’sα为0.75 ~0.97,量表三因子结构解释了63.0~66.5%的方差,MCID 为0.5 分,低得分与心力衰竭患者不良临床事件发生具有较高相关性。Lachowska 等[32]应用MacNew 评估呼吸训练12 周前后的心力衰竭患者生活质量,结果显示量表所有领域均能直接反映出患者状态的变化,其情绪领域低得分对长期预后有明显不利影响。2008 年Yu[33]将MacNew 汉化,该量表在香港心力衰竭患者中各领域Cronbach’sα≥0.877,对不同年龄、性别、情绪状态的患者区分度良好,MacNew 尚未在大陆人群验证,未来有待进一步开展研究。
HeartQoL 为2014 年Oldridge 等[34]基 于22 国家6384 名缺血性心脏病患者,对西雅图心绞痛量表(SAQ)、SF-36、MLHFQ 中的条目重新组合开发的核心疾病特异性PROs 工具,可用于心肌梗死、心绞痛及缺血性心力衰竭患者。HeartQoL 包括躯体功能(10 个条目)和情绪功能(4 个条目)两部分,回忆周期为4 周,采用Likert 3 级评分,分数越高状况越好。HeartQoL 在大样本检验中,两部分及整体在心力衰竭患者中Cronbach’sα在0.80~0.91,与SF-36、HADS 具有显著相关性,能够识别出患者在进行心脏康复前后健康状况的变化,但情绪功能部分存在一定的天花板效应[35]。Rasmussen 等[10]发现较低的HeartQoL 分数与心力衰竭患者出院1 年及3 年的全因死亡率和心血管死亡率相关。2022 年Luan 等[36]检验该该工具在我国心力衰竭人群中应用躯体及情感两部分具有较好的信效度,Cronbach’sα为0.70、0.80,但还需要进一步确认HeartQoL 的临床反应性。
在过去20 年中,医疗卫生领域最重要的突破之一为认识到PROs 与临床专业人员的判断具备同样的有效性及可靠性,极大的促进了现在PROs 测量工具的发展与应用。心力衰竭PROs 工具起源于19 世纪80 年代,MLHFQ 被认为是最早用于心力衰竭健康评估的PROs 工具,随后不同研究者根据需求相继开发出了更多可用的工具,心力衰竭国际常用心力衰竭PROs 测量工具及其内容见表1。
表1 心力衰竭患者PROs 测量工具的比较分析
从内容上来说,传统通用工具如EQ-5D、SF-36 主要包括躯体活动、疼痛、焦虑抑郁这类多数疾病都会出现的健康问题,缺少呼吸障碍、水肿等心力衰竭患者特有的症状与体征。疾病特异性工具如KCCQ、MLHFQ 内容对心力衰竭患者针对性强,但数据无法在疾病间比较,开发时也未系统的将患者可能出现的健康问题全面纳入。早期的PROs 工具各有不同的侧重点,临床试验为保证指标的全面性及可比性,往往会选择2 个以上工具,极大地增加了患者的应答负担。随着对PROs 工具理解的加深,研究者们认为核心集测量工具及PROMIS 为新的突破口,能够最大程度兼顾特异性、全面性、可比性。但现阶段开发核心集测量工具时,多将关注点集中在缺血性心脏病上,形成的工具如MacNew及HeartQoL 仅可用于缺血性心力衰竭患者。而PROMIS 内容全面,可根据需求选取相应工具,减少评估内容的叠加,近年来PROMIS 开始提倡将其中的通用条目与疾病特异性条目结合共同检测某疾病人群健康状态的变化,可能为未来心力衰竭PROs 工具探索的重点。
从使用的角度来说,PROs 工具在临床研究和实践的有用性不仅取决于常规的心理测量学属性,还应进一步考虑该工具分数的可解释性。目前临床试验多通过比较组间平均得分的差异来衡量干预对健康状况的影响,均值差异虽然广泛描述了分数分布的变化,但不适用于个体患者。要想提升PROs工具在临床实际的应用价值,需定义其最小但具有临床意义的分数阈值,即MCID 值。DEFINE-HF 试验[37]就通过比较达格列净治疗组与对照组KCCQ分数提升超过其MCID 值的人数来分析达格列净的治疗效果,虽这种方法与比较组间均值差得出的结论相同,但可以更清楚的传达出达格列净对个体健康的益处。现阶段仅KCCQ、CHQ-SR、MacNew 计算了在心力衰竭人群中的MCID 值,未来研究还需进一步解释MCID 值在不同条件下的适用性。
综上所述,国际中有关心力衰竭PROs 研究已有40 多年的历史,开发出了相当数量可用的工具,未来研究重点一方面应改变不同工具各自为政的局面,开发系统化PROs 测量工具体系,方便使用者对工具的选择与应用;另一方面应深入讨论工具的MCID 值,促进研究人员对结果的理解,提升PROs分数变化对临床决策的指导意义。