人工膝关节置换术疗效评价工具的研究进展

2021-11-29 14:56:08王一鸥钱文伟朱诗白陈曦李姗妮

中华骨与关节外科杂志 2021年5期

王一鸥钱文伟朱诗白陈曦李姗妮

（中国医学科学院北京协和医学院北京协和医院骨科，北京 100730）

人工膝关节置换术作为终末期膝关节病变的一种有效治疗手段，至今已有超过五十年的历史。随着肥胖、人口老龄化等问题的加剧，以及人们对生活质量需求的提高，全球范围内人工膝关节置换术的手术量逐年递增。据统计我国2019年人工膝关节置换手术量已超过39 万例，且仍保持着超过27%的年增长率[1]。面对手术量的迅速增长，手术疗效的满意度却仍维持在81%～89%[2-4]。提高手术疗效和患者术后满意度首先需要合适的工具评价手术疗效，本文将对人工膝关节置换术后疗效评价工具进行探讨。

1 假体生存分析

假体生存分析包括假体生存时间、翻修率等指标，是人工关节置换手术发展早期阶段最主要的评价指标，也是目前用于临床研究和关节登记系统的重要结局指标。随着假体设计的革新、材料学的发展，手术技术的进步，文献及国家关节登记系统报道的全膝关节假体15年生存率已经超过93%[5]，但术后满意度并未获得相应的提升。说明假体生存分析的数据只评价了假体在位情况，但却忽略了患者的疼痛缓解和功能改善情况。除此之外，翻修率等作为针对人群的远期疗效指标，并不适用于评价接受关节置换手术个体不同时间节点的疗效。

2 医师评价工具

医师评价工具的出现标志着早期关注点从假体生存率到患者疗效的转变。因为需要由医师进行测评，故这些指标绝大多数都是具有明确标准的客观指标，如关节活动度（range of motion，ROM）、稳定度、关节畸形矫正程度等。这些指标与衡量疼痛和功能的问题组合在一起，发展形成了1973 年的特种外科医院评分（Hospital for Special Surgery score，HSS）[6]、1989 年的美国膝关节协会评分（Knee Society Score，KSS）[7]等医师评价量表，是目前人工膝关节置换手术常用的疗效评价工具[8]。

但Lingard 等[9]认为KSS 量表存在内容效度缺陷。即医师评价工具均由医师制定和评价，而患者未参与问卷条目的制定和筛选。由于医师与患者对疗效的认识和关注点存在差异，致使评价的内容具有很强的医师主观性，可能无法直接而准确地反映患者真正的需求[10]。有研究显示TKA术后ROM、HSS评分和KSS 评分结果与患者对疗效的满意度之间并不具有较强相关性[11-13]。

早期医师评价工具编撰的过程中未对测量属性引起足够重视，导致部分工具不同程度上存在信度、效度和反应度的不足，影响最终结果的准确性。No⁃ble等[14]的研究发现KSS评分中医师评价部分并不具有良好的内部一致性。这意味着KSS 评分的总分不具有明确的意义，只适合以单独问题的形式使用。Ghanem等[15]在研究中举过一个例子：一位不伴疼痛、膝关节严重强直但对线良好的患者和一位伴有轻度疼痛、轻度内翻但膝关节ROM 良好的患者可以获得同样的KSS总分，但二者日常生活的困难程度完全不同。另外传统量表制定所针对的人群和当今接受关节置换的人群已大为不同，更多病变和畸形轻、年轻活跃并且有更高功能需求的患者意味着传统量表的内容已不足以评价当今接受关节置换患者的需求，显示出严重的天花板效应。

近些年来，越来越多的学者意识到医师评价工具的这些弊端。2005～2019年间，在发表的涉及全膝关节置换术疗效评价的文章中，使用KSS评分的文章占比从2005 年的55.2%下降至2019 年的35.4%[16,17]。同时，针对这些不足美国膝关节外科协会在2011 年编撰了更多基于患者自评的新KSS 评分[14]。对于单独使用传统医师评价工具作为疗效评价指标，研究者应当更加谨慎。

3 基于患者表现的功能评价工具

为了更精准的评估患者功能情况，基于患者表现的功能评价工具逐渐得到发展。Dobson 等[18]将其定义为由评价者观测到受试者完成，如步行、坐立、上下台阶等指定活动时的各项指标，通常是时间、数量和距离等客观定量参数。可以看作医师评价工具中的特殊类型。常用的包括六分钟步行试验、坐立试验等。

近年来，随着传感器、步态分析、人工智能等技术的发展，智能设备在功能评价中越来越得到重视。尤其是配备传感器的3D 步态分析技术，通过收集指定活动下的时空步态、运动学、动力学等参数定量评价患者的功能情况。相比于传统工具测量，具有更高的灵敏度，可以识别更细微的功能改变。同时，得到的数据更为全面且几乎没有天花板效应[19]。另外，对于患者而言，这些测量工具几乎不存在语言和文化理解障碍。

与医师评价工具相同，基于患者表现的功能评价工具的结果无法直接反映患者的满意度，并且在内容效度上的不足更为严重。首先，这些工具只有功能这个单一维度的评价，而没有测量疼痛、生活质量等其他与疗效相关的重要维度。另外，由于时间和客观条件等限制，测试的内容通常只包含一个动作，而缺乏诸如下蹲、上下楼梯等其他在日常生活中重要的活动。另一方面是生态学效度的不足，患者在医院里完成这些任务的表现与真实世界中的表现可能存在差异[20]。除此之外，在实践过程中，完成测试通常相当耗时且需要额外经过培训的评价者在场，如使用步态分析等还需要额外的设备和场地，这些均限制了基于患者表现的评价工具的推广和普及。

由于内容效度和生态学效度的不足，以及人力物力的需求，基于患者表现的功能评价工具并不适用于广泛单独地应用于膝关节置换术后患者疗效的评价，但因其可以获得直观、精确、可靠的数据，在探索人体和关节假体的运动学、假体磨损模式等研究中会扮演越来越重要的作用。

4 患者自评工具

患者自评工具是指在没有医师等其他外部评价者干预的情况下，由患者直接自评的健康状况，通常以量表的形式呈现。根据关注点的不同，可将患者自评量表分为反映患者整体健康状况和生活质量的通用型量表和关注患者特定疾病、症状、特殊解剖部位的特异性量表。

患者自评量表可以更加准确地评价患者关注的因素，真正从患者的角度评价手术疗效[21]。人工膝关节置换术作为一个择期手术，目的是通过减轻关节疼痛，改善关节长期功能，提高患者生活质量[22]。疼痛、满意度、生活质量等这类主观性指标，患者自评无疑是金标准。而对于功能等指标，也包含着主观因素，相比于ROM和完成特定动作所需时间，患者认为的困难程度更能直接地反映疾病对个体功能的影响以及术后的改善[23]。

其次，患者自评量表的结果完全由患者本人评价得到，可以最大程度地减少医师等其他外部评价人员带来的偏倚。医师在评价时或多或少地会掺杂自己的理解、经验以及目的，导致不同医师间的评价标准存在差异。另外，在整个术前到术后随访过程中，完全由患者本人评价可以最大程度的保持评价标准的一致性。除此之外，患者自评工具的使用不受时间和空间的限制，且随着信息技术的发展，患者可以通过互联网等方式完成量表的填写，减少术后随访的人力物力成本。

4.1 患者自评工具的测量属性

对于患者自评量表，测量属性尤为重要，其充分与否直接关系到量表能否反映患者的真实情况。2010 年由心理学、流行病学和临床专家共同制定了COSMIN（Consensus-based Standards for the selection of health status Measurement Instruments）指南，将量表的测量属性归纳为效度、信度和反应度三个方面，具体包含9 个测量属性，并制定了系统的评价方法[24]，2018 年在此基础上完善并更新了第2 版COSMIN 指南[25]。

近年来，陆续有学者将COSMIN指南系统评价应用于人工全膝关节置换术的患者自评量表，Harris等发现牛津膝关节评分（Oxford Knee Score，OKS）和牛津膝关节评分-活动和社会参与量表（OKS-Activity and Participation Questionnaire，OKS-APQ）具有良好的测量属性[26]。Gagnier等的研究显示只有OKS，西安大略和麦克马斯特大学骨关节炎指数（Western On⁃tario and McMaster Universities Arthritis Index，WOMAC）和骨关节炎或关节置换工作能力评价量表（Work,Osteoarthritis or joint-Replacement Question⁃naire，WORQ）具有相对较好的测量属性[27]。我们利用第2 版COSMIN 对全膝关节置换术34 个患者自评量表系统进行评价，提示OKS，OKS-APQ，遗忘关节评分（Forgotten Joint Score，FJS），膝关节损伤和骨关节炎评分12条目缩减版问卷（12-item short forms Knee injury and Osteoarthritis Outcome Score，KOOS-12）和功能缩减版问卷（Knee injury and Osteoarthritis Outcome Score Physical function Short form，KOOS-PS），WOMAC全膝关节置换功能缩减版问卷（Western Ontario and McMaster Universities Arthritis Index-Total Knee Re⁃placement function short form，WOMAC-TKR），下肢功能量表（Lower Extremity Functional Scale，LEFS），患者膝关节假体表现评分（Patient's Knee Implant Perfor⁃mance，PKIP），加州大学洛杉矶分校活动量评分（Uni⁃versity of California Los Angeles activity score，UCLA），以及KOOS和WOMAC 中的疼痛、功能和生活质量子量表具备基本充分的测量属性[28]。总体来说，只有少数患者自评量表具有可靠的测量属性，因此量表的选择更多应基于测量属性的证据。

同传统医师评价量表一样，传统患者自评量表也逐渐出现天花板效应。早期的患者自评量表只包含疼痛和日常生活中基本的功能，而满足日常生活功能需求已不能使所有患者满意。因此，KOOS、OKS-APQ 和2011 版KSS 量表均在WOMAC、OKS、KSS 传统量表的基础上加入了更多娱乐和运动功能的评价内容。2012年Behrend等[29]提出遗忘人工关节可以作为人工关节置换手术的终极目标。研究者应当科学看待患者自评量表的天花板效应。一方面，天花板效应的出现使得量表无法发现患者进一步的改善，但另一方面，关节置换手术的目的是缓解疼痛和改善功能，对于设计科学的量表达到天花板分数意味着患者实现了这个目的，量表的作用也应当是用于评价患者的健康状况，而非检测差异。因此，天花板效应不应作为量表选择的绝对限制，而应当将获得满意的疗效作为评价的终点。

4.2 膝关节损伤和骨关节炎评分（KOOS）

KOOS 由Roos 等于1998 年编撰，旨在评价膝关节损伤和骨关节炎患者的症状和功能障碍情况。KOOS包括疼痛、其他症状、日常生活功能、运动和娱乐功能以及生活质量5 个子量表的42 个条目[30]。KOOS 的优势在于：①除其他症状外的4 个子量表的信效度均得到高质量研究验证[31-33]，因此量表的结果真实可信。②量表内容全面，基本涵盖了膝关节置换术患者关心的各方面问题。另外KOOS 包含了WOMAC 的所有条目，因此可以直接从KOOS 的结果中获得WOMAC 的分数。③Connelly 等的研究显示KOOS各量表的得分和TKA患者术后满意度相关，并建立了基于疗效满意度可应用个体评价的阈值[34]。KOOS的主要缺陷在于，繁多的内容需要患者花费超过10 分钟去完成，导致缺失值的增多和依从性的降低。为了解决这个问题，研究者利用项目反应理论编撰了反映患者功能情况的7 条目功能缩减版（KOOS-PS）[35]、反映关节置换患者膝关节情况的7条目关节置换缩略版（KOOS,JR）[36]以及全面的12条目缩略版（KOOS-12）[31]。三者均利用人群数据和完善的心理统计学模型构建而成，具备充分的测量属性，尤其是2019 年利用现代测量理论研制的旨在替代KOOS的KOOS-12。但这些缩减版的适用范围、条件以及是否可以完全替代原版量表，仍需要进一步的研究进行验证。

4.3 遗忘关节评分（FJS）

FJS由Behrend 等于2012年编撰而成[29]。其开创性地将人工关节置换术的终极目标以及量表的构念定义为“遗忘人工关节”。相比于减轻关节疼痛和改善功能，遗忘人工关节、实现自然膝对疗效提出了更高的要求。这一方面意味着FJS 的结果将更接近于患者对疗效的满意程度。近期有研究证实与WOMAC 评分相比，FJS 的结果与患者疗效满意度之间具有更高的相关性[37]。另一方面意味着FJS的结果具有更少的天花板效应[38]。凭借其独特的优势，近五年使用FJS的研究显著增多，未来必将成为人工关节置换术后重要的疗效评价工具之一。但FJS 的缺陷在于只能用于术后的评价，无法进行术前术后的对比。另外，由于遗忘人工关节这个构念的独特性，在使用过程中如何使患者理解，准确完成量表值得研究者进一步思考。

4.4 患者自评量表的发展趋势

部分传统纸质版的患者自评量表，因条目繁多导致患者依从性较差，同时不可避免的存在缺失值、录入错误，需要更多的人力保障其完整性和准确性。随着基于条目反应理论的计算机自适应测试的普及[39]以及信息技术的发展，条目更少、更便捷的电子版量表将成为未来的发展趋势。

患者自评量表的结果来源于患者，几乎不受医师等医疗提供方的影响，近年来研究者尝试利用量表的结果辅助医患共同决策、医疗服务评价及政策制定。英国的研究者利用国家关节登记系统中的术前术后牛津髋/膝关节评分数据，构建了术前评分对术后改善程度的预测模型，从患者疗效和卫生经济学两方面制定了基于术前牛津关节评分的转诊和手术阈值[40,41]。但有学者认为这些量表研制的目的是评估疗效，而预测疗效、指导治疗超过了其适用范围，阈值的结果并不具有临床意义[42]。因此，利用患者自评量表指导治疗决策和卫生政策制定方面仍需要进一步研究探索。

患者自评量表未来仍需要进一步解决以下两方面问题：第一，量表的选择应基于其测量属性的证据，因此，需要系统评价和检验现有量表的测量属性。明确性能良好的量表并形成共识，规范研究中使用的评价工具。第二，利用关节登记系统及数据库全面收集不同人口学特征患者的患者自评量表数据，根据患者对疗效的满意度计算最小临床差异（minimal clinically important difference，MCID）等参数，从而制定患者个体水平上量表的阈值。

5 结论

提高人工膝关节置换患者术后满意度首先需要选择合适的评价工具，患者自评量表因其可以客观反映疗效，将会扮演愈加重要的作用。在临床实践和研究中，医师或评价者应根据患者的功能需求选择具备充分测量属性且没有明显天花板效应的患者自评量表，才能使疗效评价的结果更接近患者的满意度。