新生儿疼痛评估量表测量学性能的系统评价再评价

2022-10-12 07:50沈巧唐语蔓冷虹瑶雷若冰郑显兰

中国全科医学 2022年35期

沈巧，唐语蔓，冷虹瑶，雷若冰，郑显兰*

住院新生儿因诊疗原因，不可避免地要经历各种疼痛刺激。研究显示82.6%的常见临床操作可引发重度疼痛[1]。新生儿疼痛评估与镇痛管理专家共识指出，规范适宜的疼痛管理，可减轻或防止疼痛对身体或心理带来的各种不良影响，加速康复进程[2]。及时、准确评估新生儿疼痛是实施疼痛管理，衡量镇痛措施有效性的关键。由于新生儿无法通过语言表达疼痛，医护人员需借助神经生理、行为反应的测量对其疼痛进行评估。包含有生理和/或行为指标的疼痛评估量表被认为是最为便捷且费用最低廉的评估方法，医护人员经过简单培训即可掌握[3]。

基于共识选择健康测量工具的标准（Consensus-based Standards for the Selection of Health Measurement Instruments，COSMIN）指出只有具备良好测量学性能的量表才能作为可靠工具用于临床实践[4]。目前，针对不同的新生儿群体和不同的疼痛类型，已构建和测试了40多种疼痛评估量表。然而，对于具体的临床情景，应该选择哪种量表评估新生儿疼痛仍没有定论。其主要原因在于现有新生儿疼痛评估量表数量众多，且其测量结果的可靠性和稳定性存在较大差异[5]；而已发表的单项研究或系统评价仅能提供关于某个量表或量表某一方面测量学性能的零散证据，不利于医护人员的临床决策。系统评价再评价作为一种对某一特定问题相关系统评价进行综合研究的一种方法，可为证据使用者提供全面系统的高质量证据[6]。因此，本研究拟通过系统评价再评价，对现有新生儿疼痛评估量表的测量学性能进行全面评价，从而为临床实践者和研究者选择最佳的疼痛评估量表提供证据支持。

1 资料与方法

1.1 文献纳入和排除标准纳入标准：（1）研究主题为新生儿疼痛评估量表的测量性能研究，包括信度（内部一致性信度、评分者间信度、重测信度等）、效度（内容效度、结构效度、校标效度等）、反应度，以及可解释性、实用性和可行性等（后三者虽非测量性能，但是量表的重要特性）；（2）量表测评对象为住院新生儿；（3）研究类型为：系统评价、Meta分析或Meta整合。排除标准：（1）研究主题为其他类型的疼痛评估方法，如新生儿疼痛表情自动识别系统、近红外光谱技术、心率变异性分析等；（2）无法提取测量学性能相关数据的文献；（3）发表语言为非中文或非英文；（4）系统评价计划书、会议摘要、重复发表的文献。

1.2 文献检索策略 2021-10-31以自由词和主题词结合制定检索策略，计算机检索中国知网、中国生物医学文献数据库、万方数据知识服务平台、维普网、PubMed、Embase、Cochrane Library、Web of Science、CINAHL数据库，通过纳入研究的参考文献追溯与本研究相关的文献。指南推荐意见的形成应基于当前可得的最佳证据[7]，而系统评价证据的有效期为3～5年[8]，故本次文献检索时段限制为近5年（2016年11月至2021年11月）。中国知网的检索策略为：（主题=疼痛+镇痛）AND（主题=新生儿+足月儿+早产儿+低出生体重儿+小于胎龄儿+婴儿）AND（主题=评估+评分+测量+测定+量表+简表+问卷+工具）AND（主题=测量学+信效度+信度+效度+反应度+反应性+可行性+实用性+适用性+可操作性）AND（主题=系统评价+系统综述+荟萃分析+Meta分析+Meta整合）NOT（主题=剖宫产+分娩+产科+产妇+成人+老年人+妊娠）。PubMed的检索策略见表1。

表1 PubMed检索策略Table 1 Search strategies for systematic reviews about psychometric properties of neonatal pain assessment scales in PubMed

1.3 文献筛选与资料提取利用EndNote软件对各数据库合并后的检索结果去除重复文献，进一步由2名研究者独立完成文献筛选和资料提取，并通过交叉核对与分歧讨论后达成一致意见。利用Excel提取资料，内容包括：第一作者、发表年份、研究主题、纳入研究数、研究对象、纳入量表数、量表使用情景、方法学质量评价和结果综合方法等。

1.4 纳入研究的质量评价由2名研究者分别独立地对纳入研究的方法学质量、偏倚风险、报告质量和证据质量进行评价，并交叉核对评价结果，采用组内讨论的形式解决分歧。具体的评价方法或标准如下。

1.4.1 文献质量评价依据澳大利亚乔安娜布里格斯研究所（Joanna Briggs Institute，JBI）循证卫生保健中心系统评价的方法学质量评价工具[9]对纳入研究的方法学质量进行评价。该系统评价的方法学质量评价工具包括循证问题、文献纳入排除标准、检索策略、文献质量评价、资料提取与综合、发表偏倚等11个条目。每个条目可评价为“是”“否”“不清楚”和“不适用”。

依据系统评价偏倚风险（Risk of Bias in Systematic Review，ROBIS）工具[10]对纳入研究的偏倚风险进行评价。ROBIS的评价过程分为3个阶段，阶段1：评估相关性（此部分主要针对干预性、病因性、诊断试验和预后性系统综述。故本研究不进行阶段1的评估）；阶段2：评估系统评价制定过程中的偏倚风险程度，包括4个领域，共21个标志性问题；阶段3：评估系统评价整体的偏倚风险，包括3个标志性问题。评估领域及标志性问题（阶段2、3）的方法为：从系统评价中寻找支持偏倚风险程度判断的信息，回答标志性问题，判断偏倚风险程度。标志性问题的回答为“是”“可能是”“否”“可能否”和“无信息”；偏倚风险程度的评价为“低”（所有标志性问题的回答为“是”或“可能是”）、“高”（任一标志性问题的回答为“否”或“可能否”）和“不确定”。

1.4.2 报告质量评价由于测量工具系统评价的报告规范PRISMA-COSMIN正处于开发阶段，故本研究采用Preferred Reporting Items for Systematic Reviews and Meta-Analyses（PRISMA）声明[11]对纳入研究的报告质量进行评价。PRISMA声明作为系统评价报告的基础规范，包括7个部分，共27个条目。每个条目根据文献中是否有完整报告，评价为“是”（完整报告）、“否”（部分报告+未报告）和“不适用”，并计算每个条目的报告完成率。

1.4.3 证据质量评价纳入的系统评价由于原始研究间的临床异质性和方法学异质性均未进行定量合成。故本研究主要依据定性系统评价证据分级工具（Confidence of the Evidence from Reviews of Qualitative Research，CERQual）[12]对纳入研究证据质量进行评价：系统评价结果起始为高质量证据，然后从方法学局限性、相关性、结果一致性和数据充分性4个方面判断是否进行降级：不降级（无）、降1级（严重）、降2级（非常严重），最终将系统评价的证据质量分为“高”“中”“低”和“极低”4个级别。

2 结果

2.1 文献筛选流程及结果初检共获得文献122篇，利用EndNote软件去除重复文献34篇，阅读标题和摘要剔除研究对象、研究主题、研究类型和发表语言等明显不符合纳入标准的文献76篇，进一步阅读全文剔除会议摘要2篇，研究对象不符3篇，最终纳入7篇文献[13-19]进行描述性分析。文献筛选流程图见图1。

图1 文献筛选流程图Figure 1 Flowchart of the inclusion of systematic reviews

2.2 纳入研究的基本特征文献纳入的研究数量为9～352篇，涉及1～40种新生儿疼痛评估量表，可归纳为急性疼痛、持续性疼痛、术后疼痛、机械通气性疼痛4种类型。纳入的1篇发表在JAMA Pediatrics的系统评价[13]对现有新生儿疼痛评估量表的测量学特征进行了综合性评价，其余纳入研究仅针对一个疼痛评估量表、一类新生儿群体，或一种测量学特征：2篇系统评价[14-15]分别评价了新生儿疼痛、躁动和镇静评分（Neonatal Pain，Agitation，and Sedation Scale，N-PASS）和舒适量表（COMFORT）的测量学性能；2篇系统评价[16-17]分别关注了机械通气新生儿和颌面外科新生儿两类特殊人群；2篇系统评价[18-19]分别对新生儿疼痛评估量表的反应度和实用性进行了评价。纳入系统评价的基本特征见表2。

表2 纳入研究的基本特征Table 2 Characteristics of the included systematic reviews

2.3 文献质量评价结果纳入研究的质量评价结果显示，4篇研究[13，15，18-19]方法学质量较高，为低偏倚风险，3篇研究[14，16-17]方法学质量相对较低，为高偏倚风险。影响纳入研究方法学质量及偏倚风险的主要因素为：研究纳入、排除标准不适合系统评价的问题，或未清晰明确地界定纳入研究的特征；未提供完整的检索策略，或未包括重要的检索数据库，未通过除数据库以外的其他方法确定相关研究；研究采用的文献质量评价工具不符合系统评价的问题和纳入研究的文献类型，或未提取和报告量表测量性能的关键结局指标。纳入研究的方法学质量及偏倚风险评价结果分别见表3、4。

表3 纳入研究的方法学质量评价结果Table 3 Methodological quality of the included systematic reviews

表4 纳入研究的偏倚风险评价结果Table 4 Risk of bias in the included systematic reviews

2.4 报告质量评价结果 PRISMA评价结果显示，5篇研究[13-15，18-19]报告相对完全（报告完成率＞60.00%），1篇研究[16]存在一定报告缺陷（报告完成率为45.95%），1篇研究[17]有严重信息缺失（报告完成率为10.81%）。报告质量不足主要表现为结构式摘要，注册与计划书，检索策略，每个结果合成中纳入研究的处理过程及方法，研究结果间异质性分析、证据可信度评价，资金支持，数据、代码和其他材料的可用性报告不全面（规范报告率＜50%）。纳入系统评价的报告质量评价结果见表5。

表5 纳入系统评价的报告质量评价结果Table 5 Reporting quality of the included systematic reviews

2.5 纳入研究的证据质量评价结果采用CERQual方法评价新生儿疼痛评估量表的信度、效度和反应度三种测量性能结局，共22条证据质量。结果显示，提取的证据中高级证据2条（9.09%），中级证据8条（36.36%），低级证据9条（40.91%），极低级证据3条（13.64%）。证据质量降级的主要原因是原始研究的方法学局限性、研究结果间的异质性、纳入研究与系统评价问题的间接性，以及数据不充分性（小样本量研究）。由于YARIPOOR等[17]研究未标引纳入研究并报告研究特征，故未能获取相关信息评价其测量性能的证据质量。其余纳入系统评价的证据质量评价结果见表6。

表6 纳入系统评价的证据质量评价结果Table 6 Quality assessment of the evidence from the included systematic reviews

3 讨论

3.1 新生儿疼痛评估量表的选择与推荐测量性能是选择最佳患者报告结局测量工具（patient reported mutcome measures，PROMs）首要考虑的因素之一[20]。一个经过信效度和反应度验证的评估量表可准确反映新生儿的疼痛状态，指导医护人员及时调整镇痛方案，达到最好的疼痛预防和控制效果。本研究采用系统评价再评价的方法对新生儿疼痛评估量表测量性能相关证据进行了严格评价与综合。本研究的纳入研究共评价了40余种新生儿疼痛评估量表的测量性能，证据综合结果显示，有25种量表用于新生儿疼痛评估时具有良好的内部一致性、评估者间信度、结构效度和可解释性。其中8种量表COSMIN偏倚风险评价为低风险、6种量表为中风险、5种量表为高风险，分别适用于早产儿和/或足月儿的急性疼痛、持续性疼痛、术后疼痛或机械通气性疼痛；尚无足够证据支持单个疼痛评估量表用于所有新生儿各种类型疼痛的评估。然而，现有疼痛量表的多样性及适用范围的局限性极大降低了国内外新生儿疼痛评估率，制约了疼痛管理的开展[21]。目前，国内外新生儿病房至少需同时使用3～5种量表评估患儿疼痛，这对量表使用者和医院管理者均是极大的挑战[22]。另外，由于国内外学者尚未对新生儿疼痛的分类及定义进行清楚界定，这将直接影响医护人员正确判断新生儿经历的疼痛类型，进而影响恰当疼痛评估量表的选择。所以，新生儿疼痛评估量表相关推荐意见的形成需要考虑：在平衡测量学性能的前提下，优先选择同时适用于多种疼痛类型的普适量表，以免医护人员对量表的选择不当导致低估或高估患儿疼痛程度。本研究结果显示，目前可同时适用于2种及以上疼痛类型评估的量表包括：新生儿面部表情编码系统（Neonatal Facial Coding System，NFCS）、N-PASS、COMFORT、COMFORT-B，可同时用于早产儿和足月儿急性疼痛和持续性疼痛（包括机械通气性疼痛）的评估（中级质量证据）；疼痛评估工具（Pain Assessment Tool，PAT）可用于早产儿和足月儿术后疼痛和持续性疼痛的评估（低级质量证据）；幼儿疼痛观察量表（pain observation scale for young children，POCIS）可用于足月儿急性疼痛、持续性疼痛和术后疼痛的评估（低级质量证据）。

除测量性能和适用情景，临床实践者在选择恰当的评估工具时还需考虑PROMs的语言及临床实用性。由于以上量表均来源于国外，为保证量表本土化应用过程的语义对等性和内容可理解性，应采用标准流程对量表进行汉化[23]。然而，目前仅 N-PASS[24]和 COMFORT-B[25]有中文译本，且后者由于未进行回译，其汉化本测量概念的可靠性和有效性需进一步研究确认。N-PASS经何碧云等引入翻译形成中文修订版[24]，并在急性操作性疼痛合并机械通气性疼痛[26-27]，单纯机械通气性疼痛[25]和单纯术后疼痛[28]三种疼痛类型中进行了验证，结果均显示N-PASS具有较好的信效度和反应度。临床实用性方面，OLSSON等[19]的系统评价结果显示现有新生儿镇痛有效性的随机对照试验中有2.80%的研究采用了N-PASS量表。国内调查研究显示，全国新生儿病房中有4.31%采用N-PASS进行日常疼痛评估[21]。该量表亦得到了美国儿科学会（American Academy of Pediatrics，AAP）和中国医师协会新生儿科医师分会的推荐[2，29]。因此，鉴于N-PASS可能具备准确测量住院新生儿各种疼痛类型的潜力，建议国内研究者进一步扩大中文版N-PASS的验证范围，但需要基于规范的量表测量性能评价方法。同时，在更佳证据出现之前，推荐根据患儿年龄和疼痛类型等具体的临床情景选择经过验证的评估量表对患儿疼痛进行定期动态评估[30]。并需进一步补充设计合理、方法严谨的高质量研究来检验现有量表测量我国新生儿人群各种类型疼痛时的可靠性和稳定性，探索扩宽其应用范围的可行性。

3.2 纳入系统评价的总体质量欠佳，疼痛评估量表系统评价研究的制作和报告过程仍需进一步规范 WHO临床实践指南制定手册指出指南制定者需审慎评价系统评价质量，只有最新的高质量系统评价才能作为指南推荐意见的证据来源[7]。为选择最佳的PROMs，制作高质量的系统评价至关重要[31]。为此，由多位心理测量学相关领域的专家组成的COSMIN工作组提出了基于共识选择健康测量工具的标准COSMIN，用于指导PROMs系统评价的制作以帮助临床实践者和研究者选择最恰当的健康测量工具[32]。然而，本研究中纳入的新生儿疼痛评估量表的系统评价并未遵照COSMIN系统评价的标准步骤，而主要遵循常规系统评价制作和报告的方法，但由于未能有效处理信效度和反应度的结局，致使无法对量表推荐意见及强度进行判断。此外，纳入研究中同样出现了现有系统评价或Meta分析存在的共性问题[33]：（1）循证问题、纳排标准及检索策略的结构不清晰：未包含所测构念、目标人群、PROMs类型和测量属性四个关键要素[20]，甚至简单套用干预性研究循证问题的PICO模式[16]；（2）检索资源不全面，未包括COSMIN指南建议的两个基本数据库Medline和Embase[31]，或未进行相关研究的补充检索；（3）文献质量评价标准不恰当，纳入系统评价中仅3篇研究[13，15，18]采用COSMIN偏倚风险清单对量表测量性能评价研究的方法学质量进行评价；（4）资料提取不充分，缺少量表测量性能的关键结局指标数据。（5）重要信息报告缺失，在摘要（规范报告率为28.57%），方法（规范报告率为48.98%），结果（规范报告率为44.44%）和其他信息（规范报告率为38.10%）四部分均存在重要信息缺失。以上研究及报告局限性将直接影响量表的证据质量和推荐等级。基于此，建议研究者参考COSMIN指南[31]对最佳测量性能评价研究的界定，严格设计、实施和报告量表测量性能评价研究；进一步采用基于共识选择健康测量工具的标准COSMIN[32]规范制作新生儿疼痛评估量表测量学性能的系统评价，并形成最终推荐意见，以指导临床实践者和研究者选择最佳的疼痛评估量表。

3.3 本研究的局限性本研究存在一定的局限性：研究结果主要基于当前发表的系统评价，其稳定性可能受到新发表文献或文献更新的影响；由于纳入研究的临床异质性和方法学异质性未能进行Meta分析，进而未能定量比较各评估量表测量学性能的优劣；由于缺乏量表实用性的直接证据，研究将疼痛评估量表的使用频率作为实用性检验的依据可能无法反映量表实用性的真实情况。

4 小结

虽然当前证据尚不足以支持单个疼痛评估量表用于新生儿所有类型疼痛的评估，但目前有25种量表在新生儿疼痛评估时具有良好的测量性能，分别适用于早产儿和/或足月儿的急性疼痛、持续性疼痛、术后疼痛或机械通气性疼痛。建议临床实践者及研究者根据胎龄和疼痛类型等具体的临床情景选择经过验证的量表进行患儿疼痛评估。同时，建议采用COSMIN规范制作新生儿疼痛评估量表测量性能的评价研究，以验证现有量表测量我国新生儿人群各种类型疼痛时的可靠性和稳定性，并进一步制作系统评价，形成最佳疼痛评估量表的推荐意见。

作者贡献：沈巧为主要研究人员，负责此项研究的设计、实施、分析和报告；沈巧、唐语蔓、冷虹瑶和雷若冰负责文献筛选，资料提取和质量评价；沈巧起草了文章初稿；郑显兰作为论文的通信作者和指导专家，负责研究实施的质量控制；所有作者对稿件进行了严格的审阅和修改。

本文无利益冲突。