孙霁雯,袁思瑶,沈南平,陆 红,何梦雪
上海交通大学医学院附属上海儿童医学中心,上海200127
标准化护理术语(standard nursing terminologies,SNT)具有精准的概念和代码,且其基本框架结构可使原始信息数据保持一致,是解决语义互操作性、知识表达一致性以及信息交换的有效手段[1],亦是构建护理决策支持系统的基础[2]。采用标准化护理术语记录临床护理过程是实现护理价值数据化的过程。随着标准化护理术语不断更迭,新术语不断涌现,并用于描述新现象。新术语被提出后必须经过内容效度验证[3]以提升其在临床应用的可用性。在测量学中,内容效度被定义为测试项目对所要测试内容范围的代表性程度[4]。由于最早的标准化护理术语,如北美的护理诊断协会(North American Nursing Diagnosis Association,NANDA)的护理诊断名称和定义特征(症状或体征)[5]是基于文献、书籍等提出的,其内容有效性并没有足够证据(包括源于专家或临床的证据)予以证实,故Fehring 提出了Fehring 法用于验证标准化护理术语的内容效度[6]。如今,Fehring 法已成为标准化护理术语中被广泛应用的内容效度验证方法[7]。标准化护理术语中护理诊断的内容效度是指某特定护理诊断的定义特征是否确实发生,并能充分代表临床实践中所经历的这种情况[8]。其后标准化护理术语内容效度验证又进 一 步 被 推 广 至 护 理 措 施[9‐10]、护 理 结 局[11‐12]。本 研 究从方法学角度对Fehring 法的实施步骤及应用情况进行描述,以期规范研究方法,并指导后续研究的开展。
Fehring 法仅在NANDA、护理措施分类(nursing interventions classification,NIC)、护理结局分类(nursing outcomes classification,NOC)的NNN 术语体系中被广泛应用,且其主要作用为:①验证某标准化护理术语中所包含的元素;②验证某专科领域或特定研究问题中所包含的各项标准化护理术语。一方面,可能是由于NNN 术语体系本身均有二级条目,即护理诊断的下级元素为定义特征,护理措施的下级元素为护理活动,护理结局的下级元素为指标。而其他术语无更具体的下级元素。另一方面,NNN 术语体系内部存在链接,即某一护理诊断会对应若干护理措施和若干护理结局。研究者在筛选特定专科领域或特定研究问题时,只需从已有链接中挑选若干护理诊断,并将其各链接作为条目池进一步验证即可,操作较为方便。而其他术语在提出时并未建立相应链接作为参考,故在验证时需要在原始条目池中筛选,前期准备工作耗费时间较多。Fehring 法分为专家验证和临床验证2 种方法,专家验证可融入Delphi 法以增加共识的一致性,但其可能花费大量时间并降低响应速度。无论采用哪种方法,核心均有2 个层次,即确定所属元素个数;确定各元素的主要和次要排序,以便更好地辅佐临床护理决策。例如,在护理诊断中的定义特征即症状和体征,其中,主要的定义特征是一定存在的单个或多个症状和体征;次要定义特征是可能存在的症状和体征[13]。正是由于护理诊断多为一系列症状和体征所形成的特定聚类,这些聚类会形成独特性线索(cue),因此才能更好地区分各诊断[8]。研究发现,与护理新手相比,护理专家能使用更少的线索得到正确的护理诊断[14],即使用主要的定义特征判断护理诊断。在NNN 的术语体系中,2 种适用范围均采用主要的和次要的排序。而其他术语,如临床照顾分类系统(clinical care classification system,CCC)[15]、国 际 护 理 实 践 分 类(international classification for nursing practice,ICNP)[16]、围术期护理数据集(perioperative nursing data set,PNDS)[17]等仅采用Delphi 法专家咨询,其可确定所属元素个数,但并未给定优先顺序排序,故在临床护理决策辅助时不能很好地展现护理决策中存在优先顺序的特性。建议其他术语在验证某专科领域或特定研究问题中所包含的各项标准化护理术语时考虑采用Fehring 法以得到更多信息量。
1.1 用于验证某标准化护理术语中所包含的元素
Fehring 法可用于验证某标准化护理术语所包含的各项元素,如验证某护理诊断中的各项定义特征(defining characteristics)、某护理措施中的各项护理活动(activities)、某护理结局中的各项指标(indicators)。其中,在验证某护理诊断中的各项定义特征方面,Rueda Diaz 等[18]验证了“照顾者角色压力”护理诊断的35 条定义特征,包括主要特征22 条和次要特征13 条;在验证某护理措施中的各项护理活动方面,Lopes Jde等[11]针对“体液过多”护理诊断病人验证了“体液管理”“体液监测”“高血容量管理”等护理措施中的80 条护理活动,包括主要护理活动50 条和次要护理活动30条;在验证某护理结局中的各项指标方面,De Fátima等[19]验证了“急性疼痛”护理诊断的7 个对应护理结局(“疼痛水平”“生命体征”“疼痛控制”“舒适水平”“症状水平”“焦虑水平”“压力水平”)中的103 条指标,包括主要指标27 条和次要指标76 条。
1.2 用于验证某专科领域或特定研究问题中所包含的各项标准化护理术语 Fehring 法可用于验证某专科领域或特定研究问题中所包含的各项标准化护理术语,包括护理诊断、护理措施、护理结局。如秦苗苗[20]在踝关节疼痛护理中确立了4 条护理诊断、6 条护理措施、6 条护理结局;De Souza Teixeira 等[9]在糖尿病病人中验证了针对“皮肤完整性受损”护理诊断的11 条护理措施(8 条主要的护理措施、3 条次要的护理措施)、针对“知识缺乏”的12 条护理措施(9 条主要的护理措施、3 条次要的护理措施)、针对“治疗方案管理无效”的20 条护理措施(17 条主要的护理措施、3 条次要的护理措施);Seganfredo 等[21]针对外科和重症病人中最常见的“有感染的风险”护理诊断验证了19 条护理结局(8 条主要的结局、11 条次要的结局),针对“沐浴/卫生自理缺陷”护理诊断验证了27 条护理结局(5 条主要的结局、22 条次要的结局)。
Fehring 法包括专家验证和临床验证,专家验证即诊断内容验证(diagnostic content validation,DCV),临床验证即临床诊断验证(clinical diagnostic validation,CDV)[7]。DCV 是获取专家意见作为证据,而CDV 是获取临床效果作为证据,即采纳基于真实世界的研究,是从临床中获取足够证据用于证明现存的某特定护理诊断[7]。二者通常有一定的先后顺序,一般先进行DCV,后采用CDV 以提高证据层级[6]。原始CDV 采用临床观察方法,由2 名临床专家对具有某护理诊断的同一病人进行观察并评分。最初专家是由医师担任,后来发展为通过专业培训的护士也可以担任此工作。考虑到并非所有护理诊断都偏向行为或生理类,对于部分偏向认知或情感反应类的护理诊断,需倾听病人的声音,以便更好地进行验证。故Fehring 对CDV 进行改良,可从病人主观评价中直接获得所需临床信息,以适用认知或情感类的护理诊断验证。验证者可以基于所需验证的护理诊断的本质属性,确定选用CDV 或改良CDV。
2.1.1 DCV 条目池的确定 验证某标准化护理术语中所包含的元素时,确定其条目池常采用文献分析、内容分析(content analysis)、概念分析(concept analysis)[6]、整合性文献综述(integrative literature review)等。Brukwitzki 等[22]在形成“清理呼吸道无效”护理诊断的各条定义特征时使用了文献综述。Shelley‐Rae 等[23]在形成“渴望”护理诊断的各条定义特征时采用了概念分析。
2.1.2 专家选择
2.1.2.1 专家纳入标准 Fehring 提出的专家纳入标准为:①具有硕士及以上学历;②有护理实践经验;③从事过相关研究;④发表过相关文章;⑤参加过相关会议,完成了相关课程[7]。Santos 等[24]采用赋值法优化了专家纳入标准,即根据以下标准专家总分达5 分及以上:①护理学硕士(4 分)或护理学博士(6 分);②有1 年以上临床经验(1 分)或术语相关临床经验(2 分);③有相关的护理硕士学位论文(1 分)或博士论文(2 分);④在期刊上发表过相关文章(2 分)。Gengo 等[10]进一步对Santos 等[24]的专家纳入标准赋值标准进行改进,将临床经验改为2 年,并将相关的专业进行了明确,提高了可操作性。采用专家纳入标准赋值法计分进行专家筛选,可从权威程度、熟悉程度等方面确保专家质量,以便得到更有效的结果。
2.1.2.2 专家来源和数量 专家的质和量在一定程度上决定了验证的效果及可推广性。Fehring 建议从专业学术团体中的专家成员中筛选专家,通常需要25~50 人[7],也有研究者指出当专家人数在某领域达到200人时可获得更为准确的结果[25]。我国相关研究所纳入的专家人数为14~30 人[3,20,26],国外相关研究多在学术专家团体(如学会、协会或专家库)中筛选所需要的专家[9,27],专家人数为15~202 人[18,28],且很多研究的参与专家人数在50 人以上[27,29‐30],其代表性较好,研究结果推广性较强。我国可借鉴国外经验,从国内学术专家团体中挑选专家,并扩大专家纳入人数,保障专家质和量,从而得到更具科学性的结果。
2.1.3 评分方法 专家对条目池中的各个条目进行评分,评分方法均采用Likert 5 级评分法。在护理诊断中,完全没有特征或不能表示诊断计1 分,诊断的特征很少计2 分,有点特征计3 分,相当大的特征计4 分,非常有特征计5 分[7]。在护理措施和护理结局中,不相关计1 分,几乎不相关计2 分,相关计3 分,非常相关计4分,特别相关计5 分。
2.1.4 判断标准 根据评分计算每个元素(定义特征、护理活动、指标等)的加权值。权重如下:1=0.00,2=0.25,3=0.50,4=0.75,5=1.00[7]。“主要的”元素为加权值≥0.80,“次要的”元素为加权值>0.50~<0.80,删除加权值≤0.50 的元素[7]。将各个元素的加权值总和除以元素总数,得出DCV 总分[7]。但实际研究中,部分学者为获得更多的“主要的”元素,降低了“主要的”元素标准,如Zeleníková 等[31]将“主要的”元素改为加权值≥0.75;部分学者为获得更少的元素,提高了“次要的”元素标准,如Fernández‐Donaire 等[32‐34]将“次要的”元素改为加权值>0.60~<0.80。为了研究结果间更具可比性,建议采用Fehring 法的原始判断标准,若所获得的元素数量过多,可适当提高标准。
2.2.1 CDV 条目池的确定 CDV 条目源于已经被验证过的NNN 术语体系[7],可适当根据文献增加相应元素,但须经过DCV 验证。条目池各元素均需要有明确的操作性定义[7],以方便后期实施。
2.2.2 被验证对象的确定 被验证对象(如病人是否有某护理诊断、需要采取某护理措施、可依据某护理结局评价)需要由研究者以外的专业护士进行预判断[7],确定需被验证对象的正确性。最好采用针对性的测量工具进行验证,如缺乏相应测量工具,则需临床护理专家(clinical nurse specialist)进行确认[7]。Fadden 等[35]使用状态特质焦虑量表验证了“焦虑”的护理诊断;Caldeira 等[36]使用Portu Guese 版本的精神健康问卷验证了精神病病人的定义特征;Pehler[37]使用Qualtrics 研发的渴望量表验证了“渴望”的护理诊断。随着病人报告结局指标(patient reported outcome,PRO)相关测量工具的不断涌现,针对特殊人群的测量工具[如针对儿童普适性的儿童病人报告结局测量信息系统(Pediatric PROMIS)[38]、针对某一类疾病的糖脂代谢病患者报告结局量表[39]]不断成熟,为采用针对性的量表确认被验证对象提供了便捷。
2.2.3 验证者的要求 临床观察法需要2 名来自临床的专家作为验证者对一定数量的被验证对象(如被预判断的病人)进行观察,确定每条需被验证的元素(如护理诊断中的各个定义特征)是否存在[7];病人为中心法由研究者确定所需纳入的病人,通常是某医院或某科室的所有病人或部分病人[7]。已检索获得的文献中报道的病人纳入标准为18 岁及以上;没有任何的并发症;住院多天内出现相对应护理诊断的定义特征;愿意完成问卷[30,36,40‐48]。尚未检索获得将儿童作为验证者的文献报道,但随着患儿报告结局测量信息系统的推广,未来可纳入儿童数据以增加验证广度。目前,对于验证者的数量尚无统一的标准,需要考虑实际情况,如可获及的病人数量等。在临床观察法中,相关文献纳入的护士数量通常为条目池的1~20 倍[40,43‐44,47‐48],而在病人为中心法中,相关文献纳入的病人数量通常为条目池的0.6~50.0 倍[30,36‐37,41‐42,46]。验证者的数量和广度会影响验证效果,因此,建议参考测量学中条目数的5倍以上[49]制定验证者数量标准,以确保研究样本量充足且具有一定代表性。此外,建议在多个特定人群中进行验证,包括不同文化背景、不同临床条件和环境[36],如有研究者分别在70 例乳腺癌初期病人[30]和170 例癌症化疗期病人[36]中验证了“精神困扰”护理诊断,有利于保证不同临床条件人群中验证结果的稳定性。
2.2.4 评分方法和判断标准
2.2.4.1 临床观察法 临床观察法通过Fehring 中的公式计算每个元素(如定义特征)的一致性权重值[7],该评分方法与Kappa 法的一致性得分不同,其不仅考虑了判定一致性的程度,也考虑了该元素发生的频率。有研究者比较了Kappa 法和Fehring 中公式计算结果的一致性,发现对于发生率为0 的元素,Kappa 值无法输出结果,但使用Fehring 中的公式可获得“0”这一计算结果;而对于小概率发生的元素,Kappa 法一致性可能相对较高,但其计算结果相对较低[40]。除Fehring 中的公式外,临床观察法其余计算步骤和判断标准同DCV。
2.2.4.2 病人为中心法 病人为中心法中的条目池需转化为Likert 5 级的等级量表,其中1 分代表完全不符合,2 分代表稍微符合,3 分代表一般符合,4 分代表大部分符合,5 分代表非常符合[7]。其余计算方法和判断标准同DCV。Bartek 等[46]为了精炼纳入元素数量,将“次要的”元素判断标准提高为0.7~<0.8。
Fehring 法适用于验证某标准化护理术语中所包含的元素、验证某专科领域或特定研究问题中所包含的各项标准化护理术语。目前,其仅在NANDA、NIC、NOC 术语验证中被广泛应用,建议其他术语在验证某专科领域或特定研究问题中所包含的各项标准化护理术语时,考虑采用Fehring 法获得“主要的”元素和“次要的”元素优先顺序,以便更好地辅助临床护理决策。其次,在进行DCV 专家选择时,可从我国学术专家团体中挑选专家,并扩大专家纳入人数,从而保障专家的质和量。为保证研究结果间的可比性,建议DCV 和CDV 均采用Fehring 法的原始判断标准,若所获得的元素数量过多,可适当提高标准。此外,CDV中确认验证对象时,可借助病人报告结局指标,并考虑纳入儿童;建议制定CDV 验证者数量标准,推荐其数量至少为条目数的5 倍,以保证样本量具有代表性。