于小晴,郭 超,易 杰,廖 泉,翁习生,梁乃新*,李单青
(1.北京协和医学院 八年制临床医学专业,北京 100730; 中国医学科学院 北京协和医学院 北京协和医院 2.胸外科;3.外科学系; 4.麻醉科; 5.基本外科; 6.骨科,北京 100730)
临床操作技能教学是医学教育中重要的一环,对临床操作技能进行科学有效的评价对于提高临床技能教学水平有重大意义。Miller曾提出关于临床能力的一个概念模型[1],在4个层次的能力中,既往的终结性评估方法如笔试、论文、操作考试等可以测试事实性或应用性的知识,也即Miller能力金字塔(图1)的两个基础层次[2]。但这些“数字为基础”的方法显然远远不够,基于能力的评估可能比一堆数字更有价值[3]。客观结构化临床考试(objective structured clinical examination, OSCE)和模拟患者被用于评估临床实践技能,其中OSCE在我国规范化培训住院医师入科考试、阶段技能考试中已有多次实践探索[4-5]。
但这些方法基于人工场景, 只能衡量Miller金字塔中的第三个层次“Shows How”(表现),而非真正的临床表现“Does”(行动)[3]。此外,OSCE被认为只能考核碎片化的技能,无法纳入应急程序的考核,且成本较高[6]。由此可见,既往用于评估的人工设置考核方式并不能用最直接的方式准确预测学生在临床实践中独立工作的表现[1]。在此基础上,包括操作技能直接观察评估(direct observation of procedural skills, DOPS)在内的一系列方法应运而生。
操作技能直接观察评估(DOPS)是形成性评价中的一种方法,兼具教学功能和评价功能,评估者直接观察被评估者的操作过程,并及时给予评估和反馈[7]。自2003年以来,DOPS在世界范围内广泛应用[8],但对于其信效度的研究并不充分,其应用领域也较为局限。为了更有效、更广泛地应用DOPS,现就DOPS作为一种评估工具的研究进展以及目前的应用现状进行综述。
图1 Miller能力金字塔[1]Fig 1 Framework for clinical assessment[1]
DOPS最早由英国皇家内科医师学会(Royal College of Physicians)设计而成,最先被应用于评估住院医师的临床操作技能,后被广泛应用于医学生的技能培训和教学中[7]。DOPS是一种基于工作场所的评估(workplace-based assessment, WBA)方法,是对受训者在工作场所表现的评估,这种评估不是在人工环境中进行的,而是作为日常工作的一部分进行的,同时也为学生提供了即时反馈的机会[8]。另外,DOPS也属于形成性评估(formative evaluation,FA),与仅用于对能力水平进行判断的总结性评估相对,形成性评估不仅是阶段性的评估工具,还是一种教学辅助工具,可以用以调整教学和学习[2]。作为一个结构化的评分量表,DOPS由基本信息、评分项目、反馈意见和满意度调查组成[7],通常评估的能力包括:基本知识、知情同意、术前准备、麻醉、操作技术、无菌操作、术后管理、沟通技巧等。目前,DOPS在外科教学中应用最普遍,在内科和全科医学中应用较少[6]。
Van der Vleuten针对教育评估工具制定了5个标准:效度、信度、可行性、可接受度(对于学生以及教师)以及对未来学习和实践的影响[9]。以下将从这5个方面评价DOPS。
有效性是一个多方面的概念,它无法被直接测量,但是能够被推断[6]。DOPS的表面效度很高,评分者直接观察被评估者在工作场所对真实患者所执行的操作,量表上所有的项目都与程序技能的表现有关[6]。当前,已有一定的证据证明了DOPS的结构效度,但同时发现随着培训等级的上升,DOPS的分数存在上限效应,因此作者认为,DOPS评估的程序相对简单,通常在外科训练的初级阶段就已掌握[9]。此外,关于DOPS相容效度的报道较少,而与此同时,另一种基于工作场所的评估工具Mini-CEX(迷你临床演练评估)则已经建立了有力的相容效度证据[6]。
虽然关于DOPS整体的效度证据较少,但一些应用领域中报道了关于DOPS效度的证据。有研究表明结肠镜DOPS工具在所有类别中都有很强的效度证据[10]。另两篇文献也从不同角度给出了结肠镜中DOPS具有较高相容效度的数据分析[11-12]。一项关于腹腔镜的研究中也提到DOPS结构效度的有关证据。
与Mini-CEX(mini-Clinical Evaluation Exercis, 迷你临床演练评估)相比,有效证据证明DOPS的较高信度可以通过相对较少的病例和评估人员实现[6],并且已有数据表明DOPS具有较高的内部信度[9]。但在实际操作中,DOPS的信度面临一些实施上的问题。首先,病例以及评估人员的特异性和个体差异对DOPS的信度有很大影响。显然,不同的评估人员具有不同的严格程度和主观性[13],对于评分者的培训可能是解决问题的一种方法,但目前的相关研究表明,经过培训后,不同的评估者依然会对同一操作给出相差较大的分数[14]。将DOPS评分表精细化可能是提高DOPS信度的另一个解决方向。另一个需要关注的问题是为达到适当的可靠性需要观察的程序的数目[6],这一方面暂时并无DOPS整体上的研究,但对于结肠镜、胃镜中DOPS的使用已经有相关的数据支持[12-13]:使信度达到可接受的范围内分别需要3名评估人员进行2、3次DOPS。此外,关于学生每年进行的DOPS评估次数对信度的影响,需要进一步的研究[9]。
DOPS的可行性面临以下几个方面的挑战:评估人员的培训问题,评估者和被评估者的时间调配问题,以及相关行政部门资源和成本的调配问题[6]。目前已有一些DOPS带来额外负担、缺乏时间的报告,从而引发了对于DOPS是否能在临床工作的实施中保持其有效且可靠的讨论[6,8-9]。但更多研究中问卷表示DOPS具有较强的可行性,在真实的临床情况下可以进行可靠、正式的评估[6]。
另外,对于不同操作内容,实施DOPS的可行性不同。常规程序进行DOPS较为容易,而对于不常应用的内容则很难进行DOPS评估。需要特别关注的是,急诊中DOPS的应用与预期相差较大[6]。
可接受性在研究中可以根据实际完成的评估表格的数量、完成评估的平均时间以及评估者和被评估者对评估工具的满意度来定义[6]。在这一方面,结果有一定的分歧。持消极态度的一部分人认为评估表过于繁琐,将整个过程分解成太多的组成部分,而同时另一部分人则认为这种结构化的方法是有益的[9]。但在更多研究中,学生和教师对于DOPS的满意度的接受度较高[2,15]。针对英国和爱尔兰研究生外科训练中基于程序的评估方法的范围综述中提到,学生和教师对于DOPS的强制引入一开始持消极态度,但随着时间的推进,学生和教师的看法都逐渐发生了变化[9]。
DOPS评价方法不仅是临床评价的有用工具,也是学生临床学习的有效工具[16]。DOPS评估中学员在每次评估结束时都会收到建设性的反馈[3],这使其兼具总结性的评估作用以及形成性的教育作用。已有较多研究表明使用DOPS的干预组在使用前后有具有统计学意义的技能提升[6,15-16]。另外,在实际应用中的偏差可能会影响DOPS的教育意义,因此,需要将评估作为一个持续改进和学习的过程的概念[2]。
DOPS近年来在全世界范围内的临床实践中得到了广泛应用,普外科培训[9, 17]、包括结肠镜[10-12]、胃镜[13]在内的内窥镜培训、麻醉科住院医师及研究生培训[18-20]、护理专业[7,15]、广泛的医学教育[21]等各种领域中都出现了DOPS的应用。但还有很多操作领域应用DOPS较少。同时,DOPS被引入至一些培训计划及指南当中。如2007年,DOPS作为一种基于工作场所的评估(WBAs)被引入到英国和爱尔兰的研究生外科培训中[9];形成性结肠镜直接观察程序技能(DOPS)评估于2016年更新,并被整合到英国结肠镜鉴定指南中[10,12]。结肠镜DOPS被整合入指南后,已经发布了超过1 000个来自250多个中心的胃肠病学、普外科和非医学培训生的纵向数据,以及完善的能力阈值[10],可见相关政策对于DOPS应用具有一定的促进作用。
此外,DOPS作为一种评估方法,常作为教学手段的量化方法参与到其他教学方法的相关研究中,如以学习成果为导向的评价(outcome-based student assessment, OBSA)对于医学实验课教学的影响[22]、腹腔镜技术培训对外科住院医师的影响[23]、同伴辅助学习来教授基本的外科技能中作为评估工具[24]、结合模拟训练的非技术技能课程对内窥镜结肠镜检查的表现的影响[25]、COVID-19疫情管理中基于模拟的非麻醉科住院医师呼吸管理教学的有效性[26],等等。
除此之外,DOPS也正在不断完善,如前文提到的R-DOPS(重复DOPS评估)、JAG DOPS(联合咨询小组DOPS)都是对DOPS的创新应用。也有许多将DOPS与其他评估方式或教学方式联合的应用,如DOPS与Mini-CEX联合应用[17],基于视频的操作技能直接观察法[27],这些都是对DOPS的延伸应用。
综上所述,DOPS在临床技能教学中应用效果较好,其信效度方面已有一些进展,但还需要进一步的可靠证据;时间、资源的限制一定程度上限制了DOPS的可行性,需要进一步探索解决方式。另外,虽然当前DOPS的应用较为广泛,但大多数研究和应用仍然集中于被纳入要求或指南的方面,其他操作领域可以考虑引入DOPS,同时也需要相关部门政策上的引导。真实临床表现的描述应该包括对知识应用的评估,以及适当技能和态度的使用,这些共同构成了临床判断[3]。因此,单一的任何一种评估方式都不能单独用于评估医生所需要的所有复杂能力,需要多种评估方法综合应用。