宋烨,赵峰,陈明,张韬
在前期经过单机构的《社区全科医生使用便携式超声技术探查甲状腺及颈动脉服务规范》开发后,形成了单机构截至2019-12-07的最终版本,为进一步提高服务规范的外部适用性和推广性,拟邀请浦东新区各级医疗机构的超声医学科从业人员对服务规范进行评价,并给出修订意见和建议。
关于评价工具,目前,针对服务规范类、用于指导临床业务开展的文件,依据证据级别,分别有指南、标准、专家共识、规范、参考等类型的综合文本[1]。其中,临床实践指南是证据级别最高的、可直接指导临床实践的文本,也是强调和推行临床医务人员践行“循证临床”所给到医务人员的工具和手段。临床实践指南的质量保证来源于循证医学思想指导下的、对纳入指南编制的证据的严苛选择,以及对证据进行荟萃综合时标准化的操作流程及透明化的信息披露[2]。同时,随着对临床实践指南质量的日益重视,学者们发现,单条证据的选择和质量评价可以量化,但对于整个指南生成的过程和结果,仍需结构化的有效工具来指导整个开发过程,以保证指南质量,同时应该对开发过程和结果进行量化的评价,得出各环节分值,以使得临床实践指南的使用者对手中正在参阅的指南质量有一定的把握,在此需求下,临床指南研究与评价工具(AGREE)应运而生[3-4]。
本研究拟纳入评价的服务规范是证据级别低于指南的操作指导性文本,其中的证据多来自教科书[5]、超声专业工具书[6-8]、专家共识[9-12]、规范[13-17]、建议[18]、指南[19-25]等,且指导范围较指南更窄,仅用于“探查”这一信息收集环节的指导;指导目标较指南更明确,仅为规范地完成探查数据采集,以确保数据的准确度和可用性。因此,与指南既有相似也有不同之处。然而,其他类型文本因自身完备性尚不具备,更缺乏相应的质量评价工具,难以参考借鉴。最终,本研究基于部分同行相同类型实践经验的参考[26-27],结合拟评价的文本,对AGREEⅡ工具进行情境适应类的修订,得到本文本的评价工具,面向浦东新区各级医疗机构超声医学从业人员进行相关信息的收集,来评价前期研究开发的《社区全科医生使用便携式超声技术探查甲状腺及颈动脉服务规范》[28],以期完善该规范,为后期投入临床应用做准备。
1.1 咨询对象 于2019年12月,邀请浦东新区各级医疗机构的超声医学科从业人员参与评价。纳入标准:从事超声诊断临床工作年限满15年。排除标准:学历低于本科者。专家数量根据AGREEⅡ工具使用所建议的专家数量制定,为4~6名。最终共邀请5名超声医师参与此次咨询和评价。专家年龄38~66岁,平均年龄(47.2±11.1)岁;工作年限17~46年,平均工作年限(25.6±12.0)年;来自三级医院1名,二级医院1名,社区卫生服务中心3名;本科学历4名,硕士研究生1名;中级职称2名,副高级职称2名,正高级职称1名;从事超声检查诊断的工作年限为16~41年,平均从业年限(22.4±10.7)年。此外,5人中,有2人除了从事超声检查诊断领域,还从事心电图技术等领域。
1.2 咨询工具 拟邀请专家审阅并评价的文本为《社区全科医生使用便携式超声技术探查甲状腺及颈动脉服务规范》,由前期经过焦点小组会议、文献循证、小组会议专题研讨等方式开发而成[28]。
邀请专家使用的用于评价服务规范的“《社区全科医师使用便携式超声技术探查甲状腺及颈动脉服务规范》专家咨询表”包括专家基本情况、修订后AGREEⅡ评价表、开放性专家意见。修订后AGREEⅡ评价表由本研究项目组成员参考指南评价相关文献[29-33]方法,以AGREEⅡ评价表为基础,基于评价目的,对内容进行必要的转换修订而成。该评价表由6个领域组成,包括范围和目的(3个条目)、参与人员(3个条目)、严谨性(8个条目)、清晰性(3个条目)、应用性(4个条目)和独立性(2个条目),共23个条目。每个领域得分:针对AGREEⅡ的6个领域23个条目进行评价,每个条目从“非常不同意”到“非常同意”评分为1~7分,每个领域得分=(实际得分-最低可能得分)/(最高可能得分-最低可能得分)×100%。得分越高,说明被评价内容(服务规范)在该领域的方法学质量越高,根据被评价内容6个领域的得分情况将被评价内容的推荐级别分为3级。A级(推荐),6个领域得分均≥60%,可不更改直接推荐;B级(不同程度修改完善后推荐),领域得分≥30%的领域数≥3,但有<30%的领域,须不同程度修改完善;C级(不推荐),领域得分<30%的领域数≥3。汇总专家的开放性意见,提取核心内容,按照内涵无交叉原则逐条列出。
1.3 咨询方法 事前确定专家池,向专家一一介绍项目咨询目的并征询参与意愿,对愿意参与的专家,采用邮件一对一发送形式,在邮件中再次说明咨询目的,同时发送《社区全科医生使用便携式超声技术探查甲状腺及颈动脉服务规范》和“《社区全科医师使用便携式超声技术探查甲状腺及颈动脉服务规范》专家咨询表”,并要求专家1周内返回。
1.4 统计学方法 采用SPSS 25.0统计软件进行统计分析。计量资料以(±s)表示,采用组内相关系数(interclass correlation coefficient,ICC)进行组内一致性分析,具体采用标度-可靠性分析来进行。对ICC值的评价,参照AGREEⅡ工具评价要求:ICC<0.20说明评价者间一致性非常差;ICC为0.21~0.40表示评价者间一致性一般;ICC为0.41~0.60表示评价者间一致性中等;ICC为0.61~0.80表示评价者间一致性好;ICC>0.80表示评价者间一致性非常好[3-4]。部分因评价分数过于接近而导致ICC值无法计算[34]。
2.1 专家积极系数 发放5份咨询表,每位专家评阅2份(甲状腺与颈动脉服务规范各一份),应收到10份回复,实际收到9份完整回复,1份认为难以评分的回复,但在该回复中专家给出较为详实的开放性意见。该份回复打分按照AGREEⅡ工具使用相关建议,将该专家对此份咨询表的评分全部记为4分。填写完整有效率为9/10,专家积极系数为90.0%。
2.2 AGREEⅡ得分
2.2.1 服务规范在AGREE Ⅱ各领域得分情况 在范围和目的、参与人员、严谨性、清晰性、应用性和独立性6个领域的平均得分率,内部一致性分析结果显示,得分均高于60%,按照AGREEⅡ评级原则,可给予A级推荐级别,见表1~2。
表1 《社区全科医生使用便携式超声技术探查甲状腺及颈动脉服务规范》AGREEⅡ评价各领域评分Table 1 Scores of various domains of the Specifications for Community General Practitioners to Screen for Thyroid and Carotid Diseases Using the Portable Ultrasound Device evaluated by AGREE Ⅱ
表2 《社区全科医生使用便携式超声技术探查甲状腺及颈动脉服务规范》AGREEⅡ评价各领域内部一致性分析Table 2 Analysis of internal consistency in various domains of the Specifications for Community General Practitioners to Screen for Thyroid and Carotid Diseases Using the Portable Ultrasound Device evaluated by AGREEⅡ
2.2.2 服务规范在AGREEⅡ各条目评分情况 根据AGREEⅡ评价要求,每个条目从“非常不同意”到“非常同意”评分为1~7分,专家对6个领域23个条目均给出了较高的评价,平均得分均在5分以上,且对甲状腺服务规范每个条目的评价得分均高于颈动脉服务规范,各条目专家评分情况见表3。
表3 《社区全科医生使用便携式超声技术探查甲状腺及颈动脉服务规范》AGREEⅡ评价各条目评分(±s,分)Table 3 Each item score of Specifications for Community General Practitioners to Screen for Thyroid and Carotid Diseases Using the Portable Ultrasound Device evaluated by AGREE Ⅱ
表3 《社区全科医生使用便携式超声技术探查甲状腺及颈动脉服务规范》AGREEⅡ评价各条目评分(±s,分)Table 3 Each item score of Specifications for Community General Practitioners to Screen for Thyroid and Carotid Diseases Using the Portable Ultrasound Device evaluated by AGREE Ⅱ
条目 甲状腺 颈动脉领域1:范围和目的1.明确阐述“规范”的总目的 7.0 0±0.0 0 6.2 0±1.3 0 2.明确阐述“规范”所涵盖的卫生问题6.4 0±0.8 9 5.8 0±1.3 0 3.明确阐述“规范”所要应用的人群6.6 0±0.5 5 5.6 0±1.3 4领域2:参与人员4.“规范”制定组包括所有相关专业的人员6.0 0±1.0 0 5.4 0±1.5 1 5.考虑到目标人群的观点和选择 6.2 0±1.1 0 5.2 0±2.1 7 6.“规范”的适用者已经明确规定 6.2 0±1.1 0 5.6 0±1.1 4 7.用系统的方法检索证据 6.2 0±0.8 4 5.8 0±1.3 0领域3:制定的严谨性8.清楚描述选择证据的标准 6.2 0±1.1 0 5.6 0±1.3 4 9.清楚描述证据的优势和不足 6.0 0±1.4 1 5.6 0±1.3 4 1 0.明确阐述形成推荐意见的方法 6.6 0±0.5 5 5.8 0±1.3 0 1 1.在形成推荐意见时考虑了对健康的效益、副作用及风险6.6 0±0.5 5 6.4 0±1.3 4 1 2.推荐意见和支持证据之间有明确的联系6.4 0±0.8 9 6.0 0±1.2 2 1 3.“规范”在发表前经过专家的外部评审6.0 0±1.4 1 5.6 0±1.3 4 1 4.提供“规范”更新的过程 6.4 0±0.8 9 5.6 0±1.3 4领域4:清晰性1 5.推荐意见明确不含糊 6.0 0±1.4 1 5.6 0±1.3 4 1 6.明确列出不同的选择 5.6 0±1.3 4 5.2 0±1.3 0 1 7.主要的推荐意见清晰易辨 6.2 0±1.1 0 5.6 0±1.5 1领域5:应用性1 8.讨论推荐建议应用中可能遇到的障碍6.2 0±0.8 4 5.6 0±1.3 4 1 9.“规范”提供配套工具 6.2 0±1.1 0 5.6 0±1.3 4 2 0.“规范”考虑了应用推荐建议时潜在的资源投入问题5.8 0±1.6 4 5.8 0±1.3 0 2 1.“规范”提供了监控和/或审计标准6.2 0±1.1 0 5.4 0±1.5 2领域6:编辑的独立性2 2.“规范”独立于赞助单位而编辑 6.2 0±1.1 0 5.6 0±1.3 4 2 3. “规范”记录并考虑了制定小组成员的利益冲突6.0 0±1.4 1 5.4 0±1.5 2
2.3 开放性意见汇总 在评估末尾收集到的开放性反馈意见见表4。
表4 开发性意见汇总Table 4 Summary of developmental comments
3.1 实施过程专家反馈意见质量较高 使用AGREEⅡ工具进行评价过程中,有1名专家对甲状腺咨询表给出了回复,但对颈动脉咨询表的评阅认为难以评分,回复原因为,颈动脉超声探查变异性强,全科医生难以掌握,因此,建议不纳入全科医生应学习的器官范围,或者作为第二阶段、第三阶段的学习内容。可见,专家首先对服务规范的可行性较为敏感,一旦可行性受到质疑,后续服务规范将难以或者不应推行,评价也就没有继续进行的意义。针对此种情况,AGREEⅡ工具使用建议给出的参考做法为,当遇到未填写项,但仍希望使用这条信息时,可以记为4分[29]。故本研究中该位专家的评分在数据处理时全部按4分打分。针对该赋分对整体评价产生的影响,4分低于剩余4位专家评审的平均分,因此纳入该意见,压低了平均分,降低了高估的风险,反之,则可能汇报了过高的平均分。
3.2 《社区甲状腺及颈动脉超声检查数据远程采集服务规范》的AGREEⅡ评分等级较高 两份服务规范在范围和目的、参与人员、严谨性、清晰性、应用性和独立性6个领域的平均得分率均在60%以上,甲状腺服务规范的范围和目的领域,评价者之间一致性中等,严谨性和清晰性领域则一般,参与人员、独立性、应用性因评分过于接近,无法用ICC值来体现评价者之间的一致性;颈动脉服务规范的范围、目的及严谨性领域,评价者之间的一致性一般,其余领域因评分过于接近,无法用ICC值来体现评价者之间的一致性;按照AGREEⅡ工具的评价原则,两份规范均可评为A级,为最高级别,表明服务规范方法学质量较高。按照AGREEⅡ工具约定,达到A级别,被评价内容可以不做更改直接推荐使用。故本次被评价的两份服务规范可以直接用于日常工作发挥应有作用。
本研究结果显示,专家对各个条目的打分,整体来说较高,均在4分以上,特别是甲状腺服务规范的评分,23个条目中有21个条目平均分在6分以上,剩余2个条目的平均分也接近于6分(5.6、5.8分),满分项是第1条对服务规范总目标的评价,5位专家均打了满分。这表明从技术本身的成熟度到技术的实施者、技术的目标人群、技术的扩大推行,专家都给出很积极的评价,甲状腺由全科医生初步探查,未来实施有一定保障,下一步可以优先推行。
颈动脉服务规范的评分都在5~6分,相较于专家们对甲状腺服务规范的评价,这是较低的分数,其中得分最低的是第5条(考虑到目标人群的观点和选择)和第16条(明确列出不同的选择),这表明,与拒填的专家意见一致,剩余4位专家均为颈动脉超声实施的可行性和技术上达成的可能性给出了23个条目中最低的分数,也即专家们认为,颈动脉超声探查技术有难度,全科医生可能难以掌握,对于目标人群来说,由全科医生来执行这一行为,有一定风险。由此看来,让全科医生参与颈动脉超声的初步探查,还需要再审议,暂时不宜提上落地推行应用的日程。
3.3 专家开放性意见 5位专家中,有2位专家未填写,有2位专家均给出了细致的评价,有1位专家建议规范都需要在实践中不断改进。从提交的开放性意见可见,提交意见的专家对咨询内容进行了十分细致的评阅,并给出了十分详尽的改进建议,可推测专家对评分的打分也是效度较高的,这其中包括认为无法对颈动脉进行评分的专家,这也表明将未评分状态按4分计纳入数据处理而不是剔除,十分有必要[30]。
分析AGREEⅡ工具用于评价服务规范的适用性,尽管专家层面给出了较为乐观的评价,并对借用该工具进行评价表示认可,但这可能是专家对咨询内容的新颖性所吸引而产生的正面效应。仔细分析AGREEⅡ工具中所要求提供的内容,不少内容,对于服务规范来说,难以提供或者给不出更为具体的信息,比如第9条描述证据的优势和不足,第12条推荐意见和支持证据之间有明确的联系,本研究进行评价的服务规范属明确范围内的操作指导性文件,其证据多是现行标准、教科书、工具书,这种级别的证据对于指南来说是难以通过的,服务规范也不太会收集到单个研究的证据,而单个研究对于现行实践的优化,正是指南形成最终意见的基础,最终,本服务规范其实无法对所有证据给出GRADE(Grading of Recommendations,Assessment,Development and Evaluation)评分[31]。而对于指南评价等相关知识和原理,参与评价的专家未必十分了解,这就造成了填写者的打分困难,很可能会给出高分;其次,第19条“规范”提供配套工具(将指南改成了规范),由于本《社区全科医生使用便携式超声技术探查甲状腺及颈动脉服务规范》信息量较小且范围明确,变异性可控,可提供或者需提供的配套工具十分有限;最后,服务规范与指南之间仍存在着本质的差异,服务规范更加强调操作,一步紧跟一步地精密执行,而指南是对一个疾病的综合研判[32],从流行到病因到防治,防治中又包括诊断环节的筛查、标准诊断,治疗又包括预防性治疗、临床治疗和后期康复治疗等,因此,指南实际上是一个判别文件,处处都是“如果怎样,则怎样”(if-then)的判断[33]。两者本质上的差异,导致AGREEⅡ工具用于服务规范评价时,显得过于庞大。然而,AGREEⅡ工具有许多可贵的考量,能够全面提点服务规范质量并有效促进服务规范后续的使用,比如领域1、领域3、领域4,很好地保证了服务规范的质量,而第18条讨论推荐建议应用中可能遇到的障碍,则提醒了服务规范的推行条件和普及困难。
综上所述,《社区全科医生使用便携式超声技术探查甲状腺及颈动脉服务规范》使用AGREEⅡ工具评分获得了较好的评价,按工具约定,可不用更改,直接推荐使用,但可能存在高估。后续建议对操作性为主、较少判别环节的服务规范类文件,使用效度理论作为基础,对内容的表面效度、内容效度、结构效度、校标效度[35]进行针对性的逐一审查和深入评价,如周永祥等[36]曾开展此类实践。但可充分借鉴AGREEⅡ工具中所考虑到的、方方面面的会影响到服务规范质量和后续推行的因素。根据评分结果和回顾评分过程,甲状腺服务规范可用,后续全科医生初步探查可进一步推进,而颈动脉服务规范的应用和推行还需要根据技术难度再做研判,至于开发短期培训内容及纳入第一批培训和推行内容等,根据专家意见看来,不建议过早提上日程。
作者贡献:陈明、张韬负责文章的构思与设计,并对文章整体负责,监督管理;张韬负责研究的实施与可行性分析、数据收集与整理、统计学处理、结果的分析与解释、英文的修订;宋烨撰写论文;赵峰进行论文的修订;陈明负责文章的质量控制及审校。
本文无利益冲突。