中医药多元证据整合方法学MERGE框架

2024-02-01 09:25赖鸿皓唐文静王蓓蓓孙培栋孙铭谣黄嘉杰肖志攀商洪才杨克虎杰1110

协和医学杂志 2024年1期

赖鸿皓，王浙，李滢，唐文静，王蓓蓓，孙培栋，孙铭谣，黄嘉杰，肖志攀，李颖，赵晨，商洪才，杨克虎，刘杰11，1，葛龙，9，10

兰州大学 1公共卫生学院循证社会科学研究中心 2公共卫生学院社会医学与卫生事业管理研究所 3护理学院循证护理研究中心 8基础医学院循证医学中心，兰州 730000 甘肃中医药大学 4护理学院 5中西医结合学院，兰州 730030 6中国中医科学院中医临床基础医学研究所，北京 100700 7北京中医药大学东直门医院中医内科学教育部和北京市重点实验室，北京 100700 9甘肃省循证中医药协同创新基地，兰州 730000 10甘肃省循证医学与临床转化重点实验室，兰州 730000 11中国中医科学院广安门医院肿瘤科，北京 100053 12中国中医药循证医学中心，北京 100700

当前，以科学证据为基础、以患者为中心的循证医学模式已成为世界医学知识与实践的主流模式，循证医学本身及采用循证医学方法制作的高质量证据已成为全球医疗卫生决策和实践的重要依据[1]。循证方法成为世界公认的“游戏规则”，借鉴循证医学的指导制作证据或形成推荐，是中医药医学知识为世界所接受、认同的最佳途径[2]。

目前，中医药发展已上升至国家战略层面[3]。尽管中医药在世界舞台被越来越多地接受和认可，但其发展仍面临诸多挑战。自2019年中国中医药循证医学中心成立至今[4]，中医药循证研究已在方法和实践层面取得了累累硕果[5]。在循证医学的指导下，中国研究者制订了大量中医药相关临床实践指南(下文简称“指南”)，但其实际应用并未达到预期效果[6]。指南对于中医药的推荐通常缺乏强有力的研究证据支撑，而中医药原创思维和原创实践的产物并未得到充分利用，这显著降低了指南的说服力和使用者的依从性[6]。导致该困境的原因复杂，无法充分阐释中医药在临床疗效方面具有独特优势是主要原因之一[5]。朴素地说，中医药走向世界需借助循证医学方法，然而“舶来”的方法学框架被实践证明与原创思维的契合度不足；发展中医药是必须的，放弃循证医学和应用循证医学“格式化”中医药是不可行的。在此情况下，如何应用循证医学方法，同时充分考虑中医药自身的特点和规律，对中医药作出合理的疗效评价，是当前中医药领域研究的核心问题。

2019年，《中共中央国务院关于促进中医药传承创新发展的意见》提出了中医理论、人用经验和试验证据三结合的中医药整体证据体系[7]，从多元证据视角为解答上述问题提供了可行的思维方法，即中医药多元证据整合。但如何在循证医学严谨的方法学框架下整合中医药多元证据，目前仍缺乏方法学指导。因此，本文将从循证医学角度出发，结合中医药与循证医学的整合实践，探讨纳入多元证据的必要性、可行性，提出在中医药领域进行多元证据整合的方法学框架——MERGE(Merge Evidence-based Research and artificial intelliGence to support smart dEcision)框架，以期为中医药循证医学方法学体系的完善和发展提供借鉴和参考。

1 如何理解中医药多元证据

中医药多元证据的基本构成包括：中医理论、人用经验和研究证据。根据循证医学创始人Gordon Guyatt的定义，循证医学中证据的范围包括“任何有关事物间关联的经验性的观察”[8]。中医理论和人用经验是历代医家、广大百姓在长期医学实践中总结形成的关于临床诊疗的规律性认识，能够反映事物联系，指导临床实践[9]。二者区别在于理论是成体系的知识，包括以四大经典著作《黄帝内经》《伤寒杂病论》《神农本草经》《难经》为代表的系列中医理论；而经验是对认知的概括性总结，如民族药的使用经验等。研究证据则是对理论、经验的批判性延伸，是通过有计划、有规律的观察活动，如随机对照试验(randomized controlled trials，RCT)、队列研究和病例对照研究等，获取能够揭示事物联系、预测未来效果的系统性信息。

对中医药多元证据的研究和应用具有必然性和必要性。无论循证医学还是中医药领域，整合多元证据的思维方法均是其发展的必然产物。一方面，作为一门起源于上世纪90年代的年轻学科，循证医学仍在争议中不断探索和发展。有观点认为，机械地执行对证据等级的绝对划分，在某种程度上是阻碍临床医生和患者作出正确临床判断和采取正确临床行动的可能原因[10]。研究者对RCT局限性的思考促使其将视野扩展至更多类型的研究证据[11]，并赋予“低等级”研究证据在支撑决策中的重要地位[12-13]。随机和非随机设计的研究证据各有优势，最佳决策无法回避对二者进行综合考虑的需求。多元证据整合能够在一定程度上解决中医药高质量证据缺乏的困境，更好地应对复杂的决策环境。2022年，GRADE(Grading of Recommendations，Assessment，Development and Evaluations)工作组提出了整合随机与非随机干预研究证据的可行方法[14-15]，正是多元证据整合思维的具体体现。

另一方面，中医药作为中华优秀传统文化的瑰宝之一，历经千年发展传承至今，形成了独具特色的医学体系。这决定了研究者对中医药的阐释和评价必须使用原创理论的思维方法，对中医药的应用和传承无法脱离原创实践的宝贵经验。在漫长的历史实践中，中医药得到了充分的发展和完善，建立起主要由中医经典书籍、核心辨证法、多家医学流派及多种学说融合而成的核心理论体系[16]，系统地保留了中医原创思维方式；积累了大量有关组方用药、辨证论治、临证思路等中医药关键问题的人用经验[17]；形成了具有一定规律性、可重复性的关于中医临床诊疗认知的概括性总结。尽管建立在西方医学体系下的经典循证医学理念对基于理论和抽象经验的决策方式的包容性天然有限[18]，证据质量较低直接影响了证据使用者的信心；然而在中医药实践中，理论和经验在帮助解决原创性问题和提出科学假设中发挥了不可替代的作用。相关方法学的不断进展，如中医古籍文献数据库、中药特色综合疗效评价指标的构建[19-20]，也为中医理论和经验与现代评价体系之间搭建了桥梁。显然，中医药的发展正在积极寻求多元证据的融合，以实现在充分考虑中医药自身特点和规律的同时阐释其临床疗效优势。

2 如何整合中医药多元证据

2.1 研究证据的整合

根据循证医学理论和GRADE证据分级方法，在理想的情况下，高质量RCT是支撑中医药循证临床决策或指南推荐意见的最佳证据来源[21-22]。近年来，中医药RCT发表数量激增，但高质量RCT缺口依然存在，其主要原因为方法学质量不高、中医药特色指标的应用缺乏[23]，以及RCT设计与中医思维、需求的不兼容[24-25]。此时，采用其他设计方法的研究证据则可能发挥补充、递补或替代作用[15]。真实世界研究(real world study，RWS)通过收集和分析临床常规产生的真实世界数据，能够评价干预措施的实际效果，其范畴包括实用临床试验、使用真实世界证据(real world evidence，RWE)作为外部对照的单臂试验、观察性研究等。中医药具有实用性特点，产生于RWS的RWE同样是阐释中医药临床疗效的重要依据[26-27]。值得注意的是，在严格意义上RWS与RCT在范围上是存在交集的，如实用性RCT、技能型 RCT 和新型真实世界RCT均属于RWS范畴，由于缺乏专门的术语，本文使用RWS指代除RCT外的其他研究类型。

整合研究证据需遵循严谨的方法，本文结合GRADE方法学进展[14，28]和笔者前期的工作基础[15]，提出在中医药领域整合不同类型研究证据的方法学框架(图1)。

图1 中医药领域整合研究证据的方法学框架——MERGEFig.1 Methodological framework for integrating evidence in TCM—MERGE RCT(randomized controlled trials)：随机对照试验；Scoping Reivew：范围综述；RWS(real world study)：真实世界研究

2.1.1 方法学框架

中医药领域研究证据的整合过程复杂，研究者需进行全面、充足地计划。应明确目标问题，并推断RCT是否适用于解决目标问题的最佳证据来源(图1步骤①和②)。在计划阶段对目标领域进行范围综述(scoping review)是帮助研究者估计研究范围、证据现状和证据评价工作量的有效手段。若研究者推断RCT不是回答临床问题的最佳证据或唯一证据，在进行范围综述时则应将调查范围扩大至RWS。通过范围综述的结论，研究者基本可判断RCT证据的可及性(图1步骤③)，以明确后续工作走向。

当RCT证据明确不可及时，证据合成的后续步骤仅需围绕RWS进行。研究者需根据目标问题对RWS进行系统评价，并对RWS系统评价进行证据确信度(质量)分级；但若该路径下RWS也不可及，研究者则不能基于研究证据回答相应临床问题，而应更多地寻求中医理论、人用经验等的帮助。

当RCT证据具有可及性时(包括明确可及和可能可及)，证据制作应围绕RCT和RWS展开。研究者应分别对RCT和RWS进行系统检索和筛选，并将不同类型的研究分开管理(图1步骤④)。经过该步骤后，研究者可对RCT证据可及性进行明确判断。若RCT证据不可及，则应直接对RWS进行数据合并和证据确信度评价，形成整合后的研究证据(图1步骤⑨)。在图1步骤④步骤中RCT证据可及时，研究者应首先考虑使用RCT证据对目标问题进行回答。在对RCT进行数据合并后，使用GRADE工具对证据确信度进行分级有助于研究者判断来源于RCT的系统评价证据是否足以回答目标问题(图1步骤⑤)。对来源于RCT的证据体而言，其确信度的初始等级为高；对来源于非随机研究的证据体而言，其确信度的初始等级为低(图1步骤a)。而后，根据对5个降级因素(偏倚风险、不一致性、不精确性、间接性和发表偏倚)(图1步骤b)和3个升级因素(剂量反应关系、大效应、负偏倚)(图1步骤c)的评估结果，证据体的证据确信度可被分为高、中、低和极低4个等级(图1步骤⑥)[21-22]。当证据确信度为高时，意味着RCT证据足以回答目标问题，再纳入RWS证据也不会对证据体产生影响，此时研究者可直接使用基于RCT的证据体回答问题(图1步骤⑧)。当证据确信度为中、低或极低时，说明在回答目标问题时RCT证据尚不充分，此时研究者应结合范围综述的结论考虑RWS证据是否可补充、递补或替代RCT证据(图1步骤⑦)。若可以，则启动对RWS的后续评价；若不可以，则继续使用基于RCT的证据体回答问题(图1步骤⑧)。

2.1.2 注意事项

经过上述步骤后，除RCT与RWS证据均不可及的情况外，研究者至少能够获得一种来源的研究证据。值得注意的是，基于多种研究设计类型进行严谨的系统评价是充满挑战的。首先，在文献检索环节，相同类型的研究设计标签使用可能并不统一，且数据库也缺乏完善的索引，系统检索RWS的难度较大[29]。参考相关方法学文章、开展范围综述以及邀请相关专家参与是帮助研究者选择恰当的检索资源和制订恰当的检索策略的有效办法[30]。其次，针对不同类型的研究进行筛选、数据提取和评价所依据的策略往往也不同，对系统评价制作者全面管理和把握研究证据的能力也提出了挑战。其中，合理评价RWS的偏倚风险(risk of bias，ROB)最具挑战性。RWS的研究设计通常缺乏随机化方法，尽管研究结果可能更接近实际效应，但其中的混杂因素却不易被识别并妥善处理。ROB评价及其所产生的后续影响在证据整合中影响较大，选择合适的ROB评价工具非常关键。纽卡斯尔-渥太华量表(Newcastle-Ottawa scale，NOS)、Cochrane 偏倚风险评估工具(Cochrane RoB tool)、唐斯-布莱克清单(Downs-Black checklist)、CASP清单(critical apprai-sal skill program checklist)和ROBINS-I(risk of bias in non-randomised studies of interventions)等工具常被用于评价RWS的方法学质量[31-36]，研究者应根据RWS的具体设计类型选用合适的评价工具。但少部分研究目前仍无特定的质量评价工具，如无对照单臂试验研究，此种情况下研究者可结合方法学家的建议，根据研究设计中的关键环节评价ROB[37]。

2.2 在研究证据中纳入中医理论和人用经验

在指南制订和循证决策中使用中医理论和人用经验的关键是对其质量进行合理评价。近年来，符合中医药特点的证据评价体系建设取得了系列进展[38-40]。现有评价工具可对中医理论和人用经验的来源可靠性、应用现状、医家资质、内容性质、记载完整性等要素进行综合评价，将中医理论评价为合理、基本合理、部分合理、不合理4个等级[41]；将人用经验评价为一致认可、存在争议、淘汰3个等级[42]。尽管中医药证据评价方法尚不统一，但不同方法对高质量中医理论和人用经验的判断标准却是相似的[38-40，42-45]。研究者可运用现有工具区分高质量的理论和经验。考虑到理论和经验本身可能存在的严重偏倚，在决策中可不考虑未被高度认可的信息，即在质量评价中被评为高质量的中医理论和人用经验才能被用于后续的整合工作。

整合以定量结果为主的研究证据和以定性结论为主的理论经验时，需在二者之间搭建桥梁，使其能够在同一维度进行对话。将理论经验中的相关内容转化为定量结果极为困难，加上古籍文献的表述方式与现代表述方式存在较大差异，转化过程可能出现严重偏倚。而通过解读定量结果，研究者往往能够获取较为准确的定性结论。将研究证据转化为定性结论，并在这一层面上与理论和经验进行整合，增加证据的把握度[46-47]。

整合多元证据后，如何恰当判断中医理论和人用经验对研究证据进行阐释和支持的程度，是面临的难题。目前对定性系统评价进行证据分级的有效工具是CERQual(Confidence in the Evidence from Reviews of Qualitative research)，该工具能够从方法学局限性、相关性、结果一致性和数据充分性4个方面评价定性证据体的确信度[48-49]。借鉴CERQual工具的基本思路，研究者可对多元证据的整合结果进行相应解读和评价。根据中医药特点，使用CERQual工具应注意以下两点：一是方法学局限性的评价并不适用于中医理论和人用经验，由于在前期工作中研究者已使用相应工具进行了质量评价，且仅考虑了高质量的理论和经验，此时可不再评价理论和经验的方法学局限性；二是数据充分性这一条目，关注观察结果、样本量等信息的充分性，在不改变原意的前提下将其解读为“相关信息的充分性”，以增加对中医药的适配度。研究者通过评价中医理论和人用经验与研究问题的相关性、与研究证据结论的一致性及其本身相关信息的充分性，将整合证据的确信度评价为高、中、低、极低4个等级(整合证据的初始确信度为高)。若整合证据的确信度为高，则提示有可靠的中医理论和人用经验阐释和支持研究证据；若整合证据的确信度为中、低或极低，则说明内部结论可能不一致，即使结论一致，其把握度也可能较低。

结合当前方法学进展和上述考虑，笔者提出在中医药领域整合研究证据、中医理论和人用经验的方法学框架(图2)。

图2 多元证据(研究证据、中医理论和人用经验)整合的方法学框架Fig.2 Methodological framework for multivariate evidence integration

2.2.1 方法学框架

针对特定目标问题，若RCT或RWS可及，对不同类型的研究证据整合后其GRADE分级结果为高、中、低、极低4种情况(图2步骤①)。类似地，经过检索、筛选、提取等步骤后，若中医理论和人用经验可及，使用质量评价工具也可将结果按质量分为不同的等级(图2步骤②)。该部分的具体操作可参考中华中医药学会《中医药整体证据研究的标准化操作规程》进行[50]。被评价为中、低或极低质量的中医理论和人用经验仍需在中医学内部进行深度解析和完善，不适合在指南或决策的证据制作阶段被纳入。下一步研究者应将整合后的研究证据转化为定性结论，与被评价为高质量的中医理论和人用经验进行整合，再借助定性系统证据确信度评价工具对整合证据的确信度进行评价(图2步骤③)。

若在目标问题下，研究证据与高质量的理论和经验均可及，则其整合结果的确信度在理论上可出现16种情景(图2板块I)，其中，I，M和N出现的可能性相对较低。整合证据的评价结果若为高确信度，则表示研究者对研究证据、中医理论和人用经验均具有较高的把握度，且其结论一致，能够相互支持和补充(图2方块A，E)。在A情况下，研究证据已经达到了高确信度，证据决策者可使用高确信度的中医理论和人用经验证据，从原创思维的角度帮助优化推荐和决策，如确定个体化最佳治疗方案、协同探索中医药临床定位、辅助规划处方疗程和给药剂量等[3，7]。同时，原创思维和原创实践与研究证据结论的高度重合能够大幅提升证据使用者的信心，在E，I和M三种情况下，表明存在高确信度的中医理论和人用经验证据，此时可考虑提高研究证据的等级。因此，建议研究者可根据中医理论和人用经验证据的确信度对研究证据的GRADE分级结果进行升级。完成上述操作后，除呈现多元证据整合结果外，研究证据仍需回归至定量层面进行常规证据呈现，如使用GRADE工作组制订和推荐的SOF(summary of finding)表[51]。当整合证据的确信度为中时，研究者应关注降级原因是否为不一致。若研究证据与理论和经验之间出现不一致时，研究者应尝试剖析不一致的原因，如遇无法解释的不一致性，可对未来研究的方向作出提示或补充完善的中医理论和人用经验(图2方块B)。若其他原因导致中医理论和人用经验证据的确信度降级，则应以研究证据为主，在证据制作阶段可考虑不再纳入理论与经验(图2方块F，J，N)。当整合证据的确信度为低或极低时(图2方块C，D，G，H，K，L，O，P)，通常意味着研究者无法准确把握中医理论和人用经验，其不太可能对研究证据作出有力支持，此时纳入理论和经验不会有太大帮助，反而可能引入更多偏倚。

当研究证据整合过程中出现RCT与RWS均不可及的情况时，研究者可能无法使用研究证据回答目标问题(图2板块Ⅱ)。此时，应综合权衡当下作出推荐的必要性，及对干预措施效果推断的把握程度等，选择依据理论和经验作出相关推荐(如在应对新冠感染疫情初期，研究证据匮乏，但相关专家仍根据流感等呼吸道传染性疾病的防治经验，制定了有效的防控措施[9])；或仅阐述整合结果并提示未来研究方向。但无论如何，在此种情况下研究者必须声明研究证据缺失的事实。

此外，若研究者已掌握了研究证据而未发现相关的理论经验，则应在使用研究证据进行决策时，完整报告整合过程并指出研究空白(图2板块Ⅲ)。相似情况还存在于研究证据确信度高，而其与理论和经验的整合结果确信度较低时(图2方块C，D)，高确信度的研究证据很可能给理论和经验的发展和完善带来重要提示及补充。

极端情况下，目标问题可能无研究证据和相关理论经验可参考(图2板块Ⅳ)。如发生突发、严重、史无前例的卫生健康问题，此种情况需研究者立刻进行决策。采用间接的多元证据制订应急方案，在应对卫生健康问题的实践中积极寻找证据，其在2019年末突然暴发的新冠肺炎疫情中被验证是行之有效的方法。

2.2.2 注意事项

中医学具有意象思维、抽象思维、情感思维、经验思维等科学思维特点，相关古籍文献大多字义晦涩、医理深奥、隐含信息量丰富[52]，这使得研究者对中医理论和人用经验进行全面检索以及对相关信息进行准确把握的困难增加。基于复杂信息思维，运用古籍文献数据库、理论经验知识库、典籍词语索引等方法进行立体化检索有助于优化检索方法[52-55]。邀请目标问题领域的资深中医专家参与多元证据整合过程亦有助于减少偏倚。此外，采用恰当的方法对中医药理论和经验进行确信度分级是实现去粗取精、去伪存真的关键[50]。然而，目前相关方法学尚未成熟，根据目标问题积极寻求专家意见、开展专家共识或参考已形成共识达成一致结论，可能是优化证据分级的有效方法。

中医药历经几千年发展与嬗变，时至今日其理论与实践已呈现出百花齐放、百家争鸣的态势。因此，在被评价为高质量的中医理论和人用经验内部，可能出现信息之间意见相左的情况。此时整合的重点是剖析产生矛盾的可能原因，妥善处理不同历史时期、不同地域、不同流派、不同学说之间的差异。但总体而言，只要不严重违背中医基础理论，研究者就应对其持开放态度，并结合实践灵活使用[7，56]。

此外，值得一提的是，随着方法学的不断进展，人们对定性研究方法的关注和重视程度愈来愈高，在以公共卫生复杂干预RCT为代表的研究中，研究者正尝试将定性研究方法整合至RCT中[57]。提示未来的RCT和RWS中可能出现更多定性结论，但鉴于当前的研究证据仍以定量结果为主，本方法学框架主要在该假设前提下构建。

2.3 整合中医药多元证据的情境

MERGE框架的目的是合理整合包含研究证据、中医理论和人用经验在内的中医药多元证据，促进形成优势互补、富有特色的协同证据体，支持和优化中医药领域相关循证决策。在制作服务于决策的中医药系统评价、证据综合时，可考虑使用MERGE框架，如中医药指南制订中的证据审查环节。本文在理想的假设条件下阐述了中医药多元证据整合的完整流程，主要包含不同类型研究证据的整合以及研究证据、中医理论和人用经验的整合两个部分。研究者可根据对证据的实际需求决定整合的范围、程度和具体方式，如仅独立地使用第一部分子框架整合研究证据、在证据整合中仅考虑RCT和队列研究的整合等。

3 小结与展望

本文基于以GRADE方法为代表的循证医学方法，以及既往中医理论和人用经验研究，提出了一种具有潜在应用价值的方法学框架。本文聚焦于探讨证据整合的必要性、合理性，以及阐述使用MERGE框架整合中医药多元证据的具体步骤。当嵌入至完整决策过程时，MERGE框架仍需与前后步骤妥善连接，做好中医药多元证据的收集、筛选、分类、提取、评价等工作的数据信息预处理，以及根据整合的证据形成推荐意见或作出决策。

循证医学被公认为医学方法演进的突破性成果，但其发展至今同样伴随诸多争议[58]。首先，循证医学存在对还原论的过度依赖，严格遵守证据金字塔的等级划分，可能导致证据使用的简单化和狭隘化[58-60]。巧合的是，中医药的融入带来了整体论思维，为循证医学完善理论和方法提供了有益借鉴。其次，循证医学证据通常具有较好的普遍性，但对于特定患者群体的指导意义则可能大打折扣[61]。尽管循证医学越来越重视患者偏好与价值观在决策中的作用，但其对于个体患者的临床指导和人文关怀仍显不足。而中医药本身蕴含丰富的人文精神，独特优势之一正是辨证论治的治疗思路和方法，与循证医学方法的结合能够互补缺陷、发挥优势。再次，循证医学的基本原则包括了对临床经验的考虑，但目前循证医学方法并不支持理论知识和实践经验在决策中得到充分利用[61]。而在中医药的历史实践中，理论和经验处于指导医学活动的中心地位，时至今日已积累和凝练出独特的体系。也就是说，中医药不仅有大量的理论和经验能够指导实践，而且还具备丰富的“使用经验”的经验，恰好能够对应循证医学的方法缺漏。

循证医学和中医药在历史上均经受重重考验，也都通过不断变革和完善成功渡过危机。随着时代的发展，卫生健康决策的环境将愈发复杂，循证医学与中医药两个天然互补的学科在理论体系、逻辑思路、研究方法、证据信息等多个维度实现深度互鉴，既是学科发展的趋势，也是现代卫生健康事业的必然要求。

作者贡献：赖鸿皓、王浙负责搜集、整理资料和撰写论文初稿；葛龙、赖鸿皓、王浙、李滢、唐文静、王蓓蓓、孙培栋、孙铭谣、黄嘉杰、肖志攀、李颖负责构思及讨论框架内容、结构和方法流程；葛龙、赖鸿皓、孙铭谣、黄嘉杰、李颖负责构建和优化框架；赵晨、商洪才、杨克虎、刘杰负责修订论文初稿；葛龙负责结构设计、组建团队及修订论文。

利益冲突：所有作者均声明不存在利益冲突