中医药临床应用N-of-1试验报告质量评价的研究

2020-11-30 03:53:54刘雪莹司雨琦潘治森沈创鹏吴浩祥

广州中医药大学学报 2020年12期

刘雪莹，司雨琦，潘治森，沈创鹏，吴浩祥

（1. 广州中医药大学第一临床医学院，广东广州 510405；2. 广州中医药大学第一附属医院，广东广州 510405）

单病例随机对照试验（single case randomized controlled trails，N-of-1 trials）是一种基于单个患者进行的多周期（至少2个周期/4个阶段）、交叉试验，用于比较单个患者中的两种或多种治疗方法。与平行组随机对照试验研究方法不同，N-of-1 试验可用于直接评估个体治疗效果，为个体治疗决策提供最有力的循证医学证据[1]。该方法与中医药辨证论治高度个体化的特点十分相似，因此被运用于中医药的临床研究，取得较好的成果，但目前尚未见相关质量评价的报道。本研究基于2019 年Shang Hong-cai 教授团队制定的关于中医药的N-of-1 试验指南（TCM-CENT ）中的条目[2]，评估中医药N-of-1试验报告质量，分析目前存在的问题，以期为今后提高中医药N-of-1 试验质量提供参考。

1 资料与方法

1. 1检索策略以 “N-of-1”“单病例”“交叉研究”“随机对照”“中医药” 为主题词，在中文数据库如中国知网（CNKI）、中国生物医学文献数据库（CBM）、中文期刊数据库（维普）、万方数据库（万方及万方会议论文、学位论文数据库）、超星期刊等各个数据库进行检索；以 “single case studies”“N-of-1 trial”“randomized controlled trial in individual patient”“crossover”“TCM”“traditional Chinese medicine” 为主题词，在外文数据库如PubMed、Web of Science核心合集中进行检索。

1. 2文献纳入及排除标准文献纳入标准：1987年1 月至2019 年12 月期间发表的中医药N-of-1 试验报告，包括期刊论文、会议论文、学位论文，语言限制为中文及英文，对试验目标及措施不加限制。文献排除标准：（1）综述类文献、病例报告、方法学介绍类文献等均不纳入；（2）文章虽描述为“单病例随机对照”，但仔细阅读后发现只有实施了一周期（或二阶段）的干预措施，或不涉及中医药临床应用的随机对照试验的文献。

1. 3试验报告的质量评价由两位评审员参照适用于TCM-CENT 声明中的条目进行试验报告的质量评价。TCM-CENT 声明中共涉及45 个条目，对其进行翻译及讨论后，独立提取数据并评分，符合条目内容的计1分，不符合条目的计0分，异议较大的进行再次讨论协商。

1. 4统计分析运用SPSS 21.0统计分析软件对两名评审员的评分进行Kappa值的计算。如果两者判断趋于一致时，Kappa 值为正数，完全一致时Kappa值等于1。本研究的Kappa值在0～1之间。一致性程度分类为：Kappa ≤0.2 表示两者一致性非常低，0.2＜Kappa ≤0.4 表示一致性较低，0.4＜Kappa ≤0.6表示一致性中等，0.6＜Kappa ≤0.8表示一致性尚可，0.8＜Kappa＜1 表示一致性高。数据采用得分（n）及率（p/%）的方式表示，并用非参数Bootstrap 统计分析，检验水准α = 0.05，计算95%置信区间。

2 结果

2. 1文献检索结果共纳入有关中医药N-of-1试验的文献24篇[3-26]，中文试验报告20篇，英文文献4篇。其中有3篇为单一N-of-1试验，21篇为系列N-of-1试验。

2. 2纳入试验报告的基本信息纳入的24篇试验报告[3-26]中，发表年份分布情况如下：2010年3篇，2012 年2 篇，2013 年4 篇，2014 年2 篇，2015 年3 篇，2016 年2 篇，2018 年4 篇，2019 年4 篇。24 篇试验报告的通讯作者的第一单位所在城市分布情况为：一线城市19 篇，二线城市3 篇，三线和四线城市各1篇。采用国际疾病分类方法进行分类[27]，24篇试验报告涉及的疾病系统分类如下：呼吸系统5篇，生殖系统4篇，消化系统、血液系统及内分泌系统各3篇，骨骼肌系统2篇，循环系统及神经精神系统各1篇，另有采用中医证型作为诊断标准的试验报告2篇。

2. 3评审员评审一致性结果两位评审员评价的一致性较高，Kappa 值的平均值为93%，其中有27 个条目判断一致，Kappa值的最低值为65%，为第16和第21个条目。

2. 4试验报告质量评价结果根据TCM-CENT声明的6个部分45个条目（单个病例的N-of-1试验为42 个条目）评价。TCM-CENT 声明的6 个部分包括标题、摘要及关键词、前言、方法、结果、讨论、其他信息。

本研究的条目报告率平均为61%，其中报告率为1 的有9 个，未进行报告的有4 个（见图1、表1）。6 大部分中讨论部分的平均报告率为64%，第5 部分（讨论部分）报告率最高（92%），第6 部分（其他信息如是否进行了试验注册、能否能获取试验方案及试验是否获得资助）平均报告率最低（25%）。24 篇中医药N-of-1 试验对条目的整体报告率平均值为62%。其中单一N-of-1 试验平均报告率为64%；系列N-of-1 试验的整体报告率最高为79%，最低为40%，平均报告率为60%。

图1 24篇中医药N-of-1试验报告的条目报告率Figure 1 Item report rate of the 24 TCM N-of-1 trials

由图1及表1可知，报告率为100%的9个条目分别为：摘要部分的条目1b（摘要呈现结构式）；前言部分的2b（具体的目的或假设）；方法部分中的条目3a（合理试验设计方法描述）、5[详细描述各期干预措施（包括安慰剂）：具体使用的草药配方，针灸手法及穴位）]、6a1[预先设定结局指标（包括中医证型）]、6a2[结果评估工具和方法的描述及特性（效度和信度）]、12a（用于汇总数据、比较各组主要和次要结局指标的统计学方法）；结果部分中的条目13a1（完成的阶段数量和阶段序列，任何不同于原计划的变化及原因）、13a2（系列N-of-1试验：纳入、接受干预及结果分析的参与者人数）。

未进行报告的有4个条目，分别是方法部分的条目6b（试验开始后对结局指标是否有任何变动及其原因）；结果部分的条目17b（对于二分类指标，建议同时提供绝对效应值和相对效应值）；其他信息中的条目23（临床试验的注册号和注册机构名称）和条目24（如果有，哪里可以获取完整的试验方案）。

报告率低于50%的条目（包括50%）为3b（试验开始后对试验方法所作的重要改变）、4c（是否通过医学伦理委员会审核）、7a（如何确定样本量）7b（必要时，解释中期分析和中止原则）、8c（完整的，预先设定的阶段序列）、9（用于执行随机分配序列的机制）、10（谁产生随机分配序列，谁招募受试者，谁给受试者分配干预措施）、12b（系列Nof-1 试验：描述合并的统计分析方法）、12c（说明残留效应、阶段效应和个体间相关的统计方法）、16（干预措施纳入分析的阶段数量，系列N-of-1试验：合成数据的试验例数）、17a2（效应估计值及其精度）、18[其他分析的结果（残留/阶段效应，个体间的相关性分析）；N-of-1试验：亚组敏感性分析]、19（各种干预出现的所有危害或意外影响）。

报告率在50% ～70%之间（不包括两端值）的条目为1a（标题能识别是 “中医药的N-of-1试验” 或“中医药的系列N-of-1 试验”）、1c[关键词包括“中医药” 和 “N-of-1 试验”（或 “系列N-of-1 试验”）]、2a1[科学背景和原理解释（包括中医辩证理论解释）]、2a2（使用 “N-of-1试验” 的理由）、11a（实施盲法的步骤及说明针对谁设计了盲法，若不设盲，说明原因）、11b（描述包括安慰剂在内的干预措施的相似之处）、13b（系列N-of-1试验：描述试验脱落/排除的受试者、具体阶段数及其原因）、14b（阶段/总试验提前结束的原因）。

报告率在70% ～90%（不包括两端值）的条目为8a（生成随机序列的方法）、8b（随机方法类型）、14a（确定招募和随访的具体日期）、15（表格描述受试者人口学及临床特征）、20（试验局限性，潜在偏倚及不精确性的来源；如果相关，多样性的分析结果）、25（资助和其他支持）。

报告率在90%以上（包括90%）的条目为4a[受试者纳入和排除标准（疾病的西医诊断标准及中医辨证分型标准）]、4b（资料收集的场所和地点）、17a1（描述每个主要/次要结果，每个时期的结果；推荐一个显示试验数据的附图）、21[试验结果的可推广性（适用性）及原因]、22（权衡试验结果利弊）。

表1 24篇中医药N-of-1试验的条目报告率评价结果Table 1 Evaluation of the item report rate of the 24 TCM N-of-1 trials

（续表1）

3 讨论

1994 年国内学者将N-of-1 试验作为研究方法引入我国，认为其与祖国医学强调 “个体化诊疗” 的观点相吻合[28]，随后N-of-1试验在中药（汤剂、颗粒剂）、针灸治疗高血压、糖尿病并发症、肾病等领域运用。此方法应用于中医药临床试验的优势在于适用性较广（相当一部分的中医药治疗针对慢性疾病，且疗效得到认可），且可最大限度地展示中医药 “辨证论治” 的重要思想，提供最高循证医学证据。但是目前有关中医药的N-of-1试验也存在着良莠不齐的情况。

本研究运用2019 年Shang Hong-cai 教授团队制定的关于TCM-CENT 指南中的条目进行质量评估，结果显示N-of-1 试验应用于中医药领域存在以下问题：（1）中医药虽强调 “个体化”，但疾病治疗过程中使用该方法时，辨证论治的动态化及盲法之间难以做到两全，进而可能影响结局指标的可信度；（2）中药成分复杂、针灸（或其他传统疗法）及药代动力学（在人体内的作用方式及代谢途径）尚未明确，半衰期难以确定，干预措施及洗脱期的时长设定多借鉴前人经验，仅有少数的试验报告提及进行预实验来确定干预措施及洗脱期的时长；（3）单一N-of-1试验的样本量值及进行干预措施的阶段数量，以及系列单病例（包括普通的系列N-of-1试验和贝叶斯单病例随机对照试验）中的样本量值受试者的数量的报告率不到10%；（4）试验开展前极少数能做到在线注册（有1 篇文献为纯试验方案，故未纳入），整个试验方案的获取变得困难，不利于信息的公开、推广和共享；（5）从试验报告的年份分布及地区分布情况可以看出，目前N-of-1 试验应用于中医药领域的发展速度依然缓慢，大部分集中在科研资源及能力较好的一、二线城市，这或许与科研能力和水平以及Nof-1试验的推广力度不足等有关。

基于以上问题，笔者提出以下几点建议：（1）中医药治疗过程中，可以通过及时调整复方或者配穴，以有利于疾病的治疗；在对盲法的设定方面，可以让第三方（如药剂师等）对干预措施知情和实施，而统计者只在最终数据统计环节关联，这样可以保证统计者盲法的设计。（2）建议通过预实验来确定各期时长，另外可以补充实施相关复方或成药、针灸方法等治疗措施的动物体外、体内实验，观察其半衰期及其他代谢动力学特点。（3）由于N-of-1试验原理的特殊性，很多样本量的估计软件都无法估算。国内学者通过样本量估算原理建立了N-of-1 试验的模型及假设，而随机模型更加符合现实情况。根据Ⅰ类错误0.05 及80%功效的原理，开展3 ～4个周期（即6 ～8个阶段）的观察，需要纳入的病例数量为16 ～12 例，通过减少周期数量，有利于样本量的节约，减少病例脱落等问题而更利于试验的顺利开展。另一方面，在固定效应中，随着试验的周期变长，需要的周期总数基本稳定，即约为48 个周期[29]，可供研究者参考。（4）建议课题组或研究者在开展试验之前在相关网站注册试验方案，规范试验的流程（如伦理审核等）。（5）可通过学术会议、线上培训等多元化方式来加大该方法对基层医院及院校等科研及临床工作者的推广力度。

综上，本研究首次基于适用于TCM-CENT的声明进行了相关文献报告的质量评估，发现目前有关中医药应用的N-of-1 试验报告质量普遍不高，且发展缓慢，建议从盲法设计、增加预实验、完善动物实验、确定试验模型、规范试验流程、推广宣传及培训力度等方面，以提高中医药研究者使用N-of-1 试验的水平及报告质量。就本研究检索范围而言，语言限制为中、英文，且外文数据库仅检索了两大数据库，可能导致文献漏检的风险。另外，由于该声明的部分条目对设计方案改动、病例脱落等问题的描述，未得分或得分低不一定说明试验质量不佳，如方法部分的条目3b（试验开始后对试验方法所作的重要改变）、6b（试验开始后对结局指标是否有任何变动及其原因）等。试验本身的质量及试验报告质量之间的差异需谨慎对待。

（广州中医药大学基础医学院陈新林副教授对本研究做了悉心指导，特此致谢！）