临床试验研究方案设计中的统计学要素

2023-02-23 02:51王瑞平

上海医药 2023年3期

王瑞平

（上海市皮肤病医院临床研究与创新转化中心上海 200443）

临床试验研究的首要环节是撰写一份规范临床研究计划方案，用于明确整个研究的目的、指导临床试验的规范开展。临床研究方案的设计需满足临床诊疗需求，其规范性需遵从统计学要求，同时需要具有丰富临床经验的临床医生、流行病学家、统计师等共同参与，是一项科学、严谨的工作。根据随机对照试验报告统一标准（CONSORT）声明、PICO原则和我国《药物临床研究质量管理规范》，试验方案通常包括基本信息、研究背景资料、试验目的、试验设计、实施计划等内容。本文重点介绍临床研究方案设计中须注意的统计学要素问题。

1 临床研究的设计类型

临床试验设计类型的选择至关重要，研究者应根据研究目的和研究条件的不同，选择合适的临床研究设计类型。最常见的研究设计包括平行设计、交叉设计、析因设计和成组序贯设计。

1）平行设计：是指根据研究目的为试验药设置一个或多个对照组，试验药也可设置多个剂量组，研究者将受试者随机地分配到试验的各组，各组同时进行、平行推进。

2）交叉设计：是将自身比较和组间比较设计思路综合应用的一种设计方法，它可以较好地控制个体间的差异，以减少受试者人数。最简单的交叉设计是2×2交叉设计，指将每个受试者随机分配到2种不同的试验顺序组中，AB或BA两种治疗顺序组。其中，AB顺序组的受试者在第一阶段接受A处理，在第二阶段接受B处理；而BA顺序组与AB顺序组相反，而在2种处理之间要设置洗脱期以消除其延滞效应。

3）析因设计：是一种多因素的交叉分组试验设计，通过不同的组合，对2个或多个处理同时进行评价。它不仅可检验每个因素各水平间的差异，而且可以检验各因素之间的交互作用。最简单的析因设计是2×2析因设计，有因素A和因素B这2个处理因素，每个处理因素设为“有”和“无”2个水平，此时，两因素各水平组合后即有4组：A0B0、A1B0、A0B1和A1B1。析因分析临床研究中可将受试者随机分配到这4组。在很多情况下，该设计主要是为了检验A和B的交互作用，或用于探索2种药物不同剂量的适当组合，以评估由2种药物组合成的复方药的治疗效果。

4）成组序贯设计：是指每一批受试者完成试验后，及时揭盲对主要指标进行分析，一旦可以做出结论即提前有效/无效停止试验。成组序贯设计包含成组和序贯2个要素，成组是指每个分析阶段试验组与对照组的病例数比例与总样本中的比例相同，序贯是指把整个试验分成若干个连贯的分析段，每个分析段病例数可以相等也可以不等。成组序贯设计常用于有期中分析的临床研究中，适用于下列3种情况：①怀疑试验药物有较高的不良反应发生率，采用成组序贯设计可以较早终止试验；②试验药疗效较差，采用成组序贯设计可以因无效较早终止试验；③试验药与对照药的疗效相差较大，但病例稀少，或临床观察时间过长。成组序贯设计的优点是当试验药与对照药间确实存在差异时，或试验药与对照药不可能达到统计学意义时，可较早地得到结论，从而缩短试验周期。

5）主方案设计：是一类在单一方案下同时检测多种试验药物和/或多个肿瘤适应证，且无需为每次试验制定新方案的新颖试验设计。常见的主方案设计包括3种类型：篮式设计、伞式设计和平台试验设计。主方案设计常用于肿瘤研究设计，不同的设计方案可参考相关文献材料。

2 随机化方案

随机化是指临床研究中的每位受试者均有同等的概率被分配到试验组或对照组，使各种已知和未知的影响因素在试验组和对照组间的分布保持均衡，也是临床研究进行有效性和安全性评价的前提，其过程不受研究者和受试者主观意愿的影响。常见的随机化方案包括：①固定区组随机：是指在一个固定区组内保证试验组和对照组之间的均衡。区组过大易造成组间不均衡，过小则易造成同一区组内受试者分组的可猜测性，最常见的区组数为4或6。②可变区组随机：在单盲或开放性研究选择固定区组随机，研究者会根据已有分组去猜测接下来受试者的分组，因此常常采用可变区组随机，设定2个或多个区组长度，在限制组间可能的不平衡的同时又能保证较低的可预测性。③分层随机化：是临床研究中最常见的随机方法，分层因素可以根据试验目的或影响试验结果的因素来确定，通常由临床研究者和统计师共同决定，常见的分层因素有中心、年龄、基础疾病、疾病亚型等，在每层内分别进行随机以保持层内的组间均衡性。④动态随机：当考虑的分层因素较多时，分层随机化可能会导致每层样本量不足，此时可采用“动态随机”。动态随机化是指通过考虑分层因素的数量及权重和入组个体在这些分层因素上的分布，调整入组个体的分组，从而保证两组间的均衡可比。⑤中央随机化系统：在跨地域的多中心临床研究中，各中心在受试者招募、随机入组和药物消耗等方面的进度不同，传统的人工管理由于沟通不及时，很容易造成资源的浪费，因此可以采用基于信息化技术的多中心临床研究中央随机系统。

3 对照设置

对照是临床研究的基本原则之一，设置对照组的目的在于将待测试干预引起的患者结果（如症状、体征或其他发病率的变化）与其他因素（如疾病的自然发展、观察者或患者的期望或其他治疗）引起的结果进行区分。干预的选择往往是设计随机对照试验第一优先考虑的问题，而对于对照的选择，很多研究者却忽略其重要性[1]。常见的对照类型包括：①安慰剂对照：在安慰剂对照试验中，安慰剂是一种“假”治疗，在颜色、重量、味道和气味等物理特征方面与试验药物尽可能相同，但不含试验药物。例如试验药物以输液的形式给药，安慰剂对照则可以为生理盐水。②空白对照：空白对照在概念上与安慰剂对照类似，一般用在安慰剂对照由于特定原因无法实施的情况下。比如，研究干预措施是某种手术方式，但对照组使用“假”手术作为安慰剂对照往往违背伦理，研究者要慎用。③剂量对照：是指将受试者随机分配到两个或多个剂量组，其中可以有或没有安慰剂组，从而确定剂量和疗效与不良反应之间的关系。比如一项三臂的药物临床研究，一组人群接受高剂量的药物，一组人群接受低剂量的药物，剩下一组人群接受零剂量的安慰剂。④阳性对照：是指将一种研究性药物与已知的活性药物进行比较的试验，这种试验通常是随机双盲试验。⑤外部对照：是指对照组的患者并非属于受试组所在的同一随机试验，即不存在平行随机对照组。因此，对照组与接受治疗者并不完全来自同一人群。通常，对照组是先前所观察且有完善记录的患者群，可以是在另一机构同期观察的一组人群，或是同一机构研究之外的人群。

4 重复

重复是临床研究的基本原则之一，是指接受相同处理的受试对象不止一个，即每个处理组都要有一定的样本含量。ICH指导原则E9：《临床试验统计原则》中指出，临床研究的样本量必须足够大，以可靠地回答研究假设所提出的相关问题；同时又不至于太大而造成浪费。样本量的计算方法请参考《上海医药》2022年第43卷第7期《随机对照临床试验设计要点和规范》[2]中的介绍。

5 盲法

在临床研究中的随机分配阶段，若研究者已知随机化分组信息，则可能选择性入组受试者，导致两组之间基线不均衡。若受试者已知随机化分组信息，则可能受到主观因素的影响，产生疗效与安全性的评价偏倚。而盲法是控制临床研究中因“知晓随机化分组信息”而产生偏倚的重要措施，简单来说就是使研究者和/或受试者不清楚接受的是何种处理。根据针对的是研究者（对受试者进行筛选的人员、终点评价人员以及对方案依从性评价人员）和受试者的设盲程度，临床研究分为双盲、单盲和开放试验。评价者在任何情况下都应处于盲状态。

揭盲：双盲临床研究中，通常采用二次揭盲，即数据库锁定后进行第一次揭盲，可以获知每个受试者对应A组或者B组，以便对数据进行统计分析；当分析结束时，在临床研究总结会上再进行第二次揭盲，可以获知AB两组分别对应试验组和对照组。

紧急揭盲：为了保证受试者的安全，在双盲临床研究中，申办者须为每个受试者准备一份应急信件，其内容为该编号的受试者所分入的组别及用药情况。非必要时不得拆阅，一旦被拆阅，该编号病例将被中止试验，按脱落处理。若受试者出现严重不良事件，须知道该受试者的分组情况，以便于抢救时才拆开应急信件。

6 终点指标

每个临床研究通常有一个主要目的，通过试验来回答一个科学问题，例如人体对药物的耐受性、药物是否延长肿瘤患者的生存时间、药物是否可以控制疾病的复发等。这就需要用相应的指标来回答临床研究提出的科学问题，这种与临床研究目的相关的指标称为终点指标。终点指标可以是临床终点（痊愈、有效、死亡、心血管事件等）、替代终点（生物标志物、短期效应指标）、安全性指标、某个特定的不良反应。终点指标的选择应该基于临床实际和研究目的确切反映药物有效性或安全性。选择原则为易于量化、客观性强、重复性高且为相关研究领域公认的指标。主要指标不宜太多，一般只有一个，当主要指标有多个时，样本量估计要考虑假设检验的多重性问题。在定义主要指标过程中，不仅要说明指标的含义，其测量时点、测量手段以及计算方法都应注明。此外，在关注主要终点和次要终点的基础上，研究者还应了解有效性终点、安全性终点、卫生经济学终点等。

1）有效性终点：是反映受试药物用于患者所表现出临床获益的主要观测和评价工具。有效性指标又称为疗效指标，是反映受试药物用于患者所表现出临床获益的主要观测和评价工具，疗效指标的选择、测量和比较是药物有效性评价中的关键因素。疗效指标主要包括疗效观测指标和以疗效观测指标为基础确定药物效应大小比较与评价的方法和标准，即疗效评价指标。反映疾病变化的疗效指标可以是疾病临床终点，影响疾病进程的重要临床事件，也可以是评价社会参与能力，生活能力，临床症状或体征，心理状态等内容的相关量表或其他形式的定量、半定量或定性的指标，也可以是通过某些仪器和实验室检查等手段获得的某些客观数据或检查结果，比如病理生化等指标。

2）安全性终点：安全性评价是药物或医疗器械上市前临床研究的核心问题之一，也是药物或医疗器械上市后安全广泛应用的最重要的保障，主要是从暴露情况（强度、时间）、临床不良事件（疾病、体征、症状）、实验室检查数据（包括生化学和血液学指标等）、生命体征等4个方面对与产品安全性相关的信息进行描述与评价。

3）卫生经济学终点：主要有成本-效果分析（costeffectiveness analysis, CEA）、成本-效用分析（cost-utility analysis, CUA）和成本-效益分析（cost-benefit analysis,CBA）。

4）临床终点：是指能够反映患者感觉、功能变化的特征性指标、与生存状态相关的疾病临床终点（如死亡、残疾、功能丧失）或某些重要的临床事件（如脑卒中、骨折发生）等指标。临床终点能直接评价药物真实的效应，如症状缓解率、疾病病死率或者严重临床事件发生率等，但由于其中的疾病临床终点指标的评价往往需要的时间长、样本量大、研究成本高，有时还存在伦理学风险，导致疾病临床终点指标观测存在困难或不合理，因此临床研究常以易于观察和测量的指标来替代临床终点。

5）替代终点：是指直接终点不可能得到或短期内不能直接评价临床获益时，用于间接反映临床获益的观察指标。根据替代终点与临床效果的相关性和证据积累，FDA将替代终点分为3类，分别为经过验证的替代终点、可能有效的替代终点、候选的替代终点。合理应用替代终点的前提是替代指标的改善也将会相应改善疾病的终点结局，即研究者必须有足够证据支持其与临床终点的关系，并可预测疾病结局。针对罕见病、进展缓慢或须长期观察临床终点的疾病、危及生命但又无药可治的疾病，常常使用经过验证的替代终点，会大大缩短临床研究时间。

6）复合终点：如果根据主要研究目的，在多个指标中很难选出其中一个作为主要变量，则可用预先确定的算法来整合或组合多个值，组合构成一个复合变量作为主要终点。复合终点一般有2种类型：一种是临床上经常采用的量表，例如在临床研究中常用到的汉密尔顿量表就是由若干项目组成的复合终点；另一种复合终点是将几种事件合并定义为一个复合终点，这种情况在心血管药物的临床研究中最为常见。须注意的是，将多种测量结果综合成复合变量，其计算方法应在试验方案中制定，并解释其临床意义。

7）全局性终点：是指把客观指标和研究者对患者治疗后的临床结局状态或其改善程度总体印象结合起来制定的一种疗效评价指标，用于评估某项治疗总的安全性、优效性和实用性。它通常是等级指标，其判断等级的依据和理由应在临床研究方案中明确。全局评价指标在神经病学和精神病学治疗领域用得比较好，如精神疾病治疗的临床总体印象量表。

7 分析集

意向性治疗的原则（intention to treat principle, ITT）是指主要分析应包括所有随机化的受试者，这种保持初始的随机化的做法对于防止偏倚是有益的，并且为统计学检验提供了可靠的基础，这一基于所有随机化受试者的分析集通常被称为ITT分析集。ITT分析集是对所有随机化受试者的研究结局进行完整的随访，但在实际中这种理想很难实现，因而也常采用全分析集（full analysis set, FAS）来代替ITT分析集。FAS包括所有随机化的受试者，但违反重要入组标准、受试者未接受试验用药物的治疗、随机化后无任何观测数据的受试者不进入FAS。符合方案集（per protocol set, PPS）是FAS的一个子集，是对方案依从性高的受试者集合。安全集（safety set, SS）用于安全性分析，通常应包括所有随机化后至少接受一次治疗且有安全性评价的受试者。

在统计分析的过程中，可以同时采用FAS和PPS进行统计分析。若2种数据集的分析结论一致时，可以增强试验结果的可信性，若不一致时，应对结果差异进行讨论和解释。在不同的设计类型中关注的分析集也不同。在优效性试验中，应采用FAS作为主要分析集，因为它包含了依从性差的受试者而可能低估了疗效，基于FAS的分析结果是保守的。在等效性或非劣效性试验中，用FAS所得的结果并不一定保守，可以用PPS和FAS作为分析人群，2个分析集所得出的结论通常应一致，否则应分析并合理解释导致不一致的原因。

8 期中分析与独立数据监查委员会

期中分析是指在正式完成临床研究前，根据事先制定的统计分析计划，在处理组间进行分析。常见的期中分析目的包括监测药物的安全性、确认药物的有效性、样本量重新估计，分别对应期中分析的4种结果：依据安全性终止试验、依据无效性终止试验、依据有效性终止试验和继续试验。当期中分析的目的是监测药物的安全性时，若在实施过程中安全性出现问题，则可以做出终止试验的结论；当期中分析的目的是确认药物的有效性时，若试验药物有效并达到预期设定的标准，则可以做出依据有效性终止试验的结论，若试验药物无效且低于预期设定的标准，则可以做出依据无效性终止试验的结论；当方案设计时信息不足导致对试验药物的有效性和安全性估计不准确，期中分析可以进行样本量重新估计，重新估算之后决定下一步工作。方案中若有期中分析，则须说明期中分析的时点（包括日历时点或信息时点）、次数、Ⅰ类错误调整方法、具体的假设检验或参数估计方法、提前终止临床研究的标准。

独立数据监查委员会（Independent Data Monitoring Committee, IDMC），或称数据和安全监查委员会（Data and Safety Monitoring Board, DSMB）由申办者组织相关领域的杰出专家组成，成员独立于研究者和申办者，通常包括所研究疾病的临床专家、生物统计学家、临床研究方法学专家、生物伦理学家等，主要负责对期中分析的安全性数据以及关键疗效指标进行解读、判断，并向申办者建议是否继续、修改或停止试验。大多数的临床研究不要求或无需使用IDMC，而以延长生命或减少重大健康结局风险为目的的大规模多中心临床研究则使用IDMC。

9 缺失数据

缺失数据是指按照研究方案要求收集但未能观测到的数据。缺失机制主要分为3类：完全随机缺失、随机缺失和非随机缺失。缺失数据的填补常常针对方案中的主要终点，并且填补方法应在方案中进行说明。但须要注意的是，研究者无法通过已有数据对缺失机制进行判断，且不同的填补方法得到的结果也不一样，因此处理缺失数据本身可能是潜在的一种偏倚。研究者可以在不同的假设下进行数据填补，然后进行敏感性分析，从而比较所得结论是否一致。常见的数据处理方法有以下几种：①忽视缺失值。在完全随机缺失机制下可以忽视缺失数据，但忽视缺失值会犯前文中所提到的问题，因此不建议作为确证性研究的主要疗效指标分析填补方法。可以用于探索性研究或者确证性研究的次要疗效指标分析。②简单填补。是将缺失数据按某个填补方法结转一次，常见的填补方法包括末次访视结转、基线访视结转、最差病例填补、最好病例填补、均数填补、回归填补等。③多重填补。主要包括以下步骤：首先为每个缺失值产生一套可能的填补值，这些值反映了无响应模型的不确定性。每一个值都被用来填补数据集中的缺失值，产生若干个完整数据集。其次，每一个填补数据集都用针对完整数据集的统计方法进行统计分析。最后，对来自于各个填补数据集的结果进行综合，产生最终的统计推断，最终得到对目标变量的估计。常见的多重填补方法包括联合模型法、全条件定义法、马尔科夫链蒙特卡罗法、逐步回归多变量填补法等。

10 统计分析方法

统计分析方法应根据研究目的、试验方案和观察指标进行适当选择。统计分析应说明统计方法、假设检验、单侧检验还是双侧检验以及检验水准进行说明（传统差异性检验通常为双侧检验，α通常不大于0.05），同时选择国内外公认的统计软件，包括SPSS、SAS、R、MedCalc、GraphPad等。关于统计分析涉及到的统计学描述和统计学检验可以参考《上海医药》2022年第43卷7期《随机对照临床试验设计要点和规范》[2]中的详细介绍。

11 亚组分析

亚组分析是对具有某种基线特征的亚组进行统计学分析，这些基线变量通常包括人口学特征（如年龄、性别等）、实验室检查指标、基因组相关标志物、疾病的严重程度或分型、临床状况（如合并症、伴随用药）、地区（如国家、试验中心）和环境因素等。亚组分析可以分为探索性亚组分析、支持性亚组分析和确证性亚组分析。①探索性亚组分析，主要用于早期临床研究或在确证性临床研究的事后分析中，因此可以事先确定，也可以事后定义。其目的是发现药物在不同亚组间疗效和/或安全性方面的差异，进而提出研究假设，以待在后续的临床研究中进一步探索和验证。②支持性亚组分析，在以考察试验药物在全人群中的疗效为目的的确证性临床研究中，当全人群的主要终点同时具有统计学意义和临床意义时，通常还应进行支持性亚组分析，目的是进一步考察试验药物在各个亚组中疗效的一致性，通常须事先定义。如果试验药物在各亚组间的疗效一致，可为药物适用于全人群提供进一步支持性证据；如果各亚组间的疗效不一致，特别是方向相反时，则亚组分析结果的解释可能会出现困难，须对其做进一步的分析和研究。当全人群的主要终点没有统计学意义或临床意义时，亚组分析结果只能为进一步研究提供线索。③确证性亚组分析，在确证性临床研究中，按照临床研究方案和/或统计分析计划中预先规定的亚组和多重性调整方法，考察试验药物在目标亚组和/或全人群中的疗效，其结果应同时具有临床意义和统计学意义，以支持药物说明书的撰写，但须事先定义。确证性临床研究也可以对目标亚组进行确证性亚组分析，而对其它（非目标）亚组进行支持性或探索性亚组分析，以支持试验药物在目标亚组中的有效性和安全性的结论，并为非目标亚组的进一步研究提供线索。

当亚组分析过多，可以使用森林图将所有亚组分析结果使用图形进行清晰的表达。如图1所示，在一项“心血管疾病与痴呆亚型之间的性别差异：对464 616名英国生物银行参与者的前瞻性分析”[3]的临床研究中，研究者采用森林图展示了不同痴呆亚型中的性别、年龄因素对痴呆与心血管疾病之间的关系，使结果的呈现更加直观。

图1 亚组分析森林图示意