中国临床试验生物统计学组(CCTS) 李 卫 赵耐青(执笔)
·CCTS共识·
单组目标值临床试验的统计学考虑
中国临床试验生物统计学组(CCTS) 李 卫 赵耐青(执笔)
随机对照临床试验(randomized controlled trial,RCT)是临床研究的金标准,药物/医疗器械临床研究中,尤其是提供关键证据的临床研究中一般均采用RCT。在极少数的医疗器械临床试验中,如采用随机对照试验,会存在伦理学风险,致使临床操作不可行。在此情况下,单组目标值(single-arm objective performance criteria ,OPC)临床试验不失为一种替代策略,为产品注册提供关键证据。探索性研究也可采用单组目标值法。本文将对单组目标值法的定义、适用范围、目标值的确定以及评价方法等进行说明。
单组目标值临床试验是指在事先指定主要评价指标的一个有临床意义目标值的前提下,通过无同期对照的单组临床试验考察该主要评价指标的结果是否在指定的目标值范围内,以此来评价被试产品有效性/安全性的一类方法。
目标值是指专业领域内公认的某医疗器械的有效性/安全性/性能评价指标所应达到的标准。
单组目标值临床试验设计的关键是事先确定目标值,虽然没有同期平行对照,但设计时必须考虑适应证、受试人群、主要疗效评价指标及评价时间点,以保证当前试验所获得的结果与外部对照具有可比性,从而保证单组目标值法研究结果的科学性。
目标值的确定有以下三种方式。
1.临床试验监管部门指南
临床试验监管部门(例如:国家食品药品监督管理总局医疗器械技术审评中心)会针对某些特定产品制订涉及该产品临床试验的技术指导原则,如果指导原则中明确写明,该类产品可采用单组目标值对照的方式进行临床试验,且指南中对有效性和/或安全性和/或性能所对应的主要评价指标给出了明确的目标值。在此种情况下,可将指南推荐的目标值作为该产品临床试验主要评价指标的目标值。如2002年7月美国FDA发布的有关射频消融导管扩大室上速适应证的临床试验指导原则[1],提出了射频消融导管扩大室上速适应证的目标值:即刻成功率≥85%、远期成功率≥80%及主要并发症发生率≤7%,只有当上述三项指标同时达到统计学要求时,才认为被试射频消融导管达到要求。
2.行业标准或专家共识
如果监管部门没有相应产品的指导原则,可参考该产品所属专业领域公认的行业标准或公开发表的专家共识,从中获得该医疗器械主要评价指标所应达到的疗效和/或安全性和/或性能水平,并以此水平作为目标值。可参考的行业标准包括但不限于ISO标准、国标、部标或行标等。如2014年美国心胸外科协会制定的外科生物瓣评价标准[2]:主动脉瓣血栓栓塞发生率≤1.5%、二尖瓣血栓栓塞发生率≤1.3%、主动脉瓣瓣膜血栓发生率≤0.04%、二尖瓣瓣膜血栓发生率≤0.03%、及所有出血发生率≤1.4%等,只有当上述所有指标全部达到统计学要求时,方可认为被试瓣膜达到要求。
3.同类产品历史研究结果
当上述两种情况均不适用,可依据目前已上市的同类产品、相同适应证的RCT临床试验系统综述和/或meta分析结果作为目标值的确定依据。研究设计时要考虑到与历史研究的可比性,如研究人群、适应证、纳入和排除标准、疾病严重程度、主要评价指标及评价方法等。
由于疾病的严重程度、分型等因素有可能影响疗效,其构成比对总体疗效的估计是有直接影响的。因此,设计时需参考历史研究,明确规定相应亚组的构成比,以及当实际构成比与设定的构成比不一致时的校正方法。
虽然有上述三种目标值的确定方式,但首选的方式是依据监管部门指南,其次是依据行业标准或专家共识,再次是依据同类产品历史研究结果的综合。无论采用何种方式,设定的目标值应该充分结合产品的特点,目标值应在研究方案设计阶段由申办方、临床研究者和统计学专家共同制定。无论采用何种方法确定目标值,均建议事先与监管部门进行沟通,达成共识后开始临床试验。
单组目标值法的假设检验对应于单侧检验。在不同试验中,根据研究的目的,主要评价指标可分为高优指标(如:有效率)或低优指标(如:不良事件发生率)。下面将针对不同的变量类型,分别按照高优指标或低优指标的情况,给出相应的检验假设、样本量估计以及对应的评价方法。
1.检验假设
设θ1为主要评价指标的总体参数,θ0为主要评价指标的目标值。单组目标值法的假设为:
对于低优指标:H0:θ1≥θ0,H1:θ1<θ0
对于高优指标:H0:θ1≤θ0,H1:θ1>θ0
检验水准为α取0.025。
2.样本量估计
样本量估计是临床试验设计中极为重要的环节,充足的样本量能够保证试验有足够的检验效能发现实际存在的差异。单组目标值法的样本量估计所需的参数包括:主要评价指标的总体参数、目标值、I类错误率α、II类错误率β(1-β为检验效能)。
(1)率的样本量估计
样本量计算需包含如下参数:
π1:被试产品的预期总体发生率;
π0:被试产品的率的目标值;
对应的样本量计算公式为:
(1)
式中,α为检验水准,建议取单侧0.025;1-β为检验效能,一般取值80%或以上;π0为目标值;π1为总体率;Z1-α和Z1-β为标准正态分位数。
公式(1)给出的是率的正态近似的样本量计算公式,当目标值π0或总体参数π1接近100%或0%时,应采用确切概率法计算样本量。
(2)均数的样本量估计
样本量计算需包含如下参数:
μ1:被试产品主要评价指标总体均数;
μ0:被试产品主要评价指标均数的目标值;
σ:主要评价指标的预期标准差。
对应的样本量计算公式为
(2)
其中:α、β、Z1-α、Z1-β的意义同上。
公式(1)及(2)同时适用于高优或低优指标。
研究方案中应明确样本量计算方法及其依据。
多个主要指标试验样本量的确定,应充分考虑I类错误的控制,同时也应注意是否达到预设的总检验效能。
3.统计分析
单组目标值试验的统计学推断。
(1) 假设检验
单组目标值法相应的假设检验为单侧检验。当P≤α时,拒绝H0,认为试验产品达到设计要求。
假设检验方法是设计时确定的,分析时应考察是否满足应用条件。
对率的假设检验,当总体率π接近0%或100%时,应选择确切概率法
(2)置信区间法
试验结果也可以根据置信区间是否包含目标值来评价。主要评价指标为高优指标时,如果被试产品主要评价指标 (1-2α)%双侧置信区间的下限高于目标值,则认为被试产品达到设计要求;主要评价指标为低优指标时,如果被试产品主要评价指标(1-2α)%双侧置信区间的上限低于目标值,则认为被试产品达到设计要求。
对率的假设检验,当总体率π接近0%或100%时建议用Clopper Pearson精确概率法构建置信区间。
对于主要评价指标,应同时给出全分析集(FAS)和符合方案集(PPS)的统计分析结果。
某临床试验欲验证体外循环手术患者使用一次性膜式氧合器进行血气交换的有效性和安全性,试验采用单组目标值法设计,主要评价指标为产品达标率(产品达标需满足:氧合性能、二氧化碳排除能力和变温能力达到CFDA指南中的评价标准要求),基于CFDA指南,该研究中达标率目标值应至少90%,预期达标率为95%。
1.建立检验假设,确定检验水准
H0:π1≤0,H1:π1>0
其中,π1为总体达标率(预期能达到95%),π0为目标值(规定为90%)。检验水准α取0.025。
单组目标值设计实际是采用样本统计量与总体参数差异性检验作统计推断的,虽然单组目标值设计α取双侧0.05.实际上监管部门仅通过估计的总体参数的95%置信区间的上限(低优指标)或下限(高优指标)与预先设定的非劣效界值进行比较,来判定被试产品是否能达到临床要求,因此实际上α也相当于取0.025。由此可见,单组目标值设计中α取0.025(单侧)与α取0.05(双侧)相同。
2.确定试验所需样本量
假设本试验总体达标率为95%,目标值为90%。当单侧检验的检验水准取0.025,检验效能取80%时,根据样本量计算公式(1)得试验至少需要入选239例受试者,考虑研究过程有5%受试者的脱落,本试验预计入选252例受试者。
3.计算一次性膜式氧合器产品达标率的点估计及其双侧95%置信区间:
本研究入组260名受试者,有250名受试者达标,产品达标率点估计及其双侧95%置信区间为96.2%(93.8%,98.5%)。
4.结果解释:
统计分析结果显示,一次性膜式氧合器产品达标率的双侧95%置信区间下限值为93.8%,大于目标值90%,可以认为该一次性膜式氧合器能够达到临床应用的要求。
单组目标值法的主要缺陷是难以从设计上控制选择性偏倚和评价偏倚。由于单组目标值法采用的是历史信息对照(简称历史对照),受时间、空间的限制,历史对照的受试者与本次试验的受试者可能来自不同的总体;除试验因素外,可能影响试验结果的因素众多,如人口学特征、诊断标准、诊断技术、疾病分期或亚型、疾病严重程度、伴随用药和观察条件等,致使试验组和外部对照组可比性差;此外,还可能有一些潜在的、非常重要但未被认知的、或无法测量的预后因子也可能影响试验结果。另一方面,由于缺乏同期平行对照,难以对不良事件与产品的相关性、以及不良事件发生率进行科学的评价。因此单组目标值法一般仅适用于安全性良好、不良事件发生率很低的产品/适应证。鉴于单组目标值法的固有缺陷,其应用范围是极其局限的。
同样,仍是由于没有同期对照组的原因,单组目标值法原则上仅适用于非自限性疾病/适应证,至少在临床试验的疗效评价阶段自愈、症状缓解或部分缓解的可能性较小。对于有自愈倾向的病症,如不得不采用单组目标值时,需有充分的证据,能准确估计在临床试验的疗效评价阶段受试者自愈、症状缓解或部分缓解的发生率,应通过对产品目标值的合理设置,确保在排除自行痊愈、缓解或部分缓解的影响以后,其产品的有效性仍在临床可以接受的范围内。
正是由于上述局限性,选择单组目标值法进行医疗器械临床试验时应极为审慎。通常,仅在某些探索性的试验中,考虑采用单组目标值试验设计。一般来说,对于用于支持产品上市的关键性临床试验,仅在以下三种情况时,才有可能考虑采用单组目标值法对被试产品开展关键性临床试验[3]:(1)与现有治疗方法相差过于悬殊;(2)被试器械为换代产品(其前代已上市多年,为技术成熟产品),且本质上没有发生太多的改变,仅对外形设计等进行少许改进;(3)医疗器械临床试验审评审批等相关机构已制订针对此类产品有效性和安全性指标的评价标准。
总之,为了客观评价产品的安全性和有效性、规避产品研发及评价风险,建议医疗器械临床试验申办方在临床试验方案设计阶段与临床医学专家、生物统计学家和法规监管部门进行充分的沟通和协商,达成共识后方能进行单组目标值临床试验。
1.质量控制
高水平的试验质控是单组目标值试验结果真实可靠的必要保障。由于目标值试验的受试者选择偏倚、测量偏倚、评价偏倚等的潜在风险较大,因此,试验过程中应采取合理的措施尽可能弥补试验设计本身的缺陷。(1)尽可能的采用相对客观,可重复性强的“临床终点”作为主要终点指标,如死亡、操作失败等;不建议选择容易受主观因素影响、可重复性差的指标作为主要评价指标,也不建议用与临床客观终点指标相关性不高的“替代终点”作为主要评价指标。(2)尽可能的提高随访质量,设置合理的随访频度,尽最大可能控制受试者脱落。(3)为了保证数据的完整性,鼓励采用中央注册登记系统记录所有筛选受试者的全部信息,以避免事后人为筛选受试者。
2.主要评价指标缺失值的处理
与随机对照临床试验一样,单组目标值试验中应尽可能避免数据缺失。特别是主要评价指标的缺失。当主要评价指标缺失时,应采用敏感性分析,如:最差值法(worst case scenario),临界点分析(tipping point)等方法,以说明结果的稳健性。缺失值的处理方法应事先在研究方案和/或统计分析计划书中予以明确。
1.乐观估计总体疗效π1值导致的风险?
乐观估计总体疗效,会低估研究所需要的样本量,将导致检验效能不足,增加临床试验失败的风险。建议在尽可能接近被试产品真实水平的前提下,对被试产品的总体成功率作保守的估计,以避免由于低检验效能致使试验失败。即使是被试产品成功率非常高、几乎不可能失败时,在进行研究设计时,通常也不建议按照100%成功率进行样本量估计。
2.单组目标值临床试验是否没有对照?
事实上,单组目标值临床试验采用的是历史信息对照或理论对照。目标值法不同于传统的自身前后对照,后者仅评价主要评价指标的水平在治疗前后是否有变化。而单组目标值法,则要求主要评价指标不但有改变,而且要求改变的程度必须达到临床的最低要求或同类产品具有的疗效水平(即:目标值)。
3.单组目标值试验的样本量是否相对较小?不一定。单组目标值试验的样本量取决于相应参数的设定。当被试产品的预期疗效与目标值相近时,所需样本量是很大的。
4.试验终点指标的点估计超过目标值时,是否就可以认为达到设计要求?
不可以。应采用假设检验或置信区间对试验结果做出判断,仅点估计达到目标值还不足以说明产品达到设计要求.
[1]MRI Guidance of Focused Ultrasound Therapy of Uterine Fibroids:Early Results.AJR,2004,183:1713-1719.
[2]Ying Xing Wu,et al.Clinical Evaluation of New Heart Valve Prostheses:Update of Objective Performance Criteria.Ann Thorac Surg 2014;98:1865-74.
[3]US Food and Drug Administration.Design Considerations for Pivotal Clinical Investigations for Medical Devices:Guidance for Industry,Clinical Investigators,Institutional Review Boards and Food and Drug Administration Staff.Issued on November 7,2013.http://www.fda.gov/medicaldevices/deviceregulationandguidance/guidancedocuments/ucm373750.htm.Accessed April 27,2016.
[4]U.S Food and Drug Administration.Guidance Documents (Medical Devices and Radiation-Emitting Products) > Guidance for Industry and FDA Staff:Clinical Study Designs for Catheter Ablation Devices for Treatment of Arial Flutter.[6/4/2013]http://www.fda.gov/MedicalDevices/DeviceRegulationandGuidance/GuidanceDocuments/ucm070919.htm.
[5]U.S Food and Drug Administration.Guidance Documents (Medical Devices and Radiation-Emitting Products) > The Least Burdensome Provisions of the FDA Modernization Act of 1997:Concept and Principles; Final Guidance for FDA and Industry.[6/4/2013].http://www.fda.gov/medicaldevices/deviceregulationandguidance/guidancedocuments/ucm085994.htm
[6]U.S.Food And Drug Administration.Guidance Documents (Medical Devices and Radiation-Emitting Products) Cardiac Ablation Catheters Generic Arrhythmia Indications for Use.[6/4/2013].http://www.fda.gov/MedicalDevices/DeviceRegulationandGuidance/GuidanceDocuments/ucm072860.htm.
[7]唐欣然,黄耀华,王杨,等.单组目标值试验样本量计算方法的比较研究.中华疾病控制杂志,2013,17(11):993-996.
(责任编辑:郭海强)
中国临床试验生物统计学组成员(按姓名拼音排序)
陈峰、陈刚、陈平雁、陈启光、郭翔、贺佳、黄钦、金丕焕、李康、李宁、李卫、李晓松、凌莉、刘玉秀、苏炳华、孙高、王彤、王武保、魏朝晖、夏结来、姚晨、易东、尹平、于浩、张罗漫、赵耐青