单臂试验药物医保准入评估的方法学思考

2022-08-30 09:43:20冯依曼丁锦希

中国医疗保险 2022年8期

冯依曼丁锦希,2 李伟,2 方刚

（1中国药科大学国际医药商学院南京 211198；2中国药科大学医药市场准入政策研究中心南京 211198）

1 需求与挑战

1.1 单臂试验药物

单臂试验药物是指某药物上市注册审评的关键临床试验采用单臂试验方案。而单臂试验（single-arm trial, SAT）是指临床试验方案中不设立平行对照组，而采用外部对照（如历史对照），将接受新药治疗的一组患者与该研究以外一组患者的临床结果进行比较的临床研究。

与随机对照试验（randomized controlled trial, RCT）不同，单臂试验并非将受试者随机分为两组，而是将所有受试者纳入一组，且都予以新药治疗。

1.2 医保准入需求

单臂试验药物通常治疗严重疾病、临床急需且疗效显著，往往通过附条件审批方式快速上市。随着更多的单臂试验药物加速上市，其医保准入需求显著增加。全球范围内，针对单臂试验药物医保准入而出具的卫生技术评估报告数量快速上升，2019年（102份）是2011年（8份）的近13倍[1]。

近年来，我国单臂试验药物医保准入需求呈几何指数增长。2017年—2021年，我国医保准入18个单臂试验药物/适应症，绝大多数药物治疗复发难治肿瘤。2021年7月医保目录调整时，近一年内上市的14个单臂试验药物/适应症全都申报医保准入，但成功率仅为64%。预计2022年至少17个单臂试验药物/适应症存在医保准入需求。

1.3 准入评估挑战

单臂试验药物主要面临以下四点准入评估挑战。

一是无参照药物。上市注册临床试验时，单臂试验方案仅设置试验组，未设置对照组。故医保准入评估时的相对疗效评估和成本效果分析较难选择参照药物。

二是无直接比对数据。单臂试验只有试验组患者一组单独数据，缺失与对照药物的疗效直接比对数据，难精准评估其真实临床价值。

三是测量指标为替代终点。单臂试验的临床结果测量指标通常为替代终点而非临床终点，替代终点结果并不一定能诠释患者的长期健康结局。

四是证据不稳定。未采取随机化和盲法、随访时间短、患者样本量小等缺陷导致单臂试验药物的证据质量相对较差，较难获得稳健的评估结果。

本文基于单臂试验药物上述挑战，研究针对性解决方案，探讨如何通过优化评估方法，控制评估结果不确定性，以科学评判单臂试验药物的有效性和经济性，为医保准入决策提供精准参考。

2 无参照药物

2.1 是否选择参照药物

单臂试验药物的临床试验方案未设立对照组，通常上市注册审评时无对照药物。这可能导致理解误区，即医保准入时也难以选择参照药物，应该选择空白对照。

但事实并非如此。笔者比对国家医保局公开的2021年医保药品目录调整形式审查材料和目录调整结果后发现，形式审查材料中选择了明确参照药物的单臂试验药物，其准入成功率明显更高。近一年内上市的14个单臂试验药物/适应症中，9个药物/适应症提交了参照药物，都成功准入（见表1）。而另5个单臂试验药物/适应症未填写参照药物，选择空白对照的，其准入结果却都不理想。可见，是否提交参照药物与准入结果密切相关，应积极申报并提交阳性参照药物。

表1 2021年成功准入的单臂试验药物的参照药物选择情况

那么，为什么单臂试验药物在上市审评试验时无对照药物，而医保准入时，却可以选择阳性参照药物？

其主要原因是：新药上市审评和医保准入之间存在较长的时间差。在单臂试验药物设计确定临床试验方案时，其同适应症、同靶点、同机制药物往往也在临床试验或上市审评过程中，所以只能选择无对照药物。但在其漫长的临床试验和上市审评期间，其同适应症、同机制、同靶点药物已上市且准入医保，所以在医保准入时就可以选择阳性参照药物。

以帕米帕利为例，它是治疗晚期卵巢癌、输卵管癌或原发性腹膜癌的多腺苷二磷酸核糖聚合酶抑制剂（poly ADP-ribose polymerase，PARP抑制剂）。帕米帕利的关键临床试验于2016年12月开启，当时虽然同为PARP抑制剂的奥拉帕利临床研究进程快于帕米帕利，但尚未注册上市。因缺乏临床实践公认的药物可作为阳性对照，且考虑到伦理道德等原因，未采用安慰剂对照，故帕米帕利采取了单臂试验方案。

但帕米帕利在2021年4月上市时，奥拉帕利已于2018年在我国批准上市，并于2019年准入我国医保药品目录。故2021年6月，帕米帕利在医保准入申报书中以奥拉帕利为阳性参照药物，并成功准入医保药品目录。

2.2 如何选择参照药物

2.2.1 代际相近。首先，选择代际相近的药物为参照药物，尤其是同机制药物。按同疾病领域内取得的历次突破性进展类型进行排序，形成代际顺序。

如肿瘤领域药物主要分为三个代际[2]，第一代为细胞毒性的化疗药物，如达卡巴嗪；第二代为靶向治疗的小分子化药和生物制品，如曲妥珠单抗；第三代为免疫疗法药物，如嵌合抗原受体T细胞(chimeric antigen receptor T-cell, CAR-T)。随着创新能力提高，新代际药物的有效性和安全性逐渐提升，代际相近的药物可比性更高。

加拿大药品与卫生技术局(Canadian Agency for Drugs and Technologies for Health,CADTH)准入审评CAR-T产品阿基仑赛（Yescarta）时，以同为3代免疫疗法的另一款CAR-T产品Kymriah为参照药物[3]。

2.2.2 序贯相近。其次，选择临床治疗序贯相近的药物为参照方案，使得二者治疗人群特征、治疗难度和愈后效果接近，可比性更强。

根据公开的形式审查材料，2021年我国医保准入审评维迪西妥单抗时，目录内无该治疗领域同代际、同机制药物，所以企业选择了序贯相同的阿帕替尼作为参照药物。根据《中华医学会胃癌临床诊疗指南(2021版)》，维迪西妥单抗和阿帕替尼均被推荐用于三线的晚期转移性胃癌[4]。符合序贯相近原则，故被国家医保局批准，并成功准入医保。

2.2.3 治疗方案。若上述思路均无合适参照药物，可考虑选择治疗方案为参照。从2021年起，我国医保药品目录调整工作方案允许临床“治疗方案”为谈判新药的参照方案，这为first in class药物选择参照治疗方案奠定了制度基础[5]。

以依库珠单抗为例，作为罕见病非典型溶血性尿毒综合征（atypical hemolytic uremic syndrome,aHUS）在全球范围内的唯一治疗药物，其在英国[6]和法国[7]的准入审评中均采用最佳支持疗法作为参照方案，即血浆置换治疗。根据我国《罕见病诊疗指南（2019年版）》，在依库珠单抗应用于治疗aHUS之前，血浆置换是aHUS的一线治疗方案，因此，可以考虑以血浆置换治疗方案作为依库珠单抗的参照方案。

3 无直接比对数据

3.1 疗效比较方法

医保准入评估主要是通过新药（谈判药）与参照药之间的相对疗效比较，以确定新药为参保人带来临床获益的增量值[8]。如图1所示，主要比较方法有以下三种：阳性对照头对头试验的直接比较、传统RCT以安慰剂为锚点的间接比较和单臂试验无锚点的间接比较。以参照药为阳性对照组的头对头临床试验（图1.A）是最理想的疗效比较数据来源，两组患者在同一个试验背景下，患者同质、评估方法相同，得到的疗效比较结果受其他因素干扰最小，最可靠。但是由于成本更高、失败风险较大等原因，药品临床试验设计中阳性对照的头对头试验数量较少，更多的是谈判药与安慰剂对比。

因此，当谈判药与参照药的RCT都是与安慰剂对比时，两者之间的比较常以安慰剂为锚点或参照系，使用统计学方法间接比较相对疗效（图1.B）。该方法虽然不如头对头临床试验比较结果的精准度高，却是目前常见的、通用的方法。

然而，单臂试验缺乏安慰剂组作为锚点（图1.C），此类谈判药与参照药之间的疗效比较困难重重。

3.2 如何科学比对疗效

针对单臂试验药物的相对疗效评估，最方便、快捷的方法是简单比较（nave comparison），即将谈判药组数据与参照药组两个不同临床试验数据直接比对。但简单比较法的局限性明显，两个试验间样本人群异质性，很可能导致比较结果存在较大偏差[9]。

目前，国际上多采用匹配调整间接比较法（matching-adjusted indirect comparison, MAIC）评估单臂试验药物与参照药的相对疗效，即将两个试验的受试患者的基线条件调至一致后，再比较疗效。

如图2所示，匹配调整间接比较的前提是，能够获取谈判药单臂试验A的患者个体数据和参照药临床试验B的公开汇总数据。可分为四个步骤[10]：一是通过系统文献综述，选择与单臂试验A纳排标准和基线特征相近的参照药临床试验B；二是选取两个临床研究方案共有的患者基线特征（年龄、性别、人种、疾病严重程度等）和临床结局指标，用于跨试验匹配和比较；三是调整匹配两组人群的基线特征，加权疗效数据。将满足试验A纳排标准，但不满足试验B纳排标准的患者数据删去，再将试验A患者按照其参加试验B的概率重新加权；四是比较匹配调整后的疗效结果。

图2 匹配调整间接比较的患者基线特征示意图

英国单臂试验药物医保准入评估中，匹配调整间接比较方法应用较为成熟。经笔者统计，NICE截至2022年3月31日发布的所有46份单臂试验药物的评估报告中，采用匹配调整间接比较的报告数量最多，为28份（61%）。NICE还专门发布了相关技术指导文件《Populationadjusted indirect comparisons(MAIC and STC)》[11]。其成功经验值得我们借鉴。

需要注意是，匹配调整间接比较方法中最关键的步骤是第三步，即如何调整单臂试验A患者基线特征。以治疗基因型3丙肝的药物评估为例[12]，达拉他韦+索非布韦是待评估联合治疗方案，索非布韦+利巴韦林是参照方案。提取两组方案人群的基线特征之后，采取倾向性评分加权的统计学方法进行调整，使评估方案的基线特征与参照方案相同，如将评估方案中白人患者比例从90.3%调至96.4%（见图3）。

图3 匹配调整间接比较的案例

人群基线均衡后，疗效可比性提高。评估方案的治疗终点后12个月随访时，HCV-RNA阴性（SVR12）比例从89.6%降至88.8%，对比参照方案的疗效优势缩小[12]。

4 替代终点

4.1 测量指标和时间

药物临床试验通常采用一定疗效终点指标来衡量患者的临床获益，包括临床终点和替代终点这两类指标。在抗肿瘤药物的临床试验中，多以总生存期（overall survival，OS）这一临床终点为主要指标，OS定义明确且客观稳健，能直接反映患者生存获益。

但是，单臂试验药物随访时间较短，多采用替代终点间接反映临床获益，例如客观缓解率（objective response rate， ORR）。虽然使用替代终点能够降低试验成本、加快药品上市，但也存在疗效不确定性大、与临床终点的可替代性尚不明确等问题。

与RCT相比，单臂试验的随访期较短。有学者统计了2010年至2020年发表在主流期刊的肿瘤领域RCT，其平均中位随访时间为25个月[13]。而单臂试验随访期多为14个月左右(根据2021年我国医保准入成功的单臂试验药物的申请上市技术审评报告和说明书总结)，显著低于RCT。在准入审评时，以短期试验数据推算长期临床获益的不确定性较大，患者实际获益情况仍不明确。

此外，相关研究结果显示，替代终点与临床终点的相关性较弱。有学者系统综述了肿瘤治疗领域内所有报告了OS与替代终点关系的研究文献，仅有11篇（12%）报告了高度相关性，9篇（10%）报告了中度相关性，34篇（38%）报告了低度相关性[14]。替代终点与临床终点的弱相关性导致药物真实疗效的不确定性，加大了医保准入的决策风险。

4.2 如何评估长期临床获益

4.2.1 增加随访时间，补充终点指标。我国《药品附条件批准上市技术指导原则（试行）》规定，单臂试验药物在使用替代终点获得附条件批准上市后，应在规定期限内设计并完成以临床终点为主要终点指标的确证性临床试验。一般是随机对照确证性研究，进一步提供有效性数据，证实该治疗给患者带来的生存获益，以获得完全批准。

原单臂试验的继续随访和开展确证性RCT，均可获得丰富的临床试验数据。新药医保准入时，往往已经得到比上市审批时观测时间更长久、测量结果更成熟的试验数据，可以供医保准入决策参考。

以治疗复发或难治性B细胞急性淋巴细胞白血病的CAR-T药物Kymriah为例，其基于24个月随访时间获得的临床数据批准上市，而英国NICE基于36个月随访时间获得的同一临床试验的扩展数据，对Kymriah进行综合审评并纳入报销范围[3]。

我国国家医保局应加强与国家药监局的衔接联动，将完成确证性临床试验转为完全批准作为单臂试验药物医保准入的申报前提，等待临床终点数据充分成熟后再准入医保。或者，针对临床急需的单臂试验药物，亦可要求企业准入申报时提供最新的临床试验随访数据和疗效结果，以及真实世界研究等所有相关临床数据，以控制医保准入评估的不确定性。

4.2.2 选取合适模型，拟合生存曲线。对于临床需求迫切，医保准入周期短的单臂试验药物进行准入评价时，就需要选取合适外推模型。根据短期临床试验汇报的生存曲线，构建合理的分布函数对生存曲线进行外推，以模拟患者长期的生存情况。

采用不同分布函数模拟的长期生存结果可能具有显著差异，对于临床疗效本就不确定的单臂试验药物，外推模型的选取更加关键。

英国NICE审评治疗黑色素瘤的伊匹单抗时，根据单臂试验CA184-024的5年随访数据发现，采用分段模型拟合的生存结果与实际临床研究结果吻合度较高。而混合治愈模型、标准参数模型、样条曲线模型的拟合效果较差，低估了5年生存率（见表2）[15]。

表2 伊匹单抗+达卡巴嗪实际研究与外推模型的长期生存数据对比

因此，需要综合考虑疾病临床特征、患者人群情况、药物特性等因素，采用适宜的外推模型拟合生存曲线，尽量准确测定长期生存率等关键准入评估数据。

以CAR-T产品为例，推荐使用混合治愈模型。其药物特征是能使部分患者实现长期缓解[16]，治疗后终点事件发生概率低，表现为“L”形的Kaplan-Meier(K-M)生存曲线（见图4）。混合治愈模型将研究人群分为治愈患者和未治愈患者，更贴合CAR-T临床实际情况，为成本效果分析提供了更准确的长期疗效数据[17]。

图4 不同模型拟合外推CAR-T产品生存曲线示例

5 证据不稳定

5.1 成本效果增量比不确定性大

各国卫生技术评估机构普遍推荐RCT作为医保准入评估的主要审评证据。而单臂试验位于循证医学证据金字塔的下方，其疗效结果存疑、证据质量较低[18]。

单臂试验有效性证据质量较低，主要原因有三点：一是未设立对照组，较难将治疗效果与安慰剂效果、疾病自然史结果区分开来[19]；二是单臂试验不涉及随机与盲法、试验组与外部对照的人群基线存在差异，较难排除混杂因素对结果的影响[20]；三是使用替代临床终点间接反映临床获益[21]，且随访时间较短、入组人数较少，存在试验结果误导风险。

体现药物有效性的疗效参数是药物经济学测算的最重要参数。但是，由于单臂试验证据质量较低，以及在疗效比较中MAIC等方法的不稳定性，导致药物经济学测算中疗效关键参数估算不确定性较大，进而导致增量成本效果比(incremental cost effectiveness ratio，ICER)测算结果的变化范围较大，结果稳健性低。

5.2 如何减少不确定性影响

5.2.1 强化敏感性分析。药物经济学的敏感性分析结果与基础分析结果同样重要，甚至更加重要，单臂试验药物需要更加重视敏感性分析。为避免潜在偏倚，应当尽量将所有参数和假设列入分析备选项，根据参数估计值的95%置信区间、高值与低值、文献情况以及真实世界情况，确立参数的变动范围以及分布[22]，如不良反应发生率的95%置信区间。

5.2.2 调整敏感参数。在敏感性分析中，应关注能显著影响结果甚至翻转成本效果结论的敏感参数，选出这些参数并展开重点分析。有研究显示，导致抗癌药决策不确定性最高的因素包括，生存推断、健康效用值、药品/护理/不良反应成本[23]。单臂试验药物在敏感性分析中应注重上述参数。

重点分析分为两步，先评估这些参数在真实世界的情况，详尽收集临床患者资料，将参数的取值修正为真实世界临床实践的确定值或变化范围；然后根据调整后的参数计算得出新ICER值，同时报告调整前后的参数和对应的ICER值，解释参数变化的原因，以及ICER值变动对决策的意义。

以治疗大B细胞淋巴瘤的CAR-T药物Yescarta为例，成本效果分析中的单因素敏感性分析显示，对ICER影响最大的因素是患者平均年龄。若根据临床试验ZUMA-1数据，患者基线平均年龄为58岁，ICER值为17.03万美元/QALY；若根据真实世界数据，患者年龄调整为67岁，ICER值将增加至20.81万美元/QALY。鉴于此，加拿大CADTH评估时将患者年龄基线调整为67岁，以减少不确定性影响，进行更为准确的评估[24]。

6 小结

随着医药创新投入加速增长、药品监管部门审评机制不断优化，大量单臂试验药物批准上市。如何提高医保准入评估的准确度，在医保基金可持续性与创新药物可负担性之间实现有效平衡，是国家医保目录管理面临的新课题。

本文针对单臂试验药物的准入难点，结合国内外的实践经验，提出了优化思路，以期实现精准评估，真实体现单臂试验药物的临床价值。尽管如此，不确定性较大的问题依然存在。因此，今后仍需探索创新支付，根据准入后真实世界中的疗效和患者人群予以不同基金支付金额。通过“精准评估+创新支付”的综合治理模式，实现医保基金效率最大化，满足广大患者对医疗新技术不断增长的需求。