刘 丹,周吉银
(陆军军医大学第二附属医院国家药物临床试验机构,重庆 400037,fairyfair@126.com)
样本量估算是指为满足统计的准确性和可靠性(I类错误的控制和检验效能的保证)计算出所需的样本量[1]。在设计临床科研项目时,研究者最关注也最困难的就是样本量的估算。样本量估算是临床研究设计中一个极为重要的环节,直接关系到研究结论的可靠性、可重复性及研究效率的高低,对整个研究的科学性、伦理性和研究投入都带来重大影响。
人用药品注册技术要求国际协调会(International Council for Harmonisation of Technical Requirements for Pharmaceuticals for Human Use,ICH)E9(1998)指出,临床研究的样本量必须足够大,以可靠地回答研究假设所提出的相关问题;同时又不至于太大而造成浪费[1]。理论上讲,样本量越小,所需经费越少,实际操作也越简单;但样本量太小,研究结果的可重复性和代表性较差,检验效能低下,导致不能发现原本存在的真实差异,容易得出假阴性或假阳性的结论。样本量越大,则所需经费和资源越多,受试者入组时间越长,研究实施的难度就越大。样本量过大虽说可压缩可信区间,但不利于研究的质量控制。因此,样本量的大小和研究成本之间存在不可调和的矛盾。样本量大小的确定至关重要,既保证了有足够的研究样本验证研究目的,也避免了使过多的受试者在非必要的情况下暴露于研究风险,从而使研究设计更符合科学性和伦理学原则[2]。现代循证医学和临床科学研究基于有代表性的病例抽样和合适的样本量才能得以有效实施,由样本信息推断总体特征。所以,合理正确地估算样本量,既可减少人力、物力、财力和时间的浪费,也可减少对受试者造成的潜在伤害,确保研究结果真实可靠[3]。但无论通过哪种方法估算样本量,所得到的计算结果都只是一个近似值。
在临床研究中,样本量的估算要根据研究目的、设计方法、假设检验类型、主要评价指标等选择合理的统计学公式进行计算。除此之外,还应考虑结局指标是属于计量指标还是计数指标,因为这也会影响样本量的估算[4]。统计方法的适用条件能否满足,很多情况下和样本量大小相关。小样本时,需要仔细考虑数据的分布;大样本时,通常可以采用正态近似的方法。
统计学的样本量估算是基于针对相关变量的前期信息计算完成的,它不是凭空产生,而是以针对分析变量的信息积累为基础完成的。研究者往往可通过预试验研究、文献回顾并结合专业知识对分析变量做出判断和预设[5]。对于确证性研究,由于已具备了充分的临床基础,需要基于前期研究结果完成严谨的样本量估算。对于预试验研究和探索性研究,因缺少临床信息,研究者对分析变量的特征知之不多,则无法通过统计学方法确定样本量,这种情况可以不做样本量估计,但需要说明理由。此类研究通常以小规模研究开始临床效能探索,以避免将受试者过度暴露于研究风险之中[2],也为更大规模的临床研究提供科学依据。
在临床研究方案中,需要对样本量估计进行清晰和完整的阐述,应至少包含以下内容:研究假设、对照类型、比较类型、设计模型、主要指标、统计分析方法、参数来源及依据、样本量估计方法及其出处、所用软件及其版本、样本量调整及其依据、各组以及各中心的样本量分配,若竞争入组需特别说明[1]。需要注意的是,并非每一项对照研究都要对所有拟纳入的受试者进行干预,只要两种方法对主要结局指标造成的差异达到了预先确定的检验水准(通常P<0.05),就可提前结束研究,避免不必要的浪费[6]。
根据统计学方法估计出的样本量是在给定条件下满足临床研究所需的最小样本量。实际研究过程中,由于受试者依从性差、失访等原因导致病例的脱落和剔除,会导致可评价例数的减少。因此,需要在样本量估计基础上适度扩大样本量,以保证最终的有效样本量可以满足最小样本量的要求。从分析角度而言,需保证最终的可评价样本量应大于经样本量估计方法求得的样本量。样本量调整通常会考虑不大于20%的脱落率,具体的脱落率如何确定,将根据不同研究项目而定,确定的依据主要来自专业方面的判断,或着重参考以往研究数据的Meta分析结果[1]。
一方面,临床研究中采用的设计方案种类较多,而每一种方案中样本量估算几乎都有各自的计算方法。同时,样本量估算均要依据一定的计算公式以及满足公式的一定条件,计算起来较为复杂。对于大部分研究者而言,样本量估算是一个难题;另一方面,由于每项科研项目的经费来源不同,在样本量估算方面的投入也不一样。一般国家级、省部级和市级的临床科研项目,会邀请专业的统计学专家参与临床研究的设计,和研究者一起对样本量进行准确合理的估算。由研究者发起的大多数自选临床科研项目,由于没有足够的人力、物力和财力支持,研究者仅凭个人经验和主观感受估算样本量。甚至直接使用参考文献的公式和数据,并非根据公式获得样本量,必将严重影响研究结果的真实可靠性,违背了临床研究的科学性和伦理性。一项调查结果显示[7],目前国内临床研究论文的方法部分存在问题最多的就是样本量估算的随意性。绝大部分论文直接陈述观察组和对照组的病例数,病例确定过程、样本量估算依据普遍缺失,也缺乏文献支撑和预试验探索。《柳叶刀》《美国医学学会杂志》《新英格兰医学杂志》等国际顶级医学期刊,除了个别病例报道未对样本量估算进行描述,其他无论是前瞻性还是回顾性临床研究论文,均有对样本量估算过程的描述。
样本量估算应该在临床研究设计时或预试验结束时就已经完成,并作为研究方案不可或缺的一部分。一些初次接触临床科研项目的研究者统计学基础较差,缺乏统计学相关的背景知识,对样本量估算的实际意义了解不深入,也没有意识到样本量估算的重要性,不理解为什么要进行样本量的估算、依据哪些条件进行样本量的估算、估算时有哪些注意事项、如何选择相应的统计公式及如何进行较为复杂的计算[8]。在临床研究目的明确之后也未邀请统计学专家参与临床研究的设计,因此,在其递交给伦理委员会的临床研究方案设计中常存在样本量来源不明确,内容阐述简单又粗糙,没有详细的样本量估算过程,参考其他文献直接给出一个样本量的具体数值,甚至不考虑研究目的随意制定样本量[9]。不少研究者对样本量估算的认识存在一个误区,认为可直接套用公式计算。但样本量的估算需要有统计学和临床流行病学的基础知识作为前期的铺垫,同时还要考虑诸多实际因素的影响。即先得出一个理论值,再根据实际情况确定最终纳入研究的样本量。
为提高临床科研项目伦理审查质量,可从以下几方面解决样本量不合理的难题:第一,医学院校、临床研究机构等应加强对研究者科研能力的培养,定期开展临床研究方案设计的培训,包括样本量估算的培训,着重介绍流行病学研究的样本量计算、统计学计算公式、应用软件、线上计算工具、公众号等,以便研究者培训后使用。第二,研究者应不断学习、积累和掌握相关统计知识,增强对样本量估算重要性的意识,也应该养成自主学习的习惯,提高独立科研的素质,将统计学知识融入临床研究,从而提高临床研究方案的设计和临床研究质量。第三,医学伦理委员会办公室人员在对伦理资料形式审查时,提醒研究者样本量估算常存在的问题,对于无样本量估算公式而直接给出样本量的,建议研究者向统计学专家咨询,并采用正确公式计算样本量。同时,应将样本量估算作为主审委员工作表的一个审查要素。第四,应培训医学伦理委员会委员审查临床科研项目时,也要审查研究方案中的样本量计算以及知情同意书应涉及的样本量告知内容[10]。第五,建议医学伦理委员会将统计学专家纳为委员或独立顾问,切实审查临床科研项目的样本量估算问题。循证医学的快速发展证明了以科学、严谨、规范的科研设计为基础并正确运用统计学知识才是高质量论文产出的有效保证[5]。
临床科研项目的样本量估算至关重要,但没有固定正确的答案和方法,最关键的不在于如何计算,而是要确定采用哪一种公式来计算,这需要研究者和/或统计学专家通过判断实际情况,结合研究目的、研究类型、假设检验等综合考虑。选择适合研究项目的样本量估算方法,能保证足够的检验效能,减少受试者暴露于潜在的风险和尽可能减少资源浪费。应将样本量估算作为主审委员工作表的一个审查要素,并通过伦理办公室工作人员提醒研究者样本量估算存在的常见问题,同时建议将统计学专家纳为委员或独立顾问,更好地审查临床研究项目涉及的样本量问题。