观察性临床研究主要设计类型的理解与选择

2017-11-02 03:06:20李希

中国循环杂志 2017年10期

李希

临床研究系列讲座

观察性临床研究主要设计类型的理解与选择

李希

尽管随机对照试验是临床研究中公认的最佳方案，但在学术期刊中，超过七成的论著都是来自于观察性临床研究。在流行病学家眼里，观察性临床研究的设计无外乎横断面研究（cross-sectional study）、队列研究（cohort study）和病例对照研究（case control study）的“老三样”。然而对于临床医生来说，不同类型观察性研究的定义、优势和局限性，及其核心环节却比较陌生。很多临床研究者常常等到文章准备投稿，甚至接到修稿意见时，才第一次认真考虑自己的研究应该属于哪种设计类型。此外在临床环境中，患者资源多样、诊疗过程复杂，加之研究新方法层出不穷，使得一些概念从传统方法学角度看来也比较模糊。

针对这些常见的困惑，本文基于人民卫生出版社《流行病学（第六版）》等教材中的经典原理和概念，结合临床研究问题实例，分析观察性临床研究的主要设计类型和它们各自的特点与要求，进而厘正其中一些易混淆的常见概念，帮助临床医生在研究实践中更加深入地理解并合理地选择相应方法。

1 横断面研究与随机抽样

横断面研究，即现况研究，顾名思义就是在不舍昼夜、奔涌前行的历史长河中选择一个特定的时间点，以此截取人群的健康演化或疾病治疗过程中的一个横断面，进而在这个横断面中，把研究中关注的对象当时的相关状况记录下来，进行描述和分析。比如要呈现急性心肌梗死（AMI）的治疗情况，面对“铁打的医院，流水的患者”，可以选择一个季度或一个月开展横断面研究，纳入这段时间因AMI住院的患者，描述他们当中年龄、糖尿病史等因素的分布情况，再灌注治疗、β受体阻滞剂等治疗的使用比例，以及院内死亡等结局的发生风险。同时还可以探索分析β受体阻滞剂的使用与患者年龄等特征之间存在关联。从这个角度来说，横断面研究就像电影的一张剧照——从整个影片的情节发展中截取一个瞬间，通过这一张照片中的信息，去认识影片故事中的关键人物，并猜测他们之间的戏剧冲突与情感纠葛。

从上面的例子可以看出，横断面研究既可以胜任情况描述，也能够进行关联分析。尽管对于关联分析[1]，横断面研究较容易受到混杂因素等的影响，其证据级别要明显低于队列研究和病例对照研究，但它在情况描述研究中可算得上是一枝独秀。需要注意的是，几乎所有的横断面研究都需要通过选择样本来推论总体，而其中只有随机抽样才能确保研究结果的代表性，从而提升研究的价值。

通过一些简单的例子，可以很容易理解随机抽样的类型和过程：（1）简单随机抽样：要从100例患者中随机选择50例作为调查对象，就对每例患者重复1次随机过程（入扔硬币或掷骰子），然后根据预先设定的规则（如硬币的数字一面朝上，或骰子点数大于3）确定入选的对象。（2）系统随机抽样：要从10 000人中随机选择2 000人，又懒得重复扔10 000次硬币，可以先为所有人从1至10 000排好序号，通过一次随机过程选择一个起始数字（如3号），然后根据抽样比例（每5例中选1例）等间距地确定所有被抽中的对象（如3号、8号、13号、18号……）。在这两种最基本的随机抽样方法基础上，还可以结合具体研究的目的和条件考虑更复杂的抽样设计方案，包括分层抽样（如在治疗满意度调查中，对在不同科室住院的患者分别抽样，描述其各自特征分布）、整群抽样（如在人群吸烟调查中，没有社区所有居民的名单，则可以直接随机选择门牌号，然后调查所选中的住户中每一个居民），以及多阶段抽样（如在全国AMI诊疗模式调查中，先从全国随机选择医院，再从选中的医院中抽取一定比例的合格病例）等。

2 队列研究与完整随访

队列研究的名称“cohort”是指古罗马军团中的一个分队，分队的士兵往往年龄相仿又是同乡，有着类似的经历和状态。队列研究就是基于这样的相似性、针对具体研究假设的比较分析。研究设计根据是否暴露于所关注的因素（致病条件或治疗措施）把人群分成“暴露组”和“对照组”，然后通过随访，比较两组发生结局（发病或死亡）的比例的差异。如果暴露组结局的发生比例更高，则有理由认为该因素可以增加结局发生的风险。比如要评价院内使用β受体阻滞剂对AMI的治疗效果，可以根据用药与否把AMI住院患者分成服药的暴露组和未服药的对照组，如果暴露组的30天死亡率明显低于对照组，可以推断β受体阻滞剂很可能可以降低AMI患者的死亡率。可见队列研究“由因及果”的推理逻辑非常直接，也符合从暴露到结局的时间顺序关系，就像小孩子也很容易理解的连环画，故事情节逐步展开，因果关系序贯推进。

正是因为“随访”这一特点，队列研究可以直接掌握不同人群的结局发生率，还可以逐步描述疾病发生发展的自然史——这些不仅具有突出的公共卫生意义，也为回答机制探索问题提供了丰富的信息。此外，队列研究可以进行“一因多果”的评价。例如在根据β受体阻滞剂这样的因素确定暴露组和对照组后，不仅可以评价二者间30天死亡率的差异，同时也可以比较1年死亡率、心功能水平及其他临床结局与用药的关系。

成也萧何败也萧何，队列研究最主要的局限性也源自于其随访的特点。暴露组与对照组之间比较的基础是两组队列分别发生足够的结局事件，因此队列研究通常人群规模较大，而且随访过程很长（结局发生率越低，需要的样本量越大，随访时间也越长）。现代流行病学发展中最经典的队列研究当属20世纪中叶在英国医生当中开展的吸烟与肺癌研究——为了证实“吸烟致癌”的结论，这个队列研究对34 439例男性医生累计随访了40年[2]！

随访是队列研究中获得最终评价依据的核心手段。随着研究规模的扩大与时间的延长，随访率的高低和随访信息的完整与否已成为决定队列研究成败的根本，直接关系到研究的结果是否可靠、结论是否有价值。如果暴露组和对照组的随访率较低，则对于每组对象结局事件发生风险的评价都不具有“代表性”；而如果两组的随访率存在差异，也会直接影响到组间比较评价的“可比性”。

3 病例对照研究与因素匹配

从设计思路和分析方法来看，病例对照研究都恰好与队列研究相反。它采用的是“由果及因”的逻辑，根据所关注的结局，不论是发病还是死亡，首先可以把研究对象分成两组，即发生结局的“病例组”和未发生结局的“对照组”。然后分别调查这两组对象之前有没有暴露于某种因素。如果病例组相比于对照组暴露的比例更高，则有理由怀疑这种因素与所关注的结局有关。比如要探索β受体阻滞剂能否降低AMI患者的30天死亡率，可以把AMI发生后30天内死亡的患者作为病例组，选择AMI发生后30天生存的患者作为对照组，如果病例组住院期间使用β受体阻滞剂的比例低于对照组，可以推断β受体阻滞剂可能有降低死亡率的效果。可见要解决与之前队列研究中同样的问题，但病例对照研究采用了相反的思路和方法。这种“回顾性”的特点让它看起来更像一本侦探小说：翻开第一页，发现受害人死于非命，于是抽丝剥茧地去回顾每一个嫌疑人的作案时间和作案动机等，然后通过分析差异，发现线索。

基于相反的思路与方法（图1），病例对照研究的优势和局限性也与队列研究正好对应。病例对照研究不依赖随访，所以实施速度更快、花费也往往较低——只要完成研究对象的入选和分组，通常一个简单的问卷调查就可以拿到分析所需的所有信息。此外，病例对照研究可以进行“一果多因”的评价。在根据“AMI发生后30天死亡”确定病例组和对照组后，不仅可以比较β受体阻剂的使用，同时也可以比较氯吡格雷、他汀等其他药物的使用，以及糖尿病史、既往介入治疗史等与结局的关系。

临床问题：入院后使用β受体阻滞剂可否降低急性心梗患者的30天死亡率？

但病例对照研究最主要的局限性是在回顾性的数据收集和结果分析过程中，很难区分因素暴露和结局发生的先后关系，所以推论因果关系时要特别小心。其中典型的例子仍然与“吸烟和肺癌”有关： 1947年，英国的Doll和Hill通过一项病例对照研究证实了罹患肺癌的患者中吸烟的比例更高，于是提出吸烟导致肺癌的观点[3]。但结果一发布就招致了很多质疑，其中最主要的是认为“抽烟是一个长期习惯，而肺癌是一种慢性疾病，因此如果发现肺癌患者吸烟的比例更高，既有可能是吸烟导致了肺癌，也有可能患肺癌后机体出现了某种特殊的需要，导致患者更愿意吸烟，或更不容易戒烟”。直到有了上面提到的那个队列研究，才彻底理顺了因果推论的时间关系问题。

除了时间先后的问题之外，病例对照研究相比于队列研究更容易受到混杂因素的影响。如果在30天死亡（病例组）与30天未死亡（对照组）的AMI患者的性别比例不同，则很有可能在两组的比较中发现吸烟、饮酒等因素的分布差异，从而误导对危险因素的分析。因此，在对照组入选时，应尽可能通过因素匹配确保其与病例组在基本人口学特征等方面的均衡可比。因素匹配可以选择个体匹配或群体匹配的方法：个体匹配是针对每一例入选的病例对象，都尽力找到一个与其特征相近的对照对象组成特定的一对；群体匹配只要求两组最终整体上所匹配因素的分布一致，但对每一例对象的入选过程没有严格限定。两种方法都可以有效地控制混杂因素的影响，但在数据分析的过程中需要采用不同的统计方法，本文不展开讨论。

4 前瞻性与回顾性

在上述对队列研究和病例对照研究的介绍中，已多次提到“前瞻性（prospective）”和“回顾性（retrospective）”研究这一对概念。这似乎让临床研究的类型看起来更复杂了，既然队列研究是遵循“先因后果”顺序的分析，那么“回顾性”队列研究是什么意思？为什么有一些横断面研究会自称是“回顾性”的？这其中有一些是基本概念的引申和拓展，也有一些是传统的流行病学教材所未曾涉及的。

从传统流行病学研究方法的角度来说，“前瞻性”或“回顾性”是针对研究数据采集过程而言的，如果所采集的数据产生在研究开始之后（如在随访过程中收集发生的临床结局），称为“前瞻性研究”；反之，如果要采集的数据产生在研究开始之前（如在问卷调查中回忆既往的危险因素暴露情况），则称为“回顾性研究”。由此可见，病例对照研究都是“回顾性”的，而队列研究大多是“前瞻性”的。然而，也有部分队列研究可以根据既往病历等资料确定研究对象过去的暴露情况，并进行分组，而且在研究开始时往往就已经掌握了各组的结局发生情况，不需要继续随访（如获得冠状动脉支架置入患者的1年复查结果后，可以回顾其之前进行桡动脉或股动脉介入之间的预后对比）。它们被称为“历史性队列研究”，或“回顾性队列研究”。这类研究通过完整可靠的病历记录，克服了队列研究所需随访时间长的局限性，特别适合临床诊疗措施的效果评价。

在当前方兴未艾的临床注册登记研究中，一对全新的“前瞻性”和“回顾性”方法的正得到越来越多的关注。与传统概念不同，它们针对的是研究对象的入选过程：如果立足持续的临床工作，筛选并登记在项目开始后出现的合格对象，称为“前瞻性研究”；反之，如果根据既往病历等资料，确定并登记在项目开始前已出现的合格对象，则称为“回顾性研究”（如China PEACE[4]回顾性病例登记从设计类型的角度来说是选择2001、2006、2011年的AMI住院患者，回顾性地分别开展的3个时间段诊疗模式和结果的横断面研究）。

本文的内容可以总结为三点：（1）横断面研究、队列研究和病例对照研究是观察性临床研究的基本设计类型。（2）随机抽样、完整随访和因素匹配分别是确保三类研究设计科学和结果可靠的核心要求。（3）在临床研究的数据采集和对象入选过程都涉及到前瞻性或回顾性的分类，应当综合理解和判断。

[1]李希.代表性与可比性——决定临床研究价值的核心原则. 中国循环杂志, 2017, 32: 934-936.

[2]Doll R,Peto R,Wheatley K,et al. Mortality in relation to smoking: 40 years' observations on male British doctors. BMJ, 1994, 309: 901-911.

[3]Doll R, Hill AB. Smoking and carcinoma of the lung; preliminary report. Br Med J, 1950, 2: 739-748.

[4]Li J, Li X, Wang Q,et al. ST-segment elevation myocardial infarction in China from 2001 to 2011 (the China PEACE-Retrospective acute myocardial infarction study): a retrospective analysis of hospital data.Lancet, 2015, 385: 441-451.

100037 北京市，中国医学科学院北京协和医学院国家心血管病中心阜外医院心血管疾病临床医学研究中心

李希助理研究员博士主要研究方向为大规模多中心临床试验和医疗结果评价研究 Email: xi.li@fwoxford.org

R54

1000-3614(2017）10-1028-03

10.3969/j.issn.1000-3614.2017.10.021

2017-08-17)

(编辑：宁田海)