如何利用临床资料进行回顾性队列研究

2019-01-15 10:25王小钦

协和医学杂志 2019年1期

王小钦

复旦大学循证医学中心，上海 200040 复旦大学附属华山医院血液科，上海 200040

临床病例资料数据庞大、资源丰富，如果临床医生合理利用其进行临床研究，则可节约大量时间和经费，很快得出结论和成果。但已有临床病例资料往往存在基线数据不全、不详细，治疗方案不统一，随访间期不等，失访率高等问题，故需要良好的研究设计和统计分析来克服这些缺陷，才能得出可靠的结论。

临床研究根据有无人为设计的干预因素分为试验性研究和观察性研究，观察性研究又根据有无对照组，分为描述性和分析性研究，队列研究、病例-对照研究和横断面研究是常用的分析性研究设计方法[1]。除了不能进行试验性研究和前瞻性队列研究以外，现有临床资料可进行病例报道和病例分析，也可进行病例-对照研究、回顾性队列研究和横断面研究，故可设计的研究类型非常多。例如<10例的罕见病可进行病例报道，≥10例可进行病例分析。病因学研究多采用病例-对照方法进行设计，疗效评价、预后研究和病因学研究可采用回顾性队列研究设计，诊断试验评价可采用横断面研究方法。由于回顾性队列研究应用范围最广，故本文重点介绍如何利用临床病例资料进行回顾性队列研究的设计和统计分析。

1 设计阶段需注意的几个问题

1.1 提出PICO问题

回顾性队列研究的基本步骤包括：(1)明确研究目的，确立结局指标和研究因素，提出PICO(P：研究对象，I：干预或暴露因素，C：对照组，O：结局指标)问题；(2)确定研究对象的纳入和排除标准；(3)计算样本量；(4)收集病例的基线资料；(5)随访病例结局；(6)进行统计分析，校正各种混杂因素；(7)总结、撰写论文。

写出PICO问题非常重要，其可帮助研究者理清思路和明确研究目的。例如，研究A基因突变是否是急性髓系白血病复发的高危因素，P(研究对象)是某种类型的急性髓系白血病，I(暴露因素)是有A基因突变，C(对照组)是无A基因突变，O(结局指标)是白血病复发，在统计分析阶段需要校正的因素有年龄、白细胞计数、原始细胞计数、染色体核型、化疗方案等影响结局的因素。

1.2 基线数据缺失问题

针对基线资料不全的缺陷，在设计课题阶段可采用限制方法，即设立纳入和排除标准，把关键资料缺失的病例排除。为了样本有代表性，一般设立一个病例纳入的年限，如纳入2015年1月1日至2018年12月31日符合纳入条件的所有病例(连续样本)，且排除标准不能太严格。如果排除的病例较多，最好进行一个缺失数据模式分析，如为完全随机缺失或随机缺失，删去缺失病例对结果的影响较小。也可比较纳入对象和剔除对象的基线临床特征，如无临床特征显著差异，则说明纳入病例的代表性较好，基本可以代表总体病例。

1.3 计算样本量

回顾性分析中只要有对照组，需要进行统计学分析、计算P值的研究都需要计算样本量，因为样本量太小，有可能得到假阴性的结果。样本量的计算取决于主要结局指标[2]，例如研究某一疾病的缓解率、无进展生存率、总生存率的样本量是完全不同的，样本量依次递增。故研究中设计主要结局指标和次要结局指标很重要。

1.4 配对方法

队列研究中，可以把无暴露因素(或治疗方法)的所有病例作为对照组，也可在设计阶段采用配对方法进行对照组病例选择，例如进行年龄、重要的预后因素(疾病分期、亚型、并发症等)配对，根据不同疾病而定，使两组可比性较好。如果应用手工配对方法，一般配对的因素为2～4个，否则很难配到合适的对照组。如果应用一些统计方法进行配对，如下面案例应用的迭代扩展半径法(iterative expanding radius matching)，可以适当增加配对因素。配对的比例一般为1∶1至1∶4，配对比例达到1∶4以后，再增加配对例数，统计效能增加不多。

案例分析：发表在NEnglJMed的一项多中心、回顾性队列研究题为“应用人类白细胞抗原(human leukocyte antigen，HLA)不相合活体供体进行肾移植有生存获益”[3]，该研究目的是探讨与单纯等待患者或等待后接受死者供体肾移植患者相比，HLA不相合的活体供体肾移植是否有生存获益。数据来源于美国移植登记数据库，其中有1025例HLA不相合的活体肾移植病例，对照组采用1∶5配对，配对因素为年龄、性别、种族、既往进行肾移植的次数、HLA抗体水平、有无糖尿病、肾脏替代治疗时间7个因素。配对方法采用迭代扩展半径法。从单纯等待未进行肾移植的患者中选择5125例作为对照组1，从等待后进行了HLA相合死亡供体肾移植中选择5125例作为对照组2(表1)。然后进行统计分析，分析总生存期差异，发现与等待患者相比，及早应用HLA不相合的活体肾供体可提高总生存期。

2 分析阶段需要注意的几个问题

在统计分析阶段可采用分层分析、多因素分析、倾向性评分等多种方法校正各种混杂因素，以明确研究因素是否为独立危险因素或预后因素。

2.1 分层分析

在分析阶段，对一些最重要的影响结局、预后因素进行分层分析，目的是观察消除该影响因素以后，两组结局比较是否有变化。例如上文中，对HLA抗体阳性的不同水平进行分层分析，发现不同抗体水平下，HLA不相合活体供体肾移植仍有生存获益。

表 1 HLA不相合活体肾移植患者与配对对照组的临床特征比较[3]

HLA：人类白细胞抗原

图 1 去铁治疗和不去铁治疗对骨髓增生异常综合征患者生存期的影响[4]A.红细胞输注量≤3 U/月; B.红细胞输注量>3 U/月

案例分析：在一项比较输血依赖的骨髓增生异常综合征应用去铁治疗和不去铁治疗是否生存期不同的研究中[4]，结论是去铁治疗可以延长生存期。因输血量是疾病严重程度的一个标志，疾病越严重每月输血量越多，生存期越短。故对每月输血量(≤3 U红细胞和>3 U红细胞)进行分层分析，发现不同输血量情况下，去铁治疗均可延长生存期(图1)，更证明了结论的可靠性。

2.2 多因素分析

2.2.1 多因素分析方法

因影响结局的混杂因素较多，多因素分析可同时校正多个混杂因素，故其是队列研究中常用的统计方法。常用的多因素分析方法包括多元回归分析、Logistic回归分析、COX回归模型。当结局变量为连续变量时，选择多元回归分析。当结局变量为分类变量，同时又要考虑时间对该结局变量的影响(有时间变量)，可选择COX回归模型。当结局变量为分类变量，不考虑时间变量时，可以选择Logistic回归分析。

案例分析：在一项“老年贫血患者应用促红细胞生成素的治疗反应和心血管结局”的回顾性队列研究中[5]，应用Logistic回归分析应用促红细胞生成素后治疗反应的影响因素，应用COX回归分析应用促红细胞生成素后心血管事件的发生结局。治疗反应统一在治疗2个月后进行评价，故无需考虑时间变量。而应用促红细胞生成素后心血管事件的发生需要考虑时间变量，有的患者使用后很短时间就发生了心血管事件，有的患者很久以后才发生心血管事件。研究结论是：不论是不进行校正的单因素分析[HR=1.21，95% CI: 0.88～1.66,P=0.234]，还是用5个因素(存在其他血细胞减少、血红蛋白水平、年龄、性别、并发症指数)进行校正的多因素分析[HR=0.94，95% CI: 0.67～1.31,P=0.693]，均认为应用促红细胞生成素后并不增加心血管事件的发生风险。该文根据不同结局变量，选择了2种多因素分析方法。

2.2.2 多因素分析变量的选择

选择多因素分析变量时主要考虑临床意义，从文献或临床经验中确定需要进行校正的因素，即可能会影响结局的变量。如果样本量有限，要控制进入多因素分析的变量数量，可先通过单因素分析进行初步筛选，然后再纳入多因素分析。文献[4]的研究中，即采用先进行单因素分析，把单因素分析有统计学意义的变量纳入多因素COX回归分析的方法。而文献[5]则根据临床意义选择5个校正变量，未经单因素分析筛选，直接进行多因素分析。在临床研究中，可根据实际情况选择其中一种方法，或2种方法联用。

2.3 倾向性评分法

倾向性评分法可在分析阶段有效平衡非随机对照研究中的混杂偏倚，使研究结果接近随机对照研究的效果，故有学者称其为事后随机化法。其通过配对、分层、回归等分析方法来校正混杂因素，最常用的是配对法。与普通配对法不同的是，倾向性评分法可同时进行多个变量配对，而普通配对法的配对变量是有限的。

案例分析：为比较费城染色体阳性的急性淋巴细胞白血病(acute lymphoblastic leukemia，ALL)应用Hyper-CVAD +帕纳替尼化疗方案与Hyper-CVAD+达沙替尼化疗方案的疗效，但两组基线临床特征有一定差异，故研究者采用倾向性评分配对的方法进行了此项研究[6]。首先选择配对的8个因素包括年龄、体能状态、白细胞计数、染色体危险度分组、BCR-ABL1的转录类型、是否应用利妥昔单克隆抗体、CD20阳性的原始细胞比例、是否有中枢神经系统累及。然后应用Logistic回归方法计算这8个因素的倾向分值。再应用最近邻居方法对评分进行1∶1配对，原有110例ALL病例，经过倾向性评分配对后，41对(82例)病例配对成功。最后，对这82例病例进行统计分析，发现应用Hyper-CVAD+帕纳替尼化疗方案组无事件生存率和总体生存率均优于达沙替尼组。

倾向性评分法能否很好控制混杂因素取决于纳入哪些协变量计算倾向分值，目前尚无公认的标准，但一般认为应纳入已知的、可能影响结局的所有混杂因素。

2.4 失访率问题

回顾性队列研究存在失访是不可避免的，一般要求失访率控制在10%之内，最多不能超过20%，否则会存在选择性偏倚，影响结果，故应尽量控制失访。如果有较多的病例失访，可进行敏感性分析，把失访病例的结局分别按照最差结局和最好结局计算，如结论无显著差异，认为失访对结论的影响较小，结论比较可靠。否则，结论的可靠性较差。

3 论文撰写规范

队列研究属于观察性研究，撰写论文时要按照观察性研究报告规范(strengthening the reporting of observational studies in epidemiology，STROBE)来进行论文写作。详细的STROBE声明清单见www.strobe-statement.org网站。在进行研究设计之前应先阅读该声明，按照清单上的内容进行设计，才能保证研究质量和论文质量。

4 小结

临床医生可以利用现有病例资料进行各种研究设计，根据不同研究目的选择不同研究方法，回顾性队列研究是常用的设计方法。两组不均衡可比，存在很多混杂因素是回顾性队列研究中比较突出的问题，可应用上述介绍的各种方法来校正混杂因素，同一研究中可同时应用多种方法进行校正。