刘文慧 薛付忠 穆玉兰
病例对照研究(case-control study)是流行病学方法中最基本、最重要的研究类型之一[1],可用于发病危险因素的研究,也可用于临床回顾性治疗与探索预后因素的研究等[2]。其主要研究类型主要分为病例对照不匹配和病例对照匹配[3-5],前者只需对照数目等于或多于病例人数,而后者在目前的软件实现比较复杂,尤其是匹配因素较多,对照匹配比例较高(如1:2以上)时,很多医学工作者无从下手。为此,本文介绍通过Empower Stats软件快速实现病例对照研究的个体匹配。
Empower Stats软件当前最新版本的创建日期为2017年2月15日,可以从官方网站http://r.empowerstats.cn/cn/index.html下载获取。
某女性卵巢衰老问卷调查,内容包括编号(ID)、民族(race)、教育程度(edu)、年龄(age)、职业(occupation)、体质指数(BMI,body mass index)、抽烟史(smoking history)、饮酒史(drinking history)、母亲绝经年龄(mother’s menopause age)、是否卵巢早衰(SOF,premature ovarian failure)(表1)等项目。其中SOF项表示卵巢早衰(1:是,0:否)。现计划对发生卵巢早衰的研究对象采用1:1配比的病例对照研究方法,研究卵巢早衰发生的影响因素。匹配的原则是民族相同、教育程度相同、年龄差别2岁。
表1 某女性卵巢衰老调查问卷结果
步骤:
1.打开软件,点击“开始运行”。
2.“分析项目”——“创建新项目”——“浏览”导入要分析的数据文件。软件支持.Rdata,.xls,.csv,.txt,.sav,.dat,.sas7bdat等多种数据格式,本例采用.csv格式。
3.选择分析结果存放目录、修改“项目名称”,添加“项目描述”(可采用自动生成结果)。
4.“读取数据文件”,软件后台调用相关R程序,生成简单的数据分布情况。
5.“数据操作”——“数据记录”——“病例对照配对”,设置分组变量,配对变量、配对条件与匹配数、研究对象编号。race、edu差异范围缺失表示完全匹配,age差异范围2表示age相差2岁以内可以配对。
6.“查看结果”。
运行后,软件自动弹出结果页面,并在分析结果存放目录生成相应的网页(PROJ1_1_tbl.htm)、日志(PROJ1_1_tbl.log)、R程序(PROJ1_1_tbl.R)及2个匹配结果文件(PROJ1_1_tbl_SOF_match_cc.xls、PROJ1_1_tbl_SOF_match_dd.xls)。
其中自动弹出结果页面与PROJ1_1_tbl.htm一致,列出了分析数据中无法找到配对的病例编号。可以看出有18个病例没有找到对照,这18个病例的编号(ID)为25,26,31,…,196。
结果文件PROJ1_1_tbl_SOF_match_cc.xls横向展示了匹配结果(表2),每行是一个病例。group.id是配对组编号,group.n表示配对组内人数,ID.case、ID.cntl分别表示病例、对照在原始数据文件中的编号。NA表示未找到合适匹配对象。
表2 匹配结果PROJ1_1_tbl_SOF_match_cc.xls
从表2可以看出18个配对组没有对照(group.id=1,2,…,18),其组内人数均为1(group.n=1),在原始数据中的编号为25,26,…,196。而配对组group.id=19 ,group.n=2,ID.case=1,ID.cntl=118表示配对组19的组内有2个研究对象,其中病例在原数据中的编号是1,对照在原数据表中的编号是118。
结果文件PROJ1_1_tbl_SOF_match_dd.xls则是另一种格式(表3)。此表每行是一个研究对象。group.id、group.n与表2中含义相同,分别表示配对组编号及配对组内的人数。ID表示在原始数据表中的编号。匹配成功的病例和对照排在临近的两行,如group.id=19有两行,一行id=1,SOF=1,另一行id=118,SOF=0,表示原始数据中编号是1的病例匹配到了对照组,其编号是118。表格的右侧是原始数据表的其他变量即相应的问卷调查结果,便于进行下一步的数据统计分析。
表3 PROJ1_1_tbl_SOF_match_dd.xls
Empower Stats是一款基于R软件进行流行病学分析的“傻瓜”软件,不必具有编程基础,就能运用R程序进行数据管理、处理和分析。具有编程基础的则可以通过软件生成的R文件进行更加合适、个性化的修改。由于其功能强大而操作简单,该软件已逐步受到医学科研工作者的青睐[6-7]。
本文的重点是利用该软件快速实现病例对照的1:1匹配,相较于公开发表的文献报道中用Excel VBA、C#语言编程方式实现病例对照个体匹配[8-9]的方法而言,更加的简单,尤其是对于没有编程基础的科研工作者。本文中匹配变量为民族、教育程度和年龄,假如读者的研究方法与本研究不同,如匹配的变量不同,只需在设置匹配条件界面“用于配对的变量”中选择自己所需的匹配变量即可。如匹配比例不同(假设为1:2),则只需在相应界面“1:n配对(n=)”处输入数字2即可。
此外,Empower Stats软件还可以实现近年来新兴的倾向得分匹配(PSM,propensity score matching)[10],该方法被广泛应用于临床试验、流行病学病因研究以及大部分观察性试验研究和设计中[11-12],用于降低由于混杂因素导致的选择性偏倚,从而保证组间基线数据的均衡可比。其操作也非常方便,只需在界面勾选“计算倾向性评分再按评分配对”,并设定倾向性评分配对的病例对照相差范围即可。
需要注意的是,Empower Stats软件是一款收费软件,安装成功并注册后可获得一个月的试用期,期间可以使用软件的高级模块(病例对照匹配、广义估计方程多应变量回归、随机(混合)效应模型meta分析等),否则只能使用基本模块(T检验、方差分析、直线相关与回归、生存分析等)。若通过电子邮件向好友推荐可延长试用期。此外,由于该软件是基于R软件来进行数据分析的,因此在安装该软件时会自动安装R软件。因为其对于数据处理分析全面、功能强大且操作简单,相信其在医学科研中的应用前景会更加广泛。