王瑞平 李斌
摘 要 数据统计分析是临床医学研究中的一个重要组成部分。在临床研究实践中,有些研究结果存在统计分析错误或不规范的现象,主要系由医务人员对临床研究数据分类认识不足、选用的统计分析方法不恰当所致。本文从认识临床研究数据分类的重要性入手,就临床研究数据分类以及不同分类数据的相互变换方法和原则等作一简要介绍,为医务人员规范开展临床研究提供参考。
关键词 临床研究 数据分类 统计分析
中图分类号:C81 文献标志码:C 文章编号:1006-1533(2022)01-0003-04
基金项目:国家重点研发计划“中医药现代化研究”重点专项项目(2018YFC1705301);国家自然科学基金面上项目(82174383);上海申康医院发展中心管理研究项目(2020SKMR-32);上海市皮肤病医院引进人才科研基金项目(2021KYQD01)
The classification and transformation of data in clinical research
WANG Ruiping, LI Bin
(Clinical Research & Innovation Center, Shanghai Skin Disease Hospital, Shanghai 200443, China)
ABSTRACT Statistical analysis of data is an integral part of clinical medical research. In clinical research practice, some research results have statistical analysis errors or irregularities, which are mainly caused by the insufficient understanding of medical staff to the classification of clinical research data and the selection of inappropriate statistical analysis methods. Starting with understanding the importance of clinical research data classification, the classification of clinical research data and the methods and principles of mutual transformation of different classified data are briefly introduced in this article so as to provide reference for medical personnel to carry out clinical research in a standardized manner.
KEy wORDS clinical research; data classification; statistical analysis
数据统计分析是临床医学研究中的一个重要组成部分[1-4]。临床研究实践中往往存在研究结果统计分析错误或不规范的现象,主要系由医务人员对临床研究数据分类的认识不足、选用的统计学描述和检验指标不规范所致。为此,本文就临床研究数据分类以及不同分类数据的相互变换方法等作一简要介绍。
临床研究数据分类不仅是统计分析的基础,而且在临床研究设计阶段的病例报告表制作和调查问卷变量选择中也起着重要作用。如图1所示,对于研究数据变量“age(年龄)”“gender(性别)”“pasi(PASI,银屑病皮损面积和严重性指数)”,SPSS 16.0软件分析后会给出全距、最小值、最大值、平均值、标准差和方差的描述结果,还会给出频数和构成比的描述结果。但对于每一个变量,如何选择准确的指标来进行数据描述,这就需要研究者熟悉临床研究数据的分类。
如图2中的表1所示,年龄、身高、体重(体质量)和BMI(体质量指数)均属于定量变量,需选择合适的指标来描述定量变量的集中趋势和离散趋势。描述定量变量集中趋势的指标主要包括平均值、中位数和众数,描述定量变量离散趋势的指标包括标准差、方差、全距和四分位数间距等。如何选择合适的指标来描述定量变量,需事先知晓定量变量的分布情况:如定量變量符合正态分布或近似正态分布,如图2表1中的BMI,一般采用均数±标准差来表示;如不符合正态分布,如图2表1中的年龄、身高和体重(体质量),一般采用中位数和四分位数间距来表示。
临床研究中,统计分析方法的选择也依赖于数据分类。图3所示是某杂志刊发的一篇论文的表1,其展示了治疗组和对照组患者在治疗前和治疗后4、8、12周时PASI积分的差异。不过,该表1中的数据可能存在以下问题:①PASI积分属于定量变量,但论文中没有交代其是否符合正态分布,直接用均数±标准差来描述是否合适?②PASI积分在不同时间点的比较均采用了t检验,没有考虑各评估时间点之间的相互影响。③PASI积分测量有4个时间点,属于重复测量数据,应采用重复测量方差分析,探讨治疗因素、时间因素、治疗因素和时间因素的交互效应对PASI积分的影响。
临床研究中,相关图表的绘制也应根据数据的类型及其特点来选择合适的表达形式。如图4所示,图1-a采用直条图和误差线展示ACS(急性冠脉综合征)和EAP(劳力性心绞痛)患者外周血sLOX-1(可溶性血凝素样氧化低密度脂蛋白受体-1)水平的差异,这是因为经正态性检验,外周血sLOX-1水平为符合正态分布的定量变量,用均数±标准差表示其集中趋势和离散趋势,绘图时则需要选择直条图和误差线来表达;图2-b采用箱式图展示ACS和EAP患者外周血Lab(LAB,含载脂蛋白B的血凝素样氧化低密度脂蛋白受体-1配体)水平的差异,这是因为经正态性检验,外周血Lab(LAB)水平为不符合正态分布的定量变量,用均数±标准差表示其集中趋势和离散趋势不合适,应选择中位数和四分位數间距表示,绘图时则需要选择箱式图而不是直条图和误差线来表达。由此可见,在绘制临床研究相关图表时,应根据数据的类型来选择合适的图表表达。定性变量数据,可选择直条图、复式条图、百分条图等来表达。定量变量数据,如数据符合正态分布,选择直条图和误差线来表达;不符合正态分布,选择箱式图来表达。
开展数据统计分析时,如图5中的表2所示,对于多分类定性变量LDL-C(低密度脂蛋白胆固醇)水平,组间比较采用卡方检验。但在进行多因素logistic回归分析时,图5表4中的LDL-C水平就需要设置哑变量后再进入回归模型,否则分析结果就会出现错误。
总之,在开展临床研究时,数据分类识别十分重要。数据分类在研究设计、调查问卷和病例报告表制作、统计分析等过程中均起着重要作用,需要正确掌握。
2 临床研究数据分类
临床研究中的数据整体上可分为定量变量、定性变量和日期型变量3类,日期型变量一般不能直接用于统计分析,需通过变量变换转换为定量变量或定性变量后才能进行统计分析。
2.1 定量变量
定量变量又称为计量资料变量,其是连续的数据,如临床研究中受试者的年龄、身高、体质量等人口学信息,红细胞计数、血小板计数、血红蛋白值等血常规检查指标值等。定量变量根据取值情况可再分为连续型定量变量和离散型定量变量,其中连续型定量变量为可取实数轴上任何值的变量,如身高、体质量和BMI;离散型定量变量为只能取整数值的变量,如医生每月完成的门诊量和手术台数、患者接受的血常规检查次数等。常规情况下,连续型定量变量能通过四舍五入法转换为离散型定量变量,而离散型定量变量则可通过科学计数法转换为连续型定量变量(如某科室年完成手术13 000台,可转换为1.30×104台/年)。
2.2 定性变量
定性变量又称为计数资料变量、分类变量,通常以类别来区分定性变量的属性。根据分类的不同和类别的特征,定性变量可进一步细分为二分类变量、多分类无序变量和多分类有序变量。二分类变量是指分类只有两个互斥类别的定性变量,如性别(男/女)、考试成绩(及格/不及格)、手术(成功/不成功)等。多分类无序变量是指分类类别个数≥3个的定性变量,且不同类别之间无顺序、优劣等之差异,如血型(A型/B型/AB型/ O型)、职业(公务员/商业服务员/自由职业者/企事业单位工作人员/其他)、民族(汉族/回族/满族/其他)等。多分类有序变量是指分类类别≥3个的定性变量,但不同类别之间有顺序、优劣等之差异,如文化程度(文盲/小学/初中/高中/大学及以上)、考试成绩(不及格/良好/优秀)、BMI(体质量过轻/体质量正常/超重/肥胖)等。
定性变量中的多分类变量能通过分类类别的合并转换为二分类变量,如对于多分类有序变量考试成绩(<60分/(60 ~ 80)分/>80分),如将(60 ~ 80)分和>80分合并为≥60分,即可转换为二分类变量(<60分/≥60分)。
2.3 日期型变量
临床研究中往往要采集受试者的出生年月、入组时间、干预结束时间等变量信息,这些变量就是日期型变量。日期型变量有两种记录格式,即年/月/日和月/日/年,如出生日期可记录为1983/09/01或09/01/1983。须指出的是,日期型变量一般不能直接用于统计分析,需要通过变量变换转换为定量变量或定性变量后才可以用统计分析软件进行处理。可用“(调查日期-出生日期)/365.25”算式计算得到年龄(岁),用“(调查日期-手术日期)/365.25×12”算式计算得到术后时间(月)。
3 变量变换的原则和应用
上面介绍了临床研究数据的分类,包括定量变量、定性变量和日期型变量。在实际应用时,往往需要将某些变量进行转换后才可用于统计分析。如在采集“年龄”这个数据时选择的是日期型变量,就需要将其先通过变量变换转换为定量变量,或进一步转换为定性变量,才能进行统计分析。在进行变量变换时,应遵从“高级别→低级别”的转换原则。变量的级别自高至低依次为日期型变量、定量变量、定性变量;在定性变量中,多分类变量的级别高于二分类变量。因此,日期型变量可转换为定量变量,定量变量可转换为定性变量,多分类变量可转换为二分类变量,反之则不允许。此外,在将定量变量转换为定性变量时,还要遵从“分类标准化和可比性”的分类原则。如在将定量变量年龄转换为定性变量时,根据寿命表编制规则,年龄组的选择可以是每5或10岁一组,一般不能随意分组;在将定量变量BMI转换为定性变量时,应参照WHO的相关规定,分为体质量过轻(BMI<18.5 kg/m2)、体质量正常(18.5 kg/m2≤BMI<24 kg/m2)、超重(24 kg/m2≤BMI<28 kg/m2)和肥胖(BMI≥28 kg/m2)4组。
在临床研究的设计、实施和统计分析过程中,合理设置变量并正确识别变量的类别和掌握不同变量类别之间的变换原则十分重要。在设计、制作病例报告表时,能用定量变量采集的数据就不要选择定性变量采集,能用多分类变量将数据分类做得更细的就不要选择二分类变量采集数据。例如,在采集患者年龄数据时,将问题设置为“您的实足年龄为____岁?”优于将问题设置为“您的实足年龄为几岁?A. <18岁;B. 18 ~ 25岁;C. 26 ~ 30岁;D. >30岁”,因为用定量变量采集的数据可以转换为定性变量来进行统计分析,但用定性变量采集的数据不能转换为定量变量来进行统计分析。因此,在设计临床研究的调查问卷或病例报告表时,一定要在整体上把控好,依据具体情况设置最合理的变量类别来采集数据;而在统计分析时,则应灵活运用不同变量类别之间的变换原则,选择合适的变量进行类别转换,进而选择合适的统计分析方法来进行统计分析。
参考文献
[1] 方积乾. 卫生统计学[M]. 6版. 北京: 人民卫生出版社, 2008.
[2] 李立明. 流行病学[M]. 5版. 北京: 人民卫生出版社, 2003.
[3] 孙振球, 徐勇勇. 医学统计学[M]. 4版. 北京: 人民卫生出版社, 2014.
[4] 邓伟, 贺佳. 临床试验设计与统计分析[M]. 北京: 人民卫生出版社, 2012.