《河北医科大学学报》投稿中常见统计学错误及分析

2022-09-22 01:26刘斯静张晓琳杜媛鲲
河北医科大学学报 2022年8期
关键词:正态分布计量变量

刘斯静,薛 鹏,高 霞,张晓琳,何 祯,杜媛鲲*

(1.河北医科大学期刊社河北医科大学学报编辑部,河北 石家庄 050017;2.河北医科大学第三医院内分泌二科,河北 石家庄 050051;3.河北医科大学公共卫生学院卫生统计学教研室,河北省环境与人群健康重点实验室,河北 石家庄 050017)

医学统计学是医务工作者从事医学基础和临床研究的重要工具学科,是医学科研真实性和准确性的重要保障[1]。医学统计方法的正确运用,是医学科研工作者应该掌握的基本能力,是数据整理分析和论文撰写发表的基本前提。统计分析结果是科研论文的核心组成部分,是论文价值的重要载体以及论文水平的集中体现。但是,在医学科研实践中,很多医务工作者由于缺乏医学统计相关经验,在数据分析和论文撰写过程中出现不同类型的统计学错误,导致论文在形式和内容方面存在缺陷,甚至得出错误结论。近年来,《河北医科大学学报》所接收稿件的整体水平有所提升,但在数据统计和分析方面仍然存在一些共性的问题。本文通过总结本刊投稿中常见统计学错误并进行分析,从而为论文作者及审稿专家提供参考,进一步提高所刊发论文质量。

1 统计描述常见错误

统计描述是对研究结果的直接整理和表达,从而对研究数据的总体特征进行总结,发现其分布和变化的基本规律,进一步为统计推断和假设检验提供基础依据[2]。统计描述包括定量资料描述和定性资料描述,前者主要描述定量资料的集中趋势和离散趋势,后者主要描述定性资料的数量或频率。在本刊所接收稿件中,两类资料的统计描述都可能会出现错误。

1.1集中趋势和离散趋势统计量选择错误 在对定量资料的集中趋势和离散趋势进行描述时,不考虑数据的原始分布特征,全部选择“均数±标准差”进行描述。正确的做法是首先对研究数据的原始分布特征进行正态性检验。如果研究数据符合正态分布,应该选择“均数±标准差”表示定量资料的集中和离散趋势;如果研究数据是偏态分布,应该选择“中位数(极差)”或者“中位数(四分位数间距)”来表示,四分位数间距比极差的计算结果更为稳定。

1.2标准差和标准误混用 标准差是方差的算数平方根,用来描述正态分布资料的离散趋势或变异程度,标准差越大,说明数据间的变异程度越大;标准误是样本均数的标准差,用来衡量抽样误差的大小,标准误越大,说明用样本统计量推断总体参数的可靠性越差。有些作者在论文中用标准误代替标准差,从统计量表面来看,数据离散趋势被人为地“缩小”了,其实是因为选择了错误的统计量,无法真实反映定量资料本身的离散趋势。

1.3相对性指标选择错误 有些作者在对疾病流行病学特征进行描述时,对“率”和“构成比”的概念区别不清。比如,某论文研究对象为绝经后女性,研究结果共发现子宫颈癌患者152例,其中50~59岁年龄组占43.4%,60~69岁年龄组占18.1%,因此得出结论,50~59岁年龄组患病率更高。此研究中,作者错误地把“构成比”当作“患病率”。事实上,本研究中各年龄组调查对象数量是不同的,要针对各年龄组分别计算患病率之后再进行比较,而不是直接对构成比进行比较。

1.4统计表常见错误 有些作者在对表格进行编制时,出现主谓倒置的现象。如下例:“糖尿病组和对照组血清因子比较:糖尿病组血清因子A、血清因子B和血清因子C均高于对照组,差异有统计学意义(P<0.05),见表1。”

表1 糖尿病组和对照组血清因子A、血清因子B和血清因子C水平比较

1.5统计图常见错误 本刊近期投稿中,统计图以柱状图居多。柱状图的优点之一是可以比较直观地反映某指标在不同组别之间的差异[3]。但是,有些作者由于纵坐标取值范围选择不当,导致组间差别无法通过统计图直接表现出来。例如:采用ELISA方法测定某血清因子浓度,比较三组之间有无统计学差异。该血清因子浓度的变化范围大约是“20~80 mg/L”。作者在绘制柱状图时选择纵坐标的刻度范围为“0~200 mg/L”,导致组间差异无法在统计图中充分反映出来。因此,应该将纵坐标刻度范围改为“0~100 mg/L”,更能直观反映组间差异。另外,如果组间存在统计学差异,应该用不同符号标识出来,同时需在“图注”中说明是与哪个组进行比较。

2 统计推断常见错误

2.1非正态分布数据组间比较 常见错误在对两组或多组计量资料进行比较时,如果计量资料不符合正态分布,需要选用非参数检验[4]。在本刊所投稿件中,对于不符合正态分布的计量资料,部分作者仍然选择了t检验或单因素方差分析,导致统计推断错误。计量资料假设检验方法的选择,应把握如下原则:两独立样本比较,如果计量资料不符合正态分布,应该选择Mann-Whitney U检验,而不应该选择t检验;多个独立样本比较,如果计量资料不符合正态分布,应该选择Kruskal-Wallis H检验,而不应该选择单因素方差分析;两相关样本(或配对资料)比较,如果计量资料不符合正态分布,应该选择Wilcoxon符号秩检验,而不应该选择配对t检验;多个相关样本的比较,如果计量资料不符合正态分布,应该选择Friedman检验,而不应该选择随机区组设计方差分析。

2.2多样本非参数检验两两比较常见错误 对于多个独立样本比较,如果计量资料不符合正态分布,应该选择Kruskal-Wallis H检验,但是对于如何进一步进行两两比较,本刊部分作者并不明确。部分论文虽然标注了两两比较的结果,但是当稿件修回过程中询问作者如何进行两两比较时,有的作者答复对每两组原始数据进行 “U检验”,有的作者答复对原始数据进行“方差分析的两两比较”,显然都是错误的。正确的做法是,可以先对原始计量资料进行“秩变换”,变换之后的秩次可以模拟正态分布,然后针对秩次进行方差分析及两两比较,从而做出统计推断。

2.3相关分析常见错误 常用的直线相关分析,需要注意两个要点:第一,在进行相关分析前,应首先对原始数据作散点图,初步判断变量之间是否存在线性关系及资料分布特征,是否适用直线相关[5];第二,对于双变量均符合正态分布的计量资料,应选择“Pearson相关”;对于至少一个变量不符合正态分布的计量资料或研究结果为等级资料,应选择“Spearman相关”。一些论文在进行相关分析时,并未对原始数据作散点图,在统计分析后,发现相关系数r的绝对值非常小,但P值≤0.05,作者仍然得出阳性结论;另有一些论文在进行相关分析时,并未对计量资料的正态性进行检验,对非正态分布的计量资料,仍然选择“Pearson相关”分析,导致统计结果错误。

2.4错用χ2检验分析方法 上文已说明,对于两组等级资料的相关性,可以选择“Spearman相关”分析。但是,有的作者却错误地选择了“χ2检验”分析方法,导致结果出现偏差。比如:作者评价某种药物不同剂量(高、中、低)与疾病愈后(好、中、差)的关系,选择了“行×列表的χ2检验”分析方法。对于上述情况,应该选择直线相关中的“Spearman相关”分析更为恰当。

2.5统计描述中对连续性变量分组后直接用于统计推断 在对连续性变量进行统计描述时,很多作者习惯于对其进行分组,便于更加直观的表现数据分布特征。但是,在进行假设检验时,很多情况下应用原始数据更为恰当。比如,有的作者在对年龄进行统计描述时,按照不同年龄段进行了分组:“40岁以下,40~49岁,50~59岁…”。在进行统计推断时(比如直线相关分析),作者仍然用分组之后的赋值进行假设检验,这样可能会丢失原始连续性变量的完整信息,降低统计推断的精确性。

2.6重复测量数据分析常见错误 重复测量数据是对同一研究对象的同一测量指标或多个测量指标,在不同时间点(或同一个体不同部位)的多次测量结果[6]。对于重复测量数据,应该选择“重复测量设计方差分析”方法。有些作者错误地选择了“多元方差分析”或“随机区组设计”方法,导致统计推断错误。如下例:作者拟对表2中观察组和对照组拔管后不同时间的A评分进行比较。投稿时选择多元方差分析,显然是错误的。应该选择重复测量设计方差分析,才能获得正确的统计推断结果。

表2 观察组与对照组拔管后不同时间A评分比较 (n=44)

2.7多重线性回归分析常见错误 在符合多重线性回归应用条件的前提下,如果自变量是连续性变量,可以直接纳入回归方程;但是,如果自变量是分类变量,需要对其进行数量化赋值。后者包括如下两种情况:第一,自变量为等级变量,可以直接对其赋值后纳入回归方程;第二,自变量为多分类无序变量(如职业、血型等),不能直接对其赋值后纳入回归方程,需要通过设置哑变量。部分作者在将多分类无序变量纳入回归方程时,并未考虑设置哑变量,导致统计推断错误。

2.8分类资料回归分析常见错误 在进行分类资料Logistic回归分析时,如果因变量的分类数>2,包括两种情况:第一,因变量为无序分类,比如肿瘤的病理分型;第二,因变量为有序分类,比如贫血的程度。在对上述两种因变量进行Logistic回归分析时,所选择的假设检验方法是不同的。以常用的SPSS软件为例,前者选择普通的多分类Logistic回归模型即可;后者需要选择有序多分类Logistic回归模型,即Ordinal过程分析。部分作者在对因变量为有序多分类资料进行多元回归分析时,仍然选择普通的多分类Logistic回归模型,导致统计推断错误。

综上所述,医学统计方法的正确应用,是科学研究论文的基本要求。医学院校应该注重在校生医学统计知识的学习和技能的培养,注意教学方法改革,理论联系实际,为日后从事科学研究打下坚实基础。医疗机构应该对职工进行定期培训,切实提高医务工作者医学统计能力。医学期刊应该加强审稿流程中对统计方法的审查力度,最大程度减少论文中可能出现的统计错误。例如,本刊定期邀请医学统计学专家对待发表稿件进行最终审查,对出现统计错误的论文进行修正或退稿,对提高期刊论文质量具有重要意义。同时,作为期刊编辑,应该加强医学统计学相关自主学习,通过多种途径提高自身业务能力,把好审稿第一关。

猜你喜欢
正态分布计量变量
高速公路合同计量变更管理策略
聚焦双变量“存在性或任意性”问题
生活常态模式
对公司计量管理工作的一些思考
计量生活之本
分离变量法:常见的通性通法
二项分布及其应用、正态分布
不可忽视变量的离散与连续
中国计量出版社图书目录
高考正态分布问题例析