栾珊,张凌云,邵翠华
(1 中国石油大学(华东)医院内科,山东 青岛 266580; 2 青岛大学附属医院崂山院区内镜中心; 3 青岛大学附属医院产科)
医学统计学方法作为医学科研工作的一种基本工具,在生物医学领域逐步得到广泛应用。但随之而来的是在医学论文中统计学的误用现象也激增。胡良平等[1]认为,一篇医学研究型论文的质量主要取决于专业、文字和统计学3个方面。虽然目前越来越多的作者已充分认识到统计学在论文中的作用,但许多调查研究显示,在医学论文中仍存在不少统计方法使用错误及表达不当的情况[2-5]。在医学论文中,统计学表述的重要性几乎与专业表述齐同,论文中统计学表述的质量会直接影响整个论文的质量,错误的统计学方法会导致错误的结论。硕士研究生学位论文不仅是其取得学位的凭证,也反映出研究生的科研能力与学术水平。为提高医学研究生学位论文的统计学方法的应用水平和论文质量、为实验的统计学设计及论文评审提供理论依据,并为改善医学硕士研究生的统计学教学质量提供一些参考,本文选取某大学医学院2014年和2019年共177篇内科学硕士研究生的学位论文,调查和分析其统计学方法的应用和误用情况。
检索万方数据库,文献类型选择“学位论文”,作者单位选择“某某大学”,发表时间选择2014年和2019年,初步筛选出7 200篇学位论文,其中2014年2 934篇,2019年4 266篇。然后,手工筛选出论文首页“学科专业”为“内科学”的硕士研究生学位论文177篇,其中2014年90篇,2019年87篇,涉及的具体专业包括消化系统疾病、血液系统疾病、肾脏系统疾病、风湿病、呼吸系统疾病、内分泌与代谢性疾病和心血管系统疾病等。调查论文中统计学应用(是否应用统计推断、统计推断方法的种类及数量、是否应用统计图表以及使用何种统计学软件)和统计学误用(统计表述不规范或不充分、统计推断方法误用或未用)情况。
按是否应用统计推断将论文分为两大类。若一篇文章中未应用任何统计推断(包括参数估计和假设检验)或仅对数据进行描述,均归类为无统计推断。对于应用统计推断的论文,着重考察其是否明确指出所用的统计方法并做相应记录。若同一论文中应用多种统计分析方法则分别记录, 一篇论文中重复应用一种统计分析方法的仅记录1次。对于无统计推断的论文,考察其是否漏用统计推断。结果描述方面,主要考察统计图表的应用比例和类型。在统计学误用方面,分为统计描述有误、统计推断方法误用、缺少必要统计推断、仅给出P值而忽略推断方法及统计量等4种情况。对文中所用统计软件的种类和数量信息也进行了收集。
采用SPSS 18.0统计软件对数据进行分析。计数资料比较采用χ2检验;当1 2.1.1统计学方法应用概述 本次研究共收录177篇内科学硕士学位论文,2014年的90篇论文中有98.9%使用了统计推断,其中24.4%的论文中给出了具体的P值;2019年的87篇论文中有96.6%应用统计推断,其中40.2%给出具体的P值。2019年的P值给出率明显高于2014年,差异有统计学意义(χ2=5.049,P=0.025)。 2.1.2应用统计方法的种类 本研究中2014年和2019年某医学院内科学硕士学位论文中统计方法应用种类的比较见表1。2019年统计方法应用率的前5位顺序为:t检验和方差分析(并列)、列联表分析(包括卡方检验和Fisher确切概率法)、线性相关分析、非参数检验和Logistic回归等;2014年为:t检验、方差分析、列联表分析、线性相关分析和非参数检验等。其中2019年计算OR值并给出CI的使用率高于2014年(χ2=7.251,P<0.05)。 表1 2014年和2019年某医学院内科学硕士学位论文统计方法应用种类比较(篇(χ/%)) 使用方差分析、R×C列联表卡方检验或多组比较秩和检验后,若结论为差异有统计学意义则需做组间的两两比较,以明确是哪两组间的差异有统计学意义。2019年有45.5%(30/66)的论文中正确运用了两两比较方法,略高于2014年的40.98%(25/61),但差别没有统计学意义(χ2=0.258,P>0.05)。在常用的几种两两比较方法中,LSD检验的使用率在2019年高于2014年(χ2=17.527,P<0.001),而SNK-q检验的使用率2014年高于2019年(χ2=10.229,P=0.001)。见表2。 表2 2014年和2019年某医学院内科学硕士学位论文两两比较的使用情况(篇) 2.1.3统计学方法应用数量 在应用统计方法数量的频率分布上,2014年与2019年的差异没有统计学意义(χ2=8.356,P>0.05)。2019年有19.5%(17/87)的论文使用了4种及4种以上的统计学方法,略高于2014年的10.0%(9/90),但二者差异也没有统计学意义(χ2=2.580,P>0.05)。见表3。 表3 2014年和2019年某医学院内科学硕士学位论文统计方法应用数量比较 2.1.4统计图、统计表和统计软件应用 2019年内科学硕士研究生学位论文中统计表为94.3%(82/87)和统计图为49.4%(43/87)的应用率均略低于2014年的95.6%(86/90)和56.7%(51/90),但二者间差异无统计学意义(χ2=0.003、0.931,P>0.05)。统计表的应用较之统计图普遍,且应用率最高的分别为复合表、直条图或误差条图、散点图和线图等。2019年内科学硕士学位论文中有94.3%(82/87)使用SPSS统计软件处理数据,高于2014年的86.7%(78/90),但两者差异没有统计学意义(χ2=2.932,P>0.05)。SPSS是内科学硕士研究生最常用的统计软件。 2.2.1统计学表达不规范或不充分 本次研究的论文中若出现给出P值但统计方法交代不清、统计学表达不规范、统计推断过程不完整就得出结论等情况均视为统计表达有误,其中统计学表达有误的在2019年占36.8%(32/87),高于2014年的20.0%(18/90)(χ2=6.147,P<0.05)。给出P值但统计方法交代不清的,2019年有8篇,2014年有9篇,二者比较差异没有统计学意义(χ2=0.033,P>0.05)。2019年学位论文中统计推断过程不完整的有9篇(10.3%),略低于2014年的11篇(12.2%),但二者比较差异无统计学意义(χ2=0.156,P>0.05)。 2.2.2统计推断方法的误用 统计推断方法的误用率2019年是58.6%(51/87),2014年是61.1%(55/90),二者差异没有统计学意义(χ2=0.114,P>0.05),尚不能认为统计推断方法的误用状况有所改善。2014年和2019年内科学硕士学位论文中统计推断方法误用类型比较见表4。 表4 2014年和2019年某医学院内科学硕士学位论文统计方法误用比较(篇(χ/%)) 本次调查显示,2019年与2014年比较,该医学院内科学硕士研究生学位论文中统计分析的应用率均很高,统计描述误用情况有所好转,但统计推断误用情况则无明显的提高。2019年的统计分析方法应用率前3位为两均数比较、方差分析和列联表分析,与国内研究基本相同[6-8],但相对于国外文献(前5位为:方差分析、多重比较、非参数检验、t检验和相关与回归)来说设计较简单[9]。统计学应用方面主要有如下3点不足。①实验设计类型较简单,以单因素2水平和多水平为主,但假设检验方法误用率高,远高于张功员等[8]的结果。而且应用如随机区组设计、重复测量设计、析因设计等可以提高实验效率的设计类型的论文数量较少且统计误用率很高。②统计方法应用种类偏少。多种统计学方法的应用可以更充分地利用数据信息,分析透彻,但同时也要注意统计方法滥用问题[10]。③统计软件应用较单一,2019年SPSS的应用率高达94.3%(82/87),远高于刘智勇等[6]的研究。SPSS虽是专业统计分析软件,但因其操作简便而被广泛应用,同时因缺乏对不同统计方法适用性的认识、不能充分正确地解释研究结果及软件本身缺少复杂分析选项等而被误用[11],因此,没有专业的统计学知识或经过严格培训很难充分发挥其作用。非统计专业的医学研究者更适于使用PPMS(Practical Package for Me-dical Statistics)这种运行稳定、功能和应用也较为简单便捷的统计软件[12]。此外,如果研究中有统计学家的参与可以确保结果全面、科学、可靠。因此,在内科学硕士研究生的统计学教学中不仅应当把实验设计作为一个教学重点,并与实际的课题设计案例相结合来巩固教学效果,还要特别注重较复杂类型(实验效率亦较高)统计方法的讲解及相应统计软件正确合理的应用,使研究生切实提高科研能力和课题完成效率。 从上世纪60年代起,国外就对论文中统计方法应用状况进行研究,发现存在统计学误用问题的文章最高,占了60%以上[13]。而后国内相继也有研究表明,医学论文中统计方法误用现象普遍存在[14-16]。王倩等[14]针对5种中华系列杂志论著文章中的统计学方法应用状况的研究结果显示,存在统计学错误的文章在1985年占24%,而1995年占36%;胡良平等[15-16]认为在医学期刊论文中,从研究的统计学设计、数据的描述和统计分析到解释相应的统计分析结果等,在这几个环节上出现错误的概率平均为80%。 本研究的统计学误用大多是由于适用条件不满足和研究设计类型与假设检验方法不相符,而且通过5年的对比分析表明,这两种情况基本没有改善。2019年仍有17.2%的文章因资料方差不齐而将秩和检验误用为方差分析,虽然远低于高晓凤等[7]报道的58.8%,但仍然不能忽视。同一资料无论是忽视适用条件还是设计类型选择不同的统计分析方法会得到截然不同的结论,对临床实践造成严重后果。本研究及相关文献[6-8]显示,以误用t检验和单因素方差分析最普遍,这不仅会造成原始资料利用率低,增加假阳性错误,还会破坏原来的整体设计。然而,科研设计缺陷造成的后果是再高明的统计学家和统计软件都弥补不了的,研究者应当重视科研设计尤其是复杂设计的理论及应用。本文2019年重复测量设计资料中有13.8%的文章误用为单因素方差分析,略高于2014年的10.0%,但与高晓凤等[7]的研究结果相近;没有出现误用为t检验的情况,提示统计误用情况有好转趋势。在多因素设计的实验中,析因设计是获得信息量较多的设计类型之一,但其实施和数据分析都比较复杂。常出现以下统计学错误[17]:析因设计资料误用t检验来处理、误认为析因设计资料中的时间因素是重复测量因素、在处理数据时未区分因素和水平而一律表示为“组别”,造成统计描述混乱,继而导致假设检验方法的误用。本次调查中的7篇重复测量设计论文(其中2019年2篇,2014年5篇)均误用为单因素方差分析。提示我们应用统计学方法时必须要了解这些方法所需的设计、适用的条件和结果的意义,合理选择恰当统计学方法[10,18]。方差分析后的两两比较,如果事先已经计划好的,不论方差分析结果是否有统计学意义,可选用LSD或Bonferroni法;如果事先没有计划,方差分析结果有统计学意义后,可利用两两比较进行探索性分析,这时候可以选择Dunnett、Tukey或Scheffe法。 综上所述,医学院内科学硕士研究生学位论文中统计方法应用率很高,统计描述误用情况有所好转,但统计推断误用情况无明显改善,应引起学校、医学统计学教师、研究生及其导师、审稿人、杂志编辑及期刊管理部门的高度重视。针对以上问题提出如下几点建议。①全面开设统计学课程,增加授课数量、时间、深度和广度,规范研究的统计学设计。②合理选择统计学方法,培养统计思维,理论联系实际。③加强编辑审稿及统计学审稿,规范论文中统计描述不规范的问题并发现深层次的统计问题。在统计审稿时提供原数据库,以便对数据进行准确而综合地审查。学校若能够对本校的研究生学位论文定期进行统计学评价,定性、定量地评价统计学误用的严重程度,可有效提高论文的统计学报告质量。④研究者提高统计修养。医学硕士研究生应提高自身的统计应用水平,充分认识统计学错误所带来的严重后果,把握住统计学的实践性特点,结合统计理论与科研实践,加强自身学习,提高统计修养。2 结 果
2.1 统计学方法应用情况
2.2 统计学方法误用情况的比较
3 讨 论