■相丹风 高 永 周英智
1)《医学综述》杂志社,北京市通州区北苑通典铭居F座806室 1011002)滨州医学院《中国医院统计》编辑部,山东省烟台市莱山区观海路346号 2640033)山东大学科技期刊社,山东省济南市山大南路27号 250100
P值是医学论文重要的统计学内容,是最终准确推断结论的重要依据,如果P值出现错误,就会严重影响对结果的正确判断,甚至得出与事实相反的结论。美国统计学会理事会于2016年发表了P值声明[1],引起了学者们对P值更高度的重视。t检验是最常用的统计方法之一[2-3],编辑同仁对医学论文中t检验的应用情况进行了大量调查,发现其中存在很多问题,例如对不符合正态分布或方差不齐的2组资料进行成组t检验[4-5],使用t检验处理多组间或重复测量设计的资料等[2,6-7]。高永等[8]研制了基于 Excel 的统计分析系统,对于完全随机设计的2个样本均数的比较,可以输入论文中样本例数、均数、标准差,系统根据方差齐性检验结果自动选择t或t′检验,并且给出具体的t(或t′)值和P值。笔者在工作中利用该系统检验来稿的数据时,发现t检验中P值错误较多。查阅相关文献,发现有关t检验P值判断错误的系统调查报道较少。所以,本研究以成组t检验(又称独立样本t检验)为例,利用该系统调查公开发表的医学论文中出现P值错误的情况,并分析导致P值错误的原因,以期引起编辑同仁对统计学结果错误的高度重视,并采取有力措施来提高医学论文的统计学质量。
对中国知网数据库收录的296种综合医药卫生期刊(http://navi.cnki.net/KNavi/Journal.html#)按下列条件进行检索:全文出现“成组t检验”“独立样本t检验”或“t检验”,发表时间为2014—2018年。按时间顺序排序,每种期刊尽可能选用最新发表的1篇论文。每篇论文选择1项成组t检验,录入2组例数、均数、标准差及t值、P值。若原文中没有明确说明成组t检验或独立样本t检验,只说明使用t检验,笔者将对其进行核实,确保所用方法为成组t检验,排除配对t检验、秩和检验等。
具体方法见文献[8]。因为本研究所纳入的成组t检验均未提及单侧检验,所以P值采用双侧检验结果。如果测算的t(或t′)值和P值与论文中差别较大,则怀疑论文中的数据错误。考虑到“四舍五入”的情况,利用均数、标准差计算的结果与利用原始数据计算的结果可能存在一定偏差,但是差别不应太大。进一步利用该系统测算t(或t′)值和P值因均数、标准差的“四舍五入”造成的波动范围,如果论文结果在这个范围外,则确定原文结果错误。例如某研究设观察组、对照组各60例,观察组麻醉时间为(66.5±2.7) min,对照组为(68.4±3.1) min,2组比较t=0.721,P>0.05[9]。利用软件对上述结果进行核验,2组资料方差齐,t=3.580,P=0.0005(双侧),与论文结果差别较大。根据2个样本均数比较t(t′)检验计算公式,在样本数量不变的情况下,2个均数差值越大、标准差越小,则t(或t′)越大、P值越小,反之亦然。考虑到“四舍五入”因素,均数66.5的精确值在66.45与66.55之间,同理可以给出其他均数、标准差的精确值所在范围。据此,可以计算出因均数、标准差的“四舍五入”造成的P值波动范围为0.0002~0.0011,由此可以确定原文P>0.05错误。
(1)是否为核心期刊[10]。有学者比较核心期刊与非核心期刊文献数量增长速度[11]、篇尾空白处理[12]等方面的差别,受此启发,笔者尝试比较核心期刊与非核心期刊成组t检验P值错误的比例。(2)样本量大小。成组t检验要求资料符合正态分布以及方差齐。样本量较大时,对非正态分布、方差不齐的2组资料比较采用成组t检验,可能对结果影响不大,但对于小样本资料结果影响较大。(3)方差齐性。2组定量资料比较时,如果方差不齐,不能采用成组t检验,而应当采用t′检验或秩和检验,如果误用成组t检验,则会影响P值。(4)t值及具体P值。医学论文应当给出确切的统计量和P值,医学论文中缺少具体统计量及P值的问题已经引起了编辑同仁的重视[13-14]。本研究尝试分析是否给出t值及具体P值与P值错误是否有关。
采用SPSS 22.0软件进行数据处理,采用相对数对P值错误进行表述,应用χ2检验对2组间差异进行单因素分析,利用Mantel-Haenszel法进行分层分析,采用二项式logistic回归进行多因素分析,检验水准α=0.05(双侧)。
296种期刊中,除去停刊、近年未被收录、未检索到合适论文等60种期刊,纳入统计期刊共236种,每种期刊选择1项成组t检验。其中2014年1项,2015年4项,2016年14项,2017年83项,2018年134项;50项存在P值错误,占比21.19%。
2.2.1 是否为核心期刊
236项成组t检验中,109项来自核心期刊,占比46.19%,127项来自非核心期刊,占比53.81%。核心期刊P值错误共30项,占比27.52%,非核心期刊P值错误共20项,占比15.75%,2组差异具有统计学意义。
2.2.2 样本量大小
根据文献[15]的方法,将2组中至少1组样本量≤60定义为小样本资料。236项成组t检验中,43项为大样本资料,占比18.22%,193项为小样本资料,占比81.78%。大样本组P值错误9项,占比20.93%,小样本组P值错误41项,占比21.24%,2组差异无统计学意义。
2.2.3 方差齐性
236项成组t检验中,方差齐171项,占比72.46%,方差不齐65项,占比27.54%。方差齐组的P值错误31项,占比18.13%,方差不齐组的P值错误19项,占比29.23%,2组差异无统计学意义。
2.2.4 是否给出t值
236项成组t检验中,给出t值152项,占比64.41%,未给出t值84项,占比35.59%。给出t值组P值错误34项,占比22.37%,未给出t值组P值错误16项,占比19.05%,2组差异无统计学意义。
2.2.5 是否给出具体P值
总体分为给出和未给出具体P值,前者包括P值为0.00、0.000、0.0000和其他具体值。实际P值并不等于0,当P值太小时,统计软件会四舍五入为P=0.0000,在论文中应描述为P<0.001或P<0.0001[16-18]。因此,将二者也归为给出具体P值。其他为未给出具体P值,包括P<0.01、P<0.05、P>0.05、P>0.1。236种期刊中,给出具体P值126项,占比53.39%,未给出具体P值110项,占比46.61%。给出具体P值组中P值错误39项,占比30.95%,未给出具体P值组中P值错误11项,占比10.00%,2组差异具有统计学意义。
以上单因素分析结果见表1。
表1 236项成组t检验P值错误单因素分析
将是否给出具体P值作为混杂因素,采用Mantel-Haenszel分层分析法比较核心期刊与非核心期刊P值错误发生率,结果表明差异无统计学意义(χ2=2.703,P=0.100)。
各变量的赋值情况见表2。将上述因素均纳入模型,得到236项成组t检验P值错误二项式logistic回归分析结果(表3)。可以看出,是否方差齐(OR值为0.470,95%CI为0.230~0.961)、是否给出具体P值(OR值为5.459,95%CI为2.311~12.895)具有统计学意义。
表2 各变量的赋值情况
表3 236项成组t检验P值错误二项式logistic回归分析
本研究发现,医学论文成组t检验中P值错误发生率高达21.19%,严重影响了论文的学术质量,需要引起高度重视。其可能原因主要包括:统计分析软件操作失误;写作过程中P值笔误;写作过程中样本例数、均数、标准差数据笔误,造成核验P值本身错误而误判;统计方法不当,例如符合正态分布但方差不齐时没用t′检验;手工计算错误;排版错误;数据造假等。为避免成组t检验P值错误,提高医学论文的统计学质量,提出以下建议。
(1) 重视成组t检验的应用条件。进行成组t检验,特别是样本量较小时,用于2组比较的资料必须符合正态分布。笔者在收集研究资料的过程中发现,资料不符合正态分布的情况较为常见。例如某研究采用成组t检验比较胆管癌和胆总管结石患者血清 CA199 水平,2组数值分别为(413.09±355.35) U/mL和(183.48±322.24) U/mL,标准差接近甚至超过均数,初步可以判断为非正态分布[19]。应当首先对数据进行正态分布检验,若为非正态分布,改为中位数及四分位间距描述,采用 Wilcoxon 秩和检验进行2组比较[20-21]。
成组t检验的另一个应用条件是方差齐,如果符合正态分布但方差不齐应该取t′检验的P值。但本组资料方差不齐的比例高达27.54%,均未提及采用t′检验,由此推测,许多方差不齐的2组比较很可能采用的是成组t检验的P值,导致P值不精确甚至错误。二项式logistic回归分析结果也显示,方差齐减少了P值错误的可能性。如果统计学方法选择错误,统计学处理结果的正确性将无从谈起,因此编辑审核稿件时,一定要首先审核所用的统计学方法是否正确。
(2) 要求论文作者给出观察指标的描述分析。例如比较2组正态分布的资料时,要求作者给出样本量、均数、标准差等指标,这是论文写作的基本要求,也便于利用这些数据核实统计推断结果。如果觉得结果可疑,可以请作者提供原始数据,通过统计学软件进行核查。
(3) 要求论文作者给出统计量和具体P值。医学论文要给出确切的统计量和P值,包括中华医学会系列杂志在内的许多医学期刊都对此做出了明确要求[22-23]。但本研究发现,236项成组t检验中,未给出t值和具体P值的比例分别高达35.59%和46.61%。不给出t值和具体P值,不利于判断2组比较统计学差异的具体程度。另外,本研究结果显示,给出具体P值的论文中P值错误发生率较高,主要因为本研究所用的判别方法更容易发现具体P值的错误。例如文献[24]比较痛经女性组与正常女性组经期 SCL-90 各因素的均值,其中“强迫”一项的P值为0.003,笔者利用文中数据测算的结果是P值为0.0003,波动范围为0.0003~0.0004,因此判断原文P值错误。如果原文给出的不是具体值,而是P<0.01或P<0.05,则不会判为错误。
统计学处理是医学论文的重要内容,统计学结果错误将严重影响论文的学术质量。利用基于Excel 的统计分析系统核验了中国知网收录的综合医药卫生期刊中成组t检验的P值,发现P值错误较多,必须引起高度重视。期刊编辑应当重视对统计学方法应用条件的审查;要求作者给出统计描述以及统计推断的具体结果,必要时请作者提供原始数据,通过统计学软件进行核查,严防统计数据造假等学术不端现象;可以利用简单易学的统计学软件核实P值;做好校对工作,及时发现排版导致的错误。由于本研究只调查了综合医药卫生期刊,结果可能与国内医学期刊的整体情况有一定出入,有待扩大范围做进一步的深入研究。