张建军 (《首都医科大学学报》编辑部,北京 100069)
·医学教育·
医学论文写作中常见的统计学问题及分析
张建军(《首都医科大学学报》编辑部,北京 100069)
【摘要】从实验设计、数据的统计分析方法、结果分析以及统计术语的书写等方面分析了医学论文中常见的统计学问题或错误,以期对科研人员和医学期刊的编辑人员有所帮助,尽量减少医学论文写作中的统计学错误,提高论文的学术质量.
【关键词】医学论文;统计学;科技期刊
0引言
科学研究很早就已经从简单的定性分析深入到细致的定量分析,科研工作者要面对大量的数据分析问题,科研数据的统计分析结果直接影响着论文的结果分析. 只有通过严格缜密的实验设计和数据分析,才能保证论文的科学性和可靠性;只有如实地对研究数据进行分析,才能真实反映研究内容的本质;也是通过严格的数据分析,才能排除偶然因素对事物内在规律的影响. 所以统计分析的前提必须可靠,要在周密设计的基础上收集准确而完整的原始资料,遵循随机抽样的原则,实验组间具有可比性并设置对照组. 不具备可靠的前提,即使进行了统计分析,也不能弥补或纠正科研设计的不足,其研究结论也缺乏可信度[1]. 因此科研人员一定要选择正确合适的实验设计和数据统计方法,才可能保证科研结果的正确性. 对医学研究来说,医学论文的研究结果可以说与人类健康息息相关,这就要求医学研究人员在研究中尽量避免出现实验设计和数据统计方面的错误,也要求医学期刊的编辑人员具备一定的医学统计学知识. 然而,在中国医学论文中存在的统计学错误非常普遍[2],统计学的误用率约为80%,即便是国家级基金资助的科研论文其统计学误用率也达到50%[3-4]. 目前,一些医学研究院、所都有专门的统计学处理机构和人员,可为本单位或外单位提供实验数据的统计分析服务;一些有实力的医学期刊也拥有专职或者兼职的论文统计学审稿专家,对论文的统计学问题进行把关. 这些对减少医学论文设计和写作过程中的统计学错误有很大帮助,但是一个不可避免的事实是仍有大量的医学研究人员和编辑部缺乏相应的论文统计学帮助. 作为一门专业的知识,让每位科研人员和编辑从业者都精通统计学,的确是一件比较困难的事情. 不过,在医学论文的写作中,有一些常见的统计学问题或者错误,却是我们可以通过学习,容易掌握并可避免出现的. 本研究拟从实验设计、数据的统计分析方法、结果分析以及统计术语的书写等方面进行阐释,以期对医学论文乃至科研论文的写作人员和编辑人员有所帮助和借鉴.
1实验设计常见问题及分析
一个完整的研究设计,其基本内容应包括研究的目的、意义、研究对象、研究内容与方法,还包括研究进度及其预期结果等. 统计设计是整个研究中最重要的一环,是研究工作应遵循的依据. 实验设计要遵循随机、对照、重复和均衡四原则. 医学论文中实验设计中存在很多问题,如样本量不足或者过多、研究对象的背景资料不清楚、样本缺乏代表性等. 在众多常见的问题中,以下几点是更容易发生且可避免的:①没有设置对照组或者对照组设置不合理;②实验分组未采用随机化;③样本缺乏代表性;④样本量达不到统计分析要求或样本量过大.
1.1对照组缺乏或者对照组设置不合理设立对照是临床医学科研设计的核心问题之一,也是描述性研究和分析性研究的主要区别. 如果缺乏对照或对照设置不当,就无法正确分析实验结果[5]. 在实验设计中、尤其是医学基础研究和临床研究中,对照组和实验组的样本来源背景要一致,这样才能保证组间样本的基础状况具有可比性;在一些特殊的实验中,如配对实验中,还需要对照组和实验组的样本数量尽量一致,如因取材等原因难以保证一致,也尽量不要差别太大. 在医学论文中,很多对治疗性方法进行总结的文章中,往往会忘记设置对照组,在没有设置对照组或者有效对照组的情况下,就仅仅以本院的回顾性病例为基础,根据治愈率得出某种药物或治疗方法有效等结论[5].
1.2实验分组未采用随机化随机化原则是研究设计中必须遵循和贯彻的原则,是实验设计中避免偏倚和混杂因素最有效的方法. 在实验过程中其实会有许多非实验因素(如一些人为的主观因素)干扰实验结果的科学性和准确性,而研究者可能对此还不知情. 为了避免这些随机误差的干扰,就有必要采用随机化的办法来抵消或者尽量减少这些干扰因素的影响. 在很多医学论文中,往往缺乏对样本随机化的分组,只是简单的随意分组,难以保证样本之间的可比性;也或者尽管采用了随机化分组和随机抽样,但缺乏对随机抽样方法的具体说明,如采用的是单纯随机抽样还是系统抽样等. 其实,利用随机数字表或者计算机生成随机数字就可以简单快捷地完成随机抽样.
1.3样本缺乏代表性在很多实际研究中,由于研究对象的总体太大,或者研究对象本身的取材就很难,要得到研究对象的总体是不可能的,这就需要从总体中抽取若干个体组成集合(即样本)进行研究,通过样本特征来对总体进行判断. 因此,从总体中抽取的每个个体都一定要具有代表性和普遍性,而不是一些特殊个体,否则难以反应总体特征. 对临床研究而言,因为受人力、物力等条件限制很难直接对总体进行研究,但临床研究的结果直接关乎人类健康,因此,样本是否具有代表性,将直接影响研究结果的适用性[5].
1.4样本量达不到统计要求或样本量过大对任何研究而言,在随机分组的前提下,如果能得到更多的样本,即样本量越大,组间的非处理因素的均衡性也就越好,样本统计值也越可靠,更贴近总体特征. 但在实际研究过程中,当样本量太大时,其实会给整个实验和质量控制工作带来很多不必要的困难,同时也会造成不必要的浪费. 但样本容量过小,就无法进行有效的统计分析,或者统计效能会降低,不能得到准确和可靠的分析结果. 同时,我们还要根据不同的研究对象来确定合适的样本量. 如对一些特殊病例的研究,总体数量本来就稀少,要得到一个大样本的数据,也就不容易了. 一般来说,医学统计中,样本容量一般要求在100以上,同时对照组和实验组样本量还要尽可能相等或者接近.
2数据的统计方法常见问题及分析
实验设计的方法直接决定了数据采取何种统计学方法. 因为每种统计方法都要求数据满足一定的前提和假定,所以论文在实验设计的时候,就要考虑到以后将采取哪种数据统计方法更可靠. 医学统计方法的错误千差万别,其中最主要的就是统计方法和实验设计不符,造成数据统计结果不可靠. 这里列举一些常见的可以避免的问题和错误.
2.1数据统计分析方法使用错误或不当医学论文中,最常见的此类错误就是实验设计是多组(≥3组)研究,需要对数据使用方差分析的时候,而作者都采用了两样本的均数检验.
2.2统计方法阐述不清楚在同一篇医学论文中,不同数据要采取不同统计处理方法,这就需要作者清楚地描述出每个统计值采用的是何种统计学方法,但在许多使用一种以上数据统计分析方法的医学论文中,作者往往只是简单地把论文采用的数据统计方法进行了整体罗列,并没有对每个数据结果分析分别交代具体的统计方法,这就很难让读者确认某一具体结果作者到底采用的是何种数据分析方法.
2.3统计表和统计图缺失或者重复统计表或者统计图可以直观地让读者了解统计结果. 一个好的统计表或统计图应该具有独立性,即作者即使不看文章内容,也可从统计表或统计图中推断出正确的实验结果. 而一些医学论文只是简单地堆砌了大量的统计数字,缺乏直观的统计图或表;或者虽然也列出了统计表或统计图,但表或图内缺项很多,让读者难以从中提取太多有用的信息. 另外,也有作者为了增加文章篇幅,同时列出统计表和统计图,造成不必要的浪费和重复. 统计表的优点是详细,便于分析研究各类问题. 统计图(尤其是条形统计图)的优点是能够直观反映变量的数量差异.
3结果分析中常见错误和分析
医学论文中对数据统计结果的解释,最常见的两个错误就是过度信赖P值(结果可信程度的一个递减指标)和回避阴性结果. 前一个错误的原因是因为一些作者对P值含义理解有误,把数据的统计学意义和研究的临床意义混淆. 比如高血压患者的药物降压实验,对照组不使用降压药物,实验组使用某种降压药后人均降压6 mmHg左右,如果单纯地比较统计学结果,这样的差异是非常显著的,但不能由此得出该种降压药物对高血压患者有效. 因为结合实际的临床效果来看,高血压患者血压下降6 mmHg并不具备实际的临床意义. 所以医学研究人员一定要注意不能单纯依靠统计值武断地得出一些结论,一定要把统计结果和临床实践结合在一起,这样才会避免出现类似的错误. 至于回避阴性结果,只提供阳性结果,是因为不少作者在研究设计时,难以摆脱的一种单向的思维定式就是主观地先认定自己所预想的某种结果结论. 在归纳某种结果原因时,从一个方向的实验就下完美的结论,尤其是如果这个结论可能对实际情形非常有意义时. 这样的思维定势过于强调统计差异的显著性,有时会刻意回避报道差异的不显著结果,不思考和探究差异不显著的原因和意义,反而会因此忽视一些重大的科学发现. 当然,目前也的确存在很多医学期刊只接受阳性研究结果,这也是需要医学期刊界反思的. 不过一些医学期刊已经注意到这样的情况,比如有一些医学期刊专门发表一些阴性结果的论文.
4统计术语书写常见问题和分析
在医学论文中,这方面的问题相对前面的3个问题不是那么严重,但却非常琐碎,而且是作者在书写过程中只要认真就完全可以避免的错误. 下面列举一些常见的问题和错误.
4.1统计符号书写错误统计学符号在医学论中被经常使用,正确使用统计学符号能够准确、清晰地表述实验结果,增强论文的说明力[6]. 在此类错误中,最常见的问题是统计学符号的大小写混淆、正斜体混淆和统计符号的误用. 如样本量n写成大写N或者正体n;或者误用n代替自由度df;标准差s还继续使用非标准的符号SD表示,P值使用小写p或者正写P表示等.
4.2统计值不完整其实,许多国外医学期刊中也存在此类问题,就是仅仅给出统计值P值,而不列出其他统计结果值,如F值(方差分析中F检验方法的一个检验值),df值,t值等.
4.3统计术语的用词不准确比如,在大多数医学论文中,在方法一项中都采用“以P<0.05或者0.01为统计具有差异性”来定义检验水准. 这里建议使用更专业的术语“差异显著性水平a=0.05 或者0.01”,或更为准确的是“检验水准a=0.05 或者0.01”进行表达. 另外,现在也基本不再使用“结果差异显著”或者“结果差异极显著”来描述统计结果,而采用统计学上主张的“差异有统计学意义”或“差异有高度统计学意义”来表述.
5小结
其实,以上列举的只是医学论文中最常见的一些统计学问题和错误,在医学论文中,还有其他很多更专业的统计学错误,但要求所有作者和编辑人员都能全部掌握这些知识过于困难,而以上归纳的几点问题,却是大部分作者和编辑通过简单的统计学习就可以基本掌握,在写作或编辑过程可以尽量避免的一些错误. 通过不断的学习和使用,作者和编者同时提高统计学方面的知识,这对于提高期刊的学术质量也具有重要意义.
【参考文献】
[1] 肖丽娟. 从编辑角度谈医学论文写作中的统计学应用问题[J]. 苏州大学学报:工科版,2006,26(5):90-92.
[2] 邱芬,曾令霞,国荣. 统计学审查在医学论文审稿中的必要性[J]. 中国科技期刊研究,2011,22(4):574-576.
[3] 胡良平,李子健. 医学统计学基础与典型错误辨析[M]. 北京:军事医学科学出版社,2003:4.
[4] 胡良平,张天明. 影响我国科研成果和学术论文质量的要因分析[J]. 科学观察,2006,1(4):9-19.
[5] 王晴,李刚. 医学论文中常见的统计学问题分类简析[J]. 编辑学报,2006,18(4):270-272.
[6] 李军纪,马艳霞,王沁萍. 医学论文中统计学符号n的几种错误书写形式[J]. 中国科技期刊研究,2006,17(3):501.
Common statistics problems and its analysis in medical paper’s writing
ZHANGJian-Jun
Editorial Office of Journal of Capital Medical University, Beijing 100069, China
【Abstract】From the experimental design, the method of statistical analysis, the analysis of results and the writing of statistical terminology, to summarize and analysis the common statistics problems or errors in medical papers. It is hoped to help medical researchers and editorial staff of medical journals to minimize the statistics errors in medical paper’s writing or editing, so to improve the quality of academic papers.
【Keywords】medical thesis; statistics; science and technology journal
【中图分类号】Z62
【文献标识码】A
作者简介:张建军. 副编审,副研究员. Tel:010-83911349E-mail:syxuebao@ccmu.edu.cn
收稿日期:2015-12-02;接受日期:2015-12-18
文章编号:2095-6894(2016)01-88-03