焉 石,陈永欣,李尚滨,纠延红,杨 俊
体育硕士学位论文中常见统计方法误用及解决方案
焉石,陈永欣,李尚滨,纠延红,杨俊
本研究通过运用文献资料法,对目前体育硕士学位论文中常见统计方法误用进行了探讨,结果显示大致存在七方面误用:抽样方法的随意性、样本量确定的盲目性、数据实际含义描述的缺失、统计方法使用前提不明、方法简化的不适宜、效果量考量的欠缺、结论与结果的脱节。
样本量;效果量;体育统计
体育统计学是运用统计学的原理和方法,通过对体育实践中随机现象进行数量化描述、推断和分析,揭示体育现象内在规律的一门应用型学科。它是体育工作者进行体育实践所必须掌握的一种重要方法,在体育科学化发展过程中发挥着无法替代的作用,如今体育统计学早已成为体育院校中一门非常重要的基础课程[1]。但笔者在指导学生论文及参加相关统计培训后发现,目前大量的硕士学位论文中普遍存在统计方法的误用,并且雷同错误比比皆是,甚至被一直延续,乃至于很多错误被误认为是必须形式广泛模仿,而且呈愈演愈烈的趋势,这对我国体育科研的长远发展极为不利,相信这与我国体育工作者对基础统计的了解不够,并且对统计的新方法认识不足有密切相关。本研究旨在揭示体育硕士论文中最常见的代表性误用展开讨论,并同时提出解决方案,为广大体育专业硕士论文能够正确合理的运用体育统计方法提供参考。
很多学生的论文甚至是核心期刊上的学术论文,在陈述抽样方法时,作者只是简单陈述道“本研究采用了随机抽样方式”,至于具体如何采用随机抽样以及是否真的采用了随机则无从考证,甚至有的采用了非概率抽样也会报告为采用了概率抽样,这是目前毕业论文中经常出现的问题[2]。例如某论文想比较全国不同区大学生的体制健康问题,在抽样方面陈述为“本研究采用随机抽样方式通过选取位于我国北部、中部和南部四所代表性高等院校,分别以北京体育大学、武汉体育学院、中山大学和广州大学等在校大学生为调查对象”。该研究有两点问题:其一,可以理解为作者是以北京体育大学为北部代表,武汉体育学院为南部代表,中山大学和广州大学为中部代表,但是抽样的目的就是要用一个具有代表性的样本对总体进行精确推论,根据这一原则以上所述各代表是否真正具有代表性。其二,体育类高校和普通高校的学生根本无法针对体质健康这一指标进行比较,即使不考虑术科的学生,只比较学科的学生,也是具有前期差异的,因为在体育大学的学科学生常年受环境的影响势必比普通高校的学生锻炼的机会多。综上可以看出该作者在论文设计抽样方面考虑不够,导致研究的结果不具有任何意义。所以在论文设计阶段尤为关键,特别是在抽样方式上,首先要了解概率抽样和非概率抽样都包含哪些形式,然后结合自身研究并考虑研究者能力最终选取最适合方法,尤其是在标准类的制定研究中,一定要慎重考虑抽样方法,如果采用非概率抽样势必影响结果的概化程度,并且结果也是不可信的。
经常会有学生对自己的研究设计究竟应该收集多少样本量感到疑惑,100人、200人还是更多?那么采用多少样本的依据是什么,大多同学都无法回答,只是强调某某研究这样我也这样,或许也有人会说当然越多越好,但是实际研究中由于一些特殊原因样本量无法收集更多,另外作为一名学生有时候无论从人力、物力还是财力都存在一定局限性,所以如何在保证统计检验力的前提下合理的收集样本,一直都是学生们不解的问题。本文只针对做差异性检验的研究展开探讨,对做一般调查性研究不予以探讨。首先确定样本量必须要了解什么是统计效力,统计效又称统计功效、统计检验力,即能够正确地拒绝一个错误的虚无假设,接受一个正确的备择假设的概率,也就是不犯二型错误的概率。这里需要说明的是,在做差异检验时通常会设定研究假设,即两者间存在差异的备择假设。然后围绕研究假设进行统计检验,在统计检验过程中会存在两种错误,一种指二者间并不存在差异,而统计结果却显示存在差异,称为一型错误用ɑ表示,判定指标为小于0.5;另一种指二者间明明存在差异,而统计结果却显示无差异,称为二型错误用β表示,由于β值无法求出,所以要通过统计功效来判断多大把握正确接受备择假设。那么,针对统计功效究竟该何时报告呢?当统计结果显示接受备择假设时,以表明正确接受备择假设的概率。所以在实际研究中,研究者希望统计效力足够大,但统计效力受样本量大小、显著水平及效应大小的影响,其中显著水平和效应大小是不可控的,只有样本量的大小可以操控,所以换言之样本容量的增加能够提高统计效力,在实际的研究中,增加被试的数目是能够提高统计效力的最重要的途径,反过来也可以依据统计效力决定样本量多少。目前,在样本量的确定方面可以使用G-POWER软件进行换算,该软件分别结合了效果量、单双尾检验、显著性和统计功效等重要指标,对样本的总量给出了最佳范围,该软件被国外广大期刊所认可,针对具体操作环节由于篇幅有限不加以介绍。
实施一个研究后,将会面对大量的数字信息,这些信息通常都是以原始数据的形式出现,但原始数据的粗糙使读者无法获得其中的意义,此时就有描述统计的用武之地。描述统计指关于对已有数据进行描述或表征的技术。作用:(1)组织我们从样本中收集到的数据;(2)总结由样本中得到的结果;(3)以一种轻松与人交流的方式呈现这种结果[3]。例某研究针对体育院校羽毛球专选不同性别学生竞技状态焦虑进行差异性检验并制定了图表,但针对该表内的数据没有任何解释,只是简单罗列了数据,并且没有注明平均数和标准差,这让读者无法初步判断变量特征,类似错误比比皆是,所以应该注意描述性统计是推论统计的重要前提,二者相辅相成缺一不可,如果描述性统计缺失,那将严重影响推论统计的可信度。
任何的统计方法都有与之相对应的统计前提,只有在满足前提的要求下才可以实施,但在指导学生论文中发现,大多学生并不了解,在论文的设计阶段考虑不周,只是随心所欲或者照葫芦画瓢,常常导致一些选题非常有价值的研究不了了之。目前最常见的错误就是在调查性研究中,为了验证问卷的信度而采用间隔一段时间后实施两次调查,然后将两次调查的分数进行相关性分析,给出一个所谓的重测信度值R。但通过观察问卷可以了解到,问卷中的题目既不是等距的也不是顺序的,甚至还有个别复选题,针对这一类型数据根本无法进行相关检验,皮尔逊相关要求数据符合等距特征,斯皮尔曼要求数据符合顺序特征。那么,这么多的调查类研究的R值是如何得出的呢?而且都非常稳定的维持在0.8-0.9之间,这个我们不得而知,但至少我们知道它是错误的,这都说明研究者根本就不了解各种统计的前提就盲目的实施调查。笔者认为类似于纯粹调查性的研究没有必要进行问卷的信度检验,只要通过专家的效度检验即可。
针对不适宜的简化问题方面,笔者认为主要由于目前国内体育界广大学者对于统计基础的掌握不够以及对统计新方法的不了解所致。例如某经典例子,某研究想针对新老教学方法展开比较研究,常见的错误方法是分别采用4个T检验,首先将实验组与对照组在未实施实验前进行一次独立样本T检验,目的证明两组无差异,然后分别实施各自组的实验前后进行配对样本T检验,目的比较实验组与对照组前后的差异大小,主要说明实验组的效果好于对照组,最后再针对对照组和实验组的后测进行一次独立样本T检验,目的证明两者间有明显差异性,实验组好于对照组。针对以上设计存在两方面错误:其一即使两组参与者前测差异未达到显著水平,也不能作为两组被试相等的证据,除非P值大于0.95可以接受。从哲学角度看,假设检验其实是一个推翻过程,而不是一个证实过程,比如我们假设所有的女性都留长发,我们只要找一个短发的女性就可以推翻该假设,反过来即使找不到留短发的女性我们也无法下所有女性都是留长发的结论,也就说推翻不了女性都留长发的假设。根据这一理论,即使实验组和对照组实验前的差异不显著,也不能成为两组是相等的证据,如果想证明两组是相等的就应该假设两组不相等假设,但T检验的目的是检验两组是相等假设,所以这种方法是错误的。其二,多次使用T检验会增加一型错误的概率。比如一个完全可以运用方差分析的统计方法,将其拆分为4个T检验,这时就犯了不适宜简化的错误,将导致一型错误的概率将由0.05上升至0.2。正确方法是每次用ɑ水平0.05为总体检验值然后除以检验的次数,用得出的值作为假设检验的指标。所以4次T检验的值为0.05/4=0.0125,然后用每次检验的P值与ɑ水平0.0125相比较,如果P值小于或等于0.0125,则拒绝虚无假设,反之则接受虚无假设,这样才能将保证整个检验犯一型错误不超过0.05,如果不这样调整,每个检验都用0.05来执行,那么一系列检验的总体ɑ水平将接近四个检验的ɑ水平之和,即0.2。针对以上问题解决方案有两种:其一,如实验前采用非随机分组,建议考虑将前测变量作为协变量,进行协方差分析;如不能满足协方差分析的条件,建议考虑对后测与前测的差异,进行方差分析。其二,如实验采用严格的随机分组,协方差分析或重复测量的方差分析(含组间变量)均可使用。
效果量是衡量一个研究发现重要性的关键评价指标,尤其在没有客观单位的研究中。APA在针对论文报告方面明确要求作者要在结果报告中呈现效果量,但笔者查阅大量体育硕士学位论文,并没有发现一篇论文注明效果量,并且国内关于统计方面书籍中也几乎很少涉及,再次证明了国内体育科研工作者对统计学知识的了解不够。大多学生认为只要我的研究拒绝了虚无假设,结果显示P值小0.05就说明具有显著性,研究就有新发现,而且认为0.001比0.01差异显著,0.01比0.05差异显著,总之P值只要小于0.05就万事大吉。其实不然,我们说所谓的显著性背后隐藏的二者差异到底有多大,显著性是不能说明的,它只代表差异大小,至于效果大小只能通过效果量来衡量。那么效果量该何时报告呢?只有当研究结果拒绝虚无假设,接受备择假设时报告,反之则不必报告。目前大部分统计软件都可以提供效果量的计算。
在此部分主要有两方面常见错误:其一,不进行推论统计,就外推描述性统计结果,获得对总体的结论。笔者认为应该明确描述统计和推论统计的在一项研究中的具体作用,描述性统计是在收集所有被试的反应数据之后,想知道被试的总体情况,例如被试的分数位于哪个区间?平均水平是多少?离散情况如何?要了解这些问题就必须要进行描述性统计。而推论统计目的常常是是要对一个总体的某个问题得出特定的结
论来验证假设,但由于现实条件的限制,我们无法逐个考察总体当中的每一个个体,只能利用有代表性的样本来推测总体的情况,这就是推论统计。所以描述统计和推论统计对于一个研究来说各司其职,但不能混为一谈,应该区别对待。其二,推论统计未能推翻虚无假设,支持备择假设,但结论中却仍然对总体做出备择假设正确的结论。针对这一低级错误屡见不鲜,常常表现为P值大于0.05,而结论中却仍然义无反顾的叙述到备择假设成立,似乎无论整个检验结果如何作者早已胸怀定论,统计的检验过程不过是一种形式而已,这一现象又一次说明了目前我国高校在体育统计方面培训的严重欠缺。
以上七方面是目前体育硕士学位论文中常见的错误,应该引起我国体育科研的高度重视,在本科阶段应重视基础统计的应用学习,同时定期系统举办全国体育统计培训会议,使广大体育工作者及学生能够及时掌握最前沿统计方法,形成学习,实践,总结,再学习,再实践,再总结的培训机制,“工欲善其事,必先利其器”,只有全面掌握了应用统计的各种方法,在体育科研中才能客观的、科学的揭示体育现象及规律。
[1]田汉君. 首都体育学院专业学位硕士研究生学位论文统计方法应用现状的研究[D].首都体育学院,2013.
[2]体育科学研究方法编写组.体育科学研究方法[M].北京:北京体育大学出版社,2014.
[3]理查德·鲁尼恩,奥黛丽·哈伯,凯·科尔曼,著,林丰勋,译.心理统计导论M].北京:人民邮电出版社,2010.
Common Misuses and Solutions of Statistical Methods in Sport Master Degree Dissertations
Yan Shi, Chen Yongxin, Li Shangbin, Jiu Yanhong, Yang Jun
This research discusses the current common misuses of statistical methods in master degree dissertations in sports through the documentary method. The result has revealed misuses in 7 major aspects: randomness of sampling methods, aimlessness in determining the sample size, deficiency in describing the actual meaning of data, indeterminacy of the use premise for statistical methods, inappropriateness of method simplification, deficiency in considering the effect size, and separation between the conclusion and result.
sample size; effect size; sports statistics
哈尔滨工程大学2014年研究生教育教学改革项目(项目编号:JG2014YYB21)
焉石(1981-),男,黑龙江哈尔滨人,副教授,研究方向:体育教育训练学
哈尔滨工程大学体育部,黑龙江 哈尔滨150001
Department of Physical Education, Harbin Engineering University, Harbin 150001, Heilongjiang, China.
G807
A
1005-0256(2016)010-0039-3
10.19379/j.cnki.issn.1005-0256.2016.010.018