应智霞 施陈 邹志文
摘 要:生物统计学是大多数高等院校生命科学领域本科学生必修的基础课程,也是一门在实践中广泛应用的学科。该课程的主要目的是培养学生的数据分析能力,提高其科研和实践应用能力。然而,传统教学侧重于理论知识的讲解,而忽略了培养学生应用统计软件分析试验数据的能力。基于此,该研究以配对数据t-检验为例,通过对3种代表性的统计软件(Excel、SPSS和R)进行比较,分析总结了3种软件在生物统计学教学中的优缺点。针对本科生教学,选择Excel或SPSS为教学辅助软件,加深学生对理论知识的理解,提高学生的数据处理能力。并将R逐步引入教学中,提升学生处理复杂数据和解决实际问题的能力,使其成为具有对理论知识理解和软件应用能力的综合性人才。
关键词:Excel;SPSS;R;辅助教学;配对t-检验
中图分类号 G642.0文献标识码 A文章编号 1007-7731(2021)13-0197-04
Abstract: Biostatistics is not only a compulsory basic course for undergraduates in the field of life science in most colleges and universities, but also a subject with wide practical application. The main purpose of this course is to cultivate students′ ability of data analysis, and improve students′ ability of scientific research and practical application. However, the traditional teaching focuses on the explanation of theoretical knowledge, and neglects the students′ ability of using statistical software to analyze data. Based on this, we compared the application of three statistical software (Excel, SPSS and R) in the case study of paired t-test, then analyzed and summarized the advantages and disadvantages of the three software in biostatistics teaching. We summarized that it would deepen students′ understanding of theoretical knowledge and improve students′ data processing ability via choosing Excel or SPSS as teaching assistant software for undergraduate teaching. Then, gradually introducing R into teaching process could improve students ability to deal with complex data and solve practical problems, and consequently made students become comprehensive talents with the ability to understand theoretical knowledge and apply software.
Key words: Excel; SPSS; R; Assistant teaching; Paired t-test
生物統计学是大多数高等院校生物学相关专业的基础必修课,也是一门实践应用广泛的学科。生物统计学应用数理统计的知识来认识、分析、推断和解释生命过程中的各种现象和试验调查资料,从而揭示大量随机现象中的规律。通过学习这门课程,可以培养学生数据分析的能力,提高其科研和实践应用能力。但是,该课程传统的教学过程仍存在一些问题,如侧重理论知识的讲解,忽略统计软件的实践应用练习,使课程单调,理论知识枯燥、难懂,不利于培养学生应用统计软件分析试验数据的能力[1]。
随着计算机技术的普及和发展,各种统计分析软件也应运而生,在生物统计中的应用越来越广泛[2-7]。运用统计软件辅助生物统计学课堂教学,将会改善课程的教学效果,提高学生的科研和实践应用能力。常用的统计软件有Excel、SPSS、SAS、R语言和MATLAB等,每个统计软件具有各自的优缺点,如何正确选择恰当的统计软件辅助课程教学尤为重要。为此,本研究通过比较不同统计软件在生物统计教学应用中的优缺点,为生物统计学教师因地制宜地选择恰当的统计软件,进行因材施教,从而改善该课程的教学效果、提高人才的培养质量,最终达到培养具有对理论知识理解和软件应用能力的综合性人才的目的。
1 常用的统计软件
常用的统计软件有Excel、SPSS、SAS、R语言和MATLAB等,本研究主要选择3种具有代表性的统计软件进行比较,分别为Excel、SPSS和R。
Excel作为常用办公软件,较易上手,具有较强的数据计算和图表制作功能,并提供了大量统计函数和数据分析工具,如统计学参数或特征数的计算、数据分类、描述统计、t检验、方差分析、相关与回归等,这些可基本满足生物统计学的本科教学要求[8-10]。
SPSS是世界上最早采用图形菜单驱动界面的统计软件,其操作界面友好、功能界面展现规范、数据接口较为通用、分析结果输出整齐。SPSS利用菜单式操作可以实现绝大部分统计分析功能,如描述统计、比较均值、一般线性模型、相关、回归、聚类分析、非参数检验等[11],几乎涵括了生物学中所有的统计方法。
R是国外众多大学统计相关课程的教学工具和当前众多学者的科研统计分析工具。R是属于GNU系统的一个自由、免费、源代码开放的统计计算和统计制图软件。R语言在统计描述、统计作图、统计分布及统计检验等方面提供了丰富的函数,是一个用于统计计算和统计制图的优秀工具[12,13]。
2 配对数据t检验案例分析
2.1 案例介绍 以白车轴草(Trifolium repens L)根系在2种土壤(蛭石V和营养土N)中地下生物量的显著性分析为例。蛭石和营养土放置在花盆内部左右两侧,白车轴草在花盆正中间生长,通过根系分配在2种土壤中地下生物量的显著性分析,探究白车轴草根系的觅食行为(有机体在其生境内进行的促进对必需资源获取的搜寻或分枝过程)。在同样条件下种植8盆,2种土壤中地下生物量见表1。
2.2 案例理论分析 经验和正态性检验可知,2组数据均服从正态分布,且2组数据的差值形成的1个数据组也服从正态分布。对于服从正态分布的2个样本均值的差异显著性检验,一般采用成组t检验或配对t检验,其中成组t检验也称2个独立样本资料的t检验,适用于完全随机设计的两样本均数的比较,即将受试对象随机分配成2个处理组,每一组随机接受1种处理;而配对t检验适用于配对设计2样本平均数差异显著性检验,即同一样本接受不同处理的比较,或对同1个受试对象处理前后的比较,或同一对象的2个部位给予不同的处理,或将受试对象按情况相近者配对,分别给予2种不同处理,观察2种处理效果有无差别。本例题中为同一对象的2个部位给予不同的处理,因此采用配对t检验。
配对t检验,是单样本t检验的特例。配对样本观测数据之差dj形成1个新的单样本,检验此样本反映的总体均值μd是否为0。
因此,检验假设为:
H0∶μd=0
H1∶μd≠0
检验统计量为:
t=[dSd/n]~t(n-1)
其中,n为样本差值的容量,[d]为样本差值的均值,Sd为样本差值的标准差。
t=[dSd/n]=[0.19250.1111958]=-4.89656
临界值t7,0.025=2.365,[t]>t7,0.025,即P<0.05,结论是拒绝H0,认为白车轴草在蛭石和营养土中地下生物量有显著差异,且通过右尾检验,有[t]>t7,0.025=1.895,认为蛭石生物量显著低于营养土中地下生物量。
2.3 Excel软件分析步骤及结果 将表1数据复制粘贴于Excel中,在菜单“数据—数据分析”中选择“t-检验:平均值的成对二样本分析”,自动打开“t-检验:平均值的成对二样本分析”的对话框(见图1),在变量1的区域选择表中第一行数据,变量2的区域选择第2行数据,输出区域可任意选择一个空白区域,点击“确定”,可自动在输出区域内产生成对双样本均值分析的结果(见表2)。
2.4 SPSS软件分析步骤及结果 定义变量并建立数据文件。将表1中数据转置后拷贝到SPSS数据编辑器中,第一列变量为蛭石中根系生物量(V),第2列为变量营养土中根系生物量(N)。在菜单“分析(A)—比较均值(M)—配对样本T检验(P)”,打开“配对样本T检验”对话框(见图2)。选择图2左侧框中变量“V”和“N”分别为“Variable 1”和“Variable 2”,点击确定即可生成结果(见表3~5)。
2.5 R软件分析步骤及结果 在R输入下列命令:
x<-c(0.12,0.12,0.13,0.04,0.06,0.09,0.11,0.10);
y<-c(0.28,0.40,0.51,0.06,0.31,0.23,0.31,0.21);
t.test(x,y,paired=T,conf.level=0.95)
R自动产生配对t检验的结果,结果如下:
Paired t-test
data: x and y
t=-4.8966,df=7,p-value=0.00176
alternative hypothesis: true difference in means is not equal to 0
5 percent confidence interval:
-0.1950549 -0.1899451
sample estimates:
mean of the differences
-0.1925
3 讨论
利用这几个软件可快速完成配对t检验统计分析,且每个软件分析结果与理论分析结果一致。但是,不同软件的操作过程及结果输出形式不一样。对软件操作而言,Excel和SPSS都可以通过菜单式操作进行相应的统计分析,而R则需要命令式语句进行统计分析。对软件输出结果,Excel和SPSS都展示每组变量的描述、2组变量的相关性以及统计检验的相關结果;R直接显示出t检验的结果。
相比而言,Excel和SPSS操作比较简单,易学易用,适合生物统计学初学者,可作为本科教学的有效辅助工具;而R需要一定的编程基础,对于统计初学者来说过于专业,学习难度较高。但是,Excel只能做一些简单的统计分析,SPSS虽然提供了很多常用的统计方法,但是分析功能仍然有所欠缺,且用法几乎固定。相比而言,R具有一套完整的数据处理、计算和制图系统,强大的编辑语言可以通过自由撰写增加统计功能。例如,就R语言的t.test() 命令可以实现不同t检验,如果上例题中输入:t.test(x,y=NULL,mu=0.1),则检验1个样本的总体均值与0.1有无显著差异;输入:t.test(x,y,paired=F,var.equal=F),则为方差不等的成组t检验。还可以利用参数alternative设置单尾检验或者双尾检验,alternative=two.side,为双尾检验,greater和less分布为右尾和左尾检验,利用conf.level设定置信水平,默认α=0.95。此外,R还可以嵌套各种函数命令进行其他统计分析。
综上,在理论知识讲解之后,紧接着介绍Excel或者SPSS的统计功能、操作步骤和结果解释,把课程理论教学、实际案例分析和软件应用有机结合,可以加深对统计原理等理论知识的理解,并掌握应用软件进行数据统计分析的方法,产生了较好的教学效果。在今后的生物统计学教学实践中,应紧密加强Excel或者SPSS软件应用与理论教学的融合,并考虑将R等专业软件逐步引入教学中,以期进一步提升学生分析处理复杂数据、解决实际问题的能力。
参考文献
[1]王魏根,隋娟娟,偶春.“生物统计学”课程实践教学改革[J].河北农业大学学报:农林教育版,2017,19(2):98-102.
[2]王魏根,赵胡.统计软件用于生物统计学课程教学的应用[J].阜阳师范学院学报:自然科学版,2014,31(4):121-123.
[3]高丽.Excel和SPSS软件辅助生物统计学教学模式的探索[J].大学教育,2014,3(15):144-146.
[4]詹秋文.Excel和SAS在生物统计学的应用比较[J].生物学杂志,2009,26(1):74-75,83.
[5]段炼,张瑞杰,张明明,等.R语言在生物统计学课程教学中的应用[J].黑龙江科技信息,2017,18(8):61.
[6]应智霞,张欢,葛刚,等.MATLAB软件在生物统计理论教学中的应用——以抽样分布为例[J].生物学杂志,2020,37(4):127-129.
[7]谭启玲,任涛,党丽娜,等.Spss统计软件在提高生物统计学课程教学效果中的应用[J].安徽农业科学,2016,44(31):245-246,251.
[8]高丽.Excel统计功能在生物统计学本科教学中的应用[J].大学教育,2017,6(3):66-68.
[9]杨景峰.EXCEL的计算功能在生物统计学教学中的应用[J].内蒙古民族大学学报:自然汉文版,2012,27(6):738-741.
[10]张丹,吕海燕,张幸果,等.应用Excel软件有效提高《生物统计学》课程的教学效果[J].河北农业科学,2012,16(8):93-95,99.
[11]姚玉昌,滕小华,赵骞,等.有效結合SPSS统计软件,提高《生物统计学》教学效果[J].黑龙江畜牧兽医,2012,13(8):161-162.
[12]王建,戴习林,彭司华.R语言与生物统计学结合的教学实践探索[J].时代教育,2017,12(23):50-51.
[13]张哲,张豪.浅谈R语言在生物统计学教学中的应用[J].教育教学论坛,2013,4(27):54-55.
(责编:张宏民)