孙廷哲
(安庆师范大学生命科学学院,安徽安庆 246133)
“生物统计学”是一门关注数理统计方法在生命科学研究领域的应用,以统计基本原理和方法挖掘生命现象和调查资料信息的学科.随着二代测序等各种高通量技术的不断革新和信息化数据的爆发式增长,生命科学研究需要面对愈来愈多的数据,进入了大数据时代.如何从大量数据中提炼有效信息是一个亟待解决的问题.因此,“生物统计学”是生命科学各专业的必修课程,对于培养和提高本科生的科学素养、分析和解决问题的能力具有十分重要的意义.但对于绝大多数生命科学专业的学生而言,“生物统计学”又是一门非常复杂且实践性较强的学科,具体表现为基础概念偏多,公式较为复杂且难于记忆;同时生命科学专业学生数学基础较为薄弱,加之研究生入学考试并不含有数学科目,学生的学习积极性不高,种种因素使得“生物统计学”的教学存在一定的困难.传统的方法,譬如将“生物统计学”的授课学期安排在大学数学的教学学期之后虽能部分解决数学基础薄弱的问题,但受到宏观课程安排限制,不能使得所有专业学生受益.因此,探索生物统计教学的新方法、突破复杂抽象理论的桎梏显得十分必要.笔者结合课程特点、经过多年“生物统计学”教学实践和教研室全体教师的共同努力,探索出行之有效的途径,即在“生物统计学”课堂中融入统计学史教学、问题驱动式教学和加强统计学软件的运用,进而显著的提高了学生的学习兴趣和知识掌握程度.
早在19世纪,欧洲科学家即意识到课堂教育中融入数学史的必要性.De Morgan和H.G. Zeuthen都明确指出了数学史教育在实践教学中的重要意义[1].美国著名数学家D.E. Smith指出:“数学史教育能够体现出各种研究策略的成功与失败经验,使人汲取经验教训,进而获得最优的教学手段”[2].生物统计学作为数学方法在生命科学中应用的一门学科,是一门相对较新的学科分支.因此,将统计学史融入“生物统计学”的教学过程中亦显得十分必要,能够在一定程度上激发生命科学相关专业学生的对统计学的兴趣.另外,生物统计学史的课堂引入可以弥补单纯依赖教材进行教学的不足.受教材编写和数学基础限制,高等院校常用《生物统计学》教材严重缺乏对生物统计学基本史实的介绍[3, 4], 从而极易造成学生对具体统计方法原理的误解.以拟合优度检验进行教学案例说明.拟合优度检验(goodness of fit test)是用来检验实际观测数据与依照某种假设或模型计算出来的理论数之间的一致性,进而判断该假设或模型是否与观测数相配合[5].在常用的《生物统计学》教材中,拟合优度检验会运用一个χ2公式:
其中A为实际观测次数,T为理论观测次数.χ2检验的自由度为df.另外,在自由度为1的情形下,需要运用矫正公式.
笔者发现,除记号表示差异外,这一段描述在多数高校《生物统计学》教材中基本一致,并认定χ2拟合优度检验是由K. Pearson在1900年完整提出来的[5].不过,这段“一致性的描述”本质上是对拟合优度检验的一个误导.历史上,在1915年,G. U. Yule和M. Greenwood发现,在使用2×2列联表探索伤寒和霍乱疫苗效果的试验中,拟合优度检验和另一种常用统计学检验方法产生了完全相反的结论,从而指出了问题所在,即检验自由度(degrees of freedom)问题[6].R. A. Fisher在1922年证明,K. Pearson的拟合优度检验自由度过大,必须进行自由度修正[7].虽然K. Pearson在同年进行了反驳[8],但毫无疑问,R. A. Fisher的证明是正确的,χ2检验的自由度应由rc修正为 (r-1)(c-1).所以,教材中的拟合优度检验χ2公式应当认为是K. Pearson和R. A. Fisher共同成果,而不应该将其简单认为是前者单独所有.笔者在授课过程中对这段历史进行简单的介绍,从而引导学生正确理解生物统计学检验方法的历史发展过程,也能够辅助学生对拟合优度检验的掌握.
另外,对于一些常见的生物统计学概念,譬如高斯分布(Gauss distribution)并不是由高斯首先发现的,而是由Abraham De Moivre首先写出公式[9].这些在高等学校《生物统计学》教材中被忽略的内容需要由教师进行系统性的介绍,从而引导学生正确理解基本概念.
A.5处水质监测点6个样的细菌计数(/mL);B.箱线图;C.MATLAB方差分析(ANOVA)结果;D.多重比较结果图1 不同水质监测点大肠杆菌数目的比较Fig.1 Comparison of E. coli in Different Monitoring Spots
强调教学设计,联系专业实践,以实际问题为基础提出教学案例,从而引导学生理解复杂理论.在正常的生产生活中,人类经常与数据打交道.对特定研究对象的测量、记录和分析过程中会产生大量数据.即使对相同事物进行观测,由于随机性的存在,每次的观测值也会具有一定的差异[4].对于生物学试验及调查所得的资料,由于使用方法和研究的性状特性不同,其资料性质也不相同.方差分析是本科生物统计学最重要的内容之一,此方法旨在比较多组数据之间的数据差异,用来解决t检验进行多组数据间比较时所造成的提高了犯第一类错误概率的问题.在一个多处理试验中,可以得出一系列不同的观测值.造成观测值不同的原因是多方面的,有的是处理不同引起的,称之为处理效应;有的是试验过程中偶然性因素和测量误差所致,这一类称试验误差.方差分析的基本思想是将测量数据的总变异按变异原因不同分解为处理效应和试验误差,并做出数量估计.
以一次水质监测数据为例,探讨方差分析的应用.共计五处监测点,每监测点取6个样本,共计30个样本.此例适用于单因素方差分析,探讨不同监测点水样大肠杆菌数目的差异(图1A).将数据输入为MATLAB变量EcoliNum(为6×5矩阵),在命令行中输入boxplot(EcoliNum), 结果如图1B所示.我们发现在水质监测点1中的大肠杆菌数目较之其它组有明显的升高.在命令行中输入[p,tbl,stats]=anova1(EcoliNum)以进行方差分析,结果如图1C所示.通过方差分析表,引导学生区分组间和组内的方差和自由度.我们发现p=0.000 1,即拒绝方差分析原假设,认为至少有两个水质监测点间的大肠杆菌含量存在极显著差异.继续进行多重比较,输入multcompare(stats),结果如图1D所示.鼠标点击第1组数据,被点击组别数据将会变蓝,与蓝色组有显著性差异的组将变为红色,无显著性差异组为灰色.因此能够判别第1组和第2-4组数据(红色)之间存在显著差异,而第1组和第5组(灰色)之间的差异不显著(图1D).用鼠标点击其它组,通过颜色的判别,即可进行多重比较.此案例通过互动方式,加深了学生对方差分析和多重比较基础理论的理解,也在一定程度上提高了学生解决实际问题的能力.
随着信息技术的发展,“生物统计学”的教学也应当随之改进.十三五规划中指出:“践行知行合一,将实践教学作为深化教学改革的关键环节”.当下高等院校的“生物统计学”教学中往往机械的对理论进行讲解而不重视实践能力培养,从而使得学生仅仅学到了理论知识点,而不具备知识运用能力[10].所以,注重实践教育是摆在高等院校生命科学专业“生物统计学”课堂教学的紧要任务.那么,引入软件演示教学辅助理论分析,对数据进行合理解释,提高学生实际上机操作时间,这些举措可以显著提高学生的动手实践能力,从而实现学以致用[11].
A.SPSS绘制散点图;B.MATLAB绘制散点图图2 SPSS和MATLAB散点图比较Fig.2 Comparison of Scatter Plots in SPSS and MATLAB
目前广泛使用的统计学软件有SAS,Excel,R和SPSS.Excel的统计分析功能较为简易,不过Excel表格作为常用的一种数据存储方式,使用Excel进行数据分析也是一种便捷的方式.SAS是最为专业的统计学软件,商业软件SAS统计分析方法全面,但是SAS的统计分析绝大多数需要进行编码操作,且缺少友好的用户图形界面,不易被掌握,所以不利于课堂教学中使用.R语言属开源性质,具有不断完善的统计分析包,所以常规数据统计分析可用R语言实现.R语言可实现内部循环,从而可对高通量数据进行模拟分析.但用R语言进行统计分析需编写代码,不适用于初学者.SPSS具有友好的用户图形界面,分析方法较为全面,无须进行编程,操作简便易行.因此,在一般的“生物统计学”课堂教学中,SPSS是较为理想的选择.不过值得注意的是,上述四种统计学软件的绘图能力非常薄弱,而统计数据和分析结果的展示又是十分重要的环节.所以,笔者推荐使用MATLAB进行统计分析.MATLAB作为一种高级语言,亦可实现循环操作;其统计工具箱经过不断完善,已颇具规模,包括了常用的统计分析方法.另外,MATLAB中生物信息学和系统生物学工具箱也包含了丰富的高级统计学方法,可以为生物学研究提供强有力的辅助.以图1所示的方差分析为例,SPSS进行多重比较需读取表格输出中的大量数据;而MATLAB既提供了丰富的数据并记录于输出变量中,同时也提供了一种互动的方式,通过鼠标点击进行组间差异性的统计推断.因此,MATLAB的统计分析更为多元化.值得注意的是,MATLAB的绘图能力非常强大,图谱美观,可提升对原始数据的展示效果.以散点图为例,使用SPSS绘制散点图仅提供了散点位置信息,其同时展示多重信息的能力较弱(图2A);而使用MATLAB命令scatterhist,既能展示散点位置,也能同时对数据分布特征进行描述.如图2B中提供了一种变量x和y的核密度估计(kernel density estimation),能够同时反映数据的分布特征.另外,通过调整scatterhist输入参数,亦可同时绘制变量箱线图和直方图.虽然MATLAB需编写脚本,但其语法较之R和SAS大为简化,教师亦可提供编写好的脚本提供给学生,从而方便学生使用MATLAB进行统计分析.综上所述,笔者认为针对有兴趣的学生,可适当引入MATLAB进行统计学实践教学,进而为今后的科研工作中使用MATLAB高级分析功能奠定基础.
A.不同教学班级成绩分布;B.平均分的变化;C.学生评教分数变化图3 近四个学年“生物统计学”教学效果统计Fig.3 Statistics for Teaching Effects in the Last Four Academic Years
以上提到的三种方法,即统计学史融入、问题驱动式教学和加强统计学软件应用,对其效果的检验需要进行教学实践.笔者通过近四年来10个教学班级的教学实践来推断“生物统计学”教学改革的效果.
2016-2017年和2017-2018学年,笔者共负责6个教学班的“生物统计学”教学工作.在这两个学年中,笔者按照常规“生物统计学”教学授课方式进行教学,同时严格按照教材章节顺序介绍生物统计学相关内容.结果显示,这6个班级的“生物统计学”期末总评分数除2017-2018学年某班级成绩显著降低以外,其余班级分数较为平稳(图3A).班级的平均成绩多维持在接近70分的水平(图3B).另外,考察学生的评教分数侧面反映了学生对课程的兴趣.笔者发现随着时间的推进,学生对“生物统计学”的教学认可度和学习兴趣总体上也有逐渐降低的趋势(图3C).生命科学相关专业的学生数学基础较为薄弱,仅具有一般的简明微积分基础.而“生物统计学”公式概念较多并具有一定难度,所以学生在学习“生物统计学”过程中容易形成不良情绪,这种情绪会严重影响学生对课程的掌握.以上事实促使笔者进行教学模式思考,并尝试同时引入统计学史教育、问题驱动式教学和丰富软件运用多种手段.笔者近两年即2018-2019学年和 2019-2020学年第一学期进行了统计学史融入课堂教学的实践,同时设计问题,引导学生对实际问题进行思考和分析,指导学生使用SPSS进行数据统计,并引导有兴趣的学生使用MATLAB.在保证学生能够理解的前提下,对相关理论进行推导,同时介绍历史上的统计学家对相关问题的讨论,指出教材中内容介绍的错误和局限性;不受限于指定教材的章节安排限制,适当调整章节介绍顺序以适合历史发展规律等.通过近两年的教学实践,笔者发现学生的成绩有显著的提高,且平均成绩升至80分左右(图3A和3B,紫色,Kruskal-Wallis检验,p=2.355 3×10-24).而进行统计学史融入,进行问题驱动式教学和丰富统计学软件应用之后,四个班级之间学生成绩则没有显著差异(图3A,紫色,p=0.973 0).另外,学生的评教分也具有较为明显的提升(图3C),表明学生对教师教学的认可程度和对课程的兴趣都具有一定的改善.因此,通过教学实践,笔者认为统计学史融入、问题驱动式教学和丰富生物统计学软件的应用可能对提高学生的统计学素养具有积极影响.
基于统计学史融入教学、问题驱动式教学和加强统计学软件应用的“生物统计学”教学方式改革取得了较好的教学效果.问题驱动式案例教学引起了学生普遍的关注,提升了学生学习兴趣,舒缓了课程压力.值得强调的式,国外学者对统计学史融入数学教育进行了深入的探讨.虽然统计学史融入的必要性得到了较为广泛的支持,但如何融入实践教学中仍然具有一定的讨论空间,是不断发展的一个课题.值得注意的是,统计学史融入课堂教学的教学实验可以基于情感因素,即在课堂中利用部分时间介绍统计学史和背景;也可以基于认知方面,即通过统计学史融入的案例研究来观察学生的心智图像是否得到显著增强.显然,前者的教学实验的数量多于后者,这可能与后者的研究方法较为复杂有关.所以,从情感和认知两方面研究统计学史的融入效果将会是一个新的挑战.值得注意的是,笔者关注的是这三种途径的综合效果而并未严格设计统计学试验探讨其中某种途径或交互作用的显著性影响.通过精确的试验设计,即设置对照组和处理组可能会影响到不同分组内学生对“生物统计学”的学习效果.笔者的最终目的是提升学生对“生物统计学”的学习兴趣和知识掌握程度,从而有别于一般的统计学试验.同时,在学校政策允许的范围内,适当增加实践操作技能考核的比重(如增加至总评成绩的30%),弱化“生物统计学”理论也是一种潜在的行之有效的教学方法,不仅能够提升学生的学习兴趣,而且能够强化学生的实践能力.另外,将“雨课堂”融入“生物统计学”教学也是一种可行的方式.师生通过“雨课堂”APP,在课前-课中-课后的每一个环节开展讨论,师生互动不下线,促进教与学的活跃气氛,提升课堂效率.但“生物统计学”由于具有数学类学科的属性,注重演化,在板书上进行推导仍然起到关键性作用[13].因此,“雨课堂”的引入需要以一种混合的方式,即线上和线下交融的方式进行.将在线教育与课堂教学灵活结合,使在线和传统教学达到优势互补.混合式教学在“生物统计学”的应用既能使教师起到监督作用,同时也能够体现学生的积极性和主动性.这些设想需要在今后的教学实践中进行尝试.只有不断地进行创新改革,才能更好的提升“生物统计学”课程的教学质量,为今后培养专业的具有较强实践能力的生物统计学人才奠定坚实的基础.