龚凤乾
(天津财经大学 理工学院,天津300222)
GAISE是美国统计协会(ASA)于2005年2月发布的一个重要文件,其主题非常明确,那就是通过制定此指导纲要,全面提升美国大学统计学教学水平,培养具有统计思维及数据处理能力的一代新人。它不仅对美国大学(涉及理工农医及人文社会科学等诸专业)统计学教学具有督导作用,而且对美国数学教育也产生了重大影响。美国数学协会两年制社区学院(The American Mathematical Association of Two-Year Colleges)于同年秋季采纳了GAISE,将其作为该类院校统计教育的纲领性文件。
此后,美国自然科学基金会(NSF)资助了许多与统计学教学改革有关的研究项目,而且研究成果丰富。这说明GAISE已经引起美国数学界及自然科学基金会的重视。从近几年的实践来看,美国不少院校参与了在GAISE指导下的教改实验并取得了满意的效果。有鉴于此,美国统计协会于2007年又发布了 GAISE的姊妹篇(Guidelines for Assessment and Instruction in Statistics Education:A Pre-K-12Curriculum Framework,以下简称GAISE Pre-K-12,详见本文第二节),对美国中小学统计教育也做出了规划,由此形成了严谨的统计教育体系。
为达到教改目标,GAISE精心提出如下6项教学建议[1]:
1.强调对学生进行统计知识普及,培养他们的统计思维能力。
2.强调使用现实社会的真实数据做统计分析。
3.强调对统计概念的把握,而非仅仅满足于讲述统计方法知识。
4.强调在课堂上师生及同学之间的教学互动,以培养学生主动学习的能力。
5.强调使用最新技术手段帮助理解统计学概念并进行数据分析。
6.强调使用丰富有效的评估手段评价、改进学生的统计课学习效果。
我们对这6条建议作一些较为深入的阐述。
第1条“统计知识普及”指对学生普及基本统计学术语、符号、图表,尤其是简单直观的散点图、茎叶图、箱线图等,以帮助学生动手绘制及考察所分析数据的特征。GAISE广泛吸收了“探索性数据分析”(Exploratory Data Analysis,EDA)的成果。众所周知,EDA由美国著名统计学家图基(Tukey,J.W.)于1977年提出,它运用茎叶图、箱线图、残差图、字母值、数据变换、中位数平滑等与传统统计方法截然不同的方法,进行复杂的数据分析,在实际应用中已经取得明显成效。“培养统计思考能力”指凡学过该课程的学生都应从思想上意识到工作和生活中到处都需要数据,知晓数据的产生方式,理解数据的变异无处不在,以及量化、解释这种变异的重要性。其中,数据的随机产生方式尤应重视,因为只有随机化才能使抽样调查和实验设计具备科学性和说服力:对于前者,随机化可使得关于样本的结论推广至从中取样的总体;对于后者,则可使对比试验中的因果关系推论得以做出(也唯如此才能在统计调查与实验设计中应用概率论进行分析)。
目前中国的大学统计学课本,一般都会以适当篇幅介绍一些抽样技术,但通常都没有试验设计的内容。考虑到许多学生毕业之后很少再有机会专门学习统计学,我们认为在统计学课本中应适当加入一些实验设计内容,这既有助于学生理解随机化这一重要概念,也能为他们毕业后(如有机会)从事试验设计奠定基础。
第2条强调使用现实社会的真实数据(real data)。事实上,真实数据有多种类型如“档案数据”、“课堂教学中产生的数据”、“模拟数据”等。有时为了阐述某个概念或现象如Anscombe四方图(Anscombe’s Quartet),“人为创设的数据集”(hypothetical data sets)也允许使用。Anscombe四方图是美国统计学家安斯克比(Anscombe,F.J.)1973年构造出的四组奇特数据。在这四组数据中,x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是11,y值的方差都是4.13;它们的相关系数都是0.816,线性回归直线也都是y=3+0.5x。单从这些统计分析结果看,结论似乎是这四组数据所反映的实际情况非常相近,但事实上它们有着天壤之别(线型有直线和抛物线,在直线情形离群值出现的位置也很不相同)。这说明在分析数据之前绘出它们所对应的图像非常重要。
利用真实数据有助于学生提出好问题,而若同时具备这些数据是如何取得的知识,他们还可以回答自己提出的问题,这对于学生根据数据获取方式提出研究课题(或统计问题)并尝试进行解决有很大帮助。这一点非常重要,因为统计学所说的数据总是和具体对象相结合的数据,统计学不能把抽象的数据作为研究对象,抽象的数据没有任何实际意义。
我们认为,GAISE既坚持采用真实数据又允许使用人为创设数据的做法,很有现实意义,这样做可以帮助学生开阔眼界,尽可能多了解和分析各种数据集。
第3条强调对统计概念的把握。GAISE认为如果学生不能理解催生统计方法的统计学概念,只满足于(常借助于统计软件)实施一些具体的统计计算,这样的学习价值就不大。若教师仅以这种方式讲授统计学,则不会使学生对统计学本身的重要作用获得深入理解。“1992年柯布报告”就曾强调学生准确理解统计概念的重要性,该报告是美国马萨诸塞州橡树山学院(Mount Holyoak College)统计学教授柯布(Cobb,GW),在广泛调研基础上撰写的(柯布曾于1993年当选为美国统计协会会士,2003年又当选为该会为期三年的副会长),它的提出引起美国统计协会(ASA)和美国数学协会(AMA)的重视。事实上,GAISE提出的这6条建议即可视为“1992年柯布报告所提建议的细化和发展”。陈希孺院士也曾告诫我们,“要用好统计方法,除了与问题有关的专业知识外,对统计概念的直观理解,以及对方法的理论根据的认识(它关系到方法的应用条件及局限性)也很重要”[2]1-2。可见,中外统计教育家无不重视统计概念的正确理解与把握。在计算机及信息技术已经普及、学生们往往轻点鼠标即可完成统计计算任务的新形势下,GAISE为教师如何帮助学生把握统计学概念,提供了许多颇具操作性的指导规范,值得我们(尤其是教学经验相对较少的中青年教师)学习借鉴。
第4条强调课堂上师生及同学之间的教学互动,以培养学生主动学习的能力。GAISE认为要通过这种互动达到使学生学会发现、形成、理解重要统计学概念,以及有能力进行统计建模的目的。教师决不可低估这种活动的重要性。师生的教学互动,既可使教师有机会了解学生的学习能力,也使教师对自己的教学效果获得信息反馈以改进教学。而学生之间的互动,既可迫使学生尽量使用所学统计术语与同学沟通,也有助于增强他们的团队精神。满堂灌式的教学很难激起同学们的学习欲望,也很难使他们感受统计方法的巨大威力。实施教学互动也要坚持使用真实数据原则,师生要为解决问题去搜集数据,而非“为搜集数据而搜集数据”。
第5条涉及使用技术手段帮助理解统计学概念并进行数据分析。电子计算机及信息技术的发展已经彻底改变了统计学家的工作方式,也至少在数据自动计算及图形自动生成两个方面改变了统计学的传统教学方式(在二三十年前这些任务主要靠手工操作才能完成)。而一些统计学抽象概念如抽样分布、马氏链蒙特卡罗方法(MCMC)等,离开计算机模拟技术的帮助,要透彻理解它们几乎是不可能的。需要指出,美国统计学家柯布等人已构思了全新的统计学导论讲义。它一反传统,在描述统计部分突出探索性数据分析,在推断统计部分以“置换检验”(permutation test)为 中 心,利 用 所 谓 “3R 方 法 ”(Randomize,Repeat and Reject)重建整个统计推断理论[3]。这样做的好处是:第一,容易理解;第二,突出了对随机数据的处理,手法一贯,不像经典统计学为迁就正态分布而枝蔓丛生,方法复杂而不易掌握;第三,对自助法(bootstrap)这一当代最重要的重抽样技术,具有天然适应性,从而使初学者也能很快掌握前沿统计方法。这一动向应该引起注意。
第6条涉及统计学教学的评估手段。GAISE认为评估须和教学目标相互协调一致,毫无疑问,学生的统计计算能力需要评估,但更重要的是评估其对关键统计学概念的把握。课堂提问、作业讲评、考试、书面报告、学生撰写小论文、对报刊报道涉及统计信息的部分进行评论、批评等,均可用作教学反馈、评估的手段。有经验的教师都知道,上述任何一种评估手段要想使之发挥作用,离不开教师的精心备课与批改作业。而要使评论公允、比喻精当,从而达到对学生准确把握统计学概念有较大帮助的境地,教师本人就应该积极了解统计学前沿发展,不断地进行学习。
综上可知,这6条建议是一个有机整体,应该一并施行,如此才能达到GAISE希望达到的目标。
GAISE还详尽地从教与学两方面提供了配套措施。就学生而言,这些措施旨在帮助他们弄清楚某些关键性统计学概念;对教师来说,则是提供具体的教学评估方法来达到教学目标。限于篇幅,对这些细节就不作介绍了,读者可登陆Aliaga等人论文所在网址自行查阅[1]。
如前所述,美国统计协会(ASA)于2007年颁发GAISE的姊妹篇GAISE Pre-K-12,对美国中小学统计教育做出规划,其宗旨也是提升美国中小学统计教育水平,培养初步具有统计思想及数据处理能力的中小学毕业生。不过,鉴于中小学学生的认知水平,GAISE Pre-K-12化繁为简,以“一条主线,三个圆圈”为经纬规划全美中小学统计学教学大纲。主线即“提出问题—收集数据—分析数据—解释数据”,据此初步培育学生的统计能力;三个圆圈为初级水平(Level A)、中级水平(Level B)和高级水平(Level C),在这三个水平上教学侧重点有所不同。这条主线沿这三个圆圈不断地螺旋上升,就构成了GAISE Pre-K-12的全部内容。
对于小学生而言(初级水平),统计教育主线如何贯彻需要斟酌,必须寻找一个合适的切入点。GAISE Pre-K-12认为把培养学生的“数据感觉”作为切入点是合适的,要设法使学生认识到数据不单纯就是“数目字”,而是在一定背景下有特定意义的数字信息,运用适当的统计方法就能将看似散乱的数据转变成有用的信息。
这一看似平常的做法很有意义。首先,这样做符合儿童的思维发展规律;其次,这样做还可以潜移默化影响学生,使他们今后不去臆造数据。为达此目的,GAISE Pre-K-12为教师精心安排了三个教学示范案例。1.聘请乐队。学期结束时某班级小学生计划请一支乐队来助兴他们的班级聚会,但因班费有限,他们只能在乡村音乐(Country)、说唱乐(Rap)及摇滚乐(Rock)这三种音乐演唱方式中挑选一种,请一支乐队来演唱。该例涉及如何为分类数据选择代表性数值。2.豌豆生长。种植在花盆中的豌豆是在阳光下还是在黑暗中成长更快些,需要进行试验才能得出结论。教师可让学生分为两组,各在一个花盆中栽种10粒豌豆;一组将花盆置于教室的向光处,另一组将花盆置于教室的背光处;过一段时间后,两组学生分别测量各自花盆中豌豆豆苗的生长长度(以厘米计)。该例旨在阐述这样的事实,即一个定性变量“光照条件”可以对一个定量变量“豌豆豆苗长度”产生影响(更深入的讨论将在高中统计学课程中进行)。一组数据的代表性数值除众数外(众数对定性、定量数据皆适用,但并非所有数据都有众数,即使有也不一定唯一),还有平均数和中位数,后二者只适用于定量数据并且在任何一组数据中它们都存在且唯一。3.购买运动服。该例涉及度量身高与臂长这两个(数量型)变量之间的关联程度。鉴于小学生的知识水平,此时尚不宜引入“相关系数”这种测量两随机变量相关性的数量化指标,最自然的做法就是利用散点图来形象地展示身高与臂长的相依情况。例如,对某班全体26名学生,可将他们的身高作为横坐标,臂长作为纵坐标(均以厘米计)绘制散点图。从散点图中容易看出,随着他们身高的增加,其臂长一般也会变长。两变量之间的相依关系一目了然。教师可以引导学生思考,如果用本班这26名学生身高、臂长之间的相关关系推断全校同学身高与臂长之间是否也存在这种关系,就要认真考虑样本的代表性问题,不可想当然地认为全校同学身高与臂长之间也一定存在这种关系。在中学阶段将比较深入地考虑样本代表性问题。
由此可见,统计图(以及统计表)在帮助小学生感知真实数据,将看似散乱的原始数据转变成有用信息方面能够发挥重要作用,应该充分利用。
在中级水平阶段,统计教育主线要通过大量手脑并用的教学实践活动给予强化,以便承上启下,为学生步入高级水平打好基础。这一阶段的重点,是借助于实例使学生了解两随机变量之间的(线性)相关性,为其日后深入学习随机变量(向量)相关性度量做些准备。仍以上文教学示范案例1为例,若问“喜爱摇滚乐的学生会不会也喜爱(或不喜爱)说唱乐”,这就涉及两定性变量的相关性度量问题了。通常利用所谓“双因素列联表”(a two-way frequency table)可以较好地解决这一问题。列联表统计分析常会涉及非常复杂的问题,即使在大学阶段要想彻底搞清楚列联表分析的方方面面也绝非易事。因此,在中学阶段如何向学生阐述这一统计方法就需要精心考虑和适当安排。GAISE Pre-K-12的做法是充分利用2×2列联表,通过引入“取舍一致/取舍不一致计数比”测量指标(agreement-disagreement ratio,ADR),较好地完成了阐述两定性变量相关性度量的任务[4]71-89,也为高中阶段更深入讨论这一专题作了必要准备。在高级水平阶段,统计教育主线主要通过初等回归分析来贯彻。
GAISE Pre-K-12提供了一个学生身高对前臂长进行回归的现实例子:让学生自己测量本班24名同学前臂长(x)及身高(y)(以厘米为单位),所得原始数据如下:
表1 某班学生前臂长度和身高长度
要求:(1)根据该资料做身高对前臂长的散点图;(2)根据散点图的启发,计算身高、前臂长的皮尔逊(积矩)相关系数;(3)写出身高(y)对前臂长(x)的线性回归方程;(4)给定x0=42(厘米),利用所作回归方程预测相应的值,并对预测可靠性进行解释;(5)对问题(4)求出的求其置信概率为95%的置信区间。
前三个问题即描绘散点图、计算身高、前臂长的皮尔逊(积矩)相关系数(约为0.8)以及建立身高(y)对前臂长(x)的线性回归方程,在电子表格软件Excel(或其他专用统计软件)支持下,很容易解决。所求回归方程为:
这就是说,如果同学A、同学B的前臂长相差1厘米(B同学前臂长稍短),则一般而言,A同学身高会比B同学高出2.76厘米。
GAISE Pre-K-12更进一步要求学生回答具有鲜明统计意义的问题(4)、(5),亦即要求学生具备“在分析数据时从整体上把握并利用统计分布”的能力(显然,正态分布基础知识必不可少)。应该说这是一个相当高的要求,因为根据中国教育部2003年所颁布《普通高中数学课程标准(实验)》,我们对“变量相关”的教学要求仅为“经历用不同估算方法来描述两个变量线性相关的过程,(使学生)能根据得到的近似直线进行简单的估计”,重在帮助学生掌握最小二乘法。显然,这种要求尚未脱离中学代数范畴,尽管中国教育部制定的这个高中数学课程标准,在概率部分也包括正态分布的内容[5]45-54。
众所周知,若假设误差服从正态分布,上述问题(4)、(5)皆可获得解决。
利用平方和分解方法,构造F-统计量,可完成回归方程整体有效性检验。由,得到身高),问题(4)得到解答;而利用随机误差方差(进而其标准差)之估计值,再利用,不难写出置信概率 为 95% 的 置 信 区 间 为,计算得到{161.7±2×5.8},其中问题(5)亦得到解答。
总之,GAISE Pre-K-12的目标是使美国儿童通过系统的统计教育,具备相应的统计思维能力。无论他们今后以何身份参与社会活动或继续深造,其数据分析与判断能力(含应用概率论),都是他们综合能力中不可或缺的组成部分(当然他们也需具备“数及数的运算能力”、“代数能力”、“几何能力”以及“测量能力[6]”)。必须从小学起就要专门开展这种训练。应该说,这种统计教育理念顺应了信息时代的发展要求,是素质教育一个极其重要的组成部分。
最后,我们将GAISE Pre-K-12中一个列表转录如下(略有调整),以利读者加深对它的了解。
仔细观察可知表2十分有趣,从不同角度切入,读者可以得到不同的启发与提示。例如,纵向观看,不仅某教学阶段沿“提出问题—收集数据—分析数据—解释数据”主线解决统计问题的步骤得到了全面展示,而且,也充分考虑了数据变异性及其处理。若横向观看,它将不同水平关于同一专题如样本代表性、统计分布等的教学要求,择其要点并列排出,既可避免教学重复也便于知识衔接。
表2 GAISE Pre-K-12主要内容
综上可知,GAISE及其姊妹篇的指导思想非常明确,那就是通过制定此类纲要全面提升美国各级学校统计学教学水平,培养适应信息时代要求且具有坚实统计学知识、具有统计思维能力的一代新人。实践表明,美国近年来统计教育大幅改革的效果是显著的,也是成功的。
这种改革对中国的统计教育改革具有较强的参考价值。首先是中小学、大学统计教育联动改革。目前中国这方面的改革尚不多见,也缺乏规划。GAISE和GAISE Pre-K-12已经树立了参照系,值得我们仔细研究。参照其成功做法,利用几年时间建立起我们自己的从中小学到大学连贯性统计教育体系,应该提上日程了。
其次是课本编纂。课本乃一课之本。GAISE及其姊妹篇实施后,美国各级学校统计学课本已有较大改观。总的特点就是计算机(软件)的使用越来越普遍,不仅数值计算、图表制作已广泛利用计算机(软件),统计推断也愈加依赖计算机(软件)来完成。“提出问题—收集数据—分析数据—解释数据”这一统计教学主线,在计算机的辅助下实施起来已变得容易多了。更为重要的是,利用计算机还可将探索性数据分析、自助法(重抽样的一种)等当代流行统计方法,比较容易地添加到统计学导论这样的课本中去,使不少今生恐怕只有一次学习统计学的大学生,也有机会(甚至相对容易地)掌握它们。这种做法目前在中国流行的几套统计学教材中也很少见到[7]104-125。我们的现行教材在描述统计、推断统计及案例与练习的安排及展示方面,与美国比起来,显得尚未脱离传统的窠臼。“提出问题(兼顾数据的采集、分析及应用概率论解决所提问题)—收集数据(了解统计调查及实验设计中偏误的来源)—分析数据(尤其关注数据之间的差异)—解释数据(在一定的实际背景下并借助于图、表等工具)”的主线不尽突出。我们应该增强编写出更能反映时代要求的统计学教材的紧迫感。
再次,我们的计算机辅助教学及互联网在线支持力度也不够大,需要做出持续的改进。
总之,只有教学双方具有共同的兴趣(学生对统计学的兴趣主要靠教师来培育),教学互动才容易开展,也容易激发学生的学习主动性。GAISE及其姊妹篇在这方面做出的努力值得我们学习借鉴。
[1] Aliaga M,Cobb G,Cuff C,et al.Guidelines for Assessment and Instruction in Statistics Education[EB/OL].http://www.amstat.org/education/gaise/GAISECollege.htm,2005.
[2] 陈希孺.概率论与数理统计[M].北京:科学出版社,2000.
[3] Cobb G W.The Introductory Statistics Course:A Ptolemaic Curriculu[J/OL].http://www.escholarship.org/UC/item/6hb3k0nz,2007.
[4] 王静龙,梁小筠.定性数据分析[M].上海:华东师范大学出版社,2005.
[5] 严士健.统计与概率[M].北京:高等教育出版社,2006.
[6] Midgett C W,Eddins S K.NCTM’s Principles and Standards for School Mathematics:Implication for Administrators[EB/OL].http://bul.sagepub.com/cgi/content/abstract/85/623/35,2008.
[7] 曾五一,肖红叶.统计学导论 [M].第2版.北京:科学出版社,2006.