陈秀平 赵丽央
摘要:大数据为统计学发展提供了新的平台,同时也为统计学专业的课程教学提出了新的挑战。本文首先分析了大数据赋予统计学专业人才新的要求,在此基础上探讨了本人在教学上的想法和思考,认为应从问题驱动教学、加强实验教学、依托科技竞赛三方面入手,让学生真正理解统计思想,掌握统计计算与计算机编程能力,具备“用数据思考”的能力,让统计学真正成为推动大数据处理与分析的有力工具之一。
关键词:大数据;问题驱动;实验教学;科技竞赛
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2018)31-0206-02
在大数据背景下,统计学以数据为研究对象没有变,作为方法论科学的性质没有变,以探索真相为根本任务没有变,但是数据分析思路与技术有新的要求:①统计专业人才不仅要掌握数学和统计理论基础知识,还要具备统计计算和计算机编程能力;②统计专业人才应该能从实际问题出发,设定科学的研究方案,搜集、筛选合适的数据,选择恰当的统计方法和模型,得出合理的统计推断,将统计分析结果用易于用户理解的方式表达出来;③统计专业人才不仅需要良好的统计素养,还需要具备良好的交流和表达能力,演示和分析结论的可视化技巧、团队合作能力。
基于大数据赋予统计学专业人才的新的要求与对本专业学生的社会适应能力以及社会需求的了解,为我们做好统计学专业的课程教学改革工作指明了方向。笔者结合教学实践和科技竞赛的指导经验,谈谈在大数据背景下统计学专业的课程教学的几点思考。
一、问题驱动教学,深度理解统计思想
在大数据背景下,统计学专业人才应该懂得统计方法在什么情况下如何应用,应该深刻理解统计原理背后隐藏着的数学思想,并能够解释数学推导与统计应用之间的相互关系。对于统计学本科培养而言,极其重要的一点是帮助学生在统计学方法和理论方面打下扎实的基础。这些基础知识需要被讲解,被论证,被强化,此过程应当贯穿于学生的全部学术课程,伴随介绍性的课程开始,并在接下来的课程中不断被强调。比如:“假设检验”是《概率论与数理统计》中非常重要的章节,对假设检验P值的解读,很多学生都是云里雾里,不知道将结果如何通俗易懂地表达给用户。为此,笔者在讲解“假设检验”这知识点时,应用实际问题驱动的教学模式,取得了比较显著的教学效果,具体教学方案设计如下:
引入“假设检验”知识点之前,先让学生讨论一下身边的实际问题:“某老板说:本次摸奖的中奖率很高,中奖的概率为0.9,当你摸了三次,都没中奖,试问:这位老板说法可信嗎?(假设摸后放回)”,在这个问题之后,又连续提了四个问题,问题1:假设老板说法是可信的,那么三次摸奖都没中奖的概率是多少?问题2:那老板的说法可信吗?为什么?问题3:当你拒绝了老板的说法是可信的,你会犯错误吗?问题4:如果给定显著性水平,那么当你摸三次奖时,出现哪些中奖情况会认为老板的说法是可信的,哪些中奖情况会认为老板的说法是不可信的?这个“实际问题”对学生来说就是一个兴趣、一种“催化剂”。“实际问题”能激发学生浓厚的学习兴趣和求知欲望,让学生的主体性、能动性、独立性不断得到张杨、发展、提升,促进学习方法的转变;“实际问题”能引起学生对新概念、重点和难点知识的深度理解,能够在教学中起统帅作用的,能引起学生对其进行火热思考,能触及数学本质的问题。
二、加强实验教学,提高统计实践能力
大数据背景下的统计学专业人才不仅需要掌握数学与统计理论基础知识,还需要具备计算机编程能力,演示和分析结论的可视化技巧,以及将分析结果通俗易懂地表达给用户的能力。因此,在教学中重视实验实训教学,不仅能将抽象的统计原理具体化、可视化,而且能提高学生实践操作能力。比如:在教学《概率论与数理统计》时,可以利用R软件进行辅助教学,R软件是自由软件,完全免费,且开放源代码;R是一种可编程语言,语法比较简单,可视化比较强,具有较强的互动性。相较于其他统计软件如SPSS、SAS等,R的独特之处是其特别适合辅助《概率论与数理统计》教学。比如,上完“假设检验”知识点后,让学生借助R软件完成课后习题第220页第17题:对两种小麦品种从播种到抽穗的天数是否存在显著差异,数据如下:
品种A所需天数(x):101 100 99 98 100 98 99 99 99
品种B所需天数(y):100 98 100 99 98 98 98 99 100
假设两样本依次来自正态总体。这是典型的两样本均值比较问题,首先检验两总体方差是否相等,我们可以先做一个方差检验,用R中函数var.test完成。如果P值小于给定的显著性水平(比如说0.05),则拒绝原假设,认为两个总体的方差不相等,反之,则认为两个总体的方差相等,然后再检验均值是否相等,用R中函数t.test完成,默认情形为方差不相等。本题方差检验的P值为0.8993,则认为两个总体的方差相等,然后用函数t.test(x,y,var.test=TRUE)进行检验两个总体的均值是否相等,其结果的P值为p-value=0.4675,则认为两个总体的均值无显著差异。如果借助R软件就不需要烦琐的计算与求解,只需要几个简单的函数,就可以完成假设检验。目前,很多与大数据有关的行业都需要熟悉R和Python语言的统计人才来分析数据,因此,将R语言引入概率统计的教学中,不但可以提高教学效率,而且能提高学生的实践操作能力。
三、依托科技竞赛,培养创新统计人才
目前,越来越多以培养和提高大学生创新创业能力的多种学科竞赛活动在全国高校范围内广泛开展,这些赛事都能为提升大学生调研能力、数据分析能力和处理实际问题能力的创新统计学科人才培养模式提供一个良性平台。真实数据是统计专业教育的重要组成部分。分析真实数据,解决实际问题,让学生真真切切地感受到数据就在我们的身边,同时也感受到统计方法是分析大数据的重要工具之一。比如,当学生掌握了“假设检验”的知识点并学会使用R软件进行统计分析后,就进入小组合作分析真实数据解决实际问题的实战阶段。为此,笔者选择了2012年的全国数学建模A题(葡萄酒的评价问题),题目中提供的实际数据比较详细,根据学生的实际情况可以把原题中第一问题,分解为三个小问题:问题1:对每组评酒员的总评分进行正态性检验。问题2:对通过正态性检验的样品酒进行正态总体的均值检验,对没有通过正态性检验的样品酒进行非参数检验。问题3:如果两组评酒员的评价有显著差异,那么哪组评酒员的评价更可信?
掌握了假设检验的原理与方法并学会使用R软件进行统计分析后,分析葡萄酒评价问题就比较容易上手,比如对于问题1,学生就会应用比较稳健的Jarque-Bera统计量,即J-B检验,J-B检验在SPSS软件中是没有的,由于R软件比较灵活,学生就可以借助R软件进行编程,很快找到解决问题的方法。
依托科技竞赛,精选能真正训练学生学以致用的素材,让学生懂得要完成以上的竞赛题,不仅要掌握“假设检验”这一模块的知识,还需要计算机编程能力,团队合作能力,查阅资料和自学能力,数据分析与处理能力,撰写报告能力,等等。
在统计学课程的每一章节或者每一模块结束后都进行这样的实际问题的解决,不但让学生掌握了该章节或该模块的核心知识,而且让学生知道了该章节或该模块的核心知识的实际应用,同时让学生在不同的学习阶段就能完成综合实际问题解决的阶段任务,提高了学生的实践能力和职业能力。
四、结论
大数据时代,数据分析的思维必然要跟着变化,意味着我们的数据认识思维、数据收集思维、数据判断思维、数据分析思维等都要跟着变化。大数据时代对于实际问题的分析、数据处理、计算分析、统计分析结果的解读等方面都提出了更高的技术要求。因此,大数据背景下的统计课程的教学模式亟待解决,首先,应用问题驱动的教学方法,让学生深度理解统计原理背后的统计思想,这一点的训练直接关系到学生对统计分析结果的解读是否正确、科学。其次,加强实验教学,引入比较灵活的R软件辅助教学,让学生学会计算机编程,因为在大数据背景下,就业单位急需具有计算机编程能力的统计人才。最后,依托科技竞赛,培养学生调研能力、数据分析能力和处理实际问题能力,在大数据时代,这种能力尤为重要。
参考文献:
[1]孟生旺,袁卫.大数据时代的统计教育[J].统计研究,2015,(4):3-7.
[2]徐德义,林志恒.对大数据时代大学统计教学的认识与思考[J].大学教育,2015,(11):183-184.