大数据背景下本科统计教育的思考

2018-05-14 15:54方江林
教育界·下旬 2018年7期
关键词:大数据样本统计学

方江林

【摘要】文章首先探讨了大数据时代来临对统计学带来的机遇和挑战,然后分析了大数据背景下目前本科统计教育普遍存在的问题,并针对其存在的问题提出了相应的本科统计教育改革建议。

【关键词】大数据;统计教育;样本;统计学

大数据是社会发展和技术进步的必然产物。最早提出大数据时代到来的是世界知名的麦肯锡咨询公司,大数据在金融、生物信息、通讯等行业早已存在,但因近年来互联网和信息行业的发展而引起人们的广泛关注。随着大数据时代的来临,统计学作为对数据进行处理分析的方法论学科,必然会受到大数据的影响。近年来,统计学专业被拆分成统计学、应用统计学和经济统计学三个本科专业,目前全国已有近两百所高校开设了统计学专业。显然,统计类专业快速发展与当前大数据时代背景有着密切的联系,大数据时代给统计学带来了机遇的同时也带来了更大的挑战。

一、大数据时代给统计学带来的机遇

大数据时代使得统计学的应用范畴进一步扩大。传统的统计学一般都是根据有限样本信息去了解某一现象的结果或者原因,但基于包含海量样本信息的大数据的统计学科将向大家展示的是一个更为具体和完整的过程。以前,在应用统计分析方法时,往往习惯于根据“研究目的”来驱动“收集数据”。往后,由于包含有效样本信息的大数据随处可得,人们将会反过来用“数据”驱动“研究目的”,这种功能性的改变将会促进统计学应用范围的进一步扩大。例如:传统的统计学方法往往被用来作为一个数学形式的参考信息,例如生物统计、经济应用统计等,但在大数据背景下,数据本身所含有的信息更加丰富化和多元化,包含海量有效信息的样本数据唾手可得,而这些信息涉及我们生活中的各个方面,这些信息一旦被挖掘出来,将会促进许多产业的快速发展。另外,在大数据背景下,传统统计学方法的结构化数据局限会进一步放大,我们需要在非结构数据条件下进行有效统计分析,这将促使统计学方法应用到许多传统意义上无法数据化的领域中。

大数据时代背景下,统计学学科科体系将会得到新的延伸。统计学方法在面对包含海量有效样本信息的大数据时,庞大的数据使得样本的选取、标准划分都产生了新的变化,传统统计中的有限样本将会进一步向趋于总体大样本的方向发展,这将促使包括“总体统计”和“样本统计”的新的统计学学科体系的形成,能够有效消除“总体统计”的数据采集难度,弥补“样本统计”的数据采集不足,达到有效延伸统计学学科体系的目的。

二、大数据时代给统计学带来了更大的挑战

新生事物的出现定会导致传统观念和技术的变革。例如,数码相机的出现导致了传统相片胶卷照相行业的几近萧条和衰退,如果大数据能够包含所有父亲和儿子的身高数据的话,我们只要通过计算给定父亲身高条件下其所有儿子平均身高就能够比较准确地预测出其儿子身高了,这样的话在预测过程中模型选择不再重要,传统统计学方法中“神奇”的回归预测方法也将不再“神奇”。大数据的到来将对传统的统计方法进行考验,云计算机平台的建立、社会网络的形成以及企业逐利与公共管理的需求均给统计分析方法和技术带来了发展机遇的同时,也给统计学以及统计教育带来了更大的挑战。在当今大数据时代,其他学科和行业纷纷涌入大数据的热潮,如果统计学不抓紧跟随步伐加入大数据历史潮流的话,那么将会面临着被边缘化的危险。目前统计学的主要目标还是通过收集、整理和分析数据,从而发现数据背后隐含的真理,这样的统计方法和理论对数据的要求比较高,而大数据充满了各种随机的和非随机的误差和偏倚,很难满足这些苛刻的要求。其实,只要我们能从大数据中得出具有可证真伪的结论,那么这个结论就应该算是科学的,应该可以用于知识积累。

统计学作为一门传统的方法论学科,其发展历史悠久,特别是近一个世纪以来取得了空前的发展成果,无论是从学科理论领域还是从生产实践过程来看,统计学的发展已经相对较为成熟,其研究成果非常丰富,统计学的不断发展为人类社会的发展和技术进步带来了极大的影响。随着大数据时代数据的到来,呈现出大量的数据,而且其数据的分布状态更为广泛,这对统计学的影响是特别明显的。首先,大数据时代的数据之“大”主要体现在维数高和容量大,有时候这种“大”已经超出了我们的想象。当然,海量的数据能让我们对于事情的认知程度更加全面,因此,大数据改变了数据样本与总体之间的关系。其次,大数据时代其数据具有多样性的特点,改变了传统统计学方法对数据统计分析的主观要求,过去我们进行统计分析的目的更偏向于追求“为什么”,而现在的统计分析的目的更倾向于探索“是什么”。

大数据时代对统计软件以及统计方法提出了更高的要求。随着计算机科学技术的快速发展,能够用于解决统计计算问题的统计学软件应运而生,统计学软件的使用大大提升了统计学中对数据分析和处理的效率和精准率,使得很多复杂的统计方法得以实现。大数据背景下,传统的统计软件如SPSS等,已经不能够实现大数据的高速传输、存储功能。因此,软件功能还需要一定的开发和升级,使其满足大数据时代对统计软件的要求。

三、目前统计学教育存在的一些问题

(一)对统计学作为一门学科的理解有偏差

目前仍有许多人将统计学视为数学的一部分。当然,如果考虑到数理统计是如何发展的话,他们这样理解也不是完全错误。然而,必须要强调的是,统计数据不应该纯粹作为数学科目来教授。统计学方法的教学过程需要利用数学知识,但其方法的基本目标是用来分析数据,解决实际问题,即使在统计理论研究中也是如此。在没有应用的情况下教授纯理论是不科学的。目前,统计学教育过程中对实例数据建模和分析技能的培养不够重视。而与不重视应用相反的另一个极端是,有一些人支持这样一种观点,即统计学可以完全脱离数学。随着计算机科学技术的快速发展,各种统计软件涌现出来,如SAS、SPSS、MINITAB、R和s-plus等。在分析数据的时候,他们可以通过一个流行的软件包轻松获得结果。在整个过程中,他们可能不需要处理任何数学公式,这导致一些人认为不需要数学理论基础。例如:有一位生物学家到某个学校的统计学实验室交流,她致力于尋找新的蝙蝠种类,为此她找到了两组体形不同的蝙蝠,其中一组4只,另一组9只,通过计算基于正态分布的假设检验统计量后,得出的结论是两组样本有显著性差异,于是她声称自己找到了一种新的蝙蝠物种,她的结论显然是不科学的。

(二)本科统计学教学课程设置不够科学

合理的课程体系应该是与实现培养方案所制定的学习目标一致的一系列课程,体系中的课程之间应该相互协调,应该避免内容上的重复和遗漏,同时还应该比较灵活,为学生的自身发展留下较为宽松的空间。目前国内多数高校统计类专业的培养方案学习目标不够明确,从而导致课程设置时对学习目标考虑不够充分,这种课程设置存在一定的隨意性。目前多数学校的课程体系主要强调各门课程在教学内容上的系统性和完整性。这种课程设置方式有其优点,但也难免存在一些不足,不同课程之间的教学内容容易出现交叉和重复,各门课程的教学内容与培养方案制定的学习目标难以完全对接。例如:《应用回归分析》和《计量经济学》中的单方程计量经济学模型部分很多内容是交叉和重复的,在课程教学内容设置上要考虑怎么解决好这种教学内容交叉和重复的问题。

(三)就业前景令人担忧

目前统计教育和就业前景都令人担忧,统计教育应该适应行业和社会需要,如果统计教育脱离行业和社会需求,那么将导致统计毕业生的就业问题,就业问题反过来会导致统计学专业招生的困难。例如:某高校2012年招收了60名统计学专业学生,后来对这批学生进行了一项跟踪调查,结果显示大多数人对统计学缺乏基本了解,学生们不知道统计学意味着什么和以后能做些什么,他们不知道统计学本科毕业后是否能在中国的中小城市找到工作以及做什么。在这种情形下,大多数毕业生被鼓励去读研究生,但读研后最终还是要走向工作岗位的。后期跟踪调查结果显示,这批学生中只有少数人在毕业后找到了令人满意的且专业对口的工作。这种就业前景的不确定性将影响到中国未来统计学专业的发展。

四、大数据背景下本科统计教育改革建议

数据是统计学的基础和核心,大数据来临之后,传统数据的意义发生了改变,这将使得以此为基础的统计学学科及其统计教育也必然会随之做出改变。

首先,需要构建适应大数据时代的统计学教学体系。学好和用好统计学方法并不是一件简单的事,它需要学生有良好的数理基础,掌握好从数据的收集到数据整理、分析各个环节的技能。因此,我们需要建立课堂、实验室和社会实践相结合的教学体系,使学生在掌握统计学方法理论基础知识的同时,还能够熟练运用统计方法解决实际问题。

其次,重视数学基础类课程的教学。统计专业的本科生应该对统计方法的统计思想有深刻理解,能用数学语言来表达统计思想。本科生要达到这些要求首先要有良好的数理基础。

再次,本科统计教育要重视统计计算。传统的数理统计教育偏向于统计思想和统计理论和数学推导过程,而对统计计算的重要性认识不足。在许多情况下,用数值模拟代替复杂的数学推导,会使得结论更加容易理解,这对统计专业的本科生而言是非常有效的学习方法。因此,在大数据时代,本科统计教育应重视统计计算。

最后,重视专业统计软件的使用。在大数据背景下,统计方法的实现和模拟都离不开软件。专业统计软件很多,譬如SPSS、SAS和R等等。总之,教学中可以使用的专业统计软件很多,但基于EXCEL的统计本科教学时代应该尽快结束。

【参考文献】

[1]孟生旺,袁卫.大数据时代的统计教育[J].统计研究,2015(04):3-7.

[2]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014(01):5-9.

猜你喜欢
大数据样本统计学
关于投稿的统计学要求
统计学符号使用的说明
统计学符号使用的说明
本刊对来稿中统计学处理的有关要求
推动医改的“直销样本”
村企共赢的样本