广东财经大学华商学院 赵慧琴华南农业大学 刘金山
基于大数据时代的《数据处理技术与SPSS》实验课程的教学改革与探讨
广东财经大学华商学院 赵慧琴
华南农业大学 刘金山
随着社会科学技术的不断发展,人们已逐渐进入大数据时代。大数据的分析,也因此变得越来越重要。《数据处理技术与SPSS》作为一门数据分析的课程,也要不断适应大数据的需求。因此,本文针对大数据时代数据分析的特点,找出《数据处理技术与SPSS》课程的实验教学中还存在的一些问题,并针对这些问题提出相应的对策,一定程度上为同类课程的教学提供借鉴参考。
大数据;实验课程;SPSS;教学改革
随着社会科学技术的飞速发展,尤其是电脑-互联网的普及,淘宝网的出现,智能手机等快速移动设备的不断更新,使得数据呈现爆炸式增长,人们逐渐进入大数据时代。2015年9月,经李克强总理签批,国务院印发《促进大数据发展行动纲要》,系统部署大数据发展工作。可见,大数据是越来越受到了大家的关注,尤其是国家层面的关注。大数据不是基于人工设计、借助传统方法而获得的有限、固定、不连续、不可扩充的结构型数据,而是基于现代信息技术与工具可以自动记录与储存和连续扩充的、大大超出传统统计记录与储存能力的一切类型的数据[1]。大数据不仅复杂多样,而且具有潜在价值,可以根据需求不同将其运用到生物、医疗、经济、金融、科学、环保等众多领域。大数据作为一种战略性资源,对科技进步和社会发展具有重要的现实意义。
大数据的潜在价值,往往都需通过数据分析才能实现,而SPSS软件正是数据分析的一种常用工具。因此,在这样的大数据时代,关于SPSS软件的实验课程的教学就显得尤为重要。
(一)大数据不会自动产生好的分析结果
大数据不会自动产生好的分析结果[2]。数据分析结果好坏一定程度上与数据的完整性、代表性有关。如果数据不完整或取舍不当、代表性不强,就易产生错误的结论。比如利用样本数据推断总体特征时,如果总体的变异性小,那么抽得的样本的数据就能较好反映总体的特征。反过来,如果总体的变异性较大,那么抽得的样本的数据未必能反映总体的特征,也就是样本的取舍不当,使得代表性不强,则会严重影响分析结果。
(二)大数据分析中对事物的分类、筛选和聚类分析等运用较多
近些年来,大数据的处理技术已得到一定的发展,但也还存在一些问题,有时需要借助计算机科学、数学等学科联合解决。与此同时,为了更好挖掘大数据的价值,还需要对大数据进行筛选、分类、聚类等分析,从中发现规律,解决问题。
(三)大数据分析往往会涉及不同时间和不同空间上的数据变化规律
大数据分析往往会涉及不同时间和不同空间上的数据。时间维度包含生命周期、数据的时间态、流化与增量、时效等元素,空间维度又包含三元空间、粒度、数据传输与迁移、数据空间等元素[2]。针对这些数据,一方面要找到它们变化的规律,了解它们的本质特征,然后再对应设计计算模型和算法。
(四)大数据的核心是预测
大数据是把数学算法运用到海量的数据上预测事情发生的可能性。比如淘宝网上预测某种商品在某一段时间内的销售量,这样店员可以根据预测的销售量提前准备相应的供货量。还比如对股市的波动情况进行分析,建立时间序列模型,再根据所得模型预测未来某一时间的股市价格。通过这两个例子我们可以发现建模的重要性,只有模型建好、建准确了,才能保证结果预测的准确性。
(五)在大数据时代,更关注的是事物之间的相关关系,而不是因果关系
舍恩伯格和库克耶提出大数据时代的三大趋势之一就是相关分析对原来因果关系的替代[3]。当然,这种替代也不是完全的。大数据时代来临之前,研究者往往会更关注事物之间的因果关系。但事实上,我们有时只要知道相关关系就可以解决问题了。比如知道什么时候是买机票的最佳时机,就算不知道价格变化的原因也没关系。相关关系可以帮助我们捕捉现在预测未来,不仅涉及到线性关系,还有非线性关系。比如研究人们收入水平与幸福感之间的关系。通过研究发现并不是收入水平越高,幸福感就越高。它们之间实际是一条曲线。这个发现对决策者来说就很重要。政策重心不是完全放在增加收入上,而是提高低收入人群的收入水平。
(一)教师科研项目和实践案例缺乏,尤其缺乏大数据案例
首先,一些教师由于进行横向、纵向项目的主持和参与研究较少,在科研实践能力上存在不足,导致实践案例选择受限,或没有形成完整的统计分析意识,而科研实践能为课程教学准备大量的素材,提高课程教学的新颖性和前沿性,但教师的科研方面不足势必会影响到案例的选取。其次,由于教师缺乏实际公司、企业等职场的工作经验,对这些公司、企业的实际问题的分析也就少之又少,这样的实践案例也就不容易获得。再者,由于近几年才逐渐进入大数据时代,因此,在实际的实验教学案例中,关于大数据的例子是比较少的。往往是过去几年的一些案例数据,这些数据显然已经过时,不具时效性。
(二)实验内容训练的侧重点与大数据时代的实际工作中的侧重点不一致
在以往常规的实验内容教学中,一般针对描述性统计分析方法、参数检验、非参数检验、方差分析、回归分析、聚类分析、因子分析等内容讲解和应用多一些。但在大数据时代,除了前面的一些方法,还对相关分析、主成分分析、时间序列分析等运用也较多。再者,针对每一种方法训练的侧重点也不同,比如针对回归分析,在常规教学中更关注模型的建立和检验,而对模型的预测应用却训练不多。这显然与大数据的核心不一致。因此,针对实验教学的内容侧重点就要做些调整和补充。
(三)软硬件配置不够先进,不能满足大数据的需求
大数据的特点之一就是会有海量数据出现,而海量数据对内存的要求很高。我们现在所用的内存通常容纳不了海量数据,比如我国所有移动客户的相关资料信息就是海量的数据。曾经一高校的教授被中国移动委托进行客户群的研究,当该教授要把数据资料拷在电脑里时,拷到中间死机了,后来才发现数据太多,电脑容量不够,内存偏小。
(四)对学生收集数据的能力培养不够,尤其是大数据的收集
教师在对学生进行实验训练时,一般都把现成的数据放在SPSS数据文件里,再发给学生练习的。学生也只会照搬书里的方法步骤进行SPSS的菜单操作和数据结果分析。但对于如何获得数据以及如何在SPSS里设置数据变量或者在Excel的数据如何根据分析需要放在SPSS数据文件里却是很不熟悉。如果给学生一个实际问题进行分析,从收集数据、输入SPSS数据到分析数据,学生可能就无从下手了。
(五)学生对大数据处理结果不能很好的分析解释
学生在学习SPSS的课程时,往往更关注软件的操作,但对软件运行出的结果却容易忽略。这也与学生在学习相关统计理论知识时,知其然,不知其所以然有关。比如在主成分分析中,对各主成分表达式的书写中,表达式的系数计算(每个特征值对应的单位特征向量)就是一个难点。还有每个主成分的得分计算,要求带标准化后的变量值进行计算,但很多学生在此处往往会忘记变量的标准化,直接带入计算。还比如在因子分析中,有些学生不清楚每个因子得分可在数据编辑窗口直接可得出,还要自己动手算半天,算完还不正确,这样再根据每个因子得分计算综合得分时,也就更不能保证正确了。
(一)不断更新实践案例,增加大数据分析的案例
为了适应大数据时代的需求,教师在教学的过程中一方面要更新实践案例,结合现今的一些公司企业的案例给学生讲解数据分析方法,另一方面还要多找些关于大数据的案例,比如涉及中国移动、中国联通、淘宝网等有海量数据的案例分析。针对这些案例,给学生讲解具体问题中用到哪些统计方法进行分析,如何分析结果等都要讲解得很清楚。
(二)实验内容要与时俱进,与大数据时代的实际工作紧密结合
针对实验内容要与现今的大数据时代相适应。因此,首先增加一些更适合大数据分析的实验内容,设计对应的实验项目,同时还要调整实验内容的讲解和训练的学时数。比如增加主成分分析方法和时间序列分析方法的学时数;还比如对于回归分析,要增加一些模型预测的内容的训练;而对于非参数检验,由于实际用得并不多,可适当减少一些学时。对于需要调查问卷进行分析问题时,则要增加一些实际案例的训练,让学生从问卷的设计到数据的收集、处理、分析等整个过程都要参与完成,以达到让学生运用SPSS软件真正解决实际问题的能力。
(三)提高数据分析的软硬件配置,满足大数据分析的需求
大数据分析首先要有较高的硬件配置,尤其是内存的容量要足够大,要能够容纳海量数据,即至少要在1000个TB以上。其次,要有较新版本的SPSS软件,版本越高,其功能越多,使用越方便,越符合大数据分析的需要。目前较新的SPSS软件版本已达到22.0,而且是商业版的居多,即IBM SPSS 22.0.IBM CEO Sam Palmisano曾表示IBM正在将新一代数据分析作为公司的研发重点, IBM在此项目上投资了1亿美元。IBM实验室的研究远远超出了海量数据的范围,并已经着手大数据的分析研究。(四)丰富大数据资料来源,提高学生搜集数据的能力
为了提高学生自主学习能力,在搜集实验数据的手段上进行改革。一方面,让学生从国内外优秀教材、各类统计年鉴、市场调查资料中搜集统计分析资料,提高学生统计资料的获取、筛选能力;另一方面,通过中国知网数据库,查阅相关经济管理类专业文章,找出文章中有用的数据。教师可以让学生多参加一些比赛,比如市场调查大赛,全国数学建模大赛、全国统计建模大赛等,这些比赛都需要先搜集相关数据,再分析、处理数据的。
(五)加强对学生统计分析方法的理论指导,提高学生分析解释数据的能力
教师在上课过程中,要边讲统计方法理论边讲具体应用。有些应用是在软件操作的过程中,有些应用在数据分析运行结果中。比如,对于数据的标准化,一方面要指导学生数据标准化的计算公式,和标准化后的数据特征;另一方面则是操作,指导学生在菜单中通过分析→描述统计→描述,打开对话框,把要标准化的变量从左边框中移入到右边变量框中,然后选择将标准化得分另存为变量,点击确定后,提醒学生在数据编辑窗口便可看到标准化的结果了,这样也就方便进行主成分分析了。还比如对于各种检验的结果判断,通常情况是要把检验统计量算出的概率P值与显著性水平大小α进行比较。若 P<α,则要拒绝原假设。
总之,通过对数据处理技术与SPSS实验课程教学的改革,有利于学生学习效果的提升,另外还培养了学生分析问题、解决问题以及自主学习、团队合作的能力。研究结果能为该类课程的教学实施提供一定的参考。
[1]李金昌。大数据与统计新思维[J]。统计研究,2014,(1):13-15.
[2]李金昌。从政治算术到大数据分析[J]。统计研究,2014,31(11)。
[3]田茂再。大数据时代统计学重构研究中的几个热点问题[J]。统计研究,2015,32(5):3-12.
[4]邱东。大数据时代对统计学的挑战[J]。统计研究,2014,(1):16-22.
[5]方巍,郑玉,徐江。大数据:概念、技术及应用研究综述[J]。南京信息工程大学学报,2014(23):3-15.
[6][英]维克托。迈尔-舍恩伯格等著,盛杨燕等译。大数据时代-生活、工作和思维的大变革[M]。浙江人民出版社,2013.1.
[7]朱建平,章贵军,刘晓葳。大数据时代下数据分析理念的辨析[J]。统计研究,2014,(2):10-19.
[8]窦清。基于金融市场综合实验室的SPSS实验教学的思考[J]。实验室研究与探索,2007,(4):21-23.
赵慧琴(1982-),女,山西人,广东财经大学华商学院统计学讲师,主要研究方向为经济统计。
刘金山(1958-),男,河南人,教授,现为华南农业大学教授,主要研究方向为现代贝叶斯方法、金融统计等。
注:本文为2014年广东省青年创新人才类项目《数据处理技术与SPSS重点课程建设》,2014年广东省质量工程项目《统计学专业实验教学示范中心》,2013年广东省质量工程项目《经管综合实验教学中心》的阶段性成果。