王少瑾
(烟台大学 经济管理学院,山东 烟台 264005)
随着互联网和计算机技术的普及与飞速发展,人类进入信息爆炸式增长的时代,各行各业每天都产生海量的数据,其可以千万亿字节来计算,可以说,人们已经进入大数据时代,大数据已经成为国家的基础性战略资源。
随着大数据时代的来临,世界各国对大数据均给予了前所未有的重视。早在2012 年3 月,美国奥巴马政府颁布了《大数据的研究和发展计划》,将大数据上升为国家战略,引起全球的广泛关注;2017 年12月,中共中央总书记习近平在主持实施国家大数据战略第二次集体学习时强调,大数据发展日新月异,应该深入了解大数据发展现状和趋势及其对经济社会发展的影响,加快建设数字中国,更好地服务我国经济社会发展和人民生活改善。
大数据价值的发挥离不开统计,统计是和数据打交道的,可以说有数据的地方就有统计。《大英百科全书》认为统计学是一门收集与分析数据,并且根据数据进行推断的艺术与科学。作为一门收集、整理、分析数据的传统科学,统计学在大数据时代既面临着空前的发展机遇,也面临着巨大的挑战。
统计学作为一门与数据打交道的科学,从诞生到现在已有300 多年的历史,在经济管理、生物医学、社会科学等领域得到了广泛的应用。传统的统计分析过程包括根据研究目的来收集数据、整理数据、分析数据,并从中得出结论。虽然大数据与传统意义上的数据有着极大的差异,但通过应用大数据技术分析研究社会经济现象,揭示总体的数量特征所需要的分析过程却与传统的数据分析过程并无本质的差别,依然可以划分为数据的收集、整理加工、分析、解释并得出结论等,文章接下来主要从这一角度对大数据时代统计学面临的主要挑战进行阐述。
“数据是统计的语言”“有数据的地方就有统计”……从这些说法中不难看出数据对于统计的意义。传统统计数据是对研究对象进行观测或实验的结果,往往有固定的结构或标准,属于结构化数据,而大数据不但包含结构化数据,还包含海量的非结构化和半结构化数据,如图片、音频、视频等。传统的统计分析指标和方法对这些非结构化或半结构化数据并不完全适用,如何直接处理非结构化数据或者如何将半结构化数据、非结构化数据转化成结构化数据是统计学面临的一个重要挑战。
传统统计数据的来源主要是根据研究目的进行的调查或实验,往往需要预先设计周密的统计调查方案,组织各种形式的统计调查或者统计实验,最终才能获得相关数据,而大数据的来源多种多样、包罗万象,如POS 机数据、电子商务数据等各种交易数据;移动通信数据;人为数据,如各种社交网络(微信、微博、推特、脸书)等社交媒体产生的数据流,包括电子邮件、文档、图片、音频、视频等;机器和传感器数据等。
传统的统计分析软件如SPSS、E-views、SAS、STATA 等可以高效处理常规的结构化数据,揭示社会经济现象的数量特征或变量之间的数量依存关系等,有效满足不同层次的统计分析者的研究需要,但对于分析具有4V(Volume、Variety、Velocity、Value)特征的大数据显得力不从心,需要开发和应用能够有效处理非结构化或半结构化数据的统计分析软件。
大数据时代,传统的抽样调查法是否有存在的必要,对此学术界并无统一的看法,一种观点认为大数据时代,研究者可以直接面对研究总体,因而相关的分析方法,如参数估计、假设检验就没有以前那么重要了;另一种观点则认为,大数据时代,对于通过网络获取的静态数据,由于客户在查看时数据已经生成,可以认为样本等同于总体;对于通过网络获取的动态数据而言,数据会随着时间的推移不断变化,因而依然存在样本和总体的区别,只不过这时的样本不再局限于传统意义上随机抽取的数据。考虑到大数据的数据特征,传统的统计分析方法如回归分析、多元统计分析等不再适用,急需探索新的统计分析方法以更好地适应时代的发展。可以说,大数据的研究需要用到统计方法,统计方法的优化完善需要和大数据相结合。
总的来说,大数据时代给传统统计学带来的冲击主要体现在统计数据的类型、收集和加工整理、分析过程等方面。
随着大数据时代的来临,国内部分高校顺应时代潮流,积极应对大数据带来的挑战,及时作出了一系列教学方面的变革,但大部分高校反应迟缓,课程改革迟迟未能提上日程,依然存在诸多不足。
大数据的数据特征对统计学的课程体系提出了更高的要求,统计学的课程设置必须与时俱进,方能彰显其强大的生命力。虽然清华大学、中国人民大学、上海财经大学等在国内统计学领域位居前列的高校已经先行一步,逐步设置了与大数据教学密切相关的课程,但绝大部分开设统计学专业的高校由于受观念和师资力量限制,课程内容比较老旧,传统的统计学课程依然占据主体地位,课程体系不够完善,教学案例和分析数据等比较陈旧,课程体系更新不够及时,根本无法满足大数据分析的需要。
目前,虽然统计学教学也开设了SPSS、SAS、STATA、E-views 等统计软件课程,但对于收集、处理及分析大数据而言,这些统计软件显得“力不从心”,无法满足半结构化和非结构化数据的分析需要。另外,学生在上机操作中主要面对的是时间序列、横截面数据、面板数据等传统结构化数据,而且研究的数据容量往往偏小,与真正的大数据相去甚远,使得学生一旦需要真正处理分析大数据时,可能会“束手无策”。
统计学课程的培养目标是培养学生的统计学思维,使其具备一定的数据分析能力。目前,高校的统计学课程考核方式大多仍以传统的笔试为主,虽然考虑到了平时成绩,但期末的笔试成绩依然占较大比例,这种考核方式并不能对教学目标是否实现进行全面准确的衡量。此外,对学生的考核很少以团队的形式开展,大多都是对学生个人能力的考核,这种教学与考核模式不利于培养学生在大数据收集、处理及分析过程中的分工合作能力,也难以真正考查学生的数据分析能力。
大数据分析是将数学、统计学及计算机科学相结合的一门学科,具有明显的交叉学科特点。虽然其分析处理过程类似于传统的统计分析过程,可分为数据的收集、整理和加工、分析、预测及应用等,但实际处理过程既需要统计学的基本理论指导,又涉及数据库的存储、数据透视、数据挖掘算法等计算机技术的应用等。可以说,大数据时代的来临对统计学教师提出了更新、更高的要求。目前多数高校统计学教师缺乏计算机教育背景,已有的知识储备难以应对大数据带来的挑战,对于涉及大数据专业知识的相关课程讲授力不从心。
从统计学诞生到大数据时代以前的发展历程来看,每一次统计学的快速发展都离不开社会生活各个领域的需求,正是农业、工业品质量监测、生物医药、金融等领域的需求一次又一次地推动了统计方法的完善和改进。而计算机科学的飞速发展进一步有力推动了统计方法在社会生活各个领域的广泛应用。大数据的兴起对统计学的应用又提出了更高的要求,这就需要高校统计学专业进行各方面的创新,从而更好地满足社会的需求。
大数据时代,统计学专业的学生需要具备收集、处理及分析复杂数据的能力。因此,统计学要积极与计算机和数学紧密结合,进一步完善统计学课程体系,培养复合型人才。大数据统计领域的人才培养需要统计学、数据及计算机等多个学科共同努力。课程设置方面,除了跟原来一样需要设置数理专业课程和统计学理论课程,还需要开设必要的计算机课程,增加数据科学概论、数据科学统计基础、Python 软件学习、并行计算等计算机类的课程。
在大数据出现之前,学生收集数据可以亲自开展社会实践调查,获取第一手数据,但这种数据获取途径往往需要耗费较多的人力、物力及财力,因而应用较少;学生更多的是通过各种网络途径获取二手数据,如国家统计局或省、市统计信息网等官方网站公布的数据,以及高校、科研院所等科研机构公布的调研数据。此类数据都属于结构化数据,要收集此类数据并不需要多么高深的专业技能,但在大数据时代,面对海量的非结构化数据或半结构化数据,即使在数据的收集阶段,也需要研究者具备一定的专业统计软件应用能力才能完成大数据的收集,更不用说接下来的数据整理加工、分析等工作了。因此,高校在将计算机和数据库应用等作为专业必修课的同时,还应高度重视Python 等软件操作的培训,切实提高学生应用统计软件的能力。
统计思维养成的关键是利用数据分析解决问题,统计学本质上是一门应用型科学,只有在应用中才能体现其强大的生命力。高校只有设置科学实用的实验课程,让学生亲自动手进行大数据的收集、降维、处理、可视化,才能使其将书本上的抽象理论知识真正消化吸收。高校可以考虑加强与当地政府统计部门、市场调查咨询公司、大型网络企业、电商企业等机构进行合作,一方面便于获取各种大数据,另一方面可以借助校外数据分析专家的力量弥补校内师资力量的不足。
目前,大多数高校统计学教师的知识储备不足以应对大数据带来的挑战,为了切实提高学生的素质,一方面高校需要对现有的教师队伍进行有针对性的优化,积极组织教师参与大数据研讨会和培训等,力争在较短的时间里培养一批在大数据教学方面有专长的教师队伍;另一方面由于各高校最早在2015 年才获批设立大数据专业,按照目前各高校引进人才的标准,这批学生即使已经毕业也不可能立刻进入高校任教,无法弥补大数据教学的师资力量不足,所以高校在引进人才时应偏向于数学、计算机或二者相结合方面的人才,以满足大数据时代新课程体系教学的需要。
随着数字社会建设步伐的加快,大数据的相关竞赛如雨后春笋般出现,如阿里天池大数据竞赛、“联想杯”全国高校大数据能力提升大赛、全国大学生大数据技能竞赛、“一带一路”国际大数据竞赛等,这些竞赛往往同时面向本科院校和高职院校,参与者众多。各高校要积极动员组织教师和学生参加各类竞赛,通过参加竞赛,一方面可以有效激发学生们的学习兴趣,提升学生的专业技能和实践动手能力;另一方面有助于参赛高校通过参加竞赛及时发现不足,有针对性地调整专业体系建设、课程设置及人才培养方案等,紧密结合社会需求,促进大数据专业人才的培养。
纵观近一个世纪以来统计学的发展历程,其每一次的飞速发展都与社会需求息息相关。当前,大数据已经渗透到人们工作和生活的每一个角落。大数据在为统计学的飞速发展提供良好契机的同时,也使得统计学教育在专业课程的设置、教学内容的更新、学生统计能力的培养、师资的培训等方面面临诸多挑战,高校统计学专业必须积极应对这些挑战,主动拥抱数据科学,进行创新性的变革,如此才能适应大数据时代,实现跨越式发展。