数据科学时代应用统计学专业人才培养方案修订分析

2023-08-24 07:32袁德强管梦妮
江苏科技信息 2023年20期
关键词:技能专业统计学

王 超,袁德强,管梦妮

(安阳师范学院 数学与统计学院,河南 安阳 455000)

0 引言

应用统计学作为一门应用性极强的学科,一直以来都是将数据作为研究对象的。由于数据源自不同行业或领域的具体业务场景,因而具有极强的时代性,应用统计学学科也具有鲜明的时代特点。21世纪以来,伴随着数据科学时代的来临,统计数据发生了巨大的变化,呈现出了“获取方式多样、数据形式多样、数据体量庞大”的典型特点。由传统的以结构化数据为主要研究对象的应用统计学学科向以非结构化数据为主要研究对象的转变。目前,大数据技术被广泛用于分析、处理和解析多个部门的海量数据集,如卫生保健、电子商务、银行与金融科技、安全、制造业、自然资源管理和利用等。大数据与人工智能、机器学习和其他技术正在推动第四次工业革命。

应用统计学专业人才培养方案是高等学校应用统计专业人才培养的指南和纲领。从培养目标的制定到专业课程设置,从理论课程学习到社会实习实践,都决定了应用统计学专业人才培养的质量。数据科学时代,对应用统计学专业的人才培养提出了更高的要求。基于此,本文探讨了数据科学时代应用统计学专业人才培养方案的修订建议,以期为完善高等院校应用统计学专业人才培养体系、提高人才培养质量提供一定的参考。

1 应用统计学专业人才培养方案修订的时代背景

1.1 统计学科的时代变迁

1690年,英国统计学家威廉配第《政治算术》一书的发表标志着统计学的诞生。从此,统计学作为一门学科开始走上历史舞台。经过3个多世纪的发展,统计学已经成功应用于从自然科学到社会科学的方方面面,在国家管理、商业决策、工业生产中发挥了重要的作用。1946年,计算机的发明改变了人类文明的发展进程,也对统计学科的发展产生了巨大影响。20世纪70年代,SAS,SPSS等商业统计软件的出现极大拓展了统计方法的使用范围。进入21世纪,在互联网和科技发展的推动下,数据的获取能力急剧增强,数据形式愈发多样,数据容量呈现出了爆发式增长。2011年,世界著名咨询公司麦肯锡发表了《大数据:下一个创新、竞争和生产率的前沿》的研究报告。2012 年,达沃斯世界经济论坛发布了《大数据,大影响》(Big Data, Big Impact)。与此同时,世界著名刊物Nature于2008 年出版了大数据专刊“Big Data”,专门讨论了巨量数据对于互联网、经济、环境以及生物等各方面的影响与挑战[1]。Science也于2011年出版了如何应对数据洪流(Data Deluge)的专刊“Dealing with Data”,指出如何利用宝贵的数据资产推动人类社会的发展[2]。这说明大数据已经引起了政界、业界以及学界的共同关注,这意味着一个全新的时代——数据科学时代来临了。

什么是数据科学呢?数据科学联盟认为数据科学指为创造意义而对数据的创建、验证和转换进行的科学研究。《剑桥词典》将数据科学定义为使用科学方法从计算机数据,尤其是大量数据中获取有用信息。英国国家统计局更广泛地将数据科学描述为应用数字和数据时代的工具、方法及实践,以创造新的理解并改善决策。也就是说,只要是从数据中提取有价值信息的理论或实践都应该称之为数据科学,只不过数据科学时代所使用数据更多的是指体量大、形式多的大数据。

1.2 统计学家对数据科学的看法

统计学家很早就注意到统计学和数据科学的关系。1962年,美国著名的统计学家Tukey在《统计学未来》一文中提出,数据分析是一种全新的科学,统计学并不等于数据分析,而是数据分析的一部分。数据分析的概念类似于今天的数据科学。

伴随着数据科学时代的来临,中外统计学者也表达了自己的看法。2014年,《统计研究》迎来创刊30周年,在新年献词中提到“一个创造、分享、利用大数据的时代,已经来到了”,并刊登了3篇有关大数据的研究论文[3-5]。2016年,《统计与信息论坛》在创刊30周年之际,以“探讨统计学创新之路 迎接大数据时代挑战”为题,邀请众多专家学者畅谈大数据时代统计学科的发展[6]。除此之外,中国统计学学会又多次组织有关研讨会,深入探讨大数据时代下统计学面临的机遇与挑战。

2018年,国际著名的统计刊物《统计与概率快报》发表了《大数据时代的统计学作用》特刊。该期特刊收集了来自统计学、机器学习、计算机、应用数学和工程学等方面不同科学家的各种观点[7]。

综合国内外有关研究可以发现,未来的应用统计学专业人才培养一定是全方位的,即统计学、计算机科学和数学的有机结合。

2 应用统计学专业人才培养方案修订的社会背景

2020年,人力资源和社会保障部发布了《新职业——大数据工程技术人员就业景气现状分析报告》,预计2020年年末,中国大数据行业人才需求规模将达210万人。2025年前大数据人才需求仍将保持30%~40%的增速,需求总量在2 000万人左右。以下根据国内外求职网址有关职位需求的状况进行简要分析。

国内方面,从51job网站爬取得到2022年9—11月共计6 110个完整数据分析师职位需求信息,计算得出全国数据分析师职位需求较多的几个城市的月薪资水平资料,描述统计结果,如表1所示。

表1 不同地区数据分析师月薪资水平描述统计分析

国外方面,美国在线求职招聘网站Glassdoor统计发现,2022年美国50个最佳工作中与数据有关的工作包括数据科学家、数据工程师、数据分析师等3个职位,按照收入中位数确定的收入分别为12.0万美元、11.4万美元以及7.4万美元。

3 应用统计学专业学生在数据时代需要的基本技能

数据科学时代到底需要什么样的技能呢?大多数研究认为数据科学时代,大数据人才是统计学、数学、计算机科学乃至其他科学相互交叉的复合型人才[8]。美国国家科学院、工程院和医学院(NASEM)于2018年发布的《本科生数据科学共识报告》(NASEM2018)提出了数据敏锐度(Data Acumen)的概念,认为在未来,本科学生应该具有数学基础、计算基础、统计基础、数据管理和规划、数据描述和可视化、数据建模和评估、工作流程和可重复性、沟通和团队合作以及伦理等8个方面的基本意识和能力。

4 应用统计学专业人才培养方案制定的几个思路

4.1 重新认识数据的价值

随着数据科学时代的来临,数据变得比以往任何时候都更为重要。数据已经逐渐成为一种资产,是一种新的经济资产类别,如同现有流通的货币甚至是黄金。党的十九届四中全会通过的《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》中首次将数据列为与劳动、资本、土地、知识、技术、管理并列的生产要素。以数据为原材料的各种数据产品的生产与销售已然成为经济发展进程中一个新的领域。人类社会需要逐渐在数据驱动情形下生活与工作。为此,需要重新审视数据的重大价值,重新定义数据科学的内涵。在此情形下,应用统计学专业更有责任与义务培养“熟谙数据思维、发现数据价值”的应用型人才。

4.2 加强与其他学科专业知识融合

数据科学是一门交叉的学科,涉及很多的领域。这些领域涵盖了统计学、数学、计算机、人工智能、机器学习、数据库、模式识别、可视化技术等多个学科。对高校而言,不同的学科涉及不同的专业。不同的专业又具有不同的人才培养方案,不同的人才培养方案又对应不同的课程设置体系。应用统计学专业不可能“独揽全局”,也不可能“独善其身”,因此在课程设置上要突出交叉特点,相互融合、取长补短、共同发展。为此,统计学专业应该增加数学、计算机、可视化等方面的课程。

4.3 突出实践特点,增强技能

一方面,应用统计学专业的培养目标是让学生具有较强的实践能力。本专业目的是培养了解统计学理论、掌握统计学方法,具有利用计算机软件分析数据的能力,能在经济、管理、金融、商业等相关领域工作的高素质、复合型的统计应用人才。也就是说,应用统计学是工具、方法与实践的高度融合。因此,应用统计学专业的学生只有增强实践技能才能满足不断变化的社会需求。

另一方面,增强应用统计学专业技能与国家的教育政策是高度吻合的。2020年7月15日,为了贯彻《中共中央国务院关于全面加强新时代大中小学劳动教育的意见》,教育部印发了《大中小学劳动教育指导纲要(试行)》的通知,对普通高等学校学生的劳动教育提出了“重视新知识、新技术、新工艺、新方法的运用,提高在生产实践中发现问题和创造性解决问题的能力”的具体要求。事实上,应用统计学专业的突出实践技能与教育部关于劳动教育的要求两者之间并不矛盾,而是具有高度的内在一致性与融合性,即通过高质量劳动教育增强实践技能水平,在实践技能提高中高质量完成劳动教育。

5 应用统计学专业人才培养方案修订建议

5.1 培养目标建议

显然,培养应用型统计人才是应用统计学专业的培养目标。同时,在培养目标的具体描述中一般都会体现“应用于哪些领域、需要具备哪些技能、最终要达到什么目的”等3个方面的内容。为了体现数据科学时代特征,就需要在这3个方面进行仔细分析。

首先,应用于哪些领域。统计学发展至今,已经普遍应用于从自然科学到社会科学的众多领域。数据科学时代,除了传统的应用领域,还会用于如社会网络分析、智能交通、科技金融等领域,这些领域或是现有领域的自然延伸,或是一些交叉领域,或是一些全新的领域。但显然每个应用统计学专业不可能选择所有的应用领域,而是应该结合学校特色、历史沿革、区位优势等因素,综合考量后确定。

其次,需要具备哪些技能。数据科学时代所需技能是一种全方位、多层次、综合性的技能。单纯使用数据分析或统计分析已经不足以体现这种特征,数据挖掘、机器学习、人工智能等前沿技能应该有所体现。

最后,最终要达到什么目的,就是应用统计学专业学生经过4年的专业学习之后,其水平能够达到什么层次。这在本质上是对学生知识目标、能力目标和素质目标等3个方面的凝练与概括,如“厚基础、重实践、强能力”的高级应用型统计人才,应用型高素质专门人才等表述。

5.2 专业课程设置建议

为了适应快速变化的数据科学时代对数据分析能力的需求,国内外众多研究探讨了统计专业课程设置的问题,这方面比较有代表性的当属以美国统计学会为代表的有关统计学教育课程的设置[9-10]。综合来看,所有研究都建议本科学生应该具备数学、统计学和计算机等多个学科的知识。根据数据科学时代对应用统计学专业知识与技能的需求,结合数据分析的整个流程,列出了应用统计学专业课程设置以及与之对应的软件使用,结果如表2所示。

表2 数据分析阶段与专业课程设置的对应关系

表2中,如何获取数据是数据分析的第一个阶段,这个阶段主要包括“统计调查”和“网络爬虫”两门课程。“统计调查”主要讲授简单随机抽样、系统抽样、PPS抽样、网络/在线调查等传统的结构化数据收集方法。“网络爬虫”定位于从政府机构、新闻媒体、社交软件、在线商城、电子商务等网络获取有关信息资料。相较于传统数据收集方法,网络爬虫更多的是为了获取“形式多样、数量巨大”的半结构化、非结构化数据。数据科学时代,95%的数据类型为半结构化、非结构化数据。因此,作为应用统计学专业的学生应该掌握这两种主要的数据类型获取方式。

数据计算可视为统计方法的核心理论知识,其主线为统计推断理论。为了全面理解统计推断理论的知识结构,需要学习概率论、数理统计、随机过程,数值分析等基础理论知识,还有相关理论知识的软件实现——统计计算。

数据建模阶段对应一些基本的统计分析方法。这个阶段既包括回归分析、多元统计、时间序列等传统的统计分析方法,也包括数据挖掘、机器学习等现代的数据分析方法。

统计表和统计图是统计学的语言。对统计表而言,其构造基本上是固定的,关键在于统计指标的设定与选择;但统计图的绘制更多是技术和艺术的结合,某种程度上体现了研究者对问题研究的广度和深度。

以上4个方面并不是孤立存在的,而是有内在联系的。NASEM2018认为随着时间的推移,随着新数据驱动时代特征的形成,学术项目将被迫开发新的技能集群,一系列独特的课程和教学材料将出现。

5.3 实践/实验课教学建议

应用统计学专业是实践性很强的一个专业,每门专业课程设置时,一般会有一定比例的实践/实验课时,目的就是让学生能够将学到的理论知识用于实践之中。但现有专业课程实践/实验教学安排中普遍存在数据过于简单、干净,导致数据处理过程比较容易,相应结论也比较完美、漂亮。事实上,简单、干净的数据意味着现实过于理想化,或者说与现实环境有较大脱节,结果是经过实践/实验课程的学习,学生实践技能并未得到有效提高。因此对应用统计学专业教学而言,如何让学生用数据“做有用的事情”是需要考虑的一个问题。

改善这一状况一种比较好的方法是开展案例(或项目)教学,案例或项目选择从企业的实际需求出发。这就意味着高校必须与企业合作,走“产学研”发展之路。另外,积极举办数据挖掘类大赛,可以让学生在解决问题中体验到成功的兴趣和滋味。

6 结语

21世纪以来,随着数据科学时代的来临,应用统计学进入了黄金发展时期。国家、企业和社会等各方面都对应用统计学专业毕业生提出了新的要求。作为人才培养的主体,高等学校需要行动起来,主动回应政府、企业和社会的关切,提高人才培养质量。而人才培养质量的高低与人才培养方案的制定密不可分。本文结合国内外应用统计学发展状况,从培养目标、课程设置、实践/实验课教学等3个方面给出了应用统计学专业人才培养方案的修订建议。

猜你喜欢
技能专业统计学
关于投稿的统计学要求
统计学符号使用的说明
统计学符号使用的说明
一句话惹毛一个专业
本刊对来稿中统计学处理的有关要求
专业降噪很简单!
专业化解医疗纠纷
劳动技能up up!
更聚焦、更深入、更专业的数据分析
秣马厉兵强技能