周蕾 王留洋 洪龙
摘 要:作为一个多学科交叉的新兴学科,目前数据科学专业的人才培养和专业建设工作还在不断的探索中。合格的数据科学专业毕业生应该拥有基本的专业特征和良好的数据敏锐能力。针对这个培养目标,文章设计了一个通用的基于数据敏锐的数据科学专业课程体系框架,框架以数据敏锐极小课程集来保证学生的专业特征,辅以数据科学关键概念领域集合中的众多课程、实践课程以及其他领域知识课程。为更好地培养学生的数据敏锐能力,文章从课程实施角度探讨了数据敏锐愿景下的数据科学专业人才培养路径,提出强化极小课程集中的课程教学来夯实专业基础,重视大数据实践教学,加强专业和不同领域不同学科之间的合作,以更好地满足社会对数据科学人才的需求。
关键词:数据科学;数据敏锐;极小课程集;课程体系;强化教学
中图分类号:G642 文献标识码:A 文章编号:1002-4107(2024)02-0046-04
随着互联网技术的发展,社交网络、电子商务等各种应用的普及,数据以前所未有的速度增长,各行各业都迫切需要数据处理、数据分析、数据管理和决策等各类数据人才。在此背景下,全球各大高校纷纷开设数据科学相关专业,包括密歇根大学、史密斯学院、墨尔本大学、爱丁堡大学等众多名校。我国最早在2016年开设大数据专业,截至到2022年,中国教育部批准设立“数据科学与大数据技术”和“大数据管理与应用”这两个本科专业的高等学校分别达到679所和141所。
对学校而言,开设数据科学专业首先需要制定这个新专业的人才培养目标和教学方案,以“数据科学与大数据技术”专业为例,不同的高校人才培养目标和定位不同,相应的人才培养方案也有很大的区别。美国国家标准与技术研究院(NIST)对此给出了建议[1],它认为数据科学与大数据分析紧密关联,是统计、数据挖掘、机器学习领域的一个超级集合,其中数据挖掘不仅需要数学和统计技能,还需要对相关领域知识的理解。作为一个多学科交叉的专业,在培养专业人才的过程中,如何更好地体现专业特征,应根据不同培养目标构建更科学且切实可行的人才培养方案。国内外很多学者对此进行了深入的研究。EDISON数据科学框架对NIST提出的数据科学能力进行了扩展,将数据科学能力(CF-DS)分为5种,每个能力有与之配套的知识体系和模型课程,用于指导数据科学专业教育和培养框架设计[2-3]。LI XIN等针对应用型大学数据科学专业本科学生的培养目标设计了人才培养方案[4]。王国仁等提出面向基础、面向能力、面向领域、问题驱动、国际化的大数据专业课程体系[5]。朝乐门等从特色课程的视角提出了数据科学与大数据技术这一新专业应重视的10门特色课程[6]。石兵等以培养具有行业特色和可持续竞争力的大数据卓越人才为建设目标,提出构建多层次、多类型、健全的卓越人才培养体系[7]。
虽然众多文献对大数据人才培养和专业建设进行了研究和实践,但从课程框架设计角度研究数据科学专业人才培养路径的文献相对比较少。本文将从数据科学专业学生数据敏锐能力培养角度,来探讨通用的数据科学专业课程框架设计和培养路径。
一、数据科学关键概念领域与数据敏锐
美国国家科学院在一份数据科学本科教育的研究报告将数学基础、计算基础、统计基础、数据管理和处理、数据可视化等纳入数据科学关键概念领域[8],指出数据科学专业毕业生必须拥有一定的数据敏锐能力。基于此,我们提出数据科学关键概念领域的集合DASKCA(Data Science’s Key Concept Areas)和数据敏锐+集合DACUP(Data Acumen Plus),其中DASKCA={数学基础,统计基础,计算基础,数据知识与技术},用于表示数据科学的专业特征,DACUP={获取数据的能力,理解数据的能力,数据组织和管理能力,数据分析能力,基于数据做出判断和决策的能力}[9]。合格的数据科学专业毕业生应该拥有DACUP中表述的能力。
尽管各个大学设置的课程不尽相同,但培养数据敏锐必然包含一些最基本的、不可或缺的课程,这些课程构成了数据科学专业的极小课程集。为了从DASKCA中析出极小课程集,使其可以支撑学生专业能力的培养,需要分析DACUP中的数据敏锐能力与DASKCA中各个关键概念领域元素之间的支撑关系,最终确定相关概念领域的课程,实现对能力培养的支撑。
下面将根据DACUP中定义的每种数据敏锐能力要求,在DASKCA中确定可以支撑的关键概念领域和相关的课程集。
1.与获取数据相关的课程。数据是数据科学的灵魂,是一切操作的基础,高质量数据的生成有助于提高处理效率和結果的正确性。大数据采集主要包括系统日志采集、网络数据采集以及特定接口数据采集等,通过分布式日志收集系统或网络爬虫技术,可以从系统日志或网站上抓取需要的数据,并对数据进行清洗、转换等预处理,为后续数据分析提供真实完整可靠的数据。培养学生获取高质量数据能力的主要课程包括在DASKCA的“数据知识与技术”“计算基础”和其他领域知识之中。具体课程包括系统日志采集、流数据采集、网络数据采集、数据清洗以及数据转换等。
2.与数据组织和管理相关的课程。采集处理后的数据一般都是以数据库方式保存在计算机中,可能是本地数据库,也可能是分布式数据库,数据库可以是传统的关系数据库,也可以是新型的NoSQL数据库。根据不同的应用场景和需求,可能对数据进行传统的OLTP
(On-Line Transaction Processing)处理,也可能需要利用ETL(Extract-Transform-Load)工具对数据仓库进行操作,完成更高层次的OLAP(On-Line Analytic Processing)操作。为了培养学生组织和管理数据的能力,需要DASKCA集合中的“数据知识与技术”和其他领域的知识,可能涉及的课程包括数据库技术、数据存储与检索、高级数据库、数据仓库、海量数据存储、可扩展的数据系统、Hive等。
3.与数据分析相关的课程。对数据进行分析以获得知识是数据的价值所在。统计学是对大数据进行搜索、比较、归纳等方面的应用基础,利用各类统计分析模型分析数据,得到具有说服力的结论。数据知识与技术中的统计分析工具对高效率的完成数据分析提供了帮助,学生需要熟练掌握。在数据分析中,包含于计算基础的人工智能,特别是机器学习相关算法,已成为判断、决策和从大数据中挖掘有价值模式的主要工具,可见计算技术在数据分析的过程中发挥了非常重要的工具作用。另外,由于处理数据时往往计算量巨大,传统串行算法已难以满足操作的性能要求,因此需要高性能的云计算和并行处理技术。这些技术涉及到统计基础、计算基础、数据知识与技术和其他领域的知识,可能涉及的课程包括程序设计语言、数据结构、机器学习、人工智能、分布式处理与并行计算、大数据分析、R语言、数据可视化、概率论与数理统计以及应用多元统计分析等。
4.與判断和决策相关的课程。拥有较强的数据判断和决策能力对数据科学专业人才的培养至关重要,集合DASKCA中的数学基础和统计基础可使学生能应用推理、建模和数据分析等基本概念检验假设,了解随机试验和非随机研究的方法,建立和评估数据模型,从大量纷繁复杂的数据中找出规律,给出决策建议,提升决策者的效率和水平。可能涉及的相关课程包括高等数学、线性代数、离散数学、数学建模、优化算法、统计学、统计推理与建模等。
5.与理解数据相关的课程。大数据来源复杂多样,如何正确理解来自不同行业领域和不同类型的数据?数据科学毕业生在处理和分析不同领域大数据时需要具备行业相关的背景知识。数据的归属和使用有什么约束?虚假的数据会给人类社会带来什么样的危害?如何确保数据安全,保护用户隐私?数据科学专业的毕业生应具备与数据相关的法律、道德、经济、哲学等方面的深刻认知,具备大数据时代基本的数据伦理、数据素养和社会责任感,必须认识到数据归属、隐私、安全等的重要性和对其不重视可能带来的严重后果,比如为了从数据分析中得到正确的结果或有效的结论,必须采用真实数据,故意采用假数据是不可原谅的道德问题;数据隐私、数据安全涉及法律,这些应是数据科学专业毕业生谨记的底线。需要特别说明的是,DASKCA集合中并没有这部分能力直接对应的关键概念领域,其培养是贯穿在其他能力培养的学习和活动中,数据的获取、存储、组织管理和分析、建模等,每一个环节无不要求学生正确理解数据,恪守数据操作规范和职业道德约束。理解数据的能力培养需要相关的领域知识和数据伦理、职业道德规范等课程的支持。可能涉及的课程包括数据科学道德、大数据中的人与价值、数据伦理与隐私以及大数据应用的相关领域知识等。
综上,数据敏锐能力DACUP的能力培养必须有DASKCA中相关课程和活动的支撑,与此同时,还需要行业领域知识、职业道德规范等其他领域知识的支持。
二、数据敏锐极小课程集
数据科学专业课程涉及数学、统计学和计算机科学等多个知识领域,尽管各个大学设置的课程不尽相同,但培养数据敏锐必然包含一些最基本的、不可或缺的课程,这些课程构成了数据科学专业的极小课程集。基于极小课程集的特性,我们构建的数据敏锐极小课程集由7门课程组成,具体课程及其目标如下。
1.“数理逻辑”。逻辑学是研究推理的学问,判断与决策离不开推理。其课程目标是培养学生的思维能力,也为学习有关计算、数据的课程打下基础。
2.“统计学”。根据第四范式,统计方法是处理大数据的基本手段。该课程目标是使学生理解其基本理论,掌握基本方法,为数据分析技术的学习建立基础。
3.“程序设计与数据结构”和“计算机原理与应用技术”。处理数据离不开计算机和程序。前者的课程目标是使学生能熟练地掌握一种高级语言,并能建立适当的算法思想。后者的课程目标是使学生具有概念性的计算机基本知识,并了解基于网络的计算机应用。这里强调,教学内容应符合“数据科学”专业的特征,避开专业所不需要的、复杂的硬件。
4.“数据科学导引”。该课程向学生讲解什么是数据以及处理数据的基本理论和方法,其课程目标是使学生对数据科学有较全面的了解,并引发学生的专业兴趣。
5.“数据库技术”和“数据挖掘”。“数据库技术”是传统课程,课程目标是使学生具有应用数据库的基本技能,并了解现代数据库技术的内容。“数据挖掘”介绍从数据中寻找有效模式的理论与技术,课程目标是使学生理解、掌握分析数据的基本方法。
极小课程集中的课程是各关键概念领域的基础课程和必修课程,以确保数据科学专业学生必须拥有的基本专业特征。
三、基于数据敏锐的课程体系设计
极小课程集为学生数据敏锐基本能力的培养奠定了基础,将这种能力提升为具有数据敏锐竞争力的能力,还需要DASKCA中的众多专业课程、其他领域的课程以及实践课程的支持。按照课程的先后关系以及可能的培养路径,设计基于数据敏锐能力培养的数据科学专业课程体系,如图1所示。
图1中最底层的“数据科学”表示专业的名称而不是课程,最右边虚线椭圆框中的数学基础类课程代指左侧的高等数学、线性代数等课程以简化设计。图中的每个节点(子节点)都得到位于其下节点(父节点)的支撑,即子节点是父节点的应用,父节点是子节点的基础;实线方框表示的节点均为极小课程集中的课程,是规定的必修课;实线椭圆框表示专业自选课程;虚线方框表示综合实验课程,它们结合行业课程开设;点线方框表示实训课程和实习课程,这些课程应有企业教师参与。在完成一门课程的学习后,学生可以根据兴趣上下求索,从该节点向上选择应用型课程,或向下选择基础型课程。
图1给出的是一个通用的数据科学专业课程体系框架,各个学校可以在极小课程集的课程基础上,根据自己的人才培养目标,自由选择不同的课程以构建体现学校自身特色的人才培养方案。由于极小课程集中的课程是必不可少的,所以以此为基础构建的课程体系可以保证学生拥有基本的专业特征和数据敏锐能力。依据课程关系图,学生能凭兴趣和发展意愿自主选课。他们既可以由浅入深,逐步提高;又可以自上往下,追踪溯源;还可以纵横交叉,广识博学,在知识海洋中自由遨游。例如,受极小课程集中“数据库技术”的启发,如果某学生希望了解铁路订票、卫星导航是如何实现的,那么他就可以选修含有“分布式数据库”和“空间数据库内容”的“高级数据库技术”。在相关课程的诱导下,他有可能逐步释放数据工程师的潜质;如果某学生对数据库中有关“关系”的理论感兴趣,那么他可以选修“集合论”,并根据兴趣由此向上选修数学类课程和统计学类课程,向着数据科学家的理想迈进。
需要特别注意的是,由于数据科学是一个新专业,课程的设置正在探索中,随着技术的发展,课程体系中的很多课程也需要与时俱进。此外,也许有些较重要的课程未列入本文,特别是课程体系中极可能缺少未来研究生入学应考的未知课程,因为我国目前还没有在“数据科学与大数据技术”专业招收研究生,但这些问题都可以通过后期课程的调整或增设来解决。
四、数据敏锐能力培养的基本路径
数据科学专业课程体系给出了专业完整的课程框架,在实施过程中如何保证学生基本的数据科学专业特征,如何更好地培养学生的数据敏锐能力,使其较好地满足社会对数据科学人才的需求?本文从课程实施角度给出几条基本的培养路径。
(一)强化极小课程集课程的教学,保证扎实的专业基础
虽然数据敏銳极小课程集的教学内容保证了学生的基本专业特征,但只有使学生充分掌握它们才可能使这些内容转化为他们的能力,如何顺利地实现这种转化呢?
采用强化教学实现这种转化。所谓强化教学就是对基础课程和核心课程给予更充足的学时[10],通过细致、系统地讲授课程的主体内容,使学生较好地掌握理论,为后续课程和实践打下坚实的基础。基于此,笔者建议极小课程集中课程的学时如表1所示。
在计算机专业中,“程序设计”和“数据结构”是两门课程,一般需要120学时。在数据科学专业课程体系中将他们合并为“程序设计与数据结构”一门课程,并
分配充足的学时,为后续课程的学习及应用打下扎实的基础。这里“程序设计与数据结构”课程中的计算机语言建议采用C或C++。作为程序设计语言的基础,如果学生能很好地掌握这门语言,那么后续其他程序设计语言的学习,比如数据科学领域广泛使用的Python、R语言等,学生完全可以通过自学很好地掌握,所以在图1所示的课程体系中未专门列出具体的程序设计语言课程。
此外,在计算机专业中计算机原理主要由“计算机组成”和“操作系统”两门课组成,每门课一般是56学时。与其相比,表1中的“计算机原理与应用技术”课时则相对较少,该课程只包含上述两门课程的基本内容和相关的应用,以使学生了解计算机的基本原理,且避免不必要的硬件知识和系统软件的细节。
通过强化极小课程集中课程的教学,让学生有足够的学习和实践时间,确保数据科学专业学生具有基本的专业特征,可以让学生未来有更多选择的可能,在专业的道路上按照自身的发展愿望走得更好更远。
(二)建设大数据实训平台,强化课程实践教学
数据科学是一个实践性要求很强的专业,虽然不同高校数据科学专业人才培养的层次各不相同,所有大数据人才都必须重视实践和应用能力的培养,因此数据科学课程的开设也需要采用新的模式,即理论课和实践课相结合的模式,加大课程实践环节的建设力度。
实践课程包含课程实验和综合实验。课程实验是使学生深刻理解已学课程的理论,并提高技能的手段之一。数据敏锐极小课程集中的“统计学”“程序设计与数据结构”“数据库技术”和“数据挖掘”等课程都安排了实验,并对需要较高技能的课程安排了较多的实验学时。除此之外,对DASKCA中能进行实验的其他课程也安排一定的实验。综合实验是培养学生数据敏锐能力的重要组成部分,它让学生有机会亲身体验数据的获取、处理、分析以及可视化全过程,以达到融会贯通多门课程的内容、提高综合技能的效果。例如,“大数据技术的并行程序设计”实验课程能使学生在具有刀片、GPU等设备的云环境平台下,以多维视野综合理解、应用“数据挖掘”“分布式处理与并行计算”“Intel多核程序设计”“Hadoop编程”和行业课程集中的课程等内容。
大数据相关的实践教学需要环境和工具的支持,数据科学专业必须完成大数据实训平台的建设,课程教学可以在有限的学时中,依托大数据实训平台,以数据为基础,理论联系实际,通过大数据行业应用的实际案例强化学生对知识的理解和应用,提高数据敏锐能力。
(三)针对行业需求,加强专业和不同领域不同学科之间的合作
产业界汇聚了最新的技术和大量的行业数据。和其他专业培养相比,数据科学专业尤其需要开展和不同行业的合作,依托企业平台和资源,由教师联合企业经验丰富的工程师,从大量实践案例出发,结合企业实际需求,带领学生开展课程教学,让学生熟悉企业需求,了解相关行业领域知识,在项目的实践和讨论中不断积累经验。良好的实践训练不但可以使学生产生职业荣誉感和社会责任感,还能使他们增强团队合作意识和专业自信。
在基于数据敏锐的课程框架设计中,建议高校加强与地方有大数据应用需求的行业合作,开发面向具体行业应用的大数据实践课程,给学生提供真实的大数据实践环境,提高学生解决实际问题的能力。结合自己学校的优势学科设置跨专业课程是一种睿智的做法,不仅利于培养学生解决实际问题的能力,还可以推进跨学科研究的发展。例如,斯坦福大学结合自己在医学、生物学和商务智能上的优势,开设了“数据驱动型医
学”“基于大数据的商务智能”等课程。作为多学科交叉专业,数据科学很多专业课程需要和其他学科联合开设,加强不同学科之间的合作也同样重要。
五、结语
数据科学专业领域涉及数学、统计学、计算机科学以及行业领域等多学科的知识,如何培养具有基本专业特征和数据敏锐能力的合格的数据科学人才?本文在分析数据科学专业各个关键概念领域知识与数据敏锐能力培养之间的支撑关系后,设计了数据科学专业的极小课程集,以保证学生具有基本的数据科学专业特征,并在此基础上,设计了一个基于数据敏锐愿景的数据科学专业课程体系框架,为各个学校构建体现学校自身特色的人才培养方案提供了指导。为更好地培养学生的数据敏锐能力,本文从课程实施角度提出了三条有效的培养路径,通过强化极小课程集中的课程教学来夯实专业基础、建设大数据实训平台来强化实践教学以及加强与不同行业不同学科之间的合作来培养学生行业领域应用能力,以更好地满足社会对数据科学人才的需求。
參考文献:
[1] NIST SP 1500-1.NIST Big Data Interoperability Frame-work:Volume 1,Definitions[EB/OL].(2015-09-16)[2022-01-05].https://nvlpubs.nist.gov/nistpubs/SpecialPublica tions/NIST.SP.1500-1.pdf.
[2] WIKTORSKI T,DEMCHENK Y,BELLOUM A.Model Curricula for Data Science EDISON Data Science Frame-work[C]//2017 IEEE International Conference on CloudComputing Technology and Science(CloudCom).IEEE,2017:369-374.
[3] DEMCHENKO Y,BELLOUM A,LOS W,et al.EDISONData Science Framework:A Foundation for Building DataScience Profession for Research and Industry[C]//2016IEEE International Conference on Cloud Computing Te-chnology and Science(CloudCom).IEEE,2016:620-626.
[4] LIXIN,FANXIAOPING,QUXILONG,et al. CurriculumReform in Big Data Education at Applied Technical Dollegesand Universities in China[J].IEEE Access,2019(7).
[5] 王国仁,金福生,刘驰,等.面向国际化的数据科学与大数据专业课程体系建设[J].中国大学教学,2018(12).
[6] 朝乐门,邢春晓,王雨晴.数据科学与大数据技术专业特色课程研究[J].计算机科学,2018(3).
[7] 石兵,熊盛武,饶文碧,等.数据科学与大数据技术专业建设研究与实践[J].计算机教育,2021(4).
[8] National Academies of Sciences,Engineering,and Medicine.Data Science for Undergraduates:Opportunities and Options[M].Washington,DC:National Academies Press,2018:22.
[9] 周蕾,王留洋,洪龙.数据敏锐愿景下的数据科学课程框架[J].计算机教育,2020(5).
[10] 李未.变革中的大学——李未教育文存[M].北京:高等 教育出版社,2012:139.